1. AI 제품이 일반 제품과 다른 점

코스: AI 기획자 실전 부트캠프 차시: 1 / 30 슬러그: ai-planning-pm

학습 목표

AI 제품의 3대 고유 속성(확률성·비결정성·비용 구조)을 구분해 설명하고, 일반 제품 기획과 어떻게 다른 의사결정을 요구하는지 PRD 레벨에서 서술한다
기존 PRD와 AI PRD에서 반드시 바뀌어야 할 항목 5가지(출력 보장·품질 지표·테스트·비용 모델·실패 UX)를 식별한다
"AI가 아닌 규칙/휴리스틱으로도 풀 수 있는가"를 판단하는 6문항 체크리스트를 자신의 제품에 바로 적용한다

도입

일반 웹·앱 제품의 기능은 "버튼을 누르면 항상 같은 결과"를 보장합니다. 사용자가 같은 조건에서 같은 버튼을 눌렀는데 다른 결과가 나오면 그건 버그입니다. 반면 AI 제품은 같은 입력에도 매번 다른 답을 내놓습니다. 그게 정상입니다. 이 한 가지 차이가 기획서, 평가 방식, 고객 지원 정책, 심지어 마케팅 카피의 톤까지 전부 뒤흔듭니다.

AI 기획자가 되기 위한 첫 관문은 "AI는 확률이다" 라는 명제를 머리가 아니라 PRD와 QA 표준에 체화하는 일입니다. 이걸 못 넘으면 출시 직후 "왜 어제와 답이 달라요?"라는 CS 티켓이 쏟아져도 대응 플랜이 없고, 출시 3개월 뒤에는 예상보다 4배 많은 토큰 비용 청구서를 받게 됩니다. 이 강의는 29강에 걸쳐 반복 등장할 AI 제품 설계의 5축 전환을 개념으로 먼저 잡아둡니다.

핵심 개념

1) 확률성 (Probabilistic Output)

LLM은 본질적으로 다음 토큰을 확률 분포에서 샘플링하는 통계 모델입니다. temperature 0으로 설정해도 인프라·모델 버전·입력 순서 변동으로 결과가 미세하게 달라질 수 있습니다. 따라서 "정답"을 기대하기보다 **"허용 범위(acceptance envelope)"**로 품질을 정의해야 합니다. 토스 AI 고객센터가 공개 석상에서 밝힌 것처럼, 업계 AI 상담 제품 대부분은 "정답률" 대신 "상담원 에스컬레이션율" 또는 "사용자 만족 버튼 클릭률"을 기본 지표로 잡습니다(업계 관찰).

2) 비결정성 (Non-determinism)과 측정

E2E 테스트가 깨지기 쉽고, 회귀 테스트를 Jest·Playwright만으로 짤 수 없습니다. 어제 통과했던 케이스가 오늘 통과하지 않을 수 있기 때문입니다. 해결책은 **골든셋(평가 데이터셋)**을 별도 구축하고, 합격 기준을 "N% 이상 통과"처럼 통계적으로 정의하는 것입니다. 이 골든셋은 코드가 아니라 기획자의 산출물이며, 19~23강에서 자세히 다룹니다. Promptfoo, Langfuse, Humanloop 같은 전용 평가 도구들이 이 문제를 풀기 위해 등장했습니다.

3) 비용 구조 (Token Economics)

토큰 단가가 트래픽에 비례해 누적됩니다. 2026년 4월 기준 Claude Sonnet 4.5는 input 100만 토큰당 $3, output 100만 토큰당 $15입니다. 월 100만 요청 × 평균 입력 2,000 토큰 × 출력 500 토큰 제품이라면 단순 계산으로 월 $6,000 + $7,500 = $13,500(약 1,900만 원)이 나옵니다. 모델 선택(Sonnet vs Haiku), prompt caching(최대 90% 절감), OpenAI Batch API(50% 할인), 라우팅 설계만으로 이 숫자가 2~5배 왔다갔다 합니다. AI 기획자는 기능 설계 단계에서 이 계산을 해야 하고, 안 하면 런칭 3개월 뒤 CFO에게 호출됩니다.

4) 사용자 신뢰 (Trust)

할루시네이션 1회 노출이 전체 제품 신뢰를 파괴합니다. 사용자는 "AI가 틀릴 수 있다"는 것을 머리로는 알아도, 자기가 만난 첫 오답이 법률·의료·세금처럼 실생활 결정을 좌우하면 즉시 이탈합니다. Perplexity가 모든 답변에 출처 링크를 노출하는 이유, 네이버 클로바X가 답변 하단에 "답변이 부정확할 수 있습니다"를 항상 붙이는 이유, 카카오 AI가 민감 주제에서 답변을 회피하도록 튜닝하는 이유가 전부 여기에 있습니다.

5) AI 제품 설계 5축 (기존 → AI 제품)

축	기존 제품	AI 제품
출력 보장	결정적·항상 동일	확률적·허용 범위 정의
품질 지표	정답률·버그율·응답시간	수용률·에스컬레이션율·골든셋 점수·할루시네이션율
테스트	단위·통합·E2E 회귀	골든셋 + 휴먼 평가 + A/B + shadow mode
비용 모델	고정 인프라	트래픽 비례 토큰 과금 + 캐시 히트율 관리
실패 UX	오류 페이지 + 재시도	fallback 답변·출처 노출·피드백 버튼·"모르겠어요" 응답

상세 설명

사례 1 — 쿠팡 상품 상세 자동 요약 (업계 관찰)

쿠팡의 상품 상세 자동 요약 기능은 출시 초기 "사이즈 정보가 틀렸다", "알러지 정보가 빠졌다"는 클레임이 상당량 발생한 것으로 업계에 알려져 있습니다. 기획팀이 취한 대응은 AI의 품질을 더 높이는 대신 UI로 감싸는 방향이었습니다.

요약 결과 옆에 "원문 보기" 링크를 상시 노출 — 사용자가 검증 가능
"이 요약이 잘못됐어요" 피드백 버튼을 요약 하단에 배치 — 클릭 데이터를 평가 데이터셋으로 회수
요약 맨 위에 "AI가 자동 생성한 요약입니다" 안내 문구 — 기대치 관리
일정 수 이상 부정 피드백 누적된 상품은 요약을 자동 비노출 — fallback

이 4가지 UX 장치만으로 불만 신호를 빠르게 줄였다는 관찰이 있습니다. AI 제품은 **"완벽한 출력"이 아니라 "불완전한 출력을 어떻게 감싸느냐"**가 기획의 핵심이라는 교훈이 여기에 있습니다.

사례 2 — 당근 AI 시세 (프레이밍의 힘)

당근마켓의 AI 시세 조회는 "정확한 가격"을 약속하지 않습니다. 대신 "비슷한 거래 N건 기반 추정"이라는 프레이밍을 택해 기대치를 낮췄습니다. 같은 기술을 "AI 정확 가격 측정"으로 마케팅했다면 사용자 분노가 폭발했을 겁니다. AI 제품은 기술이 아니라 프레이밍으로 완성됩니다.

사례 3 — 토스 고객센터 AI (에스컬레이션율이라는 지표)

토스는 AI 고객센터 도입 시 "상담 자동화율"을 공격적으로 올리지 않았습니다. 대신 **에스컬레이션율(AI가 답을 못해서 사람 상담원으로 넘기는 비율)**을 KPI로 잡고, 이 숫자를 "너무 낮으면 AI가 무리해서 틀린 답을 주는 중"으로 해석합니다. 일반 제품 기획자의 사고방식("자동화율 = 높을수록 좋다")과 정반대입니다. AI 기획자는 "얼마나 많이 못 풀었는지"를 측정 지표로 잡을 줄 알아야 합니다.

AI를 쓸지 말지 판단하는 6문항 체크리스트

모든 기능에 AI를 쓸 필요는 없습니다. 오히려 AI를 쓰면 안 되는 기능에 억지로 넣어서 망하는 제품이 훨씬 많습니다. 아래 6문항 중 **4개 이상 "예"**가 나와야 AI를 쓸 후보입니다.

입력이 비정형인가? (자연어·이미지·음성처럼 규칙으로 못 쪼개는가)
출력이 허용 범위를 가지는가? (정답이 하나가 아니라 "적절한 답 N개"로 표현 가능한가)
틀렸을 때 되돌릴 수 있는가? (의료 처방·세금 신고처럼 돌이킬 수 없으면 AI 불가 영역)
규칙으로 풀면 유지보수가 폭발하는가? (if-else 수천 줄로 풀리는 일인가)
사용자가 AI임을 인지하고 사용할 것인가? (투명성 확보 가능한가)
실패 UX를 감쌀 수 있는가? (fallback 화면·재시도·휴먼 개입 루트가 있는가)

예를 들어 "비밀번호 재설정 이메일 보내기"는 입력 정형·출력 확정·되돌리기 어려움 = AI 부적합. "상품 리뷰 1,000개 요약"은 비정형 입력·허용 범위 출력·언제든 원문으로 되돌리기 가능 = AI 적합.

흔한 실수 5가지와 처방

"GPT-4 붙이면 끝"이라는 착각 → PRD를 일반 제품 기준으로 쓰고 모델만 꽂음 → 평가 못 하고 비용 폭발. 처방: PRD 5축(위 표)을 전부 별도 섹션으로 명시.
할루시네이션을 "버그"로 티켓 처리 → 끝없이 재현 시도하다 지침. 처방: 할루시네이션은 확률적 현상으로 분류하고 허용 임계값을 정책으로 정의(예: 금융 정보는 0%, 잡담은 5%).
temperature 0이면 결정적이라는 오해 → 모델 버전·입력 순서·인프라 변동으로 여전히 흔들림. 처방: 결정성이 필요하면 규칙 기반 기능으로 분리하거나 후처리 검증 레이어 추가.
월 비용 추정 생략 → 런칭 3개월 후 CFO 소환. 처방: 기획 단계에서 요청수 × 평균 토큰 × 단가 스프레드시트 필수, 캐싱·Batch API 전제.
사용자에게 AI임을 숨김 → 첫 오답에서 즉시 이탈. 처방: "AI가 생성한 답변입니다" 안내 + 피드백 버튼을 출시 1일차부터 노출.

실습 체크리스트

우리 제품에 "AI가 꼭 필요한 기능"과 "규칙 기반으로 충분한 기능"을 2열 표로 분리했는가
6문항 체크리스트로 각 AI 후보 기능을 점수화하고, 4개 미만인 기능은 AI 제외 결정을 내렸는가
확률성으로 인한 실패가 사용자에게 어떤 피해를 주는지 "최악 시나리오" 3개를 구체적으로 적었는가
월간 예상 토큰 사용량을 계산했는가 (요청 수 × 평균 입력 토큰 × 평균 출력 토큰 × 단가)
출력 실패 시 fallback UI 3가지(원본 보기·재시도·수동 입력 또는 사람 상담)를 정의했는가
신뢰 확보 장치 3가지(출처 링크·피드백 버튼·"AI가 자동 생성한 답변입니다" 안내)를 어디에 배치할지 와이어프레임에 그렸는가
기존 제품 PRD 1개를 꺼내 AI 버전으로 바꾸면 어디가 달라지는지 5축 기준으로 5줄 메모했는가
우리 팀의 QA 프로세스가 AI 제품에 맞춰 바뀌어야 할 부분(E2E → 골든셋)을 리스트업했는가

정리

AI 제품의 본질은 "확실성이 아닌 가능성"을 다루는 일입니다. 같은 입력에 다른 답이 나오는 것을 버그가 아닌 특성으로 받아들이는 순간, 기획 언어가 바뀝니다. "정답률"이 "수용률·에스컬레이션율"로, "E2E 테스트"가 "골든셋 평가"로, "고정 인프라 비용"이 "토큰 경제학"으로, "오류 페이지"가 "fallback UX"로.

이 5축 전환을 PRD에 체화한 기획자만이 AI 시대의 제품을 온전히 설계할 수 있습니다. 기획자는 모델의 불완전함을 UX와 정책으로 감싸서 사용자 신뢰를 지키는 사람입니다. 이번 강의에서 배운 3대 속성(확률성·비결정성·비용)과 5축 전환은 이후 29강 전체의 전제로 반복 등장합니다. 지금 자기 제품의 PRD 1개를 꺼내두고, 다음 강의부터 실제로 고쳐나가봅시다. 2강에서는 AI 제품이 성공하는 5가지 패턴과 실패하는 5가지 패턴을 실제 국내외 사례로 분해합니다.