본문 바로가기
PM

12日 - 01 - AB Test

by 이리2리 2023. 10. 19.
728x90

AB Test란?

  • 임의로 나눠진 두 집단에게 서로 다른 UI/UX 등을 제시하고 두 집단 중 어떤 집단이 더 높은 성과를 보이는지 정량적으로 평가하는 방식이다.
  • 대부분의 IT기업에서 데이터 기반 의사 결정의 도구로 활용한다.
    • 예) google, amazon, facebook - 매년 10,000 개의 실험 진행, airbnb - 500개 이상의 실험 상시 진행
  • 대표적인 데이터 기반의 의사결정 및 서비스 기획 방법

AB Test는 왜?

  • 빠르게 변해가는 시장에서 정답은 정해져 있지 않다.
  • AB Test를 통해 뭐가 더 좋은지 확인하기 좋다.
  • 쉽고 빠르게 테스트할 수 있는 환경에서 경험있는 개인에게 의지하는 것은 위험하거나 비효율적이다.
  • 최고의 인재가 모인 Google, Microsoft 등에서 하는 실험의 10 ~ 30%만이 긍정적인 결과를 얻는다.

AB Test 진행 Process

  • 목표 설정
    • AB Test를 진행할 때 반드시 테스트의 목표를 구체화해야 한다.
      명확한 목표가 있어야 유의미한 지표 선정 및 가설 설정이 가능해진다.
    • 명확한 목표를 세웠다면 그에 맞는 지표를 설정한다.
    • 지표를 설정할 때 분자와 분모를 명확히 한다.
      동일한 가입전환율이라도 분모가 가입 페이지 방문자 수인지 인스톨 유저인지에 따라서 값이 차이 나기 때문이다.
  • 가설 수립
    • 목표와 지표를 설정했으면 어떤 일을 해야 해당 지표가 개선될 수 있을지에 대한 가설을 수립한다.
    • 가설을 기반으로 어떤 실험을 진행할지 무엇을 학습할지가 결정된다.
    • 가설이 목표에 포커싱 되어야 한다. 
    • 해당 가설과 관련한 정보를 충분히 탐색하는 것이 중요하다. 
      다양한 실험을 꼼꼼하게 파악해야 자원낭비를 줄일 수 있다.
  • 실험 설계
    • 지표 설정
      • 합계 지표(Sum) - 양은 알 수 있지만 비율은 알 수 없어 AB Test에서 자주 사용하지 않는다.
      • 평균이나 중앙값(Mean, Median) - 우리가 평소에 알고 있던 평균과는 다른 의미이다.
        • median - 중간값이다. 가장 낮은 값부터 가장 높은 값을 순서대로 나열했을 경우 전체의 개수가 홀수일 때는 가운데에 있는 값이고 짝수일 때는 가운데에 있는 두 값을 얘기한다.
        • mode는 최대 빈도의 값을 얘기한다. 가장 많이 나온 값을 얘기한다.
      • 비율(0 ~ 1) - &(앰퍼센트)로 표기하기도 한다.
        • 예) 결제완료 횟수 / 결제 페이지 진입 횟수
      • 민감도(Sensitivity)와 강건성(Robustness)
        • 아무 변화도 가하지 않았는데 들쑥날쑥하는 지표는 강건성이 낮아 실험에 적절한 지표라고 볼 수 없다.
        • 어떠한 변화를 가해도 크게 변화하지 않는 지표는 충분히 민감하지 못해 적절한 지표라고 볼 수 없다.
    • Target Users - 어떤 유저 대상으로 실험을 수행할 것인가
      • 실험군의 모수 설정 
        • 많은 유저가 사용하고 있는 서비스라면 실험의 부작용을 최소화하기 위해 5 ~ 10%로 설정하는 경우가 많다.
        • 초기 스타트업인 경우 유의미한 실험 모수를 빠르게 확보하기 위해 50%가량으로 진행하기도 한다.
        • Sample Size
          • 샘플수가 많을수록 결과의 신뢰도가 올라간다.
          • 다양한 A/B testing sample size calculator가 있어서 쉽게 계산 가능하다.
    • Unit of Diversion - 어떻게 나눌 것인가?
      • AB Test 진행 시 A, B가 온전히 랜덤이어야만 두 그룹의 차이점이 Stimulus에 의한 변화라고 확신할 수 있게 된다.
      • 자주 사용하는 것
        • id - 안정성이 높다.(홀, 짝 등)
        • event - 유저가 특정 event(행동)을 했을 때 무작위로 A 혹은 B의 결과를 보여준다. 가장 Randomize 된 제품을 샘플을 뽑을 수 있으나 서비스의 일관성이 떨어질 수 있기 때문에 유저는 눈치채지 못할 변화에만 사용한다.
    • Unit of Analysis
      • AB Test를 통해 영향을 주고자 하는 최소 단위이다.
      • 지표의 분모 
        지표가 ARPU(Average, Revenue, Per, User)(총 구매액 / 회원수)이라면 분석단위는 회원이다.
      • 분기 단위를 정할 때는 분석 단위와 일치시키는 것이 바람직하다.
    • Duration
      • 보통 기간이 길 수록 정확성은 높아진다.
      • 명절과 같은 특수한 이벤트가 기간에 포함될 경우 결과 분석에 유의해야 한다.
    • Variation 설정
      • 어떤 것을 다르게 보여줄 것인가
      • 둘의 차이가 너무 복합적이면 유의미한 결과 해석이 어려워진다.
      • 최대한 실험 단위를 쪼개서 영향력을 확인하고 싶은 부분을 제외하고는 통제하는 것이 좋다.
  • 실험 진행
    • AB 테스트의 분기가 제대로 이루어지고 있는지 파악해야 한다.
    • 실험 기간이 너무 짧을 경우 유의미한 결과 값을 얻을 수 없을 가능성이 높다.
    • 지속적으로 데이터를 확인하면서 통계적 유의미성이 확보되었는지 확인해야 한다.
  • 결과 분석
    • 통계적 유의성 확인
      • 실험군, 대조군의 각각의 모수와 전환 유저 값을 통해 통계적 유의미도를 계산한다.
      • p-value 계산 등을 직접 할 수 도 있으나 그럴 필요는 없다.
        0.05 보다 낮을 경우 의미가 있다고 판단하는 것이 일반적이다. 높으면 높을수록 유의미성이 떨어진다.
      • 다양한 AB Test 통계적 유의미도를 계산할 수 있는 계산기가 많다. 
        출처 - https://abtestguide.com/calc/, https://vwo.com/tools/ab-test-significance-calculator/ 등
      • 통계적 유의미도가 충분히 확보되지 않은 상태에서 섣부른 결론을 내서는 안된다.
    • 불변지표 확인
      • 실험 과정이 문제가 없었는지 점검하기 위해 실험 과정에서 변하면 안 되는 수치인 '불변지표'를 확인해야 한다.
728x90

'PM' 카테고리의 다른 글

14日 - 01 - 데이터 분석, 지표  (0) 2023.10.20
13日 - AB Test 사례  (0) 2023.10.19
11日 - 02 - Wireframe, Prototype  (1) 2023.10.17
11日 - 01 - MVP(Minimum Viable Product)  (1) 2023.10.17
10日 - 칸반  (1) 2023.10.17