Skip to content

[Q&A] 2024 Korea Summer Workshop ln Causal Inference 온라인 통제 실험의 모범 사례

Taemo Bang edited this page Jun 13, 2024 · 1 revision

Q1. 실험 중 프로모션이 진행되었다면 실험 결과를 어떻게 해석하시나요? 노이즈로 판단하여 해당 기간 데이터를 제외하시는지 궁금합니다.

제가 가짜연구소에서 온라인 실험 스터디를 하면서도 받았던 질문이라 답변달아봅니다. 실험 중 프로모션이 진행되었다고 하더라고 그것 자체로 실험 데이터로 부터 나온 효과는 순수한 실험 효과라고 볼 수 있습니다. 그 이유는 우리가 비교 가능한 대조군을 Randomization을 통해 구성해두었고, 이 대조군 또한 프로모션 효과를 경험하기 때문입니다. 이에따라 두 군의 관심 지표의 차를 비교해주면 이것 자체가 순수한 실험 효과가 됩니다. 그리고, 프로모션 기간의 경우 더많은 사용자들이 방문할 가능성이 크기 때문에 그만큼 같은 기간에 더많은 표본을 수집할 수 있어 오히려 더 민감하게 실험 효과를 감지할 수 있는 장점도 있습니다.

또한, 저는 프로모션 기간에 실험을 하는 것도 중요한 레슨런이라고 보는데, 그 이유는 프로모션 기간에 방문하는 고객 층 또는 상품 구색과 같은 것들이 달라져 고객 반응이 달라질 수 있기 떄문입니다. 이에 따라 특정 실험 피쳐의 경우 프로모션 기간에 더욱 좋게 작동할수도 또는 더 좋지않게 작동할 수도 있습니다. 이러한 부분은 프로모션 기간에 피쳐를 실험해보지 않는 이상 얻지 못하는 레슨런입니다.

Q2. 실무적 유의도는 어떻게 정하나요?

실험 피쳐 구현 비용, 유지보수 비용 등.. 생각을 해보면 해당 피쳐 구현과 유지보수를 하는데에 필요한 엔지니어의 리소스를 고려해서 인건비를 연산해야하는데 쉽진 않습니다. 다만, 이러한 부분까지 고려해야 함을 인지한채로 의사결정을 내리는 것이 중요하다고 생각합니다.

Q3. 검정력 분석 식을 설명하실 때 균등 비율을 가정한 식이라고 말씀 주셨는데, 실험군이 훨씬 적은 경우에는 검정력 분석 식이나 방식을 다르게 가져가고 계신가요?

불균등 분배는 왠만하면 권장하지 않습니다. 예를 들어, 10만명으로 실험을 한다고 하면 6:4로 배분하면 5:5로 배분하는 것보다 검정력이 낮아지거든요. 다른 말로하면 같은 할당량을 실험에 사용한다고해도 불균등 배분을 할경우 더 낮은 검정력을 얻게 되어 매우 큰 손해를 불러일으킨다는 말입니다. 그럼에도 불구하고 불가피하게 실험군이 훨씬 적을 수 밖에 없는 상황이라고 가정을 하면.. 실험군과 대조군을 맞춰주는것을 권장하긴 합니다.(e.g. 실험군에 5%만 할당할 수 있다면 실험에 참가하는 대조군도 5%로 할당하여 데이터 수집) 그리고 작은 할당량으로 실험을 한 뒤에 실험 피쳐에 큰 위험이 없다고 판단되면 할당량을 늘려서 충분한 실험적 민감도를 확보하여 반복 실험을 해줘야겠죠.

실험군 할당량 확보가 어려운 상황에, 이른바 공유 대조군이라고 하여 조금이라도 실험의 검정력을 올리는 시도를 할 수 있긴한데 이 경우 두 군의 통계적 가설검정의 중요한 근간인 정규성 가정(온라인 실험에서 두 군의 할당 트래픽의 차이가 클 경우 두 군의 각 지표에 정규분포 수렴 속도가 달라짐)이 흔들리는 경우가 생길 수 있어 딱히 권장하지 않습니다. 그리고, 무엇보다 공유 대조군을 사용하여 수많은 할당량을 대조군으로 고정시켜놓을 경우 병렬실험의 어려움도 생겨 더욱 권장하지 않습니다.

Q4. 테스트마다 굉장히 다른 다양한 지표가 쓰이고 있는데, AB테스트 분석 플랫폼을 만드실 때 어떻게 다양한 지표를 포함하여 만드시나요? 테스트들이 대체적으로 비슷한 지표들이 쓰이면 데이터를 말아넣어서 할 수 있을 것 같은데, 지표가 테스트마다 워낙 달라지다보니 플랫폼을 구성하는데 쉽지가 않아서 여쭤봅니다.

도메인 특화된 실험 지표의 경우 각 도메인의 프로덕트 오너와 협의가 필요로 되는 부분이라 생각합니다. 그 외에 흔히들 쓰는 사용자 당 매출, 사용자당 클릭, 사용자 당 주문, CTR 등과 같은 지표는 빠른 협의를 통해 미리 말아서 Metric store 또는 데이터 마트를 구성해놓는 것이 필요하고요.

Q5. 실험 전/중/후에 체크해야 할 여러가지 항목들을 말씀주셨는데, 실제 실험에서 전부 다 체크하려면 시간이 꽤 소요될 것 같은데 어떤 방식으로 효율화해서 진행하고 계신지 궁금합니다!(ex. 실험툴 사용, 자동화 등)

말씀 주신 부분이 곧 실험 플랫폼의 필요성이라고 봐주시면 될 것 같습니다. 실험 플랫폼이 존재하지 않는 상황이라면, 실험 데이터 마트화, 통계 엔진 및 대시보드 개발을 통해 준자동화가 필요로 되고요. 그렇지 않으면 말씀주신대로 모든 부분을 행하기란 정말 어렵습니다.

Q6. 실험군 간의 어느 정도 차이가 발생하면 SRM 이슈가 있다고 판단하셨을까요?(5:5 실험으로 가정했을 때)

실제 관측되는 각 변형군(대조군, 실험군)의 표본 크기를 놓고 비율을 계산해서 사전에 설계한 비율과 일치하는지 카이스퀘어 동질성 검정을 해주게 됩니다. 여기서 p값이 예를 들어 0.01 미만으로 나오면 SRM이 발생했다고 하고 실험을 중단합니다.

Q7. 소개해주신 A/B 실험의 모범 사례처럼 negative effect를 검증하고자 하는 경우들이 종종 있을까요?

흔하진 않습니다만 반영하고 싶은 실험 feature가 negative effect를 발생시킬 수 있다는 점을 사전 연구로 파악할 수 있었기에 이러한 형태의 실험을 한 것이라고 생각됩니다. 반대로, 이러한 사전 사례가 없었다면 무심코 positive effect가 있겠거니 하고 실험을 했겠죠. 실무에서도 이렇게 새로운 아이디어가 있고, 사전 연구를 해봤을때 negative effect를 발생시킬 수 있다는 사례가 있다면 충분히 수행할만한 형태의 실험이라고 봅니다.

Q8. 소개해준 결제카드창 실험은 G마켓에서 실시된 실험 인가요? 결과에 다른 논문이 참조로 있어서 궁금합니다.

제가 소개드린 예제는 A/B Test 하마 책에 나오는 예제입니다. 아마 해당 책의 저자가 쓴 실제 논문에서 발췌했을 가능성이 큰데.. 못찾았습니다. 

  • Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. https://experimentguide.com/

책은 이 책이고 영문판, 한글판 둘 다 있습니다. end to end example 챕터 보시면 해당 예제가 나와있을겁니다. 이해하기 쉽게 제가 쪼금 각색해서 소개드린 부분도 있습니다.

Q9. 단측검정(One side)을 하면 실험에 필요한 샘플수가 줄어들 수 있다고 했는데, 어떤 원리로 줄어들 수 있는 것인지 궁금합니다.

그림을 보면 이해가 쉬운데, 단측 검정을 해주게 되면 검정력 분석에 관여하는 분자 식에 표준정규분포의 quantile 값이 작아지게 되는게 이에 따라 필요한 샘플 사이즈가 같은 수준의 유의 수준을 설정하는 양측 검정에 비해 작아지게 됩니다.

Clone this wiki locally