Culture of Experimentation: 클래스101은 어떻게 AB테스트를 한 달에 100개씩 돌리게 되었나?

새롭게 시작하는 시리즈에서는 실험하는 문화에 대해 구체적으로 다뤄보려고 한다.

작년에 기회가 되어 지른 Opticon Experimentation Master Class 과정을 수료하면서, 또 마침 그 배움들을 바로 현업에 적용할 수 있는 프로젝트가 주어지면서 스스로 좀 정리가 되었는데, (필자는 외부 컨설턴트로써 지난 10개월간 클래스101의 그로스팀 리드를 담당했다 ) 이를 소개하고 더 나아가 이 글들을 통해 더 많은 분들의 고민과 경험이 수면 위로 올라오게 되길 기대한다.

  • 이번 첫 화에서는 실험 문화 성숙도 및 거버넌스를 사례를 빌어 주제로 다루고,
  • 그 뒤로 차근차근
    • 실험 OA(Opportunity Assessment: 기회평가)하기,
    • 내부 아이데이션 프로그램 운영하기,
    • 실험 기술스택 맞춰가기,
    • 실험 결과를 이해하고 결론내는데 통계를 활용하기,
    • 끝난 실험의 결과를 딥다이브하고 인사이트 찾기,
    • 내부 이해관계자들 대상으로 쇼케이스하기,
    • 의사결정자를 설득하고 자원을 얻어내기 (인적자원, 툴 비용 등)
  • 등을 주제로 잡고 시리즈를 이어갈 생각이니 혹시라도 내 게으름을 잘 아시는 동료/지인분들께서는 꼭 정기적으로 재촉해 주시길 바란다.

우선 자극적인 부제목이긴 하지만 팩트가 맞다. 클래스101은 사내에서 매달 시작되는 실험을 100-150개 정도 유지한다. (물론 이 수치는 더 이상 조직 내에서 큰 의미를 갖지는 않는다)

월 100개의 실험 속력이라니. 제대로 된 지원이 없거나, 아직 실험 문화에 익숙하지 않은 그로쓰팀은 주 1회의 실험 속력을 갖는 것도 쉽지 않은데. 과연 그런 속력을 언제쯤 낼 수 있을까? 아니 속력을 그렇게까지 올리는 게 의미나 있단 말인가.

월 10개든 100개든 당신의 조직이 실험하는 문화를 갖기 위해 목표하면 좋을 첫 스텝은 바로 속력(Velocity)이다.

표1) 실험 조직의 성장 방향 / VEQDP 순서대로 조직 역량을 집중할 것을 추천하고 있다
(출처: 옵티콘 마스터클래스, 번역 정성영)

실험 조직의 성숙도: 어떤 단계로 실험 조직은 성숙하게 되는가?

성숙도를 순차적으로 설명해보자면, 우선 중요한 것은 실험 개수를 늘리는 일이다. 이때 그로쓰팀/실험팀이 트래킹 할 수 있는 목표 지표로는 시작된/파이프라인에 올라간 실험의 개수를 볼 수 있다.

실험 속력을 높이는 일이란 현실에서는 우선 구현/실행 난이도가 낮은 가설들에 집중하게 된다는 얘기다. (아 물론 끝없는 인적자원을 갈아 넣는다는 얘기가 되는 경우도 있..) 혹시나 최종 지표에 끼치게 될 임팩트가 덜 커 보이더라도, 그 가설의 성공 가능성이 덜 높아 보이더라도, 구현 난이도가 낮은 것들을 우선 런칭함으로써 보다 많은 실험을 파이프라인에 올릴 수 있게 된다. (그로쓰팀의 우선순위 평가 방법: ICE 방법론 소개글 참고)

주기에 돌아가는 실험이 많아진다는 것은 타자가 더 많은 타석에 오르는 것이고, 성공하는 실험의 총개수가 늘어난다는 뜻이며, 분석할 수 있는 실험 결과들이 늘어나고, 더 나아가 실패하는 실험에 대해 무감각해진다는 얘기다. 이는 궁극적으로 조직 내에서 실험의 민주화(democratization) 와 대중화(popularization) 상황을 만든다.

속력이 올라가면 자연스럽게 실험 효율(Efficiency)이 부각되기 시작한다. 속력을 높이기 위해 그냥 넘어갔던 비효율들을 하나씩 점검하여 자동화하기 시작하고, 템플릿과 프로세스가 생기며 슬랙에 봇들이 정보들을 물어오기 시작한다. 실험 하나를 준비하는데 들어가는 시간이 줄어들기 시작한다. (특히 클래스101은 직원이 60명에서 150명으로 7개월 만에 늘어나는 급성장을 경험하고 있었는데, 실험 효율이 개선되면서 더 많은 이들이 쉽고, 빠르게 실험을 직접 해볼 수 있게 되어 속력에 큰 도움이 되었다)

클래스101에서 우리 그로쓰팀이 V 와 E 를 팀 목표지표로 바꾸고 난뒤 자연스럽게 업무에 변화가 생겼다. 그로쓰팀의 업무 스코프는 단순히 지표를 올릴 성공률 높은 가설을 AB테스트로 구현한다에서 >>

  • 동료들이 사용하게 될 실험 가설 템플릿을 개선하고,
  • 실험/분석 환경을 구축하고, 연동하고 (외산 툴들 말 안쳐먹으면 새벽같이 컨콜하고…)
  • 비싼 써드파티 솔루션들을 설득해서 구매하고, 계약하고
  • 데이터 정합성/불일치 문제를 풀고 (또 풀고, 또 풀고…)
  • 자주 쓰이는 코드/레이아웃들을 복제 가능하게 애드온으로 개발하고,
  • 가설을 갖고 있는 타 부서 동료들을 인터뷰하고,
  • 슬랙 채널 곳곳에서 실험 가설을 수집하는 봇을 만들고,
  • 타 부서 동료들이 들고 온 가설들을 함께 리뷰 해주고,
  • 전사 대상으로 교육 세미나를 진행하고, (워크샵에서 회사 데이터를 가지고 개인당 1개 이상 AB테스트 돌리게끔만 진행해도 한 주에 시작되는 실험이 수 십 개로 늘어났다)
  • 디자이너, 엔지니어, 마케터 미팅들을 참석해서 “지표가 올라갈 것 같은 아이디어인데, 그거 우리 실험해보자! 그로쓰팀에서 풀스택으로 다 지원해줄게!” 라는 뽐뿌들을 넣고,
  • 전사 올핸즈 미팅에서 쇼케이스를 가지는 등 실험 무브먼트를 타 부서들에 영업하는 일들로 확장되었다.
점심시간에 자발적 참여로 진행되는 각종 그로쓰 워크샵들.
이들의 손에 무기를 쥐어주는게 그로쓰팀의 일이 되었다.

이러한 노력들이 꾸준히 뒷받침되고 나서야, 그간 실험을 하지 않았던 엔지니어들이, 마케터들이, 디자이너들이, MD들이 실험을 해보기 시작했고 하나 둘 씩 자신들의 가설을 시장의 현실과 부딪치며 근거기반의 성장을 만들어내게 되었다.

이제 클래스101 그로쓰팀은 Quality 와 Depth 의 시작점에 서있다. 시작하는 실험의 개수가 많아지니 품질과 깊이의 중요성이 자연스럽게 대두되는 상황에 있다.

  • SS(Stat-sig: 통계적 유의성) 90% 이상을 찍는 실험 결과들의 비중 높이기 (MDE 계산을 통해 필요한 샘플 사이즈를 미리 계산해 놓거나, 밴딧 알고리즘을 역으로 활용해 실험 군들의 SS를 빨리 도달하게 하는 등)
  • 내 가설을 CG(Control group)와 비교해 더 나아졌나 검증해보는 1차원 수준의 실험이 아닌, 고객과 채널에 대해 모르던걸 더 알게 하는 배움이 풍성한 실험의 설계 늘리기 (Variation 자동화, Goal metric 을 primary/sub 외에도 코호트 리텐션/LTV 등 더 다양한 지표로 결과 보기 등)

실험 조직의 거버넌스: 조직내에 어떠한 모습으로 자리 잡게 되는가?

표2) 개별, 중앙화, CoE, 위원회 모델 등 조직 내에 실험 문화를 어떻게 뿌리내릴 것인가에 대한 거버넌스 접근은 조직도와 상황에 따라 모두 다르지만 그래도 왼쪽에서 오른쪽으로 진화하는 모습이 일반적이다.

우선 가장 접근하기 쉬운 개별 조직이다. 그로쓰/실험팀이 단일 사업/제품 부서에 속하여 실험을 직접 실행하고 근거기반의 성장을 만든다. 모멘텀을 빌드 업하기 전에 주로 이런 형태들을 띄게 된다. 오너십이 명확하다는 장점이 있다.

실험 조직 중앙화. 어느 정도 모멘텀을 쌓았거나, 애초에 내부에 좋은 신뢰를 갖고 있는 그로쓰/실험팀의 경우 두 개 이상의 사업/제품 부서를 돕는 내부 컨설팅 조직으로써 변화하게 된다. 주로 실험 전략/툴 들에 대한 권한을 갖고 모든 실험들을 직접 런칭하거나 통제한다. 장점은 실험 퀄리티가 떨어지지 않고 유지된다는 점. 단점은 비대해지는 실험 조직, 혹은 실험 속력의 병목이 될 수 있다는 점.

CoE (Center of Excellence) 중앙화된 컨설팅/지원 조직이다. 기존 중앙화 모델과 차이점은 대신 실험을 돌려주거나 통제하지 않고, 그 권한을 각자 사업/제품 부서에서 스스로 운영할 수 있도록 지식과 경험을 전이한다. 왼손은 거들 뿐. 현재 클래스101 그로쓰팀은 중앙화/CoE 사이 어디쯤 있다.

위원회 (Experiment Council) 사업/제품 부서들이 각자 오너십을 갖고 실험을 진행한다고 가정하면, 이들의 대표자들이 위원회를 만들어 서로의 영역을 관리하고 배포 우선순위 등을 정하는 구조이다. CoE 처럼 경험/지식이 많은 이들이 컨설팅을 하는 방식이 아닌 충분히 스스로도 잘 할 수 있는 팀들 사이에 조율과 밸런스를 위한 위원회라고 생각하면 된다.

내부 위원회는 아니지만 그로쓰팀에게 아낌없는 조언과 도움을 주신 외부자문들
(김창준 애자일 컨설팅 대표님, 크몽 박재영 CTO님, AB180 안성건 팀장님, KCD 최인철 팀장님, 정다미 전 레이니스트 팀장님)

마치며, ‘실험하는 조직’으로 변화하려는 기업들의 모습은 거스를 수 없는 흐름이 되고 있다. 우리가 잘 아는 FAANG(Facebook, Amazon, Apple, Netflix, Google) 같은 테크기업들 말고도, Macy’s, GAP, Nike 등의 리테일로 알려진 기업들조차 연 1,000회씩 실험을 돌리며 근거 기반의 성장을 만드는 상황이다. (아 물론 Facebook FTE 들에게 들은 얘기로는 페북은 하루에 1천 개씩 돌린다. 이들은 그냥 차원이 다르다)

이들 ‘실험하는 조직’은 보다 데이터를 활용하여 리스크를 관리하며, 이를 통해 보다 확신에 찬 비즈니스 의사결정들을 파격적으로 밀어 부치기도 한다. 혹자는 경영 패러다임이 바뀌었고 되돌아갈 일은 없다고도 표현한다.

어떻게 이들은 중력과 같은 관성을 이겨내고 실험하는 조직을 갖게 되었을까? 도대체 실험하는 조직 문화를 갖게 되는 팀은 뭐가 다른 걸까?

클래스101 팀과의 첫 만남을 기억한다. 성장에 정말 모든 것을 걸고 있던 이 팀은 나와 첫 미팅에 CEO/CPO 포함 셀 리드(부서장)들만 7명이 참석을 함으로써 그 열정을 보여주었다. 그로스해킹에 대한 이해도 및 문화 역시 해커 마인드가 가득했으므로 나는 이들과 함께 하게 될 컨설팅 프로젝트가 크게 기대가 되었고, 모든 게 순조로울 줄 알았다.

놀랍게도 이 조직에 그로쓰팀이 자리 잡게 되기까지는 4번 이상 팀을 해체시키고 다시 셋업 해야 하는 고난들이 있었다. 내가 컨설팅을 맡고 난 뒤 2번째로 팀을 해체하던 시점에 조직의 CPO(Chief Product Officer: 최고제품책임자)와 나눴던 대화가 기억이 난다.

나: (회사가 인력 교체 및 충원이 빠르게 이뤄지고, 매일 같이 크고 작은 에러가 개발팀을 괴롭히는데, 마침 시장 반응은 너무 좋아서 고객이 물밀듯 들어오는 이 상황에) 굳이 그로쓰팀을 고집하는 이유가 뭔가요? 지금은 괜히 방법론의 아름다움에 홀려 조직 내 혼돈을 만드는 실험들을 강행하는 것보다, 제품과 마케팅 조직을 탄탄하게 만드는 게 더 급한 것 같습니다. 이번 해체를 마지막으로 당분간 그로쓰팀을 비워두시지요.

CPO: 폴, 객관적으로 조언 주시는 것은 감사하지만. 우리는 성장을 먹고 사는 폭주기관차에요. 우리가 업계 1위로써 끊임없는 혁신을 만들어내지 못하면 이 시장은 없던 시장이 됩니다. 우린 보다 더 많이, 더 빠르게, 더 자주, 더 무모하게 실험해야 합니다. 여태껏 클래스101에 맞는 그로쓰팀 운영 방법을 못 찾았을 뿐이라고 생각해요. 포기하지 말아주세요. 저희와 함께 실험해 주세요.

아마도 난 내 질문의 답에 대한 힌트를 그날 한 젊은 임원과의 대화에서 얻었던 것 같다.

아직 다 마치지도 않은 Culture of Experiment 시리즈를 함께 고생한 주역들: 험프리, 쿤, 애쉬튼, 나라에게 바친다. 그리고 그로쓰팀의 영원한 조력자이자 스폰서 윌리, 몽드, 제트, D 에게 감사드린다.

>> 클래스101 회사 소개 및 열린 채용 포지션 보러가기

레퍼런스 및 further reading:

  1. https://foundr.com/experimentation-culture-dan-siroker-optimizely
  2. https://hbr.org/2013/05/six-components-of-culture
  3. https://hbr.org/2020/03/productive-innovation
  4. https://www.slideshare.net/seanellis/building-a-company-wide-culture-of-experimentation-conversion-conference-las-vegas-2016

“Culture of Experimentation: 클래스101은 어떻게 AB테스트를 한 달에 100개씩 돌리게 되었나?”의 2개의 댓글

  1. 와 성영님 배우고 갑니다. 근거기반의 실험문화는 저도 동의하는데, 실패에 대한 근성을 기르는게 쉽지가 않네요

댓글 남기기