좋은 데이터 분석이란?
Google 검색 로그 팀을 이끌었던 Patrick Riley의 글 Practical advice for analysis of large, complex data sets을 읽고, 실무에서 반복적으로 확인해야 할 규칙을 정리했다. 지금 Uber에서 Data Scientist로 일하면서도 그대로 적용되는 원칙이 많다. 글은 (1) 기술, (2) 프로세스, (3) 협업 태도 세 영역으로 나눠서 정리했다.
(1) 기술
- 요약값 말고 분포 확인하기
평균/중앙값만 보지 말고 히스토그램, CDF, Q-Q plot으로 데이터 분포 또는 모양을 살펴보기.
- 이상치는 단서
그냥 버리지 말고 왜 생겼는지 먼저 살펴보면 우리 놓친 숨겨진 인사이트가 나올 수 있다.
- 노이즈와 신뢰도 고려하기
숫자 하나 던질 때도 “대략 이 정도 범위”라고 불확실성을 같이 논의해보는게 좋다.
- 샘플 직접 확인
코드 결과만 믿지 말고 raw 데이터를 뜯어보면서 우리 해석이 맞는지 검증하기.
- 데이터는 잘게 쪼개서 보기
모바일/데스크탑, 브라우저, 지역별로 나눠서 확인해야 오류나 특이 케이스를 빨리 잡을 수 있다.
- 실질적 의미 먼저 생각하기
통계적으로 유의미해도 비즈니스적으로 의미 있는 차이인지 항상 생각해보기.
- 시간축으로 점검하기
일 단위로 보면 시스템 문제나 이벤트 영향이 잘 드러날 수 있다.
(2) 프로세스
- Validation → Description → Evaluation
Validation: 데이터가 의도대로 쌓였는지 먼저 확인한다. Description: 눈에 보이는 현상을 있는 그대로 정리한다. Evaluation: 그 결과가 비즈니스적으로 어떤 의미가 있는지 판단한다.
- 실험/데이터 수집 구조 먼저 확인
로그가 어디서 어떻게 쌓였는지 이해 안 하면 해석도 틀어질 수 있다.
- 기본 지표 먼저, Custom 지표는 나중에
클릭전환률(CTR) 같은 표준 지표부터 보고 그 다음에 새로운 지표 살펴보기.
- 같은 현상을 여러 방식으로 측정하기
그래야 로깅 버그나 데이터 이상치을 잡을 수 있다.
- Reproducibility 확보
다른 시간대 다른 표본에서도 동일한 인사이트, 통계가 나타나야 믿을 수 있는 수치가 나온다.
- 과거 수치랑 비교하기
갑자기 튀는 값이 나오면 “새로운 인사이트다!”보다 “내가 틀렸나?”를 먼저 의심하기.
- 가설 세우고 증거 찾기
“이래서 그렇구나” 직감에 멈추지 말고 다른 증거로 검증해보기.
- 빠른 반복, 완벽주의 금지
처음부터 완벽하게 다듬으려 하지 말고, 빠르게 여러 번 전체 사이클 돌려보자.
(3) 협업 태도
- 무조건 질문에서부터 출발하기
“무슨 분석 해볼까?”가 아니라 “우리가 궁금한 질문이 뭐지?”부터 시작하기.
- 데이터 전처리 및 필터링은 꼭 기록하기
어떤 데이터를 전처리로 뺐었고, 몇 % 빠졌는지 항상 남겨두기.
- 비율 지표는 분자/분모 명확하게
클릭전환률(CTR)이든 전환율이든 정의를 정확히 설명해야 한다.
- 데이터를 소비하는 이해관계자에게 교육하기
그냥 숫자만 던지지 말고 해석법 및 주의점도 같이 알려주기.
- 챔피언 + 회의론자 동시에
우리가 발견한 여러 인사이트를 믿되 스스로 “틀린 건 아닐까?” 항상 질문해보기.
- 공유 전 동료 피드백 먼저 받기
최종 공유 전 동료 피드백을 받아야 안전하다.
- 무지와 실수는 인정하기
모른다고 솔직히 말하거나 실수를 인정하는 게 결국 신뢰를 만든다.
결론
데이터분석은 단순하게 예쁜 숫자만 보여주는게 아니라, 기술적 꼼꼼함 + 프로세스적 습관 + 건강한 소통 이 세 가지가 함께할 때 제대로 된 인사이트가 나온다.
읽어주셔서 감사합니다 🙌
아래 글들도 함께 읽어보세요: