좋은 데이터 분석이란?

Google 검색 로그 팀을 이끌었던 Patrick Riley의 글 Practical advice for analysis of large, complex data sets을 읽고, 실무에서 반복적으로 확인해야 할 규칙을 정리했다. 지금 Uber에서 Data Scientist로 일하면서도 그대로 적용되는 원칙이 많다. 글은 (1) 기술, (2) 프로세스, (3) 협업 태도 세 영역으로 나눠서 정리했다.


(1) 기술

  • 요약값 말고 분포 확인하기

평균/중앙값만 보지 말고 히스토그램, CDF, Q-Q plot으로 데이터 분포 또는 모양을 살펴보기.

  • 이상치는 단서

그냥 버리지 말고 왜 생겼는지 먼저 살펴보면 우리 놓친 숨겨진 인사이트가 나올 수 있다.

  • 노이즈와 신뢰도 고려하기

숫자 하나 던질 때도 “대략 이 정도 범위”라고 불확실성을 같이 논의해보는게 좋다.

  • 샘플 직접 확인

코드 결과만 믿지 말고 raw 데이터를 뜯어보면서 우리 해석이 맞는지 검증하기.

  • 데이터는 잘게 쪼개서 보기

모바일/데스크탑, 브라우저, 지역별로 나눠서 확인해야 오류나 특이 케이스를 빨리 잡을 수 있다.

  • 실질적 의미 먼저 생각하기

통계적으로 유의미해도 비즈니스적으로 의미 있는 차이인지 항상 생각해보기.

  • 시간축으로 점검하기

일 단위로 보면 시스템 문제나 이벤트 영향이 잘 드러날 수 있다.


(2) 프로세스

  • Validation → Description → Evaluation

Validation: 데이터가 의도대로 쌓였는지 먼저 확인한다. Description: 눈에 보이는 현상을 있는 그대로 정리한다. Evaluation: 그 결과가 비즈니스적으로 어떤 의미가 있는지 판단한다.

  • 실험/데이터 수집 구조 먼저 확인

로그가 어디서 어떻게 쌓였는지 이해 안 하면 해석도 틀어질 수 있다.

  • 기본 지표 먼저, Custom 지표는 나중에

클릭전환률(CTR) 같은 표준 지표부터 보고 그 다음에 새로운 지표 살펴보기.

  • 같은 현상을 여러 방식으로 측정하기

그래야 로깅 버그나 데이터 이상치을 잡을 수 있다.

  • Reproducibility 확보

다른 시간대 다른 표본에서도 동일한 인사이트, 통계가 나타나야 믿을 수 있는 수치가 나온다.

  • 과거 수치랑 비교하기

갑자기 튀는 값이 나오면 “새로운 인사이트다!”보다 “내가 틀렸나?”를 먼저 의심하기.

  • 가설 세우고 증거 찾기

“이래서 그렇구나” 직감에 멈추지 말고 다른 증거로 검증해보기.

  • 빠른 반복, 완벽주의 금지

처음부터 완벽하게 다듬으려 하지 말고, 빠르게 여러 번 전체 사이클 돌려보자.


(3) 협업 태도

  • 무조건 질문에서부터 출발하기

“무슨 분석 해볼까?”가 아니라 “우리가 궁금한 질문이 뭐지?”부터 시작하기.

  • 데이터 전처리 및 필터링은 꼭 기록하기

어떤 데이터를 전처리로 뺐었고, 몇 % 빠졌는지 항상 남겨두기.

  • 비율 지표는 분자/분모 명확하게

클릭전환률(CTR)이든 전환율이든 정의를 정확히 설명해야 한다.

  • 데이터를 소비하는 이해관계자에게 교육하기

그냥 숫자만 던지지 말고 해석법 및 주의점도 같이 알려주기.

  • 챔피언 + 회의론자 동시에

우리가 발견한 여러 인사이트를 믿되 스스로 “틀린 건 아닐까?” 항상 질문해보기.

  • 공유 전 동료 피드백 먼저 받기

최종 공유 전 동료 피드백을 받아야 안전하다.

  • 무지와 실수는 인정하기

모른다고 솔직히 말하거나 실수를 인정하는 게 결국 신뢰를 만든다.


결론

데이터분석은 단순하게 예쁜 숫자만 보여주는게 아니라, 기술적 꼼꼼함 + 프로세스적 습관 + 건강한 소통 이 세 가지가 함께할 때 제대로 된 인사이트가 나온다.




읽어주셔서 감사합니다 🙌

아래 글들도 함께 읽어보세요:

  • 첫글