좋은 데이터 분석이란?

Google 검색 로그 팀을 이끌었던 Patrick Riley의 글 Practical advice for analysis of large, complex data sets을 읽고, 실무에서 반복적으로 확인해야 할 규칙을 정리했다. 지금 Uber에서 Data Scientist로 일하면서도 그대로 적용되는 원칙이 많다. 글은 (1) 기술, (2) 프로세스, (3) 협업 태도 세 영역으로 나눠서 정리했다.

(1) 기술

요약값 말고 분포 확인하기

평균/중앙값만 보지 말고 히스토그램, CDF, Q-Q plot으로 데이터 분포 또는 모양을 살펴보기.

이상치는 단서

그냥 버리지 말고 왜 생겼는지 먼저 살펴보면 우리 놓친 숨겨진 인사이트가 나올 수 있다.

노이즈와 신뢰도 고려하기

숫자 하나 던질 때도 “대략 이 정도 범위”라고 불확실성을 같이 논의해보는게 좋다.

샘플 직접 확인

코드 결과만 믿지 말고 raw 데이터를 뜯어보면서 우리 해석이 맞는지 검증하기.

데이터는 잘게 쪼개서 보기

모바일/데스크탑, 브라우저, 지역별로 나눠서 확인해야 오류나 특이 케이스를 빨리 잡을 수 있다.

실질적 의미 먼저 생각하기

통계적으로 유의미해도 비즈니스적으로 의미 있는 차이인지 항상 생각해보기.

시간축으로 점검하기

일 단위로 보면 시스템 문제나 이벤트 영향이 잘 드러날 수 있다.

(2) 프로세스

Validation → Description → Evaluation

Validation: 데이터가 의도대로 쌓였는지 먼저 확인한다. Description: 눈에 보이는 현상을 있는 그대로 정리한다. Evaluation: 그 결과가 비즈니스적으로 어떤 의미가 있는지 판단한다.

실험/데이터 수집 구조 먼저 확인

로그가 어디서 어떻게 쌓였는지 이해 안 하면 해석도 틀어질 수 있다.

기본 지표 먼저, Custom 지표는 나중에

클릭전환률(CTR) 같은 표준 지표부터 보고 그 다음에 새로운 지표 살펴보기.

같은 현상을 여러 방식으로 측정하기

그래야 로깅 버그나 데이터 이상치을 잡을 수 있다.

Reproducibility 확보

다른 시간대 다른 표본에서도 동일한 인사이트, 통계가 나타나야 믿을 수 있는 수치가 나온다.

과거 수치랑 비교하기

갑자기 튀는 값이 나오면 “새로운 인사이트다!”보다 “내가 틀렸나?”를 먼저 의심하기.

가설 세우고 증거 찾기

“이래서 그렇구나” 직감에 멈추지 말고 다른 증거로 검증해보기.

빠른 반복, 완벽주의 금지

처음부터 완벽하게 다듬으려 하지 말고, 빠르게 여러 번 전체 사이클 돌려보자.

(3) 협업 태도

무조건 질문에서부터 출발하기

“무슨 분석 해볼까?”가 아니라 “우리가 궁금한 질문이 뭐지?”부터 시작하기.

데이터 전처리 및 필터링은 꼭 기록하기

어떤 데이터를 전처리로 뺐었고, 몇 % 빠졌는지 항상 남겨두기.

비율 지표는 분자/분모 명확하게

클릭전환률(CTR)이든 전환율이든 정의를 정확히 설명해야 한다.

데이터를 소비하는 이해관계자에게 교육하기

그냥 숫자만 던지지 말고 해석법 및 주의점도 같이 알려주기.

챔피언 + 회의론자 동시에

우리가 발견한 여러 인사이트를 믿되 스스로 “틀린 건 아닐까?” 항상 질문해보기.

공유 전 동료 피드백 먼저 받기

최종 공유 전 동료 피드백을 받아야 안전하다.

무지와 실수는 인정하기

모른다고 솔직히 말하거나 실수를 인정하는 게 결국 신뢰를 만든다.

결론

데이터분석은 단순하게 예쁜 숫자만 보여주는게 아니라, 기술적 꼼꼼함 + 프로세스적 습관 + 건강한 소통 이 세 가지가 함께할 때 제대로 된 인사이트가 나온다.

(1) 기술

(2) 프로세스

(3) 협업 태도

결론

읽어주셔서 감사합니다 🙌