데이터 리터러시를 강화하는 방법

데이터의 중요성이 강조되면서 최근 화두가 된 단어들이 있습니다. 데이터 기반(data-driven) 의사 결정, 데이터 리터러시(data-literacy) 등이 그것입니다. 데이터에서 파생되는 각종 단어들이 자주 언급될 정도로, 이제 사회 그 어떠한 층도 데이터의 중요도에 대해서 간과하지 않게 되었습니다.

 

데이터 리터러시, 그게 무엇인가요?

일반적으로 데이터 리터러시는 데이터를 활용해서 문제를 해결할 수 있는 능력으로 정의합니다. ‘문제를 해결할 수 있는 능력’이라는 범위는 너무도 방대하니까, 조금 더 나누어 볼까요?

 

  • 데이터를 통해 문제를 해결하기 위해서는, 수 많은 데이터 중에서 문제를 해결할 수 있는 데이터를 탐색할 수 있어야합니다.
  • 문제 해결에 필요한 데이터를 적절하게 탐색하기 위해서는, 문제 해결에 필요한 데이터가 무엇인지 정의해낼 수 있어야합니다.
  • 문제 해결에 필요한 데이터가 무엇인지 정의하기 위해서는 데이터를 둘러싼 주변 환경의 이해가 필요합니다.

 

데이터를 둘러싼 주변 환경의 이해가 없다면, 데이터는 단순한 숫자의 나열에 불과합니다. 데이터를 잘 보기 위해서는 데이터가 생성 된 배경을 잘 이해할 수 있어야합니다. 그래야 데이터를 오독하지 않을 수 있습니다. 그래야 데이터를 정확하게 이해하고 문제 해결을 위한 의사결정을 수행할 수 있게 됩니다.

 

주변 환경 이해 없이 데이터에만 기반했을 때 발생할 수 있는 재앙들

이제는 너무나도 잘 알려져서 식상한 예시이지만,  ‘데이터 리터러시’ 혹은 ‘데이터 문해력’을 논할 때 빠질 수 없는 사례가 있습니다. 데이터에 관심있는 분이라면 이미 여러 매체를 통해서 수 차례 보아왔을 2차세계 대전 전투기 피격 데이터 입니다.

 

이제는 너무나도 잘 알려진 생존자 편향의 오류(Survivorship Bias)입니다. 2차 세계대전 당시 미국은 전장의 전투기가 적군의 사격에 의해서 격추되는 것을 줄이기 위해서 전장에서 돌아온 전투기의 피격 부분을 분석하여 취약 부분을 보강하고자 했습니다. 분석 결과 적의 총알은 주로 날개 및 몸통 부분에 집중되어 있었지요.

전쟁에 대한 배경 지식이 충분하지 않다면, 이러한 데이터를 보면 ‘주로 피격되는 부분’인 날개와 몸통 부분을 보강하는 것이 옳습니다. 하지만, 전장에 대한 배경 지식을 갖고 종합적인 사고를 해보면, 데이터를 읽는 방법을 바꾸어야 한다는 사실을 쉽게 깨달을 수 있습니다. 생환한 전투기를 관측한 결과 날개와 몸통 부분에 총탄이 집중되어 있다는 사실은, 날개와 몸통의 피격은 생환율에 상대적으로 적은 영향을 준다는 의미입니다. 그 외 위치에 피격 당한 전투기는 돌아오지 못했다는 것이며, 돌아오지 못한 전투기의 피격 데이터는 검토 시점에서는 누락될 수 밖에 없다는 사실까지 떠올릴 수 있어야합니다. 생존자 편향의 오류(Survivorship Bias)는 데이터가 수집된 환경에 따라서 해석의 방법을 능동적으로 변경해야한다는 사실을 알려줍니다.

생존자 편향의 오류 사례가 식상하다면, 다른 사례를 확인해볼까요?

같이 생각해봐요

배달의민족, 요기요, 배달통 등 음식 배달 앱이 약동 하던 시기인 2017년의 일입니다. 그 해 10월 엄청난 약진을 반복하던 배달 앱들의 건강 상태에 ‘빨간불’이 켜졌습니다. 나날이 높은 수준을 유지하던 DAU가 90% 감소한 것입니다.

처음 데이터를 확인한 데이터 관리자는 처음에 이러한 현상을 ‘오류’로 인지했습니다. DAU가 10% 감소하여 90% 수준이 된 것이 아니라, 실제로 90% 감소한 것이니까요. 만약 여러분이 이 감소한 DAU의 원인을 탐색하기 위해서, 무제한의 데이터를 요청할 수 있는 권한이 있다면 어떠한 데이터를 요청하실 것 같은가요?

  • 로그인 기능에 오류가 발생한 것일 수도 있으니, 로그인 화면에 진입한 사용자의 수를 보자.
  • DAU를 측정하기 위해 설계해놓은 로그 시스템의 오류일 수도 있으니, 로그 시스템의 데이터가 정상적으로 기입되는지 확인해보자.
  • 광고 효율이 안 좋아진 것일 수도 있으니 DA, SA 노출수, 클릭수 들을 확인해보자.

 

어쩌면 이러한 형태로 확인해야 할 데이터를 나열하고 있을 수도 있습니다. 하지만, 이 문제의 정답은 ‘데이터’가 아닌 ‘문화’에 숨어있습니다.

 

2017년 10월은 ‘황금연휴’로 불렸습니다. 10월 2일 휴가 하루를 사용하면 최장 10일을 연속하여 쉴 수 있었으며, 당시 많은 기업들이 10월 2일을 임시 휴일로 지정하기도 했었지요.

2017년 추석 연휴 인천공항 이용객은 206만 명, 여객 수 1일 최대 11만 6천 명으로 역대 최다 해외 여행자를 기록하기도 하였습니다.

DAU가 떨어진 것이 ‘음식 배달’ 앱이라는 것도 힌트입니다. 역대급으로 길었던 연휴, 해외로 떠난 사람들, 냉장고에 가득했을 명절 음식들을 생각해보면, 음식 배달 앱의 DAU가 급감할 조건은 충분히 갖추어졌음을 알 수 있죠.

이처럼 데이터에 기반한 의사 결정을 수행하기 위해서, 데이터만 확인하는 것은 무척이나 위험할 수 있습니다.

정말 유명한 미국의 데이터 사이언티스트를 모셔다가 2017년 10월 한국 배달앱 시장이 겪었던 DAU 감소 현상 데이터의 원인을 찾아달라고 요청해도, 유명한 데이터 사이언티스트가 한국 문화에 대한 배경 지식이 없다면 답을 찾아낼 수 없습니다.

데이터는 현상을 정량적인 결과로 확인할 수 있게 해주지만, 원인을 알려주지는 않으니까요. 정량적 지표의 상징과도 같은 ‘데이터’를 이해하기 위해서는 역설적이게도 정성적인 지표, 현상들을 반드시 함께 고려해야합니다. 2차 세계 대전의 생존자 편향 사례와 배달 앱 사례는 아주 드문 예시가 아닙니다.

 

정성적인 지표는 어떻게 봐야할까요?

회원 수, 회원 당 평균 결제액, 회원 재방문율, 회원당 제품 평균 구매 수량, 최근 3개월 신규 회원 수 등은 우리가 일을 할 때 흔하게 확인할 수 있는 데이터입니다. 일반적으로 우리가 열람하는 데이터는 이처럼 정량적인 수치로 존재합니다. 정량적인 수치로 존재하기 때문에, 원한다면 쉽게 데이터를 열람할 수 있죠.

그런데 정성적인 지표는 도대체 어떻게 확인해야할까요? 정성적인 지표를 확인하기 위해서는 일단 우리가 속해있는 시장에 대한 이해가 선행되어야 합니다. 그제서야 정성적으로 어떠한 지표를 확인해야할지 선별해낼 수 있습니다. 하지만, 전쟁에 대한 이해, 한국 사회와 문화에 대한 이해 등을 단기간 내에 학습하기란 쉬운 일은 아닙니다.

그런데, 이 어려운 학습 과정을 단숨에 해결해줄 수 있는 방법이 있다면 믿기실까요? 그 방법은 잘 아는 사람들에게 질문하는 것입니다. 많은 기업들은 시장에 대한 이해를 제고하기 위해서 적절한 대상을 찾아서 인터뷰를 수행합니다. 인터뷰를 통해서 현상에 대한 배경을 이해합니다. 배경 이해를 통해 많은 데이터 중에서 어떠한 데이터를 중심에 둘지, 그리고 어떻게 해석을 해야할지 결정할 수 있습니다.

 

보다 효과적인 배경 이해 방법: 에스노그라피

인터뷰이 선정을 잘 했다면, 인터뷰는 아마도 세상에서 가장 효과적인 배경 이해 방법일 것입니다. 하지만, 인터뷰이를 잘못 선정했다면 역으로 배경에 대한 잘못된 편향을 갖게될 가능성이 있습니다. 인터뷰이가 갖고 있는 편향이 인터뷰어에게 전달되는 것이죠. 인터뷰이가 정보를 잘못 인식하고 전달할 때도 있으며, 간혹 인터뷰이가 의도적으로 잘못된 정보를 전달하기도 합니다.

배경을 이해하기 위해서 ‘인터뷰’를 활용하는 것은 때론 위험할 수 있습니다. 그렇다면, 어떻게 해야 비교적 안전하게 시장 배경을 이해할 수 있을까요? 방법은 단순합니다. 많은 수의 인터뷰를 수행해서 다수의 의견을 확인하면됩니다. 한 명의 강력한 편향도 다수의 의견을 통해서 걸러낼 수 있습니다.

만약 여러 명의 인터뷰를 수행하기 여의치 않다면, 때론 사람들이 어떤 말을 하는지 그냥 관측하는 것도 굉장히 좋은 방법 중 하나입니다. 문화인류학에서는 이러한 관측 방법은 ‘에스노그라피(ethnography)’라고 정의하고 있습니다. 에스노그라피적 관측 방법은 직접적인 질문을 통해서 답변을 이끌어내는 인터뷰와 달리, 있는 현상을 그대로 관측합니다. 개입을 최소화하고, 사람들이 평소에 문제에 대해서 어떻게 인지하고 있는지, 얼마나 불편하게 느끼는지, 문제에 어떻게 대응하고 있는지, 어떠한 경로를 통해서 문제와 마주하게 되는지, 혹은 문제라고 인지하기는 하는지 등을 시간을 들여 관찰하고 기록합니다. 이러한 기법을 통해서 편향 없이 현상에 대한 배경을 이해할 수 있습니다. 에스노그라피적 관측을 통한 이해를 얻으면, 문제를 정의하고 해결하기 위해서 혹은 의사 결정을 하기 위해서 어떠한 데이터를 보는 것이 좋을지 알 수 있습니다.

 

디지털 사회에 맞춘 에스노그라피의 변화

에스노그라피는 현상을 이해하기 위한 정성적 조사 방법 중에서 가장 전통적인 조사 방법입니다. 1767년 서적에도 에스노그라피라는 용어가 등장했을 정도로 인류 문화의 발전과 함께해온 방법이라고 할 수 있습니다. 대면 인터뷰, 그룹 인터뷰, 아케이드 조사, 설문 조사 등 조사 방법은 사회 문화와 발전과 함께 형성되고 개발되어 왔습니다. 이러한 조사는 인터넷 기술의 발전과 보급으로 디지털 사회에 맞추어 변화되었습니다. 과거 직접 만나서 수행하던 인터뷰는 화상 전화 인터뷰로 일부 대체되었으며, 현장에 나가서 의견을 묻던 아케이드 조사는 인터넷 투표로, 종이로 받던 설문 조사는 온라인 양식으로 대체되었죠. 에스노그라피 방법 역시 인터넷 기술을 통해서 디지털화되었습니다. 사람들이 온라인 상에 자유의지를 갖고 작성한 글들을 관찰하는 것이죠. 어떤 주제에 대해서 이야기를 하고 있는지, 어느 시점에 작성되었는지, 어떠한 성향을 가진 인터넷 플랫폼을 이용하여 이야기하는지, 얼마나 많은 사람들이 공감하는지, 혹은 반대하는지 등을 관측할 수 있습니다. 이러한 온라인 관측 데이터는 현상의 배경을 이해하는데 아주 큰 도움을 줍니다.  그리고 이러한 이해는 다시 데이터 리터러시를 강화하는데 도움을 주는 구조를 갖습니다.

  • 사람들의 의견을 통해서 현상과 배경을 둘러싼 주변 환경을 이해할 수 있습니다. 이를 통해서 문제 해결에 필요한 데이터가 무엇인지 정의할 수 있습니다.
  • 문제 해결에 필요한 데이터가 무엇인지 정의하였으니, 더이상 데이터를 탐색할 필요가 없습니다. 데이터를 추출하면 됩니다.
  • 전반적인 배경을 이해하고 있으니, 문제 해결 방법 및 그에 따른 데이터 변화 가설을 수립할 수 있습니다.

에스노그라피의 정량화

앞서 이야기한 것처럼 에스노그라피(ethnography)는 데이터를 이해하는데 큰 도움이 되는 정성적 조사 방법 중 하나입니다. 하지만, 정성적 조사 방법이다보니 에스노그라피를 통해서 조사한 결과를 정량적으로 분석하여 조사 결과의 객관성을 갖추기가 쉽지 않습니다.

에스노그라피적 관측을 통한 조사 결과를 다시 데이터로 가공하려면 어떻게 하면 좋을까요? 이러한 시도에서 다양한 시도가 있는데, 일부 학자들은 ‘키워드’를 활용한 발화 빈도 분석과 최근에는 ‘러셀 감정 모형(Russell’s Circumplex Model)을 활용한 긍부정 차원 비율 분석을 시도하고 있습니다. 이를 통해서 집단의 의견을 정량화·시각화하여 직관적으로 볼 수 있도록 하는 것이죠. 하지만, 데이터의 수집(data-crawling), 자연어 처리(NLP; natural-language-process) 역량등이 필요해서 일반 기업에서 활용하기는 번거로운 일입니다. 온라인 에스노그라피의 정량화는 어떻게 하는 것이 좋을까요?

 

어디서부터 시작할지 막막하다면

포켓서베이에서 제공하는 온라인 에스노그라피를 활용하면, 에스노그라피적 관측으로 온라인에서 작성된 다양한 게시글을 확인할 수 있습니다. 우리 서비스/제품에 대한 의견, 경쟁 서비스/제품에 대한 의견, 시장에 대한 의견 등 사람들이 자유 의지를 갖고 작성한 글들을 관측한 결과를 정량적 데이터로 확인할 수 있습니다.

포켓서베이 온라인에스노그라피가 제공하는 데이터와 회사가 갖고 있는 데이터를 결합하면 비교적 손쉽게 데이터 리터러시를 강화할 수 있습니다. 어떻게 데이터 리터러시를 강화할 수 있는지 예시를 한 번 확인해 볼까요?

포켓서베이 에스노그라피 키워드/술어 평가 기능을 활용하면 다양한 채널(구글, 네이버, 쿠팡 등)에 흩어져있는 사용자 의견의 주요 키워드를 한 눈에 모아서 확인할 수 있습니다.

사람들이 주로 어떤 요소(키워드)를 언급하고 있는지, 또 얼마나 많은 사람들이 언급하고 있는지, 그 키워드를 언급할 때 얼마나 긍정적인지, 혹은 얼마나 부정적인지 같은 정보를 한 눈에 확인해보세요.

위 예시를 확인해보면 ‘예약’이 문제라는 것을 한 눈에 알 수 있습니다. 그렇다면, 예약과 관련된 어떠한 데이터를 확인해야 예약이 정확히 어떠한 문제를 갖고 있는지 확인할 수 있을까요?

포켓서베이 에스노그라피의 인공지능은 키워드가 수식되는 술어 혹은 키워드와 함께 언급되는 다른 키워드를 함께 분석하여 데이터를 제공하고 있습니다.

‘예약’ 키워드를 확인해보니, ‘전화’, ‘온라인’ 키워드와 함께 언급되거나, ‘어렵다’, 혹은  ‘치열하다’ 술어로 표현되는 것을 확인할 수 있습니다.

서비스 예약이 전반적으로 문제라는 것은 알았는데, 고객들은 다름 아니라 전화 예약에 문제가 있다고 생각하는 것이었네요. 온라인 예약과 전화 예약을 비교해보면, 평가 점수 뿐만 아니라 감정 수치에서 큰 차이가 나는 것을 확인할 수 있습니다.

또 굉장히 재미있는 사실도 발견되네요. 예약이 어렵다고 생각한 사람들은 예약을 부정적으로 평가하지만, 치열하다고 생각한 사람들은 오히려 긍정적인 평가를 작성합니다.

예약을 개선할 때, ‘온라인 예약’을 보다 활성화하고, 예약 과정이 ‘어려운 것’이 아니라, 그럴만한 가치가 있는 ‘치열한 행동’이라고 인식을 만드는 것이 전반적 평가 점수를 높일 수 있는 방법이 되겠네요.

이러한 일련의 흐름은 일반적인 데이터 리터러시에서 요구되는 모든 것이 자연스럽게 연결되어 있습니다. 어떻게 연결되어 있는지 한 번 살펴볼까요?

  • 문제 상황 인식: 고객들은 예약에서 불편함을 겪는다.
  • 문제의 범위 인지:
    고객들은 특히 전화 예약에서 불편함을 겪고 있는데 대체로 어려워하고 있다. 하지만, 온라인 예약은 그나마 상황이 나은 편이다.
    예약이 치열하다고 생각하는 사람들은 우리 전체 서비스에 대해서 비교적 긍정적으로 인식하는 편이다.
  • 문제 해결 방안 수립:
    1. 전화 예약 고객을 온라인으로 예약할 수 있도록 유도한다.
    2. 온라인 예약 시스템을 개편한다.
    3. 사람들이 예약이 ‘치열하다’고 인식할 수 있도록 넛지할 수 있는 방안을 모색한다.
  • 문제 해결 방안 이후 변화 될 데이터 예측:
    1. 전체 의견 중 예약에 대한 언급 비중이 줄어들고, 동시에 예약과 전화를 동시에 언급하는 비중 역시 줄어들 것이다.
    2. 예약을 언급한 사람들의 평균 감정 수치가 긍정적으로 증가할 것이다.
    3. 예약을 언급한 사람들의 평가 점수가 개선될 것이다.

 

이처럼 포켓서베이 에스노그라피가 제공하는 키워드 보고서는 여타 서비스에서 제공하는 단순 키워드 나열을 넘어서, 비정형 데이터를 정량적으로 읽어 문제를 인지하고, 해결 방법을 탐색할 수 있는 통찰을 제공합니다. 물론 직접 수행한 에스노그라피 관측을 이와 같은 형태로 가공하면 동일한 통찰을 얻어낼 수 있습니다. 다만 데이터를 수집하고 분류하고, 시각화하는데 많은 시간이 필요하죠.

만약 우리 조직의 데이터 리터러시를 시간 효율적으로 강화하고자 한다면, 고민하지 마시고 포켓서베이의 강력한 온라인 에스노그라피를 활용해보세요.

데이터의 중요성이 강조되면서 최근 화두가 된 단어들이 있습니다. 데이터 기반(data-driven) 의사 결정, 데이터 리터러시(data-literacy) 등이 그것입니다. 데이터에서 파생되는 각종 단어들이 자주 언급될 정도로, 이제 사회 그 어떠한 층도 데이터의 중요도에 대해서 간과하지 않게 되었습니다.

 

데이터 리터러시, 그게 무엇인가요?

일반적으로 데이터 리터러시는 데이터를 활용해서 문제를 해결할 수 있는 능력으로 정의합니다. ‘문제를 해결할 수 있는 능력’이라는 범위는 너무도 방대하니까, 조금 더 나누어 볼까요?

 

  • 데이터를 통해 문제를 해결하기 위해서는, 수 많은 데이터 중에서 문제를 해결할 수 있는 데이터를 탐색할 수 있어야합니다.
  • 문제 해결에 필요한 데이터를 적절하게 탐색하기 위해서는, 문제 해결에 필요한 데이터가 무엇인지 정의해낼 수 있어야합니다.
  • 문제 해결에 필요한 데이터가 무엇인지 정의하기 위해서는 데이터를 둘러싼 주변 환경의 이해가 필요합니다.

 

데이터를 둘러싼 주변 환경의 이해가 없다면, 데이터는 단순한 숫자의 나열에 불과합니다. 데이터를 잘 보기 위해서는 데이터가 생성 된 배경을 잘 이해할 수 있어야합니다. 그래야 데이터를 오독하지 않을 수 있습니다. 그래야 데이터를 정확하게 이해하고 문제 해결을 위한 의사결정을 수행할 수 있게 됩니다.

 

주변 환경 이해 없이 데이터에만 기반했을 때 발생할 수 있는 재앙들

이제는 너무나도 잘 알려져서 식상한 예시이지만,  ‘데이터 리터러시’ 혹은 ‘데이터 문해력’을 논할 때 빠질 수 없는 사례가 있습니다. 데이터에 관심있는 분이라면 이미 여러 매체를 통해서 수 차례 보아왔을 2차세계 대전 전투기 피격 데이터 입니다.

 

이제는 너무나도 잘 알려진 생존자 편향의 오류(Survivorship Bias)입니다. 2차 세계대전 당시 미국은 전장의 전투기가 적군의 사격에 의해서 격추되는 것을 줄이기 위해서 전장에서 돌아온 전투기의 피격 부분을 분석하여 취약 부분을 보강하고자 했습니다. 분석 결과 적의 총알은 주로 날개 및 몸통 부분에 집중되어 있었지요.

전쟁에 대한 배경 지식이 충분하지 않다면, 이러한 데이터를 보면 ‘주로 피격되는 부분’인 날개와 몸통 부분을 보강하는 것이 옳습니다. 하지만, 전장에 대한 배경 지식을 갖고 종합적인 사고를 해보면, 데이터를 읽는 방법을 바꾸어야 한다는 사실을 쉽게 깨달을 수 있습니다. 생환한 전투기를 관측한 결과 날개와 몸통 부분에 총탄이 집중되어 있다는 사실은, 날개와 몸통의 피격은 생환율에 상대적으로 적은 영향을 준다는 의미입니다. 그 외 위치에 피격 당한 전투기는 돌아오지 못했다는 것이며, 돌아오지 못한 전투기의 피격 데이터는 검토 시점에서는 누락될 수 밖에 없다는 사실까지 떠올릴 수 있어야합니다. 생존자 편향의 오류(Survivorship Bias)는 데이터가 수집된 환경에 따라서 해석의 방법을 능동적으로 변경해야한다는 사실을 알려줍니다.

생존자 편향의 오류 사례가 식상하다면, 다른 사례를 확인해볼까요?

같이 생각해봐요

배달의민족, 요기요, 배달통 등 음식 배달 앱이 약동 하던 시기인 2017년의 일입니다. 그 해 10월 엄청난 약진을 반복하던 배달 앱들의 건강 상태에 ‘빨간불’이 켜졌습니다. 나날이 높은 수준을 유지하던 DAU가 90% 감소한 것입니다.

처음 데이터를 확인한 데이터 관리자는 처음에 이러한 현상을 ‘오류’로 인지했습니다. DAU가 10% 감소하여 90% 수준이 된 것이 아니라, 실제로 90% 감소한 것이니까요. 만약 여러분이 이 감소한 DAU의 원인을 탐색하기 위해서, 무제한의 데이터를 요청할 수 있는 권한이 있다면 어떠한 데이터를 요청하실 것 같은가요?

  • 로그인 기능에 오류가 발생한 것일 수도 있으니, 로그인 화면에 진입한 사용자의 수를 보자.
  • DAU를 측정하기 위해 설계해놓은 로그 시스템의 오류일 수도 있으니, 로그 시스템의 데이터가 정상적으로 기입되는지 확인해보자.
  • 광고 효율이 안 좋아진 것일 수도 있으니 DA, SA 노출수, 클릭수 들을 확인해보자.

 

어쩌면 이러한 형태로 확인해야 할 데이터를 나열하고 있을 수도 있습니다. 하지만, 이 문제의 정답은 ‘데이터’가 아닌 ‘문화’에 숨어있습니다.

 

2017년 10월은 ‘황금연휴’로 불렸습니다. 10월 2일 휴가 하루를 사용하면 최장 10일을 연속하여 쉴 수 있었으며, 당시 많은 기업들이 10월 2일을 임시 휴일로 지정하기도 했었지요.

2017년 추석 연휴 인천공항 이용객은 206만 명, 여객 수 1일 최대 11만 6천 명으로 역대 최다 해외 여행자를 기록하기도 하였습니다.

DAU가 떨어진 것이 ‘음식 배달’ 앱이라는 것도 힌트입니다. 역대급으로 길었던 연휴, 해외로 떠난 사람들, 냉장고에 가득했을 명절 음식들을 생각해보면, 음식 배달 앱의 DAU가 급감할 조건은 충분히 갖추어졌음을 알 수 있죠.

이처럼 데이터에 기반한 의사 결정을 수행하기 위해서, 데이터만 확인하는 것은 무척이나 위험할 수 있습니다.

정말 유명한 미국의 데이터 사이언티스트를 모셔다가 2017년 10월 한국 배달앱 시장이 겪었던 DAU 감소 현상 데이터의 원인을 찾아달라고 요청해도, 유명한 데이터 사이언티스트가 한국 문화에 대한 배경 지식이 없다면 답을 찾아낼 수 없습니다.

데이터는 현상을 정량적인 결과로 확인할 수 있게 해주지만, 원인을 알려주지는 않으니까요. 정량적 지표의 상징과도 같은 ‘데이터’를 이해하기 위해서는 역설적이게도 정성적인 지표, 현상들을 반드시 함께 고려해야합니다. 2차 세계 대전의 생존자 편향 사례와 배달 앱 사례는 아주 드문 예시가 아닙니다.

 

정성적인 지표는 어떻게 봐야할까요?

회원 수, 회원 당 평균 결제액, 회원 재방문율, 회원당 제품 평균 구매 수량, 최근 3개월 신규 회원 수 등은 우리가 일을 할 때 흔하게 확인할 수 있는 데이터입니다. 일반적으로 우리가 열람하는 데이터는 이처럼 정량적인 수치로 존재합니다. 정량적인 수치로 존재하기 때문에, 원한다면 쉽게 데이터를 열람할 수 있죠.

그런데 정성적인 지표는 도대체 어떻게 확인해야할까요? 정성적인 지표를 확인하기 위해서는 일단 우리가 속해있는 시장에 대한 이해가 선행되어야 합니다. 그제서야 정성적으로 어떠한 지표를 확인해야할지 선별해낼 수 있습니다. 하지만, 전쟁에 대한 이해, 한국 사회와 문화에 대한 이해 등을 단기간 내에 학습하기란 쉬운 일은 아닙니다.

그런데, 이 어려운 학습 과정을 단숨에 해결해줄 수 있는 방법이 있다면 믿기실까요? 그 방법은 잘 아는 사람들에게 질문하는 것입니다. 많은 기업들은 시장에 대한 이해를 제고하기 위해서 적절한 대상을 찾아서 인터뷰를 수행합니다. 인터뷰를 통해서 현상에 대한 배경을 이해합니다. 배경 이해를 통해 많은 데이터 중에서 어떠한 데이터를 중심에 둘지, 그리고 어떻게 해석을 해야할지 결정할 수 있습니다.

 

보다 효과적인 배경 이해 방법: 에스노그라피

인터뷰이 선정을 잘 했다면, 인터뷰는 아마도 세상에서 가장 효과적인 배경 이해 방법일 것입니다. 하지만, 인터뷰이를 잘못 선정했다면 역으로 배경에 대한 잘못된 편향을 갖게될 가능성이 있습니다. 인터뷰이가 갖고 있는 편향이 인터뷰어에게 전달되는 것이죠. 인터뷰이가 정보를 잘못 인식하고 전달할 때도 있으며, 간혹 인터뷰이가 의도적으로 잘못된 정보를 전달하기도 합니다.

배경을 이해하기 위해서 ‘인터뷰’를 활용하는 것은 때론 위험할 수 있습니다. 그렇다면, 어떻게 해야 비교적 안전하게 시장 배경을 이해할 수 있을까요? 방법은 단순합니다. 많은 수의 인터뷰를 수행해서 다수의 의견을 확인하면됩니다. 한 명의 강력한 편향도 다수의 의견을 통해서 걸러낼 수 있습니다.

만약 여러 명의 인터뷰를 수행하기 여의치 않다면, 때론 사람들이 어떤 말을 하는지 그냥 관측하는 것도 굉장히 좋은 방법 중 하나입니다. 문화인류학에서는 이러한 관측 방법은 ‘에스노그라피(ethnography)’라고 정의하고 있습니다. 에스노그라피적 관측 방법은 직접적인 질문을 통해서 답변을 이끌어내는 인터뷰와 달리, 있는 현상을 그대로 관측합니다. 개입을 최소화하고, 사람들이 평소에 문제에 대해서 어떻게 인지하고 있는지, 얼마나 불편하게 느끼는지, 문제에 어떻게 대응하고 있는지, 어떠한 경로를 통해서 문제와 마주하게 되는지, 혹은 문제라고 인지하기는 하는지 등을 시간을 들여 관찰하고 기록합니다. 이러한 기법을 통해서 편향 없이 현상에 대한 배경을 이해할 수 있습니다. 에스노그라피적 관측을 통한 이해를 얻으면, 문제를 정의하고 해결하기 위해서 혹은 의사 결정을 하기 위해서 어떠한 데이터를 보는 것이 좋을지 알 수 있습니다.

 

디지털 사회에 맞춘 에스노그라피의 변화

에스노그라피는 현상을 이해하기 위한 정성적 조사 방법 중에서 가장 전통적인 조사 방법입니다. 1767년 서적에도 에스노그라피라는 용어가 등장했을 정도로 인류 문화의 발전과 함께해온 방법이라고 할 수 있습니다. 대면 인터뷰, 그룹 인터뷰, 아케이드 조사, 설문 조사 등 조사 방법은 사회 문화와 발전과 함께 형성되고 개발되어 왔습니다. 이러한 조사는 인터넷 기술의 발전과 보급으로 디지털 사회에 맞추어 변화되었습니다. 과거 직접 만나서 수행하던 인터뷰는 화상 전화 인터뷰로 일부 대체되었으며, 현장에 나가서 의견을 묻던 아케이드 조사는 인터넷 투표로, 종이로 받던 설문 조사는 온라인 양식으로 대체되었죠. 에스노그라피 방법 역시 인터넷 기술을 통해서 디지털화되었습니다. 사람들이 온라인 상에 자유의지를 갖고 작성한 글들을 관찰하는 것이죠. 어떤 주제에 대해서 이야기를 하고 있는지, 어느 시점에 작성되었는지, 어떠한 성향을 가진 인터넷 플랫폼을 이용하여 이야기하는지, 얼마나 많은 사람들이 공감하는지, 혹은 반대하는지 등을 관측할 수 있습니다. 이러한 온라인 관측 데이터는 현상의 배경을 이해하는데 아주 큰 도움을 줍니다.  그리고 이러한 이해는 다시 데이터 리터러시를 강화하는데 도움을 주는 구조를 갖습니다.

  • 사람들의 의견을 통해서 현상과 배경을 둘러싼 주변 환경을 이해할 수 있습니다. 이를 통해서 문제 해결에 필요한 데이터가 무엇인지 정의할 수 있습니다.
  • 문제 해결에 필요한 데이터가 무엇인지 정의하였으니, 더이상 데이터를 탐색할 필요가 없습니다. 데이터를 추출하면 됩니다.
  • 전반적인 배경을 이해하고 있으니, 문제 해결 방법 및 그에 따른 데이터 변화 가설을 수립할 수 있습니다.

에스노그라피의 정량화

앞서 이야기한 것처럼 에스노그라피(ethnography)는 데이터를 이해하는데 큰 도움이 되는 정성적 조사 방법 중 하나입니다. 하지만, 정성적 조사 방법이다보니 에스노그라피를 통해서 조사한 결과를 정량적으로 분석하여 조사 결과의 객관성을 갖추기가 쉽지 않습니다.

에스노그라피적 관측을 통한 조사 결과를 다시 데이터로 가공하려면 어떻게 하면 좋을까요? 이러한 시도에서 다양한 시도가 있는데, 일부 학자들은 ‘키워드’를 활용한 발화 빈도 분석과 최근에는 ‘러셀 감정 모형(Russell’s Circumplex Model)을 활용한 긍부정 차원 비율 분석을 시도하고 있습니다. 이를 통해서 집단의 의견을 정량화·시각화하여 직관적으로 볼 수 있도록 하는 것이죠. 하지만, 데이터의 수집(data-crawling), 자연어 처리(NLP; natural-language-process) 역량등이 필요해서 일반 기업에서 활용하기는 번거로운 일입니다. 온라인 에스노그라피의 정량화는 어떻게 하는 것이 좋을까요?

 

어디서부터 시작할지 막막하다면

포켓서베이에서 제공하는 온라인 에스노그라피를 활용하면, 에스노그라피적 관측으로 온라인에서 작성된 다양한 게시글을 확인할 수 있습니다. 우리 서비스/제품에 대한 의견, 경쟁 서비스/제품에 대한 의견, 시장에 대한 의견 등 사람들이 자유 의지를 갖고 작성한 글들을 관측한 결과를 정량적 데이터로 확인할 수 있습니다.

포켓서베이 온라인에스노그라피가 제공하는 데이터와 회사가 갖고 있는 데이터를 결합하면 비교적 손쉽게 데이터 리터러시를 강화할 수 있습니다. 어떻게 데이터 리터러시를 강화할 수 있는지 예시를 한 번 확인해 볼까요?

포켓서베이 에스노그라피 키워드/술어 평가 기능을 활용하면 다양한 채널(구글, 네이버, 쿠팡 등)에 흩어져있는 사용자 의견의 주요 키워드를 한 눈에 모아서 확인할 수 있습니다.

사람들이 주로 어떤 요소(키워드)를 언급하고 있는지, 또 얼마나 많은 사람들이 언급하고 있는지, 그 키워드를 언급할 때 얼마나 긍정적인지, 혹은 얼마나 부정적인지 같은 정보를 한 눈에 확인해보세요.

위 예시를 확인해보면 ‘예약’이 문제라는 것을 한 눈에 알 수 있습니다. 그렇다면, 예약과 관련된 어떠한 데이터를 확인해야 예약이 정확히 어떠한 문제를 갖고 있는지 확인할 수 있을까요?

포켓서베이 에스노그라피의 인공지능은 키워드가 수식되는 술어 혹은 키워드와 함께 언급되는 다른 키워드를 함께 분석하여 데이터를 제공하고 있습니다.

‘예약’ 키워드를 확인해보니, ‘전화’, ‘온라인’ 키워드와 함께 언급되거나, ‘어렵다’, 혹은  ‘치열하다’ 술어로 표현되는 것을 확인할 수 있습니다.

서비스 예약이 전반적으로 문제라는 것은 알았는데, 고객들은 다름 아니라 전화 예약에 문제가 있다고 생각하는 것이었네요. 온라인 예약과 전화 예약을 비교해보면, 평가 점수 뿐만 아니라 감정 수치에서 큰 차이가 나는 것을 확인할 수 있습니다.

또 굉장히 재미있는 사실도 발견되네요. 예약이 어렵다고 생각한 사람들은 예약을 부정적으로 평가하지만, 치열하다고 생각한 사람들은 오히려 긍정적인 평가를 작성합니다.

예약을 개선할 때, ‘온라인 예약’을 보다 활성화하고, 예약 과정이 ‘어려운 것’이 아니라, 그럴만한 가치가 있는 ‘치열한 행동’이라고 인식을 만드는 것이 전반적 평가 점수를 높일 수 있는 방법이 되겠네요.

이러한 일련의 흐름은 일반적인 데이터 리터러시에서 요구되는 모든 것이 자연스럽게 연결되어 있습니다. 어떻게 연결되어 있는지 한 번 살펴볼까요?

  • 문제 상황 인식: 고객들은 예약에서 불편함을 겪는다.
  • 문제의 범위 인지:
    고객들은 특히 전화 예약에서 불편함을 겪고 있는데 대체로 어려워하고 있다. 하지만, 온라인 예약은 그나마 상황이 나은 편이다.
    예약이 치열하다고 생각하는 사람들은 우리 전체 서비스에 대해서 비교적 긍정적으로 인식하는 편이다.
  • 문제 해결 방안 수립:
    1. 전화 예약 고객을 온라인으로 예약할 수 있도록 유도한다.
    2. 온라인 예약 시스템을 개편한다.
    3. 사람들이 예약이 ‘치열하다’고 인식할 수 있도록 넛지할 수 있는 방안을 모색한다.
  • 문제 해결 방안 이후 변화 될 데이터 예측:
    1. 전체 의견 중 예약에 대한 언급 비중이 줄어들고, 동시에 예약과 전화를 동시에 언급하는 비중 역시 줄어들 것이다.
    2. 예약을 언급한 사람들의 평균 감정 수치가 긍정적으로 증가할 것이다.
    3. 예약을 언급한 사람들의 평가 점수가 개선될 것이다.

 

이처럼 포켓서베이 에스노그라피가 제공하는 키워드 보고서는 여타 서비스에서 제공하는 단순 키워드 나열을 넘어서, 비정형 데이터를 정량적으로 읽어 문제를 인지하고, 해결 방법을 탐색할 수 있는 통찰을 제공합니다. 물론 직접 수행한 에스노그라피 관측을 이와 같은 형태로 가공하면 동일한 통찰을 얻어낼 수 있습니다. 다만 데이터를 수집하고 분류하고, 시각화하는데 많은 시간이 필요하죠.

만약 우리 조직의 데이터 리터러시를 시간 효율적으로 강화하고자 한다면, 고민하지 마시고 포켓서베이의 강력한 온라인 에스노그라피를 활용해보세요.

조직의 데이터리터러시 강화
포켓서베이 온라인 에스노그라피와 함께 시작하세요.

온라인 미팅을 통해서 포켓서베이 HR
주요 기능 데모 시연 및 기능 소개를 받아보세요.
(데모 시연은 약 30분 정도 소요됩니다.)

연락처를 알려주세요.
데모를 희망하시는 일시를 알려주세요.

온라인 미팅을 통해서 포켓서베이 CX
주요 기능 데모 시연 및 기능 소개를 받아보세요.
(데모 시연은 약 30분 정도 소요됩니다.)

연락처를 알려주세요.
데모를 희망하시는 일시를 알려주세요.