[이재형의 통계이야기] ⑤

▲ 이재형 박사

지난번에 통계도 거짓말을 한다고 얘기했는데, 통계라는 계량적 측정방법이 갖는 본질적 한계 탓이기도 하다. 통계는 두 가지 유형의 거짓말을 할 가능성이 있는데 하나는 ‘표본오차’이며, 다른 하나는 ‘비표본오차’이다.

알고 싶은 사회현상이 있으면 전체를 조사하는 게 가장 좋겠지만, 시간과 돈이 너무 많이 드는 게 문제다. 대통령 선거 여론조사를 정확히 하려면 19대 대선의 경우 4247만에 이르는 유권자를 대상으로 해야 한다. 현실적으로 불가능하니까 일부를 뽑아 조사하고, 그 결과를 우리나라모든 유권자의 의사라고 간주하는 것이다. 여기서 조사에 응답한 사람들을 ‘표본’(標本, sample)이라 한다. 

피할 수 없는 통계의 거짓말, ‘표본오차’

대통령 선거 여론조사는 적어도 1,000명 이상을 표본으로 하는데, 공교롭게도 특정 후보를 지지하는 사람이 현실보다 더 많거나 적게 포함될 수 있다. 극단적으로는 1,000명의 표본이 모두 특정 정당 지지자가 될 수도 있다. 이처럼 조사대상자 가운데 일부만 표본으로 선정돼 발생할 수 있는 ‘거짓말’이 바로 표본오차다.

그래서 여론조사를 발표할 때는 항상 ‘95% 신뢰 수준에서 표본오차 ±5%’ 같은 설명을 붙여야 한다. 이는 여론조사에서 A 후보의 지지율이 30%로 나왔다면 이런 조사를 100번 했을 때 95번 정도는 A 후보의 지지율이 25-35%로 나온다는 뜻이다. 간혹 TV 시사프로그램에서 평론가들이 A후보와 B후보의 지지율 격차가 7%에 불과하여 오차범위 안에 있으므로 그 차이는 의미가 없다는 말을 종종 하는데 이는 틀린 말이다. 신뢰수준을 낮추면 오차범위도 줄어든다. 예를 들어 신뢰수준을 95%에서 70%로 낮추면 오차범위는 훨씬 축소된다. 그러므로 오차범위 내에 있는 수치도 여전히 의미가 있다.

표본오차는 우리가 알고자 하는 전체집단(모집단)과 실제 조사대상인 집단(표본) 간의 숫자 차이에 따라 불가피하게 생기는 거짓말이다. 따라서 표본오차의 크기는 모집단과 표본의 숫자가 확정되면 자동으로 계산된다. 표본오차를 줄이는 유일한 방법은 조사대상자, 곧 표본의 숫자를 늘리는 것뿐이다. 우리나라 실업률 통계에서 서울이나 부산의 실업률은 발표된다. 그런데 서울 용산구나 부산 영도구의 실업률은 발표되지 않는다. 왜 그럴까? 용산구나 영도구 같은 기초자치단체는 조사대상이 되는 가구, 곧 표본가구가 매우 적게 포함될 수밖에 없고 표본오차가 매우 커져 통계로서 의미를 잃어버리기 때문이다. 

사실대로 답하지 않아 생기는 거짓말, ‘비표본오차’

통계의 정확성과 신뢰성에 표본오차보다 더 결정적인 영향을 미치는 것이 비표본오차다. 사람들이 ‘통계가 정확한가’, ‘통계조작을 하지 않는가’, ‘통계와 현실이 다르다’ 등으로 통계에 불만을 드러내는 것은 대개 비표본오차에서 비롯된다. 비표본오차는 통계 응답자가 사실대로 응답하지 않아서 생긴다. 응답자는 왜 정확하게 응답하지 않을까? 응답자가 고의로 사실과 다르게 응답하는 경우도 있지만, 질문 내용이 분명하지 않거나 조사 방법이 잘못되는 등 요인이 많다. 응답자뿐 아니라 조사자에게도 책임이 있는 것이다. 통계의 정확성과 신뢰성을 높이기 위해 통계작성기관이 쏟는 노력의 대부분이 비표본오차를 줄이기 위한 것이다.

▲ 통계에 관한 국민의 신뢰도를 높이려면 응답자의 거짓말에 따른 비표본오차를 최소화해야 한다. ⓒ pixabay

비표본오차에는 어떤 것들이 있는지 살펴보자. 첫째는 응답자들이 일부러 거짓 응답을 하는 경우다. 사업자를 대상으로 하는 통계에서 이런 일이 많이 발생한다. 자기 사업실적을 정확하게 응답하면 정보가 세무당국으로 들어가 혹시 세금이 많이 부과되지 않을까 걱정해서 정확한 응답을 기피하는 것이다. 사업자는 대개 사업내용을 외부에 알리려 하지 않는다.

통계청이 작성하는 서비스업 조사에 따르면 2016년 ‘동네수퍼’(음식료품 위주 종합소매업)와 ‘치킨점’의 연평균 매출액은 약 1억8천만원, ‘분식·김밥집’은 8천9백만원으로 나타났다. 전문가들이 말하는 사업을 유지하기 위해 필요하다고 생각하는 최소한의 매출액보다 훨씬 낮은 수준이다. 최근에는 신용카드의 사용이 크게 늘어 자영업자들이 사업실적을 축소 응답할 유인이 적어져 그나마 많이 높아졌다. 2008년에는 연평균 매출액이 ‘동네슈퍼’가 8천8백만원, ‘치킨점’이 7천7백만원, ‘분식·김밥집’이 6천1백만원에 불과한 것으로 조사됐다. 터무니없이 낮은 수치다.

통계청장의 홍보 퍼포먼스가 낭패 본 사연

오래전 통계청 직원에게 들은 이야기다. 2000년대 초쯤에는 도소매업 및 서비스업에 종사하는 우리나라 전체 사업체를 조사대상으로 하는 서비스업센서스 통계가 있었다. 지금은 경제총조사로 통합된 건데, 당시 통계청장이 통계조사를 홍보하려고 부산통계사무소를 방문해 직원들 단골 음식점에서 점심을 사며 직원들을 격려했다. 점심 식사 후 통계청장이 직접 조사표를 들고 그 음식점 사장에게 정중하게 통계조사 응답을 요청했다. 서비스업센서스의 언론홍보 퍼포먼스였다. 그런데 조사표를 받아 든 음식점 사장이 갑자기 얼굴색을 바꾸더니 “왜 그런 조사를 하는가, 조사에 응할 수 없다”고 화를 내며 조사를 거부해 낭패를 봤다.

가구를 대상으로 하는 조사에서도 응답자가 조사를 기피하거나 거짓된 응답을 하는 사례가 많다. 조사 자체에 거부감을 보이는 사람들이 적지 않고, 다른 사람에게 알리고 싶지 않은 가정 사정이 있으면 조사에 잘 응하지 않거나 거짓 응답을 한다. 혹시 정부가 우리 가족 형편을 속속들이 알게 되면 무슨 불이익이 생기지 않을까 걱정하는 이도 적지 않다. 일제 강점기나 독재정권 시절에는 권력기관에 의한 국민사찰이 일상적인 일이어서 통계조사에 부정적인 인식을 남겼다. 당시 통반장이나 일선 공무원에게 사찰대상 주민의 동향을 파악하게 했는데, 솔직히 말할 수 없으니까 일종의 통계조사인 호구조사를 나왔다고 둘러대곤 했다.

응답자들이 본의 아니게 거짓말하는 때도 있다. 묻는 내용이 무엇인지 명확하게 이해하지 못하면 잘못된 응답을 할 수밖에 없다. 예를 들어 김갑동 씨에게 “가족이 몇 명인가”라는 질문을 했다고 치자. 그에게는 부인, 노모, 딸, 아들이 있다. 노모는 함께 살면서도 사정상 주민등록을 따로 했고, 딸은 결혼해 근처에 살고 있으며, 아들은 옆 도시 대학에 다니고 있으나 주말마다 집으로 온다. 딸이 낳은 외손자는 늘 갑동 씨 부부가 돌보고 있으며, 딸 내외도 늘 갑동 씨 집에 와 있다. 이런 경우 김복동 씨는 가족이 몇 명이라 응답해야 할까? 통계조사에서 묻는 ‘가족’의 의미가 갑동 씨에게 정확히 전달되지 못하면, 그는 엉뚱한 응답을 할 가능성이 높다. 사회활동이 다양해지고 이동성이 높아지다 보니 가족 형태도 매우 복잡해졌다.

‘취미가 뭐냐’는 질문에 당신은 정확히 답할 수 있는가

주관적 응답을 요구하는 질문에는 응답자도 자기에 관한 정보를 완전히 알지 못하는 때도 있다. 예를 들어 “취미가 무엇인가”라는 질문에 딱 부러지게 답할 수 없는 사람도 많다. 같은 질문에도 때로는 “독서”, 때로는 “등산”, 때로는 “TV시청”이라고 답할 수도 있다. “소득이 얼마인가”라는 질문에도 자기 소득을 정확히 알고 있는 사람은 많지 않다. 비교적 잘 아는 봉급생활자도 사적‧공적 이전소득이 있을 수 있고, 나 같은 연구자들만 하더라도 원고료, 강연료, 회의 참석 때 받는 거마비 등을 일일이 파악하기는 어렵다.

응답자들이 일부러 거짓 응답을 하려는 게 아닌데도, 특정 질문에 어떤 경향성을 갖는 경우가 있다. 예를 들면, “요즘 살기가 어떻습니까”, “사업이 잘 됩니까”, “요즘 경기가 어떻습니까”, “물가가 어떻습니까” 같은 질문에는 응답자들이 긍정적인 대답을 하는 경우가 거의 없으며, 어떤 경향성을 갖는다.

통계의 거짓말은 응답자 잘못에 따른 것도 있지만, 많은 부분 통계조사기관의 잘못으로 발생한다. 응답자 요인으로 발생한 거짓말이라 할지라도 이를 바로잡는 게 통계작성기관의 역할이며, 그래서 통계기관의 능력과 실력이 중요하다. 통계조사가 정확하지 못하게 만드는 요인은 통계조사 기획이 잘못되거나, 질문 내용이 명확히 정의되지 않거나, 통계기관의 업무체계가 효율적으로 구축돼 있지 못하거나, 통계조사에 필요한 인력‧예산 등 통계자원이 불충분하거나, 조사원들의 전문성이 부족하거나, 업무를 태만히 하거나 등등 수없이 많다.

질문을 어떻게 하는가에 따라서도 응답 내용이 달라진다. 예를 들어 “사람이 살아가는 데 돈이 중요한가, 다른 요소들이 중요한가”라는 질문에 대개 50% 정도는 “돈이 제일 중요하다”고 응답했다고 치자. 질문을 조금 바꿔 “사람이 살아가는데, 돈, 건강, 배우자 사랑, 가족 화목, 사회 기여, 개인적 성취감, 권력, 신앙생활, 취미생활 가운데 무엇이 제일 중요한가”라고 질문하면 아마 “돈이 제일 중요하다”고 응답하는 사람의 비율은 크게 낮아질 것이다.

선진국과 후진국 사이 통계 품질은 대개 통계조사대상자의 문제가 아니라 통계조사기관의 실력에서 차이가 나게 된다. 일단 조사돼 수치화 하고나면 그것이 정확한지 아닌지 판단하기 어렵다. 10명이 투입돼 만든 통계와 1만 명이 투입돼 만든 통계는 외형상으로는 큰 차이가 나지 않는다. 그러나 실제 통계 수준에는 현격한 차이가 날 수밖에 없다. 선진국 통계기관들은 통계조사에서 나타날 수 있는 수많은 비표본오차의 가능성을 가능하면 축소하려고 다양한 노력을 기울인다. 통계작성과 관련한 연구는 물론, 조사방법, 통계담당자의 전문성 제고, 충분한 통계자원 확보 등이 그런 노력의 일환이다.

기자가 통계 이용할 때는 관련 정보 숙독해야

다시 통계의 거짓말로 돌아가보자. 통계에서 표본오차는 어떻게 할 수 없지만, 비표본오차에 의한 거짓말이 많으니 신뢰할 수 없다고 통계를 버려야 할 것인가? 그것은 아니다. 통계는 대개 조사대상자가 많기 때문에 관리만 잘하면 비표본오차도 상당히 규칙적으로 나타난다. 통계기관의 실력이 뛰어날수록 비표본오차의 절대적 크기가 작을 뿐 아니라 형태도 상당히 규칙적이다. 이때는 비표본오차의 크기가 예측될 수 있으므로 통계이용자들은 이를 의미있는 정보로 활용할 수 있다. 비록 통계는 표본오차와 비표본오차라는 거짓말을 하지만, 통계기관의 실력이 좋으면 이를 잘 관리할 수 있다는 것이다.

어쩔 수 없이 거짓말을 하는 통계라 하더라도 이것을 어떻게 유용한 정보로 활용하는가는 통계이용자의 능력이다. 자기가 이용하는 통계가 갖는 특성을 잘 파악하면 통계에 결함이 있더라도 잘 활용할 수 있다. 이용자가 통계의 특성을 잘 파악하지 못하면, 통계를 엉뚱하게 해석하거나 과도한 의미를 부여해 사회현상을 잘못 파악할 수 있다. 연구자든 기자든, 아니면 일반인일지라도 통계를 사용할 때는 그 통계에 관련된 상세한 정보, 곧 ‘메타데이터’를 숙독할 것을 권한다.


민주주의는 건전한 공론장 없이는 성립되지 않는다. 공론장이 건전해지려면 객관적 현실 인식을 공유해야 하며 그 바탕이 되는 게 통계다. 통계가 흔들리면 정책도 여론도 왜곡될 수밖에 없다. 가짜뉴스도 통계 왜곡에서 출발한다. 언론인은 통계 해석을 잘못하면 ‘사회의 공적’이 될 수 있지만 잘하면 ‘해석특종’을 할 수 있다. 통계전문가인 이재형 박사가 통계에 얽힌 재미있는 얘기들을 풀어낸다. 한국개발연구원(KDI)에서 일하는 그는 <국가통계시스템발전방안> <한국의 산업조직과 시장구조> 등 많은 연구와 저술을 해왔고 통계청 통계개발원장을 역임했다. [편집자]

편집 : 홍석희 기자

저작권자 © 단비뉴스 무단전재 및 재배포 금지