🇺🇸
재미있는 통계

24. 표본숫자 많다고 원본과 닮은꼴?

2005.11.14

24. 표본숫자 많다고 원본과 닮은꼴?

현승윤 기자2005.11.14읽기 6원문 보기
#표본 추출#무작위 추출(Random Sampling)#대표성#모집단#여론조사#표본 편향#난수표#1936년 미국 대통령선거

지난주 칼럼에서 표본이 축소판을 닮은 꼴이 되지 못했을 때 어떤 잘못이 일어날 수 있는지를 잘 보여주는 1936년과 1948년 미국 대통령선거의 경우를 설명했다. 이런 사례는 아주 오래 전의 것이고 그 후 50여년 동안 여론조사의 기법은 매우 정교하게 발달했지만 최근에도 이런 잘못은 여전히 반복되고 있다. 우리나라의 예를 들어 보자. 1987년 13대 대통령 선거 당시 모 신문사는 여론조사 결과 K후보가 승리할 것이라고 예측했다. 표본 추출은 서울 부산 등의 대도시에서 실시했다. 따라서 대도시의 야당 지지 성향이 크게 반영돼 K후보가 우세한 것으로 나타났다. 그러나 실제로는 다른 후보가 당선됐다.

중소도시 및 농촌 지역의 유권자가 표본에서 제외됐기 때문에 잘못 예측한 것이다. 또 1995년의 서울시장 선거에서 모 금융기관이 수만명을 조사한 결과 당시 민자당의 J후보가 당선되리라고 예측했다. 그러나 결과는 전혀 달랐다. 표본은 수만명이나 됐지만 틀린 예측을 한 이유는 역시 자명했다. 수천명의 보험 판매원을 동원해서 고객(보험 가입자)을 상대로 한 조사는 대표성이 없는 것이다. 1994년 가을,각 일간지에는 다음과 같은 기사가 해외토픽난에 실렸다.

그 기사를 우선 그대로 옮겨보자.[ 美 남성,'우울할 땐 섹스'.. 여성들은 쇼핑,간식 즐겨 ]성인 남성들은 우울한 기분을 떨쳐버리기 위한 우선적 방법 중 하나로 성관계를 택하는 반면 여성들은 친구와 대화를 하거나 쇼핑 또는 간식을 잘 하는 것으로 나타났다고.이 같은 결과는 최근 발간된 미국의 '성격 및 사회심리학 저널'에 따른 것으로 102명의 대학생과 308명의 노년층 및 26명의 정신과 의사 등을 대상으로 조사한 결과라고. (연합)이 조사결과에 따르면 미국의 성인 남자는 우울한 기분을 떨쳐버리기 위해 주로 섹스를 하고 여성들은 대화 쇼핑 간식 등을 한다는 내용이다.

이 결과는 '성격 및 사회심리학 저널'이라는 전문 학술지에 실린 것이므로 누구도 이 조사의 신뢰성을 의심하지 않을 것이다. 그러나 과연 이 결과가 믿을 만한가? 조사대상은 남녀를 합해 총 436명으로 표본의 수가 적은 편에 속한다. 더욱이 조사대상자의 구성을 보면 대학생 102명,노년층 308명,그리고 정신과 의사 26명이 전부였다. 이들이 미국의 성인을 대표한다고 결코 말할 수 없다. 그러므로 여기에서 나온 결과에 굳이 의미를 부여할 필요가 없는 것이다. 이런 대표성 없는 조사결과가 그대로 발표되는 학술지라면 그 수준이 의심이 간다.

물론 이런 신뢰성 없는 결과가 여과되지 않고 사실인 양 뉴스거리가 되는 언론에도 문제가 있다. 그러면 대표성을 갖는 표본은 어떤 표본인가? 바로 표본을 뽑는 방식에 달려있다. 대표성을 갖는 표본은 모집단으로부터 되는대로 뽑은(random sampling:무작위 추출 또는 무작위 표집이라고 함) 표본을 말한다. 무작위 추출이란 모집단에 속한 대상이 표본에 뽑힐 확률이 모두 동일한 것을 말한다. TV에서 주택복권의 당첨번호를 고를 때 숫자가 적힌 과녁에 활을 쏘거나 유리항아리 속의 번호가 적힌 탁구공을 꺼내는 방법이 무작위 추출의 전형적인 예다. 어느 경우에나 0에서 9까지의 숫자가 뽑힐 확률은 동일하다.

그러나 모집단이 큰 경우에는 무작위 표집은 다음의 실례에서 알 수 있듯이 비용도 많이 들고 쉽지도 않다. 1940년 미국의 한 지역에서는 병력을 동원하기 위해 문자 그대로 무작위 표집을 사용했다. 그 지역 동원대상자 1만명 중 일부를 추출하기 위해 각자의 이름을 종이에 써서 조그만 캡슐(capsule)에 넣은 뒤 다시 1만개의 캡슐을 커다란 항아리(bowl)에 넣고 섞었다. 그 다음 지역 유지들이 눈을 가린 채 캡슐을 뽑았다. 그러나 결과는 뜻밖에도 무작위 추출에서 기대되는 결과와는 전혀 다르게 뽑힌 사람들이 일부 동네에 치우쳐 있었다.

원인은 1만개의 캡슐을 골고루 섞는 작업이 쉽지 않았고 따라서 선발이 치우쳐서 나타난 것이다. 요즘은 이렇게 항아리에서 숫자를 꺼내는 대신 훨씬 쉬운 방법인 난수표(random numbers)를 이용한다. 난수표는 미리 숫자를 무작위로 배열해 놓은 표를 말한다. 모집단에 속한 대상에게 일일이 일련번호를 매긴 뒤 난수표를 이용해 표본을 뽑으면 무작위 표집이 된다. 모집단이 사람인 경우에는 실제적으로 단순한 무작위 추출은 문제가 있을 수 있다. 예를 들어 전국의 20세 이상 성인에 대해 여론조사를 한다고 하자. 성인의 여론은 지역에 따라,소득에 따라,나이에 따라 다를 수도 있다.

이런 경우에는 우연히 한쪽에 치우친 표본이 뽑힐 가능성을 줄이기 위해 모집단을 여러 층(strata)으로 나눈 뒤,각 층에서 무작위 추출을 하게 된다. 대부분의 여론조사는 다단계 층화 무작위 표집을 이용하는데 다단계란 예를 들어 모집단을 지역 성별 나이 등으로 구분한 뒤 인구비례에 맞게 무작위 추출을 하는 것이다. 이제 여론조사에 관한 기사에서 아래와 같은 문구가 무엇을 의미하는지 이해할 수 있을 것이다. "조사는 90년 인구센서스 자료를 바탕으로 성별 연령별 지역별 인구비례를 고려해 전국의 20세 이상 성인 남녀 2000명(제주도 제외)을 다단계 층화 표집으로 숙련된 면접원이 통일된 설문지로 면접조사했다.

"김진호 jhkim@kndu.ac.kr [ 약력 ] △서울대 경영대 졸업 △미국 펜실베이니아대 와튼스쿨 경영학 석·박사 △(전)KBS 선거예측조사 자문위원 △(현)국방대 경영학과 교수

AI 퀴즈

이 기사로 1분 퀴즈 풀기

객관식 3문항 · 즉시 채점

광고Google AdSense — 728×90

🔗 본문 속 개념

📚 함께 읽으면 좋은 기사

모평균과 신뢰구간, 실생활 활용도 높아 자주 출제
2026학년도 논술길잡이

모평균과 신뢰구간, 실생활 활용도 높아 자주 출제

여론조사나 수능 가채점처럼 전수조사가 불가능할 때 표본의 평균으로 모집단의 평균을 추정하는데, 이때 95% 신뢰구간을 통해 추정의 신뢰도를 판단한다. 실생활 활용도가 높은 모평균과 신뢰구간은 수리논술에서 자주 출제되므로, 표본이 충분히 크면 정규분포로 접근하고 이전 과정의 개념들을 확실히 점검하여 대비해야 한다.

2025.10.30

커버스토리

여론은 항상 옳은가?

여론은 대중의 분위기에 쉽게 휩쓸려 조작되거나 왜곡될 수 있으며, 이는 포퓰리즘으로 이어져 사회를 잘못된 방향으로 이끌 수 있다. 따라서 참된 민주주의를 위해서는 대중이 각자의 의견이 보편적 가치와 실체적 진실에 부합하는지 깊이 있게 숙고하고 판단해야 한다.

2006.12.20

인간은 고정관념의 포로인가
커버스토리

인간은 고정관념의 포로인가

인간은 합리적 판단보다는 관성적 사고와 고정관념에 의존하는 경향이 있으며, 이러한 특성은 정치인의 지역감정 조장, 여론조사의 의도된 질문, 정부의 선별적 통계 인용 등 다양한 분야에서 교묘하게 악용되고 있다. 따라서 우리는 직관과 타성에 의존하기보다 현상의 실체를 비판적으로 파악하려는 합리적 사고 능력을 갖춰야 한다.

2007.05.23

여론조사 어디까지 믿을 수 있나?
커버스토리

여론조사 어디까지 믿을 수 있나?

여론조사는 통계적·비통계적 오류로 인해 실제 여론과 거리가 있을 수 있으며, 국내 여론조사 기관들은 비용과 시간 제약으로 표본 교체를 과도하게 하고 의도된 결과를 위해 설문지를 작성하는 등 신뢰성 문제를 안고 있다. 따라서 여론조사 결과를 절대적 사실로 받아들이기보다는 그 한계를 인식하고 신중하게 해석해야 한다.

2007.08.08

전공과 관련성이 있는 구체적인 답변이 필요해요
2019학년도 대입 전략

전공과 관련성이 있는 구체적인 답변이 필요해요

대입 면접 준비에서는 스티븐 코비의 공감적 커뮤니케이션 원칙을 적용하여 교수의 질문 의도를 파악하고, 지원학과와 관련된 현실 이슈를 바탕으로 논리적으로 진단하고 답변해야 한다. 연세대 면접 사례를 통해 보면, 개념 정리와 장단점 분석, 구체적 사례 제시를 통해 상대방이 이해할 수 있도록 설득력 있게 답변하는 능력이 중요하다.

2018.09.13

광고Google AdSense — 728×90 또는 970×250