"내가 젊은 변호사였을 때는 이겨야 했을 많은 사건을 졌고 나이가 들어감에 따라 져야 했을 많은 사건을 이겼다. 따라서 평균적으로는 법의 정의가 실현되었다."
이 말은 영국의 유명한 판사인 매듀스 경이 은퇴하면서 한 말이다.
이처럼 평균은 숫자들이 모여 있는 정도를 나타내는 유용한 정보이지만 분포 전체의 모양을 보여주지는 못한다.
때로는 모여 있는 정도보다 흩어져 있는 정도를 나타내는 대표값이 더 중요한 경우가 많다.
흩어져 있는 정도란 데이터가 얼마나 퍼져 있느냐,즉 각각의 숫자들이 얼마나 서로 다른가를 나타낸다.
간단한 예로 2, 2, 2, 2, 2는 전혀 흩어져 있지 않은 숫자들이고 1, 5, 10, 15, 30은 많이 흩어져 있다.
아래의 그래프는 평균(산술평균,중앙값,최빈수)은 같지만 흩어진 정도가 다른 두 학급의 성적 분포를 나타낸 것이다. 두 학급의 성적에 대해 어떤 비교나 결론을 끄집어내기 위해서는 흩어진 정도를 반드시 알아야 한다는 것을 시각적으로 보여주고 있다.
흩어진 정도를 나타내는 가장 간단한 측정치는 범위(range)로서 '최소값과 최대값 간의 차이'를 말한다.
이 차이가 크면 클수록 많이 흩어져 있는 것이다.
그러나 흩어진 정도의 측정치로 가장 널리 쓰이는 것은 표준 편차인데,그 값이 클수록 산술 평균을 중심으로 많이 흩어져 있게 된다.
표준 편차 대신 분산을 사용하기도 하는데 표준 편차는 분산의 제곱근(root)을 취한 값이다.
평균값과 표준 편차를 함께 고려하면 중심의 대표값으로서의 평균의 역할을 판단할 수도 있다.
예를 들어 평균값에 비해 표준 편차가 크다면 자료들이 평균 주위에 넓게 흩어져 있는 것이다.
따라서 이런 경우 평균은 중심의 대표값으로서의 의미가 약해진다.
훈련 중 강을 걸어서 건너야 하는 병사들이 지도에 표시된 대로 평균 수심 1.3m라는 사실만 믿고 도강한다면 어떻게 될까? 운 나쁘게도 평균 주위에 흩어진 정도가 크다면(얕은 곳과 깊은 곳이 많다면) 많은 병사가 위험에 처하게 될 것이다.
마찬가지로 어떤 강의 평균 수심이 3m라는 정보는 그 강에서 다이빙하려는 선수를 안심시키지는 못한다.
뛰어내리기 전에 최소한 흩어진 정도에 대한 정보를 알아야 한다.
어느 대학에서 같은 과목을 두 교수가 가르친다고 하자.두 교수 모두 평균 C학점을 학생들에게 준다면 그 과목을 배우려는 학생들은 어떤 교수를 선택해도 마찬가지라고 생각할 것이다.
그러나 한 교수는 대부분의 학생들이 평범하다고 생각하여 C만 주고 다른 교수는 학생들이 반은 우수하고 반은 공부를 안 한다고 생각하여 A를 주거나 D-만 준다.
그러므로 이러한 흩어짐의 정보 없이 학생들이 평균 성적 C라는 사실만 가지고 교수를 선택한다면 학점 때문에 어려움에 처할 수도 있게 된다.
어떤 병에 걸린 환자에게 의사가 "이 병에 걸린 사람은 평균 5년밖에 못 산다"고 말한다면 의사는 환자에게 충분한 정보를 제공하는 것이 아니다.
평균 생존기간만 알고 생존 기간의 분포에 대해 모른다면 환자는 그에 맞는 투병 계획을 세울 수 없다.
