본문 바로가기

차한잔의여유

중앙값, 평균값, 최빈값


중앙값, 최빈값, 평균값, 분산, 표준편차-
중앙값(median):  자료를 순서대로 나열할때 중앙에 위치한 값(자료가 짝수일때는 n/2에 위치한 값)
최빈값(mode):    자료중 많이 나타난 값
평균값(mean): 자료를 더한 값을 자료의 개수로 나눈 값
분산(variance):  각 자료의 평균값을 뺀 차이를 제곱한 값의 합
표준편차(standard deviation): 분산의 양의 제곱근
average 는 평균값이 아니라 대표값을 의미한다.
   통계학이나 공학에서는 mean 이 평균값을 의미한다.

아래와 같은 자료가 있다고 하자.

1,2,32,33,33,100,10000

중앙값: 33 (4번째수) 최빈값: 33 (33이 두번 나타났음) 평균값: 1457제시된 자료를 볼 때는 평균 뿐만 아니라, 중앙값, 자료의 분포를 나타낸 그래프까지 감안해 봐야 한다. 그렇지 않으면 통계값을 왜곡하는 경우가 있기 때문이다.

특히 소득통계에서는 이것이 심하다. 개인적으로는 소득순위 1등과 꼴등의 소득 차이가 10000배차이는 되지 않을까 생각한다. 이 정도 차이면 평균값은 수치로써 가치가 없다. 쉽게 말하면 중앙값은 평균값보다 많이 낮다는 의미다.

평균값 , 중압값, 최빈값, 이것들을 통들어서 대표값이라고 합니다. 

대표값은 말그대로 어떠한 집단을 대표할수 있는 값을 말하게 되는데, 자료의 형태에 따라 대표값으로 사용할수 있는게 달라지게 됩니다. 

일반적으로 자료가 정규분포를 하고 있다면 평균값, 중압값, 최빈값이 모두 같은값이 나오기 때문에 여기서 대표값은 아무것을 사용해도 무방합니다. 

하지만 모든값들은 대체적으로 작은값을 가지고 있는데 몇개의 값만 매우큰 값을 가지고 있는 집단이라고 할때 평균값은 몇개의 매우큰값에 영향을 많이 받게 됨으로 대표값으로 적절하지 못합니다. 따라서 이경우에는 중앙값이 좋은 대표값이라고 할수 있습니다. 또한 여러 계급간에 빈도수가 한계급에 집중적으로 몰려있고 나머지 계급에대한 빈도수가 매우적은 상태일때 이때 이집단의 대표값은 집중적으로 몰려있는 계급의 값 즉 최빈값으로 대표값을 사용하는게 적당하다고 판단되어집니다.

'차한잔의여유' 카테고리의 다른 글

스마트폰 관련 용어  (0) 2011.02.13
디바[Diva]  (0) 2011.02.12
화씨, 섭씨  (0) 2011.02.01
티저광고 [teaser advertising]  (0) 2010.12.21
비빔밥 광고(30초)-무한도전  (0) 2010.12.11
가장 중요한 시간. 사람. 일.  (0) 2010.11.24
K & k ?  (0) 2010.11.01
좋은 글 - 삶  (0) 2010.10.27
어느 남편의 일기  (0) 2010.09.12
삶에서 참 값진 3초  (0) 2010.09.04