자료에 대하여 제일 먼저 알고 싶어 하는 사항은 자료들이 대략 어떠한 값을 갖고 있는지 알아보는 것입니다.
통계를 위한 자료들은 수치로 되어 있으므로, 수치들이 어떤 위치에 있는지 알아본다는 뜻이 됩니다.
수치가 어느 위치를 중심으로 모여있는지 나타내는 척도로 평균(mean), 중앙값(median), 최빈값(mode) 등이 있습니다.
1. 평균 (mean)
- 모든 자료의 값을 다 더한 후 전체 개수로 나눔
- 중심위치 척도 중 제일 많이 사용되는 통계량
- 우리가 아는 평균은 산술 평균(mathematical average, mean)
- 자료의 특이값에 영향을 많이 받는다. (ex. 증권 가격 자료에 IMF 당시의 가격이 존재)
2. 중앙값 (median)
- 특이값의 영향을 받지 않고 사용할 수 있는 척도
- 자료를 크기 순으로 늘어놓았을 때, 가운데에 해당하는 값
- 중앙값 = (n+1)/2번째 크기 순 자료
3. 최빈값
- 자료 중에서 그 빈도수가 최대인 값인 의미
- 자료가 연속형인 경우, 도수분포표에서 빈도가 최대인 계급의 중앙값
- 평균이나 중앙값을 계산하는 것이 의미가 없는 경우에 대푯값으로 사용 (ex. 명목형 자료)
4. 사분위수
- 자료를 크기 순으로 늘어 놓은 후 똑같은 크기의 네 부분으로 나눌 때, 경계에 해당하는 값
- Q1, Q2, Q3로 정의 (각각 25%, 50%, 75%에 해당하는 값)
- Q2는 median과 같아 표기로는 사용하지 않음
- Q1 = (N+1)/4 번째 순위 값
- Q3 = (N+1)*3/4번째 순위 값
- 여기서 주의할 점은 N/4, 3N/4가 아님 (추후 프로그램을 사용하다 보면 잊어버리는 경우가 많으니 주의!)
'수리통계' 카테고리의 다른 글
[기초통계학] 1. 수치적 기술통계 - 변동성 척도(범위, 사분위간 범위, 분산, 표준편차) (0) | 2022.08.06 |
---|