기초 통계(Statistic)

PatternRecognition

FunnyPR 2014. 4. 14. 16:23

기초 통계(Statistic)

표본에 대한 통계적인 분석을 통하여 통계적 파라미터를 추정하고, 그 표본의 특징을 표현할 수 있음

 요약과 추정

■ 데이터 분석 과정

- 수치로 표현된 데이터를 처리 가공하여 유용하고 의미 있는 정보를 도출해 내는 과정

- 데이터 분석 과정은 요약과 추정 단계를 가짐

[요약] 수집된 데이터를 정보 손실을 최소화하면서 일목요연하게 정리하는 것

[추정] 요약된 데이터를 특정 집단에 적용하여 어떠한 사실을 유추해 내는 것

 데이터 분석의 타당성(Validity)과 신뢰성(Reliability)

- 과학적 방법의 의미를 갖기 위해서는 타당성과 신뢰성을 가져야 함

[타당성] 원래 수집하고자 하는 내용을 제대로 수집했는가?

[신뢰성] 서로 다르게 반복적으로 데이터를 수집하더라도 항상 동일한 결과가 얻어지는가?

 모집단(Population)과 표본(Sample)

[모집단] 데이터 분석의 관심이 되는 전체 대상

[표본] 모집단의 특성을 파악하기 위해서 수집된 모집단의 일부분인 개별 자료

 표본 분포(Sampling Distribution)

- 동일한 모집단으로부터 취해진 동일한 크기의 모든 가능한 표본으로부터 얻어진 통계값들의 분포

2. 통계 파라미터(population parameter , 母數)

 모수(Parameter): 통계적 모집단을 설명함

고정된 값으로 추정에 의하여 구해질 수 있음

 통계 파라미터: 평균, 분산, 표준 편차, 바이어스, 공분산, 상관 계수, 왜도와 첨도 등이 있음

 평균(Mean)

- 평균은 자료의 총합을 자료의 개수로 나눈 것을 말함

- 평균은 자료의 분포를 질점계의 분포로 보면 무게 중심에 해당

- 질점계(質點系): 몇 개의 질점으로 이루어지는 역학적 체계

 분산(Variance) - 아래는 표본에 대한 분산임.

자료로부터 평균값의 차이에 대한 제곱 값의 평균을 분산이라고 함

- 자료의 흩어진 정도를 나타냄

 표준 편차(Standard deviation)

분산은 자료의 단위에 따라 달라지므로 분산의 제곱근을 취하여 자료의 단위와 일치시킨 것을 표준 편차라고 함

 공분산(Covariance)

두 개 이상의 변량 데이터가 주어질 경우 각 변량간의 변화하는 양상을 나타내는 통계적 척도

표본의 랜덤 데이터가 이변량 데이터(bivariate)(xi, yi)일 경우 공분산은 다음과 같이 계산

 바이어스(Bias)

데이터의 편향된 정도를 나타냄

 상관계수(r-correlation)

두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)를 말함

 왜도(Skewness)와 첨도(Kurtosis)

■ 왜도는 분포가 어느 한쪽으로 치우진(비대칭:asymmetry) 정도를 나타내는 통계적 척도

- 오른쪽이 더 길면 양 반대로 왼쪽이 더 길면 음, 좌우대칭이면 0이 됨

■ 첨도는 뾰족한(peakedness) 정도를 나타내는 통계적 척도임

Kurtosis < 3 : 평편한 분포

Kurtosis = 3 : 정규 분포

Kurtosis > 3 : 뾰쪽한 분포