본문 바로가기
개발, IT

빈도분석, 중복성제거, CDF를 엑셀로 하기

by Nabi™ 2018. 7. 27.

다수의 Data를 표현할때 쓰기 좋은것이 CDF 이다.

CDF를 쉽게 그리기 위해서는 사전에 두 단계를 거쳐야 한다.

1) 빈도분석

2) 중복성 제거



빈도분석


모든 데이터가 1개씩 뿐이라면, 무시해도 되는 단계이다. 하지만 같은 값이 여러개 존재한다면, 빈도분석을 해야 한다.

Excel에서 빈도분석을 하는 방법은 다양하나, COUNTIF()함수를 사용하는 방법으로 설명 하겠다.



COUNTIF(F:F,F1) = 3 이다.



중복성 제거


중복된 값이 존재한다면, 빈도분석을해서 조정해 주어야 누적 빈도수를 구할때 혼동이 되지 않음


1) 빈도분석: A열에서 A1의 빈도를 구함

COUNTIF(A:A,A1) 


2) 상수값으로 변경: 1번에서 구한 빈도값을 상수값으로 변경함 (중복값 제거를해도 빈도가 변경되지 않도록)


3) 중복 값 제거: A와 B열을 선택한 다음 아래의 메뉴를 통해서 중복된 값을 제거함.

Data->Delete Duplicates


4) 중복 제거된 값과 빈도값을 이용해서 누적 빈도를 구하면 됨

=SUM(A1:A1)





Cumulative Distribution Function Charts in Excel


부드러운 CDF를 그리는 방법에 대해서 알아 보겠다.


CDF는 히스토 그램 차트의 약점을 보완 할 수 있다.

또한, 전체적인 비율을 쉽게 알 수 있으므로 좋은 기능을 제공한다.


I'm convinced. How do I make one in Excel?



CDF 예제 파일: 


다섯 단계


- 데이터 설정

1) 첫 번째 열 (Value)에 X축에 들어갈 데이터를 오름 차순으로 삽입


2) 네 번째 열에(빈도)에 각 value의 빈도를 적어서 넣어라


2) 세 번째 열(누적값)에 각각의 값들의 빈도를 누적해서 순서대로 적어라.

    만약, 모든 빈도가 1이라면, 단순히 값을 증가 시키는 것이면 된다. 

    빈도 누적 수식: =SUM(D1:D1)

뒤에 D1이 게속 바뀌면서 값이 누적됨.


3) 다섯 번째 열에는 데이터 총 수를 삽입


4) 두번째 열에는 누적 비율을 계산해서 넣는다.

    현재 누적 값 / 전체 값을 해서 비율을 구한다. 

C4/E1

마지막 값은 반드시, 1 이어야 한다.


- 그래프 그리기

5) Scatter chart에다가 첫 번째 컬럼과 두 번째 컬럼을 넣는다.

포인트가 아니라, 라인으로 그려지게 설정을 조정하고, 무엇이든지 더 이쁘게 보이기 위해서 여러가지를 한다.

세로는 항상 1로 고정해라. 

가로는 항상 0 부터 시작하게 해라. 


위 다섯 과정을 따라하면, 최종적으로 CDF를 얻을 수 있다.




출처: http://goodtogreate.tistory.com/entry/빈도분석-중복성-제거-CDF-Excel [GOOD to GREAT]





PDF, CDF, P-P Plot, Q-Q plot 실습자료 (출처 : 한남대학교 통계학과 권세혁교수)


SIM CLT 09172007.pdf

댓글