빅데이터/엑셀로 배우는 통계분석

통계 데이터의 시각화 방법

hujoo 2023. 5. 31. 12:07

관계를 나타내는 그래프 작성

데이터의 표현 방법

1) 기술통계-조사 목적에 따라 수집된 데이터를 요약하여 설명하는 통계방법
2) 기술통계의 결과물: 표, 그래프


데이터의 요소

1) 요소: 개별 데이터를 구분하는 값
2) 요소의 종류: 요소명, 실제 수치(데이터)
3) 표: 요약된 데이터를 정리하여 보여주는 대표적인 형태
4) 데이터를 그래프로 표현하기 : 표로 작성된 데이터의 수치를 보여주는 형태

 

그래프의 종류

-막대 그래프: 데이터를 구성하는 각 요소의 수치를 막대의 길이로 표현하는 방법. 수치의 크기를 비교/분석하는 데 적합

-꺾은선 그래프-시간의 흐름에 따른 변화와 경향을 파악하는 데 적합

-혼합형 그래프: 하나의 그래프에 두 종류 이상의 그래프를 한 번에 표현할 수있는 형태

 

-띠 그래프: 전체 데이터에 대한 각 데이터의 크기를 띠의 길이에 비례하여 표시하는 방법. 두 개의 띠로 비교할 때에 유용

 

-원그래프: 띠 그래프와 같이 전체 데이터에 대한 각 데이터 크기의 비율을 원의 각도로 분할하여 표시하는 그래프

 

관계를 나타내는 표와 그래프

1) 산포도 : 2개 항목 간의 관계를 파악하기 위한 그래프
2) 산포도는 2개 변량 사이의 상관관계를 표현하는 것

3) 산포도 그래프 작성법 : 학생들의 키와 몸무게 산포도 그래프

① 키와 체중을 각각 세로와 가로의 축에 맞춰 만나는 지점에 점을 찍는다. 1번의 학생의 경우 세로 45.9, 가로 149.6
② 모든 데이터를 같은 방법으로 세로축 키와 가로축 체중의 위치에 점을 찍으면 이 데이터 집단의 산포도가 그려지게 된다.

 

도수분포표와 히스토그램 작성

도수분포표

-수집된 각각의 데이터에 대한 개수를 정리한 표
-표본 안에서 해당 데이터의 변량이 몇 번 확인되는지 빈도를 확인하는 것.
빈도를 도수라고 부름.
-전체적인 데이터의 분포를 확인하기에 편리함.
-도수분포표 작성 방법
① 주어진 데이터에서 최소값과 최대값을 찾기

② 중복되지 않고, 일정하게 계급의 크기 정하기. 5~15개가 적당
③ 계급값 찾기
④ 각 계급에 속하는 데이터의 도수 정리

위와 같은 각 도시의 강수량을 도수분포료로 표현하기 위해서는 먼저 전체 강수량 중 최솟값과 최댓값을 찾은 뒤 계급의 크기와 수를 결정.
최솟값 0, 최댓값 191.6인 전국 일 강수량을 보기 쉽게 정리하게 위해 도수분포표로 정리하면 다음과 같은 도수분포표를 만들 수 있다.
엑셀에서 도수를 구하기 위해서는 COUNTIF, COUNTIFS, FREQUENCY 등의 함수를 사용할 수 있는데, 이중 FREGQUNCY함수를 쓰는 것이 가장 편리하다.
FREQUENCY함수는 데이터 범위 내에서 해당하는 값의 발생 빈도를 계산하여 세로 배열 형태로 입력하는 배열함수
함수를 작성할 때 도수가 입력될 범위를 먼저 선택한 다음 ‘=FREQUENCY(데이터의 범위, 구간의 범위)‘ 함수식을 입력하고 ’CTRL+SHIFT+엔터’를 입력

-변량: 데이터를 수치로 나타낸 것
-계급: 변량을 일정한 간격으로 나눈 구간
-계급의 크기: 구간의 너비
-도수: 각 계급에 속하는 데이터의 개수
-계급값: 도수분포표는 계급이 구간으로 이루어지므로, 각 계급을 대표하는 값이 필요함. 계급의 양 끝 값의 합을 2로 나눈 값으로 계급 구간의 중앙값
-----------------
이 표에서는
변량: 각 도시의 강수량
계급: 강수량(mm)
계급의 크기: 20
도수: 도시의 수
계급값: 10, 30, 40 ~ 190.이 된다.
전 지역의 강수량은 60mm미만이었으나, 몇몇 지역은 강수량이 매우 차이나게 높은 것을 알 수 있다.

 

히스토그램이란?

도수분포표를 막대그래프로 표현한 것
도수분포표의 각 계급의 끝 값을 가로축에, 도수를 세로축으로 배치
각 계급의 크기를 가로로, 도수를 세로로 한 직사각형으로 나타낸 그래프

히스토그램은 도수의 분포 상태를 빠르게 파악할 수 있음.

도수분포표와 히스토그램은 주로 연속적인 데이터의 분포를 나타낼 때 사용
히스토그램은 엑셀 2016이상에서는 차트 메뉴에서 히스토그램 차트를 바로 바로 선택해 만들 수 있고, 분석도구를 통해서도 만들 수 있다.

1) 엑셀 차트로 히스토그램 만들기

① 도수분포표를 만든 후 메뉴탭의 「삽입-차트-통계차트-히스토그램」선택
② 도수분포표의 도수와 계급을 차트의 데이터로 입력
③ 엑셀의 차트를 만드는 방법으로 히스토그램 완성

2) 엑셀 차트로 히스토그램 만들기
엑셀의 데이터 분석 도구로도 히스토그램을 만들 수 있음

① 계급을 먼저 만든 후 메뉴탭의 「데이터-분석-데이터 분석」메뉴 선택
② 통계 데이터 분석 대화상자에서 「히스토그램」을 선택

③ 히스토그램을 만들기 위한 값을 대화상자에 입력하면 도수분포표와 히스토
그램이 함께 작성됨

 

파레토차트 작성

파레토 법칙

“모든 고객의 상위 20% 고객이 전체 매출의 80%를 차지한다.“
매출을 비롯해 어떤 현상에서 80%에 달하는 다수를 전체 원인의 20%가 차지한다는 법칙

파레토 법칙의 예

백화점 매출의 80%는 상위 20% 고객이 차지한다.
편의점 매출의 80%의 상위 20% 상품이 차지한다.
고객센터의 불만 접수 80%는 상위 20% 원인이 차지한다. 등

파레토차트 만들기

1) 엑셀 콤보차트로 파레토 차트 만들기

표 작성 후 데이터 수치에 따라 내림차순한 후 전체 수량에 대한 비율을 계산
비율=전제의 수량/수량

비율을 합한 누적비율을 계산
누적비율=이전 누적 비율+현재 비율
누적비율을 구하면 표 상태에서 80%에 해당되는 품목을 수치로 확인할 수 있음

세 번째 순위의 상품이 전체 판매수량의 80%대를 차지하는 것을 알 수 있음

 

2) 엑셀 파레토 차트 만들기
엑셀 2016버전이상에서는 파레토차트가 제공됨

품목과 수량의 표를 작성한 후 「삽입-차트-통계 차트 삽입-파레토」선택

판매수량에 따른 새로 막대그래프와 누적 꺾은선 그래프가 자동으로 그려지는 파레토 차트 완성

 

 

엑셀로 배우는 통계분석_5차시 예제.xlsx
0.06MB