# 데이터 집계와 시각화

### 주요 내용

1. 건수, 합계 평균 등 집계값 계산
2. 히스토그램, 상자그림, 막대그래프 등 그래프 작성 

<br>

### 목표 
1. 집계값을 계산할 수 있다.
2. 적절한 그래프를 작성하고 올바르게 해석할 수 있다.


<br>
<hr>
<br>

## 라이브러리 불러오기 

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns # 그래프 작성

<br>

## 예제 및 실습 데이터 불러오기

In [None]:
# 데이터 불러오기
df_ins = pd.read_csv('data/insurance.csv')
df_ins.head()

In [None]:
df_sp = pd.read_csv('data/StudentsPerformance.csv')
df_sp.head()

<br>

## 1. 범주형 변수의 요약과 시각화  

In [None]:
# 수준(levels) 및 개수 확인 
df_ins['smoker'].unique()

In [None]:
df_ins['smoker'].nunique()

<br>

### 1.1. 수준별 관측치 수 계산 

In [None]:
# 수준별 관측치 수 세기
df_ins['smoker'].value_counts()


### 1.2. 수준별 관측치 수 막대그래프


In [None]:
# seaborn을 활용한 막대그래프
sns.countplot(data=df_ins,
              x='smoker')


<br>

#### [실습]

1. 데이터 df_sp에서 'parental level of education'의 수준 목록 확인하기 
2. 데이터 df_sp에서 'parental level of education'의 수준별 관측치 수 계산하기
3. 데이터 df_sp에서 'parental level of education'의 수준별 관측치 수 막대그래프 그리기
2. 데이터 df_sp에서 'race/ethnicity'로 위의 1~3. 반복 하기

In [None]:
df_sp.head()

<br>
<br>
<br>

## 2. 수치형 변수의 집계값과 분포 그래프

하나의 수치형 변수로 합계, 평균과 같은 집계값을 계산할 수 있고 히스토그램이나 상자그림으로 분포를 확인


<br>

### 2.1. 수치형 변수의 집계값 계산

수치형 변수를 선택한 다음 sum( ), mean( ) 같은 메서드를 활용해서 집계값을 계산

In [None]:
# 관심 변수 선택
df_ins['charges']

In [None]:
# 수치형 변수의 집계값 계산
    # mean( ) : 수치형 Series의 메서드
df_ins['charges'].mean()

In [None]:
df_ins['charges'].sum()

In [None]:
# 분산과 표준편차계산
# df_ins['charges'].var()
df_ins['charges'].std()

In [None]:
# 관측치 수 계산하기
df_ins['charges'].count()

#### 2.1.1. numpy를 활용한 집계값 계산

In [None]:
np.sum(df_ins['charges'])

In [None]:
np.mean(df_ins['charges'])

In [None]:
np.std(df_ins['charges'], ddof=1)

<br>

### 2.2. 히스토그램 그리기

하나의 수치형변수의 분포를 파악하기 위해서 히스토그램 작성


In [None]:
# histplot()을 활용한 히스토그램
sns.histplot(data=df_ins,
             x='charges')

<br>

#### [실습] 한 수치형 변수에 대한 요약과 시각화

1. df_sp에서 'math score'의 평균 계산하기
2. df_sp에서 'math score'의 히스토그램 그려기
3. df_sp에서 'reading score'로 1~2. 반복하기



<br>


### 2.3. 분위수와 상자그림

`quantile()`을 활용해서 분위수를 계산 가능  

사분위수(quartile)를 계산하고 상자그림(boxplot)으로 분포 확인
* 최솟값(minimum, 0%)
* Q1(1st Quartile, 25%)
* 중앙값(median, 50%)
* Q3(3rd Quartile, 75%)
* 최댓값(maximum, 100%) 

In [None]:
# 대표적인 3가지 순서통계량
df_ins['charges'].min()
df_ins['charges'].median()
df_ins['charges'].max()

In [None]:
# 분위수 계산
df_ins['charges'].quantile(0.1)

In [None]:
# charges의 사분위수 계산
df_ins['charges'].quantile([0.0, 0.25, 0.5, 0.75, 1.0])
    ## quantile( ) : 계산할 분위(1.0이 최댓값) 를 리스트로 묶기

In [None]:
# age의 사분위수 계산
df_ins['age'].quantile([0.0, 0.25, 0.5, 0.75, 1.0])

In [None]:
# boxplot()을 활용한 age의 상자그림
sns.boxplot(data=df_ins,
            y='age')

In [None]:
# boxplot()을 활용한 charges의 상자그림과 이상치
sns.boxplot(data=df_ins,
            y='charges')

<br>


#### [실습]

1. df_sp에서 'reading score'의 Q1(25%), 중위수(median, 50%), Q3(75%) 계산하기
2. df_sp에서 'reading score'의 상자그림 그리기
3. df_sp에서 'writing score'로 1~2. 반복하기

<br>
<br>
<br>

## 3. 두 범주형 변수의 관계 탐색

두 범주형 변수의 관계 탐색을 위해서 `crosstab()`으로 **교차표**를 만들고 **열지도(heatmap)**를 활용해서 시각화


<br>

### 3.1. 교차표 생성과 열지도 그리기


In [None]:
# crosstab()을 활용한 교차표 생성
tab1 = pd.crosstab(df_ins['sex'], df_ins['smoker'])
tab1

In [None]:
# 열지도 시각화
    # cmap : 색상 조합
    # annot=True : 수치 출력 여부
    # fmt : 수치 출력 형식, 'd' 정수, '.2f' 소수점 둘째자리 소수
sns.heatmap(tab1, cmap='YlGnBu', annot=True, fmt='d')

* 참고: [Color Palette](https://seaborn.pydata.org/tutorial/color_palettes.html)

<br>

*crosstab( )*에서 `margins=True` 옵션을 활용하면 행, 열 합계, 전체 합계 등을 한번에 계산 가능

In [None]:
# crosstab()을 활용한 교차표 생성
tab1m = pd.crosstab(df_ins['sex'], df_ins['smoker'], margins=True)
tab1m

In [None]:
sns.heatmap(tab1m, cmap='YlGnBu', annot=True, fmt='d')

<br>

### 3.2. 행백분율과 열백분율의 계산과 열지도 그리기

두 변수의 관계를 제대로 파악하기 위해서는 상대적인 숫자 계산이 필수적  
`normalize=` 옵션을 활용해서 교차표에서 비율 계산 가능 

* `normalize='all'`: 전체 중 각 셀 비중
* `normalize='index'`: 행 백분율(행 합계 중 각 셀의 비중)
* `normalize='columns'`: 열 백분율(열 합계 중 각 셀의 비중)


In [None]:
# 전체 백분율
    # normalize : '정규화'
tab1_all = pd.crosstab(df_ins['sex'], df_ins['smoker'], normalize='all')
sns.heatmap(tab1_all, cmap='YlGnBu', annot=True, fmt='.2f')

In [None]:
# 행백분율
    # normalize='index'
tab1_idx = pd.crosstab(df_ins['sex'], df_ins['smoker'], normalize='index')
tab1_idx
sns.heatmap(tab1_idx, cmap='YlGnBu', annot=True, fmt='.2f')

In [None]:
# 열백분율
    # normalize='index'
tab1_col = pd.crosstab(df_ins['sex'], df_ins['smoker'], normalize='columns')
tab1_col
sns.heatmap(tab1_col, cmap='YlGnBu', annot=True, fmt='.2f')

In [None]:
# 전체 비율을 추가한 열백분율
    # margins=True
tab1_col = pd.crosstab(df_ins['sex'], df_ins['smoker'], normalize='columns', margins=True)
tab1_col
sns.heatmap(tab1_col, cmap='YlGnBu', annot=True, fmt='.2f')

#### [실습] 두 범주형 변수의 관계 탐색

1. df_sp에서 'race/ethnicity'와 'parental level of education'의 교차표 만들기
2. 1.의 교차표에 margin 추가하기
3. 1.의 교차표를 seaborn의 heatmap( )으로 열지도로 시각화하기
4. 2.의 교차표에서 행 백분율, 열 백분율 계산하고 시각화 하기
5. 'race/ethnicity'와 'parental level of education'의 관계 해석하기

In [None]:
df_sp.head()

<br>
<br>
<br>

## 4. 두 수치형 변수의 관계 

두 수치형 변수의 관계는 **산점도(scatterplot)**를 그리고 **상관계수(correlation coefficient)**를 계산

In [None]:
# 예제 데이터 불러오기
    # 아빠키와 아들키
df_heights = pd.read_csv('data/heights.csv')
df_heights

<br>

### 4.1. 산점도 그리기 

In [None]:
# 각 변수 평균 계산
mean_f = df_heights['father'].mean()
mean_s = df_heights['son'].mean()
mean_f, mean_s

In [None]:
# seaborn으로 산점도 그리기
plot_ = sns.scatterplot(data=df_heights, 
                        x='father', 
                        y='son', 
                        alpha=0.5)
plot_.axhline(mean_s) # 수평선 추가
plot_.axvline(mean_f) # 수직선 추가
plot_

<br>

### 4.2. 공분산과 상관 계수 계산

In [None]:
# 공분산 계산하기
df_heights[['father','son']].cov()

In [None]:
# 상관계수 계산하기
df_heights[['father','son']].corr()

<br>

#### [실습] 두 수치형 변수의 관계 탐색
 
1. **df_sp**에서 'math score'와 'reading score'의 산점도를 그리기
2. 1.의 그래프에 두 변수의 평균을 활용해서 수직선, 수평선 추가하기
3. 1.의 두 변수의 상관계수 계산하기
4. **df_ins**에서 bmi와 charges의 산점도를 그리고 상관계수 계산하기
5. df_ins에서 아래의 명령어를 실행하고 smoker별 분할 데이터로 bmi와 charges의 상관계수를 나눠 계산하기

In [None]:
# 5. 분할 데이터 생성 - 흡연여부에 따른 관측치 분할
df_ins_smoker = df_ins[df_ins['smoker'] == 'yes']
df_ins_nonsmoker = df_ins[df_ins['smoker'] == 'no']

<br>
<br>
<br>


## 5. 범주형 변수와 수치형 변수의 관계

범주형 변수를 그룹처럼 활용해서 그룹별 평균을 계산하고, 그룹별 상자그림을 그려서 분포를 비교  
한 변수의 집계에서 `groupby()`를 추가하면 되고, 필요에 따라 `agg()`를 활용 가능 

<br>

### 5.1. 그룹별 집계값의 계산

In [None]:
# 한 수치형 변수의 평균 계산
df_ins['charges'].mean()

In [None]:
# 그룹별 평균 계산
df_ins.groupby('sex', as_index=False)['charges'].mean()

<br>

### 5.2. 그래프를 활용한 그룹별 분포 비교

**seaborn**의 그래프 함수에서 `hue=`옵션 등을 활용하면 그룹별로 색을 다르게 한 그래프 작성 가능  

In [None]:
# charges의 히스토그램 
sns.histplot(data=df_ins, 
             x='charges')

In [None]:
# sex에 따라 색을 다르게 겹쳐그린 히스토그램 
sns.histplot(data=df_ins, 
             x='charges',
             hue='sex')

In [None]:
# 많이 겹치기 어려운 히스토그램
sns.histplot(data=df_ins, 
             x='charges',
             hue='region')

In [None]:
# 그룹별 상자그림의 활용
sns.boxplot(data=df_ins,
            x='sex', 
            y='charges')

In [None]:
# 더 많은 그룹을 나란하게 그린 상자그림
sns.boxplot(data=df_ins,
            x='region', 
            y='charges')

#### [실습] 변수 관계 탐색

1. 데이터 df_sp에서 `gender`별 `math score`의 평균을 계산하기 
2. 1의 두 변수를 활용해서 히스토그램과 상자그림 그리기
3. 데이터 df_sp에서 `parental level of education`별 `reading score`의 평균 계산하기
4. 3의 두 변수를 활용해서 히스토그램과 상자그림 그리기



In [None]:
df_sp.head()

<br>
<br>
<br>
<br>

#### (참고) 피벗 테이블 활용

In [None]:
# pivot_table()을 활용한 피벗 테이블 생성
    ## index  : 행 그룹변수
    ## columns: 열 그룹변수 
    ## values : 값 변수
    ## aggfunc: 집계 함수
agg = df_ins.pivot_table(index='sex', columns='region', values='charges', aggfunc='size')
agg

In [None]:
# seaborn을 활용한 시각화
sns.heatmap(agg, cmap='YlGnBu', annot=True, fmt='.0f')

#### End of script