# 입문자를 위한, 파이썬/R 데이터 분석

## 데이터를 분석할 때 가장 필수적인 스킬:
* 프로그래밍 언어 파이썬([Python](https://www.python.org/)), 
* 데이터 분석 패키지 판다스([Pandas](https://pandas.pydata.org/)), 
* 데이터 시각화 패키지 [seaborn](https://seaborn.pydata.org)과 [matplotlib](https://matplotlib.org)

데이터 분석가는 언제나 주변 동료들의 요청(ex: 운영팀, 재무팀, 마케팅팀)에 맞게 데이터를 뽑아내 그 통계치를 제공하고 시각화 결과를 전달해줘야 하는데, 파이썬과 판다스, 시각화 스킬이 부족하면 주어진 시간 내에 이를 전달하는데 어려움이 있게 되는 까닭에, 

**Data Scientist 는 데이터를 능숙하게 다룰 수 있는 파이썬과 판다스, 시각화 스킬을 필수적으로 보유하고 있어야 한다고** 일반적으로 언급합니다.

## `데이터 시각화 (Data Visualization)` : matplotlib, seaborn

- matplotlib : 시각화 하기 위해 계산하기 위한 전처리(통계적 연산 등) 작업이 많음
  [Matplotlib: Python plotting — Matplotlib 3.1.3 documentation](https://matplotlib.org/)
  
- seaborn : 상대적으로 단순하게 동일한 산출결과 표현을 할 수가 있음
  https://seaborn.pydata.org/

- plotly : R 에서도 사용가능 하고, 인터액티브한 동작기능을 제공함
  https://plot.ly/python/
  
- Bokeh : 
  Bokeh 1.4.0 documentation](https://docs.bokeh.org/en/latest/index.html)
  
- Altair :
  [Altair: Declarative Visualization in Python — Altair 4.0.0 documentation](https://altair-viz.github.io/)
  
- Tableu : 유료
  https://www.tableau.com/
  
- D3 (Data-driven documents) : Javascript 로 만들어짐, 전처리를 해주어야 D3가 표현할 수 있음
  https://d3js.org/
  

### 파이썬의 데이터 시각화 패키지인 seaborn, matplotlib을 사용를 사용한 시각화 :

seaborn은 matplotlib을 기반으로 작동하며 matplotlib에 비해 그래프의 스타일이 이쁘고, 약간의 통계 기능과 사용의 편의성 때문에 널리 쓰이고 있습니다. 하지만, seaborn을 호출하는 순간 matplotlib의 기본 스타일을 바꾸기 때문에 그래프의 모양이 바뀌는 것을 염두에 두셔야 합니다.

matplotlib은 그래프에 매우 다양한 옵션을 주어 섬세하게 그릴수 있지만 그만큼 일일이 코드로 옵션을 지정해주어야 하기 때문에 번거로울 수 있습니다.

- countplot
- barplot
- distplot
- boxplot
- pointplot
- scatterplot

In [None]:
# 패키지 불러오기 :
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline     
# Python 버전에 따라, 화면에 표시되는 여부 차이가 있을 수 있어서, 미리 선언함

In [None]:
#pd.set_option('display.max_columns', None) ## 모든 열을 출력한다.
data = pd.read_csv('data/health_2016.csv')

print(data.shape)

data.head(5)

## plot

기본적인 시각화 방법을 알아봅니다.
[countplot](https://seaborn.pydata.org/generated/seaborn.countplot.html)은 데이터의 개수를 나타내는 그래프입니다. 자체적으로 여러 옵션을 지정해줄 수 있으며 이는 연결된 링크에서 예시와 같이 확인할 수 있습니다.

### Font 깨지는 문제 해결용 : 



font 설정 오류가 발생할 경우, 

import matplotlib

matplotlib.rc('font', family='Malgun Gothic')     # for Windows

matplotlib.rc('font', family='AppleGothic')       # for Mac

matplotlib.rc('axes', unicode_minus=False)        # 숫자 마이너스 폰트가 깨지는 문제 대처용


### 경고 메시지 출력안되게...

In [None]:
import warnings

# 경고메세지 끄기
warnings.filterwarnings(action='ignore')

# 다시 출력하게 하기
#warnings.filterwarnings(action='default')

In [None]:
import matplotlib
matplotlib.rc('font', family='Malgun Gothic') # for Windows
plt.rc('font', family='Malgun Gothic') # for Windows

In [None]:
sns.countplot(data=data, x='성별코드')

### Font 글자 더 선명하게 표시하는 설정 :

In [None]:
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('retina')

In [None]:
sns.countplot(data=data, x='성별코드')

In [None]:
sns.countplot(data=data, x='시도코드')    # 숫자로 정리한 이유 : 한글이면 길이 들쑥날쑥 & 저장 사이즈가 커지므로 숫자화 시키는게 유리

In [None]:
plt.figure(figsize=(10,5))               # 그래프 사이즈 조정할 때
sns.countplot(data=data, x='시도코드')    # 숫자로 정리한 이유 : 한글이면 길이 들쑥날쑥 & 저장 사이즈가 커지므로 숫자화 시키는게 유리

## subplots

- 1줄에 2개 이상을 표현하는 방법

In [None]:
plt.subplots()

In [None]:
plt.subplots()
sns.countplot(data=data, x='성별코드')
sns.countplot(data=data, x='시도코드')

In [None]:
figure, (ax1, ax2) = plt.subplots(nrows=1, ncols=2)     
figure.set_size_inches(18, 3)
sns.countplot(data=data, x='성별코드')
sns.countplot(data=data, x='시도코드')

In [None]:
figure, (ax1, ax2) = plt.subplots(nrows=1, ncols=2)      # subplot 의 주어진 명령이라 이해하면 됨
figure.set_size_inches(18, 3)
sns.countplot(data=data, x='성별코드', ax=ax1)
sns.countplot(data=data, x='시도코드', ax=ax2)

## Color

참고 : [Color palette choices](https://seaborn.pydata.org/examples/color_palettes.html)

In [None]:
sns.countplot(data=data, x='시도코드', color='b')      # r: Red, g: Green, b: Blue

In [None]:
sns.palplot(sns.color_palette("deep", 10))       # 숫자 10 은 10개를 표현한 것

In [None]:
sns.palplot(sns.color_palette("colorblind", 10))

In [None]:
sns.palplot(sns.color_palette("coolwarm", 10))

In [None]:
sns.palplot(sns.color_palette("BuGn", 10))

In [None]:
sns.palplot(sns.color_palette("BuGn_r", 10))        # r 은 Reverse 의 의미임

In [None]:
palette = sns.color_palette('coolwarm', 10)
sns.countplot(data=data, x='시도코드', palette=palette)        # palette 에서 10 은 여기 경우 의미가 없음

## CountPlot

In [None]:
sns.countplot(data=data, x='성별코드')

In [None]:
sns.countplot(data=data, x='성별코드', hue='성별코드')

In [None]:
sns.countplot(data=data, x='시도코드', hue='흡연상태')

In [None]:
plt.figure(figsize=(18, 3))
sns.countplot(data=data, x='시도코드', hue='흡연상태')

In [None]:
plt.figure(figsize=(4, 9))
sns.countplot(data=data, y='시도코드', hue='성별코드')

## BarPlot

In [None]:
plt.figure(figsize=(18, 3))
sns.barplot(data=data, ci=90, x='연령대코드(5세단위)', y='수축기혈압')     # 기본표현 : 수축기혈압의 평균 mean 을 표시한 것

In [None]:
import numpy as np
plt.figure(figsize=(18, 3))
sns.barplot(data=data, x='연령대코드(5세단위)', y='수축기혈압', estimator=np.sum)     # 합산해볼 경우

In [None]:
plt.figure(figsize=(18, 3))
sns.barplot(data=data, y='연령대코드(5세단위)', x='수축기혈압')      # x, y 를 바꿔서 그려볼 경우,

In [None]:
plt.figure(figsize=(3, 9))
sns.barplot(data=data, y='연령대코드(5세단위)', x='수축기혈압', orient='h')      # x, y 를 바꿔서 그려볼 경우, 세로로 표현

In [None]:
plt.figure(figsize=(16, 4))
sns.barplot(data=data, x='연령대코드(5세단위)', y='수축기혈압', estimator=np.mean, ci=False)    # False : 신뢰구간 표시안함

In [None]:
plt.figure(figsize=(18, 4))
sns.barplot(data=data, x='연령대코드(5세단위)', y='수축기혈압', estimator=np.sum, ci='sd')      # sd : 표준편차

## DistPlot

[distplot](https://seaborn.pydata.org/generated/seaborn.distplot.html)은 데이터의 분포를 나타냅니다. 지금까지 다뤘던 그래프들은 옵션이 비슷하였지만 distplot은 옵션이 조금 다릅니다.

In [None]:
data['허리둘레']

In [None]:
sns.distplot(data['허리둘레'])

In [None]:
sns.distplot(data['허리둘레'], kde=False)

In [None]:
sns.distplot(data['허리둘레'], hist=False)

In [None]:
data['흡연상태'].value_counts()

In [None]:
one = data[data['흡연상태'] == 1]
two = data[data['흡연상태'] == 2]
three = data[data['흡연상태'] == 3]

In [None]:
one.head(3)

In [None]:
plt.figure(figsize=(9, 3))
#sns.distplot(one['허리둘레'], hist=False, label="흡연 안 함")             #파랑 OLD
#sns.distplot(two['허리둘레'], hist=False, label='흡연 했지만 그만 둠')    #주황 OLD
#sns.distplot(three['허리둘레'], hist=False, label='흡연 중')              #녹색 OLD
sns.kdeplot(one['허리둘레'])    #파랑
sns.kdeplot(two['허리둘레'])    #주황
sns.kdeplot(three['허리둘레'])  #녹색
plt.legend(labels=['흡연 안 함', '흡연 했지만 그만 둠', '흡연 중'])

## BoxPlot

- 최소, 중앙(median), 최대, 1, 3 사분위 수 등을 표현함
- 점(diamond형) 은 이상치 outlier 의미

1) 최소값
2) 제 1사분위수
3) 제 2사분위수, 즉 중앙값
4) 제 3사분위수
5) 최댓값

[boxplot](https://seaborn.pydata.org/generated/seaborn.boxplot.html)은 박스 모양의 그래프이며 데이터의 분포를 조금 더 세밀하게 볼 수 있는 plot입니다. 

### 분위수 (Quantile)

중앙값이 데이터를 2개의 동일한 사이즈로 나누었을 때, 그 경계값을 의미한다면, 4분위수는 데이터를 4개의 동일한 사이즈로 나누었을 때 그 경계값들을 의미합니다.

자료의 1/4 (25%) 지점을 1분위수, 2/4 (50%) 지점을 2분위수 (=중앙값), 3/4 (75%) 지점을 3분위수라고 합니다. 이를 그림으로 나타내면 아래와 같습니다.

![image](https://i.imgur.com/tssRkgA.jpg)

<img src="https://i.imgur.com/CnFsXL9.png" width=450>

![image.png](attachment:image.png)

In [None]:
plt.figure(figsize=(18, 5))
sns.boxplot(data=data, x='연령대코드(5세단위)', y='수축기혈압')   

In [None]:
plt.figure(figsize=(18, 5))
sns.boxplot(data=data, x='연령대코드(5세단위)', y='수축기혈압', hue='성별코드')   

## PointPlot

[pointplot](https://seaborn.pydata.org/generated/seaborn.pointplot.html)은 점(point)을 찍고 연결하여 나타내는 그래프입니다. pointplot은 추세를 보기 좋으며 옵션은 barplot과 동일합니다.

In [None]:
plt.figure(figsize=(18, 5))
sns.pointplot(data=data, x='연령대코드(5세단위)', y='수축기혈압')

In [None]:
plt.figure(figsize=(18, 5))
sns.pointplot(data=data, x='연령대코드(5세단위)', y='수축기혈압', hue='성별코드')

In [None]:
# 위에서 오류난다면, 
plt.figure(figsize=(18, 5))
sns.lineplot(data=data, x='연령대코드(5세단위)', y='수축기혈압', hue='성별코드')   # lineplot 으로 그려본다

In [None]:
plt.figure(figsize=(18, 5))
sns.pointplot(data=data, x='연령대코드(5세단위)', y='수축기혈압', hue='성별코드', 
             linestyles=[':','--'], markers=['o','x'])

## ScatterPlot

- x, y 축에 수치형 데이터일 때 표현하기 좋음

[scatterplot](https://seaborn.pydata.org/generated/seaborn.scatterplot.html?highlight=scatterplot#seaborn.scatterplot)은 산점도를 뜻하며 모든 데이터를 점을 찍어 나타냅니다. 자체적으로 여러 옵션을 지정해줄 수 있으며 이는 연결된 링크에서 예시와 같이 확인할 수 있습니다.

*참고: Scatterplot은 0.9.0 버전 이상의 seaborn에서만 지원하기 때문에 0.9.0 이하의 버전에서는 [lmplot](https://seaborn.pydata.org/generated/seaborn.lmplot.html)을 사용하거나 seaborn의 버전을 업데이트하면 됩니다.

In [None]:
plt.figure(figsize=(9, 5))
sns.scatterplot(data=data, x='식전혈당(공복혈당)', y='수축기혈압')   # 400 넘는 이상치 값이 확인되어 제거하기로 함

In [None]:
target = data[data['식전혈당(공복혈당)'] < 150]

In [None]:
plt.figure(figsize=(9, 5))
sns.scatterplot(data=target, x='식전혈당(공복혈당)', y='수축기혈압') 

In [None]:
plt.figure(figsize=(10, 9))
sns.scatterplot(data=target, x='식전혈당(공복혈당)', y='수축기혈압',
               hue='허리둘레', size='총콜레스테롤', sizes=(30, 550))