 # 웹크롤링과 텍스트데이터 시각화

### Outline

### 2. 파이썬을 이용한 기초통계분석
    2.1 범주형 변수가 1개 있는 경우
    2.2 숫자형 변수가 1개 있는 경우
    2.3 범주형 + 숫자형 변수가 있는 경우
    2.4 숫자형 + 숫자형 변수가 있는 경우
    2.5 범주형 + 범주형 변수가 있는 경우

#### 2.1 범주형 변수가 1개 있는 경우

- **요약**: 빈도, 상대빈도
- **시각화**: 막대 그래프

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

In [None]:
a = pd.read_csv('Customer.csv')
a.head()

- 빈도: 특정 범주가 발생한 횟수

In [None]:
a['sex_cd'].value_counts()

- 상대빈도: 특정 범주가 발생한 횟수의 전체 횟수에 대한 비율

In [None]:
a['sex_cd'].value_counts(normalize=True)

- 막대 그래프

In [None]:
#sns.countplot(x='sex_cd', data=a)
sns.countplot(x=a['sex_cd'])

plt.savefig('plot.png', dpi=1000) # dpi: dots per inch로 높을수록 해상도가 높아짐

plt.show()

In [None]:
aa = a['sex_cd'].value_counts(normalize=True)
aa = aa.reset_index() # 인덱스 재설정, 여기서는 범주형 변수에 대한 열 생성을 목적으로 함
aa

In [None]:
aa.columns = ['Sex', 'Proportion']
aa

In [None]:
sns.barplot(x='Sex', y='Proportion', data=aa)
plt.show()

#### 2.2 숫자형 변수가 1개 있는 경우

- **요약**: 평균, 분산, 표준편차, 중앙값, 사분위수, 최빈값 등
- **시각화**: 히스토그램, 박스그림 등

- 평균: 데이터의 총합을 개수로 나눠준 값

In [None]:
a['sal_freq'].mean() # 구매횟수의 평균

- describe: 숫자형 변수의 모든 요약값을 출력

In [None]:
a.describe()

In [None]:
a['sal_freq'].describe()

- 히스토그램

In [None]:
a['sal_freq'].hist()
plt.show()

In [None]:
conda update seaborn --yes # seaborn을 업데이트 함 (아래 코드에서 에러가 발생하는 경우 실행)

In [None]:
sns.distplot(a['sal_freq'],kde=True) # kde = kernel density estimation
plt.show()

In [None]:
sns.distplot(a['sal_freq'],kde=True,bins=10)
plt.show()

- 박스그림
- subplot(abc): a x b 행렬의 그림에서 c번째에 위치

In [None]:
plt.subplot(221)
a['sal_freq'].plot(kind='box')

plt.subplot(222)
a['sal_freq'].plot(kind='box',vert=False)

plt.subplot(223)
sns.boxplot(x=a['sal_freq']) # "x =" 을 해주지 않으면 경고 메세지 발생
                               # sns.boxplot(data=a, x='sal_freq')로도 가능함

plt.subplot(224)
sns.boxplot(data=a, y='sal_freq')

plt.show()

#### 2.3 범주형 + 숫자형 변수가 있는 경우

- **요약**: 범주에 따른 숫자형 변수의 요약
- **시각화**: 범주별 박스그림

- pandas 모듈의 groupby 명령을 이용하여 범주에 따른 요약 가능

In [None]:
a.groupby('sex_cd').describe()

In [None]:
a.groupby('sex_cd')['sal_freq'].describe()

- 범주별 박스그림

In [None]:
sns.boxplot(data=a, x='prd_cd', y='sal_freq')
plt.show()

In [None]:
sns.boxplot(data=a, x='prd_cd', y='sal_freq', hue='sex_cd') # hue = 색상 선택 변수
plt.show()

#### 2.4 숫자형 + 숫자형 변수가 있는 경우

- **요약**: 상관계수
- **시각화**: 산점도

- 상관계수 (correlation coefficient): 두 숫자형 변수 간 선형 연관성의 방향과 정도

In [None]:
a[['sal_amt','sal_freq']].corr()

- 산점도 (scatterplot): 두 숫자형 변수 간 관계를 보여줌

In [None]:
sns.scatterplot(data=a, x="sal_freq", y="sal_amt")
plt.show()

In [None]:
sns.jointplot(data=a, x="sal_freq", y="sal_amt")
plt.show()

In [None]:
sns.jointplot(data=a, x="sal_freq", y="sal_amt", kind="hex")
plt.show()

#### 2.5 범주형 + 범주형 변수가 있는 경우

- **요약**: 분할표
- **시각화**: 모자이크 그림

- pandas 모듈의 crosstab으로 분할표 생성

In [None]:
pd.crosstab(a['sex_cd'], a['prd_cd'])

In [None]:
pd.crosstab(a['sex_cd'], a['prd_cd'], normalize=True) # 전체에서 차지하는 비율 구하기

- 모자이크 그림

In [None]:
from statsmodels.graphics.mosaicplot import mosaic

In [None]:
mosaic(a, ['sex_cd', 'prd_cd'])

- 모자이크 그림을 그리는 딕셔너리에서 키(key)를 분리

In [None]:
keys=list(mosaic(a, ['sex_cd', 'prd_cd'])[1])
keys

- 키(key)에 대응하는 값(value)을 지정하는 딕셔너리 생성 (prd_cd에 따라 다른 색상을 지정하고자 함)
- zip: 동일한 개수를 가진 자료형을 묶어주는 함수

In [None]:
cols = dict(zip(keys, [keys[i][1] for i in range(len(keys))]))
cols

In [None]:
for key in keys:
    if key[1]=='AA':
        cols[key]='red'
    elif key[1]=='AB':
        cols[key]='blue'
    elif key[1]=='AC':
        cols[key]='green'
    elif key[1]=='AD':
        cols[key]='yellow'
    else:
        cols[key]='orange'
cols

- lambda는 파이썬의 예약어로, 간단한 기능의 함수를 즉석에서 생성하고 버리는 익명함수
- "lambda (인수) : (함수식)"의 형태로 코드 내에서 사용

In [None]:
mosaic(a, ['sex_cd', 'prd_cd'], properties = lambda key: {'color':cols[key]})