# 범주형 변수의 EDA ( 탐색적 데이터 분석 )

## 1.범주형 변수의 기술통계

범주형 변수의 기술통계에 대해 알아봅니다. 수치 데이터와 범주형 데이터의 차이를 이해합니다.

범주형 변수의 기술통계를 구하면 다음의 항목에 대한 기술 통계를 보여줍니다.

- 빈도수(count)
- 유일값(unique)
- 결측치(isnull, isna)
- 최빈값(top), 최빈값의 빈도수(freq)
- describe(include="object")

### 1.1 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas 라이브러리를 불러옵니다.
# 수치계산을 위한 numpy를 불러옵니다.
# 데이터 시각화를 위한 matplotlib, seaborn 을 불러옵니다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
print(pd.__version__)
print(sns.__version__)

In [None]:
# 0.11.0 버전에서 변화가 많으니 이 버전 이상을 사용해 주세요. 
# !pip install seaborn --upgrade

### 1.2 데이터셋 불러오기

In [None]:
# mpg 데이터셋을 불러옵니다.
# df

df = sns.load_dataset("mpg")
df.shape


### 1.3 데이터셋 일부만 가져오기

In [None]:
# head
df.head()

In [None]:
# tail
df.tail()

### 1.4 요약하기

In [None]:
df.info()

### 1.5  결측치 보기

In [None]:
df

### 1.5 기술통계

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

In [None]:
# describe 를 통해 범주형 변수에 대한 기술통계를 보기
df.describe(include="object")

## 2. 범주형 변수의 빈도수


파이썬의 범주형 변수에 대한 빈도수를 그립니다. 
변수의 갯수에 따라 1개의 변수에 대해서는 value_counts()를 통해 그려보고 2개 이상의 변수에 대해서는 pd.crosstab을 통해 빈도수를 구합니다.

df.nunique() 를 통해 유일값의 갯수를 구할 수 있습니다.

하나의 변수에 대한 빈도수는 series.value_counts() 로 구합니다. 

(판다스 1.1.3 버전부터는 데이터프레임 전체 대한 빈도수도 구할 수 있습니다.)
seaborn 으로 빈도수를 시각화 할 때는 sns.countplot()으로 시각화 합니다.  
seaborn은 data와  x 혹은  y축의 변수값만 지정해 주면 countplot으로 빈도수를 시각화 합니다.


두 개 이상의 변수에 대한 빈도수를 구할 때는 pd.crosstab() 을 사용합니다. 
countplot을 시각화 할 때 seaborn 의 hue 에 특정 변수를 지정해 주면 해당 변수값에 따라 막대의 색상을 다르게 표현하게 됩니다.





### 2.1 범주형 데이터 유일값의 빈도수

- 숫자 데이터도 범주형 데이터 일수도 있다. ( categorical )


In [None]:
# nunique 값 구하기
df.nunique()

cylinders         5
model_year       13

- 수치 데이터 이지만 unique 값이 적어 범주형 데이터에 가깝다고 볼 수 있다.


In [None]:
# countplot 으로 origin 빈도수 시각화 하기
# countplot은 y값을 지정해주지 않아도 빈도수 count

sns.countplot(data=df, x="origin")

In [None]:
sns.countplot(data=df, y="origin")

### 2.2 범주형 변수 1개 의 빈도수

- series.value_counts()

In [None]:
# origin 의 빈도수 구하기
# series.value_counts()

df["origin"].value_counts()

### 2.2 범주형 변수 2개 이상의 변수에 대한 빈도수

In [None]:
# countplot 으로 origin 의 빈도수를 시각화 하고 cylinders 로 다른 색상으로 표현하기
# x = origin , 컬러를 cylinders 로 각각 나타내기

sns.countplot(data=df, x="origin", hue ="cylinders")



In [None]:
# countplot 으로 cylinders 의 빈도수를 시각화 하고 origin 으로 다른 색상으로 표현하기

sns.countplot(data=df, x="cylinders")



In [None]:
sns.countplot(data=df, x="cylinders",hue="origin")



In [None]:
# 2개 데이터 - pd.crosstab 으로 시각화한 값 직접 구하기
# 1개 데이터 - series.value_counts()

pd.crosstab(df["origin"],df["cylinders"])


### 2.3 result
- cylinders 8개는 only 미국 확인 가능


## 3. 범주형 변수와 수치형 변수를 barplot 으로 시각화
- **대표값(estimator) 시각화**





범주형과 수치형 변수로 막대그래프를 시각화 합니다. 

barplot 은 범주형 변수와 수치형 변수의 **대표값(estimator)** 을 그릴 때 사용합니다. 

수치형 변수를 표현하는 대표값에 대한 기본값은 평균이 됩니다. 

barplot의 값을 직접 구하고자 한다면 groupby와 pivot_table을 통해 구할 수 있습니다.


- barplot(estimator = mean)은 이상치 값 확인할 수 없다 > **boxplot**



### 3.1 barplot, estimator, ci

In [None]:

# 대표값 변경 > 'estimator' mean > 


sns.barplot(data=df, x="origin", y="mpg",estimator=np.sum)

In [None]:
# ci 신뢰구간 confidence interval sd = 표준편차
# boot straping 을 생략하고 바로 표준편차
# 신뢰구간 별 의미 없다면 ci = Node 선언

sns.barplot(data=df, x="origin", y="mpg",estimator=np.mean, ci = "sd")

In [None]:
# barplot 으로 origin 별 mpg 값 구하기

# ci = Size of confidence intervals / default = 95
# ci 신뢰구간 confidence interval   


sns.barplot(data=df, x="origin", y="mpg",estimator=np.mean, ci = 95)

### 3.2 groupby ( ) 함수를 통한 범주형 변수 연산

In [None]:
# groupby( ) 함수 method 를 통해 origin 별로 그룹화 하고 평균 구하기
# .mean() method chain : 함수들을 이어 붙혀서 사용

df.groupby("origin").mean()

In [None]:
# groupby( ) 함수 method 를 통해 origin 별로 그룹화 하고 평균 구하고 "mpg" column 인덱싱

df.groupby("origin")["mpg"].mean() # Series

# type(df.groupby("origin")["mpg"].mean()) 

### 3.3 pivot table( ) 함수를 통한 범주형 변수 연산

- pivot_table?
- pivot_table??


In [None]:
# pivot_table() 로 origin 별 mpg 평균 구하기

# aggfunc defalut mean
# index = groupby("")
# values = [""]

pd.pivot_table(data=df, index="origin", values="mpg") # DataFrame


In [None]:
# barplot 으로 합계 값 구하기
# estimator 의미 있는걸 선정해줘야 한다.
# 매출데이터 혹은 판매데이터라면 의미 있는 estimator = np.sum 으로 계산할수 있다.
# ci = 95(default) 저정도 위치하다는것을 95% 정도 신뢰할수 있다.

sns.barplot(data=df, x="origin", y="mpg",estimator=np.sum, ci = None) 

In [None]:
# barplot 에 hue 를 사용하여 색상을 다르게 표현해 보기
# cylinders 별 mpg 확인해주면서, origin별 로도 확인가능


plt.figure(figsize=(10,4))


sns.barplot(data=df, x="cylinders", y="mpg",ci=None, hue="origin")

# 실린더가 4개일때 대체적으로 연비가 높으며, 재팬이 높은 경향이 있다.


### 3.4 groupby ( ) 함수를 통한 범주형 변수 연산

In [None]:
# groupby 를 통해 위 시각화에 대한 값을 구하기
# 리스트 형태로 묶어줘야 한다.

# df.groupby("cylinders","origin") # KEY ERROR ( by=, axis 자리 ) 
# list 로 묶어 줘야 한다.
# mpg의 평균

# unstack() 데이터 프레임 화
# NaN : Not a Number
# df.groupby(["cylinders","origin"])["mpg"].mean() # Series

df.groupby(["cylinders","origin"])["mpg"].mean().unstack() # Dataframe

In [None]:
# pd.pivot : 연산 X
# pivot_table : 연산 O

# pivot_table 를 통해 모든 수치변수에 대한 평균값 구하기
pd.pivot_table(data=df, index="cylinders",columns="origin")



### 3.5 barplot hue 적용 

In [None]:
# pivot_table 를 통해 위 시각화에 대한 값(origin,cylinder별 "mpg" mean)을 구하기 
# groupby() 결과 값과 같습니다.

pd.pivot_table(data=df, index="cylinders",columns="origin",values="mpg")

In [None]:
# cylinders 와 mpg 의 x, hue 값을 변경해서 시각화
# ci 가능

plt.figure(figsize=(10,4))

sns.barplot(data=df, x="cylinders", y="mpg", hue="origin")

### 3.6 result
- barplot을 통해 범주형 변수들의 그룹별 평균과 합을 시각화 하였으며, 그룹별 평균과 합 을 groupby(),pivot_table() 을 통해 직접 구했습니다.


## 4. 범주형 변수와 수치형 변수를 boxplot 으로 시각화


범주형과 수치형변수를 박스플롯으로  그리고 사분위수와 이상치를 알아봅니다.

boxplot과 사분위수를 알아보고 boxplot 내부에  사분위수가 어떻게 표현되는지 알아봅니다. df.groupby().describe()를 통해 범주형 값으로 그룹화를 하고 개별 범주 값에 대한 기술 통계값을 구해 boxplot과 비교해 봅니다.



### 4.1 boxplot과 사분위수

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Boxplot_vs_PDF.svg/1280px-Boxplot_vs_PDF.svg.png" width="300">

이미지 출처 : https://en.wikipedia.org/wiki/Box_plot

In [None]:
# boxplot 으로 origin 별 mpg 의 기술통계 값 구하기

sns.boxplot(data=df, x="origin",y="mpg")

In [None]:
# groupby로 origin 값에 따른 mpg의 기술통계 구하기
# 결과를 변수에 할당하여 재사용하기


### 4.2 boxplot, boxenplot, violinplot

* https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC

In [None]:
# IQR, 이상치를 제외한 최댓값, 최솟값 구하기
# Q3
# Q1
# IQR
# OUT_MAX
# OUT_MIN

In [None]:
# boxplot 박스 내부 값 변화시 표시 X, 수염 부분 값 나타내기 힘듬 
# boxenplot 그리기 
# boxenplot 으로 수염부분 더 자세하게 그릴수 있다.





In [None]:
# violinplot 그리기
# kdeplot을 마주보게 그려줌으로써 수염부분을 더 자세하게 시각화 할 수 있습니다.



### 4.3 Result

- 범주형 데이터와 수치형 데이터를 가지고 
- boxplot 과 violinplot 함수를 통해
- 범주형 데이터에 따라서 수치형 데이터 **분포** 시각화

## 5. 범주형 변수 scatterplot 으로 시각화


범주형 변수의 산점도를 scatterplot으로 표현하면 같은 곳에 점이 여러 개 찍혀서 값을 제대로 표현하기 어렵습니다. 그래서 범주형 데이터의 산점도를 표현할 때는  stripplot 을 사용하면 점을 흩어지게 그리게 됩니다. 하지만 이 그래프 역시 데이터가 많으면 점이 겹쳐 보이게 되는데 이 단점을 보완한 시각화가 swarmplot 입니다.



### 5.1 산점도를 통한 범주형 데이터 표현

In [None]:
# scatterplot 으로 범주형 변수 그리기


In [None]:
# stripplot


In [None]:
# swarmplot


### 5.2 catplot을 통한 범주형 데이터의 서브플롯 시각화
<img src="https://seaborn.pydata.org/_images/function_overview_8_0.png" width="500">


범주형 데이터의 서브플롯을 시각화 할 때 사용하는 catplot
catplot 은 범주형 데이터의 서브플롯을 그릴 때 사용합니다. 기본 값은 stripplot이며 아래 catplot 의 아래에 있는 시각화를 표현할 수 있습니다.



In [None]:
# catplot


In [None]:
# catplot 으로 boxplot그리기


In [None]:
# catplot 으로 violinplot그리기


In [None]:
# catplot 으로 countplot그리기


In [None]:
# catplot 으로 boxplot그리기
# df 전체를 넣고 시각화 하기


In [None]:
# catplot 으로 violinplot그리기
# df 전체를 넣고 시각화 하기


In [None]:
address = "서울시 강남구 역삼동"

In [None]:
address.split()

# 리스트로  변경

In [None]:
alphabets = ['a', 'b', 'c', 'd', 'e']

In [None]:
alphabets[-2:]


In [None]:
foods = ["감자", "고구마", "옥수수"]

In [None]:
foods.append("dud")

In [None]:
foods

In [None]:
d = {}

In [None]:
type(d)