## 라이브러리 로드

In [None]:
# pandas, seaborn, numpy, matplotlib.pyplot 불러오기
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

## 데이터셋 불러오기

In [None]:
# sns.load_dataset??

In [None]:
# mpg 데이터셋을 불러옵니다.
df = sns.load_dataset("mpg")
df.shape

## 데이터셋 일부만 가져오기

In [None]:
# head
df.head(2)

In [None]:
# tail
df.tail(2)

## 요약하기

In [None]:
df.info()

##  결측치 보기

In [None]:
plt.figure(figsize=(12, 6))
sns.heatmap(df.isnull())

## 기술통계

In [None]:
# describe 를 통해 범주형 변수에 대한 기술통계를 보기
df.describe(include="object")

## 범주형 변수
### 범주형 데이터 유일값의 빈도수

In [None]:
# nunique 값 구하기
df.nunique()

In [None]:
# countplot 으로 origin 빈도수 시각화 하기
sns.countplot(data=df, x="origin")

### 1개 변수의 빈도수

In [None]:
# origin 의 빈도수 구하기
df["origin"].value_counts()

### 2개 이상의 변수에 대한 빈도수

In [None]:
# countplot 으로 origin 의 빈도수를 시각화 하고 cylinders 로 다른 색상으로 표현하기
sns.countplot(data=df, x="origin", hue="cylinders")

In [None]:
# countplot 으로 cylinders 의 빈도수를 시각화 하고 origin 으로 다른 색상으로 표현하기
sns.countplot(data=df, x="cylinders", hue="origin")

In [None]:
df["origin"]

In [None]:
pd.crosstab(df.origin, df.cylinders)

In [None]:
# pd.crosstab 으로 시각화한 값 직접 구하기
pd.crosstab(df["origin"], df["cylinders"])

In [None]:
df["origin"].value_counts()

### 범주형 vs 수치형 변수

In [None]:
# barplot 으로 origin 별 mpg 값 구하기
sns.barplot(data=df, x="origin", y="mpg")

### groupby 를 통한 연산

In [None]:
# groupby를 통해 origin 별로 그룹화 하고 mpg 의 평균 구하기
df.groupby("origin")["mpg"].mean()

In [None]:
df.groupby("origin")["mpg"].agg(["mean", "count", "sum"])

In [None]:
df.groupby("origin").agg({"mpg":"sum", "cylinders":"mean"})

### pivot table을 통한 연산

In [None]:
# pivot_table 로 같은 값 구하기
pd.pivot_table(data=df, index="origin", values="mpg")

In [None]:

pd.pivot_table(data=df, index="origin", values="mpg", aggfunc=["count", "sum", "mean"])

In [None]:
# barplot 으로 합계 값 구하기
sns.barplot(data=df, x="origin", y="mpg", estimator=np.sum, ci=None)

In [None]:
# barplot 에 hue 를 사용하여 색상을 다르게 표현해 보기
sns.barplot(data=df, x="origin", y="mpg", hue="cylinders", ci=None)

In [None]:

sns.barplot(data=df, x="cylinders", y="mpg", hue="origin", ci=None)

In [None]:
sns.barplot(data=df, x="origin", y="mpg", hue="model_year", ci=None)
plt.legend(bbox_to_anchor=(1, 1))

In [None]:
# groupby 를 통해 위 시각화에 대한 값을 구하기
df.groupby(by=["origin", "cylinders"])["mpg"].mean()

In [None]:
df.groupby(by=["origin", "cylinders"])["mpg"].mean().unstack()

In [None]:
# pivot_table 를 통해 위 시각화에 대한 값을 구하기
pd.pivot_table(data=df, index=["origin", "cylinders"], values="mpg")

In [None]:
pd.pivot_table(data=df, index="origin", columns="cylinders", values="mpg")

In [None]:
# cylinders 와 mpg 의 x, hue 값을 변경해서 시각화


### boxplot과 사분위수

In [None]:
# boxplot 으로 origin 별 mpg 의 기술통계 값 구하기
sns.boxplot(data=df, x="origin", y="mpg")

In [None]:
# groupby로 origin 값에 따른 mpg의 기술통계 구하기
# 결과를 변수에 할당하여 재사용하기
desc = df.groupby("origin")["mpg"].describe()
desc

In [None]:
europe = desc.loc["europe"]
europe

### 박스플롯 이해하기
* https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC

In [None]:
# IQR, 이상치를 제외한 최댓값, 최솟값 구하기
Q3 = europe["75%"]
Q1 = europe["25%"]
IQR = Q3 - Q1
OUT_MAX = Q3 + (1.5 * IQR)
OUT_MIN = Q1 - (1.5 * IQR)
Q3, Q1, IQR, OUT_MAX, OUT_MIN

In [None]:
# europe 에 해당되는 값에 대해 boxplot 그리기
df_europe = df[df["origin"] == "europe"]
sns.boxplot(data=df_europe, x="mpg")

In [None]:
# boxenplot 그리기

sns.boxenplot(data=df_europe, x="mpg")

In [None]:
# violinplot 그리기
sns.violinplot(data=df_europe, x="mpg")


### 산점도를 통한 범주형 데이터 표현

In [None]:
# scatterplot 으로 범주형 변수 그리기
sns.scatterplot(data=df, x="origin", y="mpg")

In [None]:
# stripplot

sns.stripplot(data=df, x="origin", y="mpg")

In [None]:
# swarmplot
plt.figure(figsize=(15, 4))
sns.swarmplot(data=df, x="origin", y="mpg", size=3)

In [None]:
# sns.catplot?

In [None]:
# catplot
sns.catplot(data=df, x="origin", y="mpg", kind="violin", col="cylinders", col_wrap=3)

### catplot을 통한 범주형 데이터의 서브플롯 시각화

In [None]:
# catplot 으로 boxplot그리기

sns.catplot(data=df, x="model_year", y="mpg", kind="box", col="cylinders", col_wrap=3)

In [None]:
# catplot 으로 violinplot그리기
sns.catplot(data=df, x="model_year", y="mpg", kind="violin", col="cylinders", col_wrap=3)


In [None]:
# catplot 으로 countplot그리기

sns.catplot(data=df, x="model_year", kind="count", col="cylinders", col_wrap=3)

In [None]:
plt.figure(figsize=(12, 4))
sns.violinplot(data=df, x='origin', y='mpg')
sns.swarmplot(data=df, x='origin', y='mpg', color='white')

In [None]:
sns.catplot(data=df, x="origin", y="mpg", kind="violin", aspect=5, hight=1)
sns.catplot(data=df, x="origin", y="mpg", kind="swarm")