<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>


# **이변량 분석 ④ - 수치형  → 범주형**

- 시각화와 수치화 방법으로 수치형 변수와 범주형 변수 간 관계를 분석합니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/two_var_04.png' width=600 align='left'/>

## **1. 환경준비**

- 사용할 라이브러리와 분석 대상 데이터를 읽어옵니다.

In [None]:
import pandas as pd
import numpy as np
import random as rd
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format = 'retina'
plt.rcParams['figure.figsize'] = (6, 4)

In [None]:
# Diabetes 데이터
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/diabetes2.csv'
diabetes = pd.read_csv(path)
diabetes.head()

In [None]:
# Admission 데이터
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/admission.csv'
admission = pd.read_csv(path)
admission.head()

## **2. 시각화**

**1) Histogram**

- **Seaborn**의 **histplot()** 함수로 Histogram을 그립니다.
- Histogram을 사용해 BloodPressure 변수의 값 분포를 Outcome 변수를 기준으로 나눠서 표시해 봅니다.

In [None]:
sns.histplot(x='BloodPressure', hue='Outcome', data=diabetes, bins=20)
plt.show()

In [None]:
sns.histplot(x='BMI', hue='Outcome', bins=20, data=diabetes)
plt.show()

**2) Density Plot**

- **Seaborn**의 **kdeplot()** 함수로 Density Plot을 그립니다.

**① kdeplot(..., hue='Outcome')**

- 당뇨병환자여부의 비율이 유지된 채로 표시됩니다.
- 두 그래프의 아래 면적의 합이 1이 됩니다.

In [None]:
sns.kdeplot(x='BloodPressure', hue='Outcome', data=diabetes)
plt.show()

In [None]:
sns.kdeplot(x='BMI', hue='Outcome', data=diabetes)
plt.show()

**② kdeplot(..., hue='Outcome', common_norm=False)**

- **common_norm** 매개변수 값을 **False**로 지정하면 두 그래프 각각의 아래 면적이 1이 됩니다.

In [None]:
sns.kdeplot(x='BloodPressure', hue='Outcome', data=diabetes, common_norm=False)
plt.show()

In [None]:
sns.kdeplot(x='BMI', hue='Outcome', data=diabetes, common_norm=False)
plt.show()

**3) multiple='fill' 지정**

- **multiple** 매개변수 값을 **'fill'** 로 지정해 비율을 비교할 수 있습니다.
- 단, 양의 비교가 아닌 비율을 비교합니다.

**① kdeplot(..., hue='Outcome', multiple='fill')**

In [None]:
sns.kdeplot(x='BloodPressure', hue='Outcome', data=diabetes, multiple='fill')
plt.axhline(diabetes['Outcome'].mean(), color='r')
plt.show()

In [None]:
sns.kdeplot(x='BMI', hue='Outcome', data=diabetes, multiple='fill')
plt.axhline(diabetes['Outcome'].mean(), color='r')
plt.show()

**① histplot(..., hue='Outcome', multiple='fill')**

In [None]:
sns.histplot(x='BloodPressure', hue='Outcome', data=diabetes, bins=20, multiple='fill')
plt.axhline(diabetes['Outcome'].mean(), color='r')
plt.show()

In [None]:
sns.histplot(x='BMI', hue='Outcome', data=diabetes, bins=20, multiple='fill')
plt.axhline(diabetes['Outcome'].mean(), color='r')
plt.show()

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

admission 데이터프레임의 다음 변수들 간의 관계를 histplot(), kdeplot() 함수로 시각화해 화인하세요.

**1️⃣ GRE → ADMIT**

**2️⃣ GPA → ADMIT**

**3️⃣ TOEFL → ADMIT**

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

## **3. 수치화**

- 숫자 vs 범주에 대해 딱 맞는 가설검정 도구가 없으므로, 로지스틱 회귀모델로 부터 p-value를 구해봅니다.

In [None]:
temp = diabetes.loc[diabetes['BloodPressure'].notnull()]
model = sm.Logit(temp['Outcome'], temp['BloodPressure'])
result = model.fit()
print(result.pvalues)

In [None]:
temp = diabetes.loc[diabetes['BMI'].notnull()]
model = sm.Logit(temp['Outcome'], temp['BMI'])
result = model.fit()
print(result.pvalues)

In [None]:
temp = diabetes.loc[diabetes['Age'].notnull()]
model = sm.Logit(temp['Outcome'], temp['Age'])
result = model.fit()
print(result.pvalues)