<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/title.png' width=500/></center>


# **단변량 분석 ② - 범주형**

- 범주형 변수는 정해진 몇 개의 값이 여럿 모여있는 변수입니다.
- 예를 들어 Titanic 데이터의 Pclass 변수는 객실 등급 1, 2, 3이 범줏값으로 포함되어 있습니다.
- 이런 범주형 변수는 범줏값 각각이 몇 개씩 포함되어 있는지, 전체에서 각각이 차지하는 비율은 어떤지가 궁금합니다.
- 즉 범주형 변수안에 포함된 범숫값 각각의 **빈도수**와 **비율**이 분석 대상이 됩니다.

<img src='https://raw.githubusercontent.com/Jangrae/img/master/var_02.png' width=600 align='left'/>

## **1. 환경준비**

- 사용할 라이브러리와 분석 대상 데이터를 불러옵니다.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format='retina'
plt.rcParams['figure.figsize'] = (6, 4)

In [None]:
# Titanic 데이터
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/titanic.1.csv'
titanic = pd.read_csv(path)
titanic.head()

**📋 데이터 정보**

- Survived: 생존 여부(1:생존, 0:사망)
- Pclass: 객실 등급(1:1등급, 2:2등급, 3:3등급)
- Title: 호칭(Mr, Mrs, Miss, Master, Others)
- Sex: 성별(male, female)
- Age: 나이
- Fare: 운임($)
- Embarked: 승선 지역(S:Southampton, C:Cherbourg, Q:Queenstown)
  - 사우샘프턴(영국), 셰르부르(프랑스), 퀸스타운(아일랜드)
- AgeGroup: 연령대
- Family: 같이 탑승한 가족 수
- Mother: 엄마 여부

## **2. 수치화**

- 범주형 변수는 범주별 빈도수와 비율을 기초 통계량을 통해 확인합니다.
- Pandas의 **value_counts()** 메소드는 범주형 변수에 포함된 범줏값 각각의 개수를 카운트 해 줍니다.
- **normalize=True** 옵션을 지정해 개수가 아닌 비율을 확인할 수 있습니다.

In [None]:
print(titanic['Pclass'].value_counts())
print('-' * 28)
print(titanic['Pclass'].value_counts(normalize=True))

**🔍 해석**
    
- 3등급 객실 탑승객이 전체에서 55%를 차지합니다.
- 1등급 객실 탑승객이 24%, 2등급 객실 탑승객이 20.7%를 차지합니다.



In [None]:
print(titanic['Embarked'].value_counts())
print('-' * 28)
print(titanic['Embarked'].value_counts(normalize=True))

In [None]:
print(titanic['Survived'].value_counts())
print('-' * 28)
print(titanic['Survived'].value_counts(normalize=True))

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

다음 변수들의 빈도수와 비율을 확인하세요.

**1️⃣ Title**

**2️⃣ Sex**

**3️⃣ AgeGroup**

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

## **3. 시각화**

- 범주형 변수는 Bar Plot과 Pie Chart를 사용해 시각화 할 수 있습니다.
- 기초 통계량보다 좀더 쉽게 데이터를 이해할 수 있습니다.

### **3.1. Bar Plot**

- 범주 이름과 값이 필요하므로 집계 작업이 선행되어야 합니다.
- 판다스의 **value_counts()** 를 사용하여 집계합니다.
    - 집계 결과의 index: 범줏값 이름
    - 집계 결과의 values: 값
- 집계 결과를 **Matplotlib**의 **bar()** 함수로 시각화합니다.

- titanic 데이터프레임의 Pclass 변수에 포함된 범줏값 각각의 개수를 집계합니다.

In [None]:
temp = titanic['Pclass'].value_counts()
print(temp.index)
print(temp.values)

- 위 집계 결과를 bar() 함수로 시각화합니다.
- x축이 범줏값 이름, y축이 비교할 값입니다.

In [None]:
temp = titanic['Pclass'].value_counts()

plt.bar(x=temp.index, height=temp.values)
plt.show()

- **Seaborn**의 **countplot()** 함수를 사용하면 집계 과정 없이도 Bar Plot을 그릴 수 있습니다.

In [None]:
sns.countplot(x='Pclass', data=titanic)
plt.show()

In [None]:
sns.countplot(x='Embarked', data=titanic)
plt.show()

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

다음 변수들의 범줏값과 그 값들의 개수를 Seaborn의 countplot() 함수로 시각화해서 확인하세요.

**1️⃣ Title**

**2️⃣ Sex**

**3️⃣ AgeGroup**

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>

### **3.2. Pie Chart**

- 범주별 값의 빈도수가 아닌 비율을 비교할 때는 Pie Chart를 사용합니다.
- Pie Chart 역시 집계를 먼저 해야 합니다.

In [None]:
temp = titanic['Pclass'].value_counts()

plt.pie(x=temp.values, labels=temp.index, autopct='%.2f%%')
plt.show()

In [None]:
temp = titanic['Embarked'].value_counts()

plt.pie(x=temp.values, labels=temp.index, autopct='%.1f%%')
plt.show()

- 다음 두 옵션을 사용해 파이의 각도와 방향을 조절해 봅니다.
    
    - startangle=90: 90도 부터 시작
    - counterclock=False: 시계 방향으로

In [None]:
plt.pie(x=temp.values,
        labels=temp.index,
        autopct='%.2f%%',
        startangle=90,
        counterclock=False)
plt.show()

- 다음 두 옵션을 사용해 파이 간격과 그림자를 조절해 봅니다.

    - explode=[0.05, 0.05, 0.05]: 중심으로 부터 1, 2, 3을 얼마만큼 띄울지
    - shadow=True: 그림자 추가



In [None]:
plt.pie(x=temp.values,
        labels=temp.index,
        autopct='%.2f%%',
        startangle=90,
        counterclock=False,
        explode=[0.05, 0.05, 0.05],
        shadow=True)
plt.show()

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20.png' width=120 align="left"/>

다음 변수들의 범줏값과 그 값들의 비율을 Matplotlib의 pie() 함수로 시각화해서 확인하세요.

**1️⃣ Title**

**2️⃣ Sex**

<img src='https://raw.githubusercontent.com/jangrae/img/master/practice_20e.png' width=45 align="left"/>