## 모듈 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns
import warnings

# warning 무시
warnings.filterwarnings('ignore')

# e notation 표현 방식 변경
pd.options.display.float_format = '{:.2f}'.format

# 모든 컬럼 표시
pd.set_option('display.max_columns', None)

## 데이터셋 로드

In [None]:
df = sns.load_dataset('titanic')
df.head()

**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 남자(man), 여자(woman), 아이(child)
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

## 새로운 컬럼 추가

In [None]:
df1 = df.copy()

In [None]:
df1.head()

임의의 값을 **대입**하여 새로운 컬럼을 추가할 수 있습니다.

In [None]:
df1['VIP'] = True

In [None]:
df1.head()

중간에 컬럼을 추가하고 싶은 경우 `insert()`를 활용할 수 있습니다.

`insert(컬럼인덱스, 컬럼명, 값)`

In [None]:
df1.insert(5, 'RICH', df1['fare'] > 100)

In [None]:
df1.head()

## 삭제

삭제는 **행(row) 삭제와 열(column) 삭제**로 구분할 수 있습니다.

### 행 (row) 삭제

행 삭제시 **index를 지정하여 삭제**합니다.

In [None]:
df1.drop(1)

행 삭제시 **범위를 지정하여 삭제**할 수 있습니다.

In [None]:
df1.drop(np.arange(10))

**fancy indexing**을 활용하여 삭제할 수 있습니다.

In [None]:
df1.drop([1, 3, 5, 7, 9])

### 열 (column) 삭제

In [None]:
df1.head()

열 삭제시 **반드시 `axis=1` 옵션을 지정**해야 합니다. 2번째 위치에 지정시 `axis=`을 생략할 수 있습니다.

In [None]:
df1.drop('class', axis=1).head()

In [None]:
df1.drop('class', 1).head()

**다수의 컬럼(column) 삭제**도 가능합니다.

In [None]:
df1.drop(['who', 'deck', 'alive'], axis=1)

삭제된 내용을 바로 적용하려면 
1. `inplace=True`를 지정합니다.
2. 변수에 **재대입** 하여 결과를 반영합니다.

In [None]:
df1.drop(['who', 'deck', 'alive'], axis=1, inplace=True)

In [None]:
df1.head()

## 연습문제

- `df1`에서 1, 3, 5번행을 삭제해 주세요
- `df1`에서 `embarked`, `class`, `alone` 컬럼을 삭제해 주세요
- `df1`의 상위 10개 행을 출력하세요

In [None]:
# df 데이터프레임 복제
df1 = df.copy()

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>survived</th>
      <th>pclass</th>
      <th>sex</th>
      <th>age</th>
      <th>sibsp</th>
      <th>parch</th>
      <th>fare</th>
      <th>who</th>
      <th>adult_male</th>
      <th>deck</th>
      <th>embark_town</th>
      <th>alive</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>0</td>
      <td>3</td>
      <td>male</td>
      <td>22.00</td>
      <td>1</td>
      <td>0</td>
      <td>7.25</td>
      <td>man</td>
      <td>True</td>
      <td>NaN</td>
      <td>Southampton</td>
      <td>no</td>
    </tr>
    <tr>
      <th>2</th>
      <td>1</td>
      <td>3</td>
      <td>female</td>
      <td>26.00</td>
      <td>0</td>
      <td>0</td>
      <td>7.92</td>
      <td>woman</td>
      <td>False</td>
      <td>NaN</td>
      <td>Southampton</td>
      <td>yes</td>
    </tr>
    <tr>
      <th>4</th>
      <td>0</td>
      <td>3</td>
      <td>male</td>
      <td>35.00</td>
      <td>0</td>
      <td>0</td>
      <td>8.05</td>
      <td>man</td>
      <td>True</td>
      <td>NaN</td>
      <td>Southampton</td>
      <td>no</td>
    </tr>
    <tr>
      <th>6</th>
      <td>0</td>
      <td>1</td>
      <td>male</td>
      <td>54.00</td>
      <td>0</td>
      <td>0</td>
      <td>51.86</td>
      <td>man</td>
      <td>True</td>
      <td>E</td>
      <td>Southampton</td>
      <td>no</td>
    </tr>
    <tr>
      <th>7</th>
      <td>0</td>
      <td>3</td>
      <td>male</td>
      <td>2.00</td>
      <td>3</td>
      <td>1</td>
      <td>21.07</td>
      <td>child</td>
      <td>False</td>
      <td>NaN</td>
      <td>Southampton</td>
      <td>no</td>
    </tr>
    <tr>
      <th>8</th>
      <td>1</td>
      <td>3</td>
      <td>female</td>
      <td>27.00</td>
      <td>0</td>
      <td>2</td>
      <td>11.13</td>
      <td>woman</td>
      <td>False</td>
      <td>NaN</td>
      <td>Southampton</td>
      <td>yes</td>
    </tr>
    <tr>
      <th>9</th>
      <td>1</td>
      <td>2</td>
      <td>female</td>
      <td>14.00</td>
      <td>1</td>
      <td>0</td>
      <td>30.07</td>
      <td>child</td>
      <td>False</td>
      <td>NaN</td>
      <td>Cherbourg</td>
      <td>yes</td>
    </tr>
    <tr>
      <th>10</th>
      <td>1</td>
      <td>3</td>
      <td>female</td>
      <td>4.00</td>
      <td>1</td>
      <td>1</td>
      <td>16.70</td>
      <td>child</td>
      <td>False</td>
      <td>G</td>
      <td>Southampton</td>
      <td>yes</td>
    </tr>
    <tr>
      <th>11</th>
      <td>1</td>
      <td>1</td>
      <td>female</td>
      <td>58.00</td>
      <td>0</td>
      <td>0</td>
      <td>26.55</td>
      <td>woman</td>
      <td>False</td>
      <td>C</td>
      <td>Southampton</td>
      <td>yes</td>
    </tr>
    <tr>
      <th>12</th>
      <td>0</td>
      <td>3</td>
      <td>male</td>
      <td>20.00</td>
      <td>0</td>
      <td>0</td>
      <td>8.05</td>
      <td>man</td>
      <td>True</td>
      <td>NaN</td>
      <td>Southampton</td>
      <td>no</td>
    </tr>
  </tbody>
</table>
</div>

## 컬럼간 연산

**컬럼(column) 과 컬럼 사이의 연산을 매우 쉽게 적용**할 수 있습니다.

In [None]:
# df 데이터프레임 복제
df1 = df.copy()

**family(가족)**의 총합은 **sibsp**컬럼과 **parch**의 합산으로 구할 수 있습니다.

In [None]:
df1['family'] = df1['sibsp'] + df1['parch']

In [None]:
df1.head()

**문자열의 합 (이어붙히기)도 가능**합니다.

In [None]:
df1['gender'] = df1['who'] + '-' + df1['sex']

In [None]:
df1.head()

컬럼간 연산시 `round()`를 사용하여 소수점 자릿수를 지정할 수 있습니다.

**round(숫자, 소수 몇 째자리)**

In [None]:
df1['round'] = round(df1['fare'] / df1['age'], 2)

In [None]:
df1.head()

연산시 1개의 컬럼이라도 **NaN 값을 포함하고 있다면 결과는 NaN** 이 됩니다.

In [None]:
df1.loc[df1['age'].isnull(), 'deck':].head()

### 연습문제

`iris` 붓꽃 데이터셋을 활용하여 다음의 문제를 풀어주세요

<img src="https://machinelearninghd.com/wp-content/uploads/2021/03/iris-dataset.png"
     align="left" 
     width="500">

(참고)
- species: 붓꽃 데이터의 종류
- `sepal_length`: 꽃받침의 길이
- `sepal_width`: 꽃받침의 넓이
- `petal_length`: 꽃잎의 길이
- `petal_width`: 꽃잎의 넓이

In [None]:
iris = sns.load_dataset('iris')
iris.head()

- `sepal` 컬럼을 생성하고, `sepal_length` 와 `sepal_width`를 곱한 값을 대입하세요
- 상위 5개 행만 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>sepal_length</th>
      <th>sepal_width</th>
      <th>petal_length</th>
      <th>petal_width</th>
      <th>species</th>
      <th>sepal</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>5.10</td>
      <td>3.50</td>
      <td>1.40</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>17.85</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4.90</td>
      <td>3.00</td>
      <td>1.40</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>14.70</td>
    </tr>
    <tr>
      <th>2</th>
      <td>4.70</td>
      <td>3.20</td>
      <td>1.30</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>15.04</td>
    </tr>
    <tr>
      <th>3</th>
      <td>4.60</td>
      <td>3.10</td>
      <td>1.50</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>14.26</td>
    </tr>
    <tr>
      <th>4</th>
      <td>5.00</td>
      <td>3.60</td>
      <td>1.40</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>18.00</td>
    </tr>
  </tbody>
</table>
</div>

- `petal` 컬럼을 생성하고, `petal_length` 와 `petal_width`를 곱한 값을 대입하세요
- 상위 5개 행만 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>sepal_length</th>
      <th>sepal_width</th>
      <th>petal_length</th>
      <th>petal_width</th>
      <th>species</th>
      <th>sepal</th>
      <th>petal</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>5.10</td>
      <td>3.50</td>
      <td>1.40</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>17.85</td>
      <td>0.28</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4.90</td>
      <td>3.00</td>
      <td>1.40</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>14.70</td>
      <td>0.28</td>
    </tr>
    <tr>
      <th>2</th>
      <td>4.70</td>
      <td>3.20</td>
      <td>1.30</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>15.04</td>
      <td>0.26</td>
    </tr>
    <tr>
      <th>3</th>
      <td>4.60</td>
      <td>3.10</td>
      <td>1.50</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>14.26</td>
      <td>0.30</td>
    </tr>
    <tr>
      <th>4</th>
      <td>5.00</td>
      <td>3.60</td>
      <td>1.40</td>
      <td>0.20</td>
      <td>setosa</td>
      <td>18.00</td>
      <td>0.28</td>
    </tr>
  </tbody>
</table>
</div>

- `petal_length`, `petal_width` 컬럼을 제거하세요
- 상위 5개 행만 출력해 주세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>sepal_length</th>
      <th>sepal_width</th>
      <th>species</th>
      <th>sepal</th>
      <th>petal</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>5.10</td>
      <td>3.50</td>
      <td>setosa</td>
      <td>17.85</td>
      <td>0.28</td>
    </tr>
    <tr>
      <th>1</th>
      <td>4.90</td>
      <td>3.00</td>
      <td>setosa</td>
      <td>14.70</td>
      <td>0.28</td>
    </tr>
    <tr>
      <th>2</th>
      <td>4.70</td>
      <td>3.20</td>
      <td>setosa</td>
      <td>15.04</td>
      <td>0.26</td>
    </tr>
    <tr>
      <th>3</th>
      <td>4.60</td>
      <td>3.10</td>
      <td>setosa</td>
      <td>14.26</td>
      <td>0.30</td>
    </tr>
    <tr>
      <th>4</th>
      <td>5.00</td>
      <td>3.60</td>
      <td>setosa</td>
      <td>18.00</td>
      <td>0.28</td>
    </tr>
  </tbody>
</table>
</div>

- `species`가 **setosa**인 꽃 중 `sepal`을 기준으로 내림차순 정렬 하세요.
- 상위 10개의 행만 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>sepal_length</th>
      <th>sepal_width</th>
      <th>species</th>
      <th>sepal</th>
      <th>petal</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>15</th>
      <td>5.70</td>
      <td>4.40</td>
      <td>setosa</td>
      <td>25.08</td>
      <td>0.60</td>
    </tr>
    <tr>
      <th>14</th>
      <td>5.80</td>
      <td>4.00</td>
      <td>setosa</td>
      <td>23.20</td>
      <td>0.24</td>
    </tr>
    <tr>
      <th>33</th>
      <td>5.50</td>
      <td>4.20</td>
      <td>setosa</td>
      <td>23.10</td>
      <td>0.28</td>
    </tr>
    <tr>
      <th>18</th>
      <td>5.70</td>
      <td>3.80</td>
      <td>setosa</td>
      <td>21.66</td>
      <td>0.51</td>
    </tr>
    <tr>
      <th>32</th>
      <td>5.20</td>
      <td>4.10</td>
      <td>setosa</td>
      <td>21.32</td>
      <td>0.15</td>
    </tr>
    <tr>
      <th>5</th>
      <td>5.40</td>
      <td>3.90</td>
      <td>setosa</td>
      <td>21.06</td>
      <td>0.68</td>
    </tr>
    <tr>
      <th>16</th>
      <td>5.40</td>
      <td>3.90</td>
      <td>setosa</td>
      <td>21.06</td>
      <td>0.52</td>
    </tr>
    <tr>
      <th>10</th>
      <td>5.40</td>
      <td>3.70</td>
      <td>setosa</td>
      <td>19.98</td>
      <td>0.30</td>
    </tr>
    <tr>
      <th>48</th>
      <td>5.30</td>
      <td>3.70</td>
      <td>setosa</td>
      <td>19.61</td>
      <td>0.30</td>
    </tr>
    <tr>
      <th>46</th>
      <td>5.10</td>
      <td>3.80</td>
      <td>setosa</td>
      <td>19.38</td>
      <td>0.32</td>
    </tr>
  </tbody>
</table>
</div>

`sepal` 컬럼의 평균과 `petal` 컬럼의 평균의 차이를 구하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>12.028799999999997</pre>

## category 타입

In [None]:
df1 = df.copy()
df1.head(2)

In [None]:
df1.info()

**`category`로 변경**

`category`로 변경시에는 Categories가 같이 출력 됩니다.

In [None]:
df1['who'].astype('category').head()

변경사항을 적용합니다.

In [None]:
df1['who'] = df1['who'].astype('category')

`category` 타입으로 변경시 사용하는 메모리도 감소합니다.

In [None]:
df1.info()

타입을 `category`로 변환했다면 **.cat**으로 접근하여 category 타입이 제공하는 **attribute를 사용**할 수 있습니다.

**카테고리 출력**

In [None]:
df1['who'].cat.categories

**카테고리 이름 변경**

- 변경시 원래 순서에 맞게 입력

In [None]:
df1['who'].cat.categories = ['아이', '남자', '여자']
df1['who'].value_counts()

## datetime - 날짜, 시간

### datetime 타입이 가지는 고유 기능

`datetime` 타입에서는 **dt** 접근자로 다음과 같은 날짜 속성에 쉽게 접근할 수 있습니다.

Pandas의 **dt (datetime) 날짜 관련 변수**는 다음과 같습니다.

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.year.html)

- pandas.Series.dt.year: 연도
- pandas.Series.dt.month: 월
- pandas.Series.dt.day: 일
- pandas.Series.dt.hour: 시
- pandas.Series.dt.minute: 분
- pandas.Series.dt.second: 초
- pandas.Series.dt.microsecond: micro 초
- pandas.Series.dt.nanosecond: nano 초
- pandas.Series.dt.week: 주
- pandas.Series.dt.weekofyear: 연중 몇 째주
- pandas.Series.dt.dayofweek: 요일
- pandas.Series.dt.weekday: 요일 (dayofweek과 동일)
- pandas.Series.dt.dayofyear: 연중 몇 번째 날
- pandas.Series.dt.quarter: 분기

### to_datetime

샘플용 **서울시 공공자전거 데이터를 로드**합니다.

In [None]:
# 실습용 데이터셋 다운로드
!pip install opendata-kr -q

from opendata import dataset

dataset.download('서울시자전거')

In [None]:
# 데이터셋 로드
df2 = pd.read_csv('data/seoul_bicycle.csv')
df2.head()

In [None]:
df2.info()

**대여일자** 컬럼은 날짜 관련 컬럼처럼 보이나 `info()`는 object로 인식하였습니다.

`datetime`타입으로 변경해야 .dt 접근자를 사용할 수 있습니다.

**`pd.to_datetime()`**: datetime type으로 변환합니다.

In [None]:
pd.to_datetime(df2['대여일자'])

재대입하여 **컬럼에 적용**합니다.

In [None]:
df2['대여일자'] = pd.to_datetime(df2['대여일자'])

In [None]:
df2.info()

적용된 후 `.dt`접근자를 활용하여 datetime 속성에 접근할 수 있습니다.

In [None]:
df2['대여일자'].dt.year

In [None]:
df2['대여일자'].dt.month

In [None]:
df2['대여일자'].dt.day

In [None]:
df2['대여일자'].dt.dayofweek

### 연습문제

In [None]:
# 데이터셋 로드
df2 = pd.read_csv('data/seoul_bicycle.csv')
df2.head()

대여일자 컬럼에서 **연도, 월, 일, 요일 데이터를 추출**하여 **컬럼을 추가**하세요.
- 상위 5개 행만 출력하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>대여일자</th>
      <th>대여소번호</th>
      <th>대여소명</th>
      <th>대여구분코드</th>
      <th>성별</th>
      <th>연령대코드</th>
      <th>이용건수</th>
      <th>운동량</th>
      <th>탄소량</th>
      <th>이동거리</th>
      <th>이용시간</th>
      <th>연도</th>
      <th>월</th>
      <th>일</th>
      <th>요일</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2020-01-20</td>
      <td>3</td>
      <td>중랑센터</td>
      <td>일일(회원)</td>
      <td>M</td>
      <td>AGE_003</td>
      <td>3</td>
      <td>61.82</td>
      <td>0.52</td>
      <td>2230.00</td>
      <td>75</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2020-01-20</td>
      <td>3</td>
      <td>중랑센터</td>
      <td>일일(회원)</td>
      <td>M</td>
      <td>AGE_004</td>
      <td>1</td>
      <td>39.62</td>
      <td>0.28</td>
      <td>1220.00</td>
      <td>15</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>2</th>
      <td>2020-01-20</td>
      <td>3</td>
      <td>중랑센터</td>
      <td>정기</td>
      <td>M</td>
      <td>AGE_005</td>
      <td>3</td>
      <td>430.85</td>
      <td>4.01</td>
      <td>17270.00</td>
      <td>53</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>3</th>
      <td>2020-01-20</td>
      <td>5</td>
      <td>상암센터 정비실</td>
      <td>일일(회원)</td>
      <td>\N</td>
      <td>AGE_005</td>
      <td>2</td>
      <td>1.79</td>
      <td>0.02</td>
      <td>90.00</td>
      <td>33</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
    <tr>
      <th>4</th>
      <td>2020-01-20</td>
      <td>5</td>
      <td>상암센터 정비실</td>
      <td>정기</td>
      <td>F</td>
      <td>AGE_003</td>
      <td>1</td>
      <td>4501.96</td>
      <td>45.47</td>
      <td>196010.00</td>
      <td>64</td>
      <td>2020</td>
      <td>1</td>
      <td>20</td>
      <td>0</td>
    </tr>
  </tbody>
</table>
</div>

## pd.cut() - 구간 나누기(binning)

연속된 수치(continuous values)를 **구간으로 나누어 카테고리화** 할 때 사용합니다.

In [None]:
df2.head()

직접 범위 설정을 해줄 수 있습니다.
- `right=False`로 지정시 우측 범위를 포함하지 않습니다.

In [None]:
bins = [0, 6000, 100000, df2['이동거리'].max()]
pd.cut(df2['이동거리'], bins, right=False)

`labels`를 지정해 줄 수 있으며, 지정한 bins의 개수보다 1 개가 적어야 합니다.

In [None]:
labels = ['적음', '보통', '많음']

In [None]:
pd.cut(df2['이동거리'], bins, labels=labels, right=False)

`pd.cut()`을 활용하여 쉽게 그룹을 나눌 수 있습니다.

In [None]:
df2.head()

`bins` 옵션에 나누고자 하는 **구간의 개수**를 설정합니다.

In [None]:
df2['이동거리_cut'] = pd.cut(df2['이동거리'], bins=3)

In [None]:
df2['이동거리_cut'].value_counts()

분포를 보니 첫 구간에 대부분의 데이터가 쏠려 있습니다. 딱봐도 올바르지 않은 방법 같아 보입니다.

`pd.cut()`은 **최소에서 최대 구간을 지정한 bin만큼 동일하게 분할** 하기 때문에 이런 현상이 발생할 수 있습니다.

고르게 분포한 데이터라면 괜찮지만, 튀는 **이상치(outlier)가 있는 경우에는 안 좋은 결과**를 초래 합니다.

## pd.qcut() - 동일한 갯수를 갖도록 구간 분할

`pd.cut()`과 유사하지만, **quantity 즉 데이터의 분포를 최대한 비슷하게 유지**하는 구간을 분할 합니다.

In [None]:
df2['이동거리_qcut'] = pd.qcut(df2['이동거리'], q=3)

In [None]:
df2['이동거리_qcut'].value_counts()

구간도 예쁘게 분할(**균등하게 분할**)이 된 것 처럼 보입니다. 하지만, **간격은 일정하지 않습니다.**

qcut 또한 임의 범위를 조정할 수 있습니다.

In [None]:
qcut_bins = [0, 0.2, 0.8, 1]

In [None]:
pd.qcut(df2['이동거리'], qcut_bins)

qcut 역시 label을 지정할 수 있습니다. 마찬가지로 범위 수보다 1개 적게 설정합니다.

In [None]:
qcut_labels = ['적음', '보통', '많음']

In [None]:
pd.qcut(df2['이동거리'], qcut_bins, labels=qcut_labels).value_counts()

### 연습문제

In [None]:
sample = sns.load_dataset('titanic')
sample.head(3)

`age`를 다음과 같은 구간을 가지도록 나누어 주세요

1. 0세 초과 ~ 15세 이하
2. 15세 초과 ~ 30세 이하
3. 30세 초과 ~ 45세 이하
4. 45세 초과 ~ 최대값

나눈 다음 `age_bin` 컬럼을 생성하여 나눈 값을 대입하고 분포를 출력하세요

`cut()` 함수를 활용하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>(15.0, 30.0]    326
(30.0, 45.0]    202
(45.0, 80.0]    103
(0.0, 15.0]      83
Name: age_bin, dtype: int64</pre>

나이를 **3개의 균등 분할**을 갖도록 구간을 나누고 분포를 출력하세요
- 나이가 어린 그룹부터 차례대로 'young', 'normal', 'old' 라벨을 부여하세요

`qcut()` 함수를 활용하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>young     246
old       236
normal    232
Name: age_qbin, dtype: int64</pre>