## 모듈 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

## 데이터셋 로드

In [None]:
df = sns.load_dataset('titanic')
df.head()

**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 남자(man), 여자(woman), 아이(child)
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

## apply() - 함수를 적용

`apply()`는 데이터 전처리시 굉장히 많이 활용하는 기능입니다.

좀 더 복잡한 **logic을 컬럼 혹은 DataFrame에 적용**하고자 할 때 사용합니다.

In [None]:
df.head()

**who** 컬럼에 대하여 man은 남자, woman은 여자, child는 아이로 변경하고자 한다면 apply를 활용하여 해결할 수 있습니다.

In [None]:
df['who'].value_counts()

### 함수(function) 정의

In [None]:
def transform_who(x):
    if x == 'man':
        return '남자'
    elif x == 'woman':
        return '여자'
    else:
        return '아이'

In [None]:
df['who'].apply(transform_who)

분포를 확인하면 다음과 같습니다.

In [None]:
df['who'].apply(transform_who).value_counts()

In [None]:
def transform_who(x):
    return x['fare'] / x['age']

In [None]:
df.apply(transform_who, axis=1)

## apply() - lambda 함수

간단한 logic은 함수를 굳이 정의하지 않고, lambda 함수로 쉽게 해결할 수 있습니다.

In [None]:
df['survived'].value_counts()

**0: 사망, 1: 생존** 으로 변경하도록 하겠습니다.

In [None]:
df.head()

In [None]:
df['survived'].apply(lambda x: '생존' if x == 1 else '사망')

In [None]:
df['survived'].apply(lambda x: '생존' if x == 1 else '사망').value_counts()

### 연습문제

In [None]:
sample = df.copy()
sample.head()

In [None]:
sample['class'].value_counts()

`sample` 데이터프레임에 대하여 `apply()`를 활용하여 `class` 컬럼의 값을 다음과 같이 바꾸고, 분포를 출력후 변경 전과 동일한지 확인하세요

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>삼등석    491
일등석    216
이등석    184
Name: class, dtype: int64</pre>

## groupby() - 그룹

데이터를 특정 기준으로 그룹핑할 때 활용합니다. 엑셀의 피봇테이블과 유사합니다.

In [None]:
df.head()

타이타닉 호의 생존자와 사망자를 **성별** 기준으로 그룹핑하여 **평균**을 살펴보겠습니다.

In [None]:
df.groupby('sex').mean()

`groupby()`를 사용할 때는 반드시 aggregate 하는 **통계함수와 일반적으로 같이 적용**합니다.

### 2개 이상의 컬럼으로 그룹

2개 이상의 컬럼으로 그룹핑할 때도 list로 묶어서 지정하면 됩니다.

In [None]:
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass']).mean()

### 1개의 특정 컬럼에 대한 결과 도출

우리의 주요 관심사는 `survived` 컬럼입니다. 만약 `survived`컬럼에 대한 결과만 도출하고 싶다면 컬럼을 맨 끝에 지정합니다.

In [None]:
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])['survived'].mean()

예쁘게 출력하려면 `pd.DataFrame()`으로 감싸주거나, `survived` 컬럼을 []로 한 번 더 감싸주면 됩니다.

In [None]:
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])['survived'].mean()

In [None]:
# DataFrame으로 출력
pd.DataFrame(df.groupby(['sex', 'pclass'])['survived'].mean())

In [None]:
# DataFrame으로 출력
df.groupby(['sex', 'pclass'])[['survived']].mean()

### reset_index(): 인덱스 초기화

`reset_index()`: 그룹핑된 데이터프레임의 **index를 초기화**하여 새로운 데이터프레임을 생성합니다.

In [None]:
# index 초기화
df.groupby(['sex', 'pclass'])['survived'].mean().reset_index()

### 다중 컬럼에 대한 결과 도출

끝에 단일 컬럼이 아닌 여러 개의 컬럼을 지정합니다.

In [None]:
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])[['survived', 'age']].mean()

### 다중 통계 함수 적용

여러 가지의 통계 값을 적용할 때는 `agg()`를 사용합니다.

In [None]:
# 성별, 좌석등급 별 통계
df.groupby(['sex', 'pclass'])[['survived', 'age']].agg(['mean', 'sum'])

## 연습문제

In [None]:
sample = df.copy()
sample

`groupby()`를 활용하여 다음을 출력 하세요

`pclass` 별 생존율

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><pre>pclass
1    0.629630
2    0.472826
3    0.242363
Name: survived, dtype: float64</pre>

`embarked` 별 생존율 통합 통계

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>mean</th>
      <th>var</th>
    </tr>
    <tr>
      <th>embarked</th>
      <th></th>
      <th></th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>C</th>
      <td>0.553571</td>
      <td>0.248610</td>
    </tr>
    <tr>
      <th>Q</th>
      <td>0.389610</td>
      <td>0.240943</td>
    </tr>
    <tr>
      <th>S</th>
      <td>0.336957</td>
      <td>0.223764</td>
    </tr>
  </tbody>
</table>
</div>

`who`, `pclass`별 생존율, 생존자수

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th></th>
      <th>mean</th>
      <th>sum</th>
    </tr>
    <tr>
      <th>who</th>
      <th>pclass</th>
      <th></th>
      <th></th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th rowspan="3" valign="top">child</th>
      <th>1</th>
      <td>0.833333</td>
      <td>5</td>
    </tr>
    <tr>
      <th>2</th>
      <td>1.000000</td>
      <td>19</td>
    </tr>
    <tr>
      <th>3</th>
      <td>0.431034</td>
      <td>25</td>
    </tr>
    <tr>
      <th rowspan="3" valign="top">man</th>
      <th>1</th>
      <td>0.352941</td>
      <td>42</td>
    </tr>
    <tr>
      <th>2</th>
      <td>0.080808</td>
      <td>8</td>
    </tr>
    <tr>
      <th>3</th>
      <td>0.119122</td>
      <td>38</td>
    </tr>
    <tr>
      <th rowspan="3" valign="top">woman</th>
      <th>1</th>
      <td>0.978022</td>
      <td>89</td>
    </tr>
    <tr>
      <th>2</th>
      <td>0.909091</td>
      <td>60</td>
    </tr>
    <tr>
      <th>3</th>
      <td>0.491228</td>
      <td>56</td>
    </tr>
  </tbody>
</table>
</div>

- 남자의 나이는 남자 나이의 평균으로 채우세요
- 여자의 나이는 여자 나이의 평균으로 채우세요

In [None]:
# 결측치 확인
print(sample['age'].isnull().sum())
print(f"age 평균: {sample['age'].mean():.2f}")

In [None]:
# 코드를 입력해 주세요


In [None]:
# 검증코드
print(sample['age'].isnull().sum())
print(f"age 평균: {sample['age'].mean():.2f}")



<p><strong>[출력 결과]</strong></p><pre>0
age 평균: 29.74
</pre>

## pivot_table()

피벗테이블은 엑셀의 피벗과 동작이 유사하며, `groupby()`와도 동작이 유사합니다.

기본 동작 원리는 `index`, `columns`, `values`를 지정하여 피벗합니다.

### 1개 그룹에 대한 단일 컬럼 결과

In [None]:
# index에 그룹을 표기
df.pivot_table(index='who', values='survived')

In [None]:
# columns에 그룹을 표기
df.pivot_table(columns='who', values='survived')

### 다중 그룹에 대한 단일 컬럼 결과

In [None]:
df.pivot_table(index=['who', 'pclass'], values='survived')

### index에 컬럼을 중첩하지 않고 행과 열로 펼친 결과

In [None]:
df.pivot_table(index='who', columns='pclass', values='survived')

### 다중 통계함수 적용

In [None]:
df.pivot_table(index='who', columns='pclass', values='survived', aggfunc=['sum', 'mean'])

### 연습문제

In [None]:
tips = sns.load_dataset('tips')
tips.head()

`tips` 데이터셋을 활용하여 다음을 출력하세요

다음의 pivot table을 생성합니다.
- value는 `tip`에 대한 평균값을 산출합니다.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th>day</th>
      <th>Thur</th>
      <th>Fri</th>
      <th>Sat</th>
      <th>Sun</th>
    </tr>
    <tr>
      <th>smoker</th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>Yes</th>
      <td>3.030000</td>
      <td>2.7140</td>
      <td>2.875476</td>
      <td>3.516842</td>
    </tr>
    <tr>
      <th>No</th>
      <td>2.673778</td>
      <td>2.8125</td>
      <td>3.102889</td>
      <td>3.167895</td>
    </tr>
  </tbody>
</table>
</div>

다음의 pivot table을 생성합니다.
- value는 `total_bill`에 대한 평균과 합계를 산출합니다.

In [None]:
# 코드를 입력해 주세요


<p><strong>[출력 결과]</strong></p><div>
<style scoped>
    .dataframe tbody tr th:only-of-type {
        vertical-align: middle;
    }

    .dataframe tbody tr th {
        vertical-align: top;
    }

    .dataframe thead tr th {
        text-align: left;
    }

    .dataframe thead tr:last-of-type th {
        text-align: right;
    }
</style>
<table border="1" class="dataframe">
  <thead>
    <tr>
      <th></th>
      <th colspan="2" halign="left">mean</th>
      <th colspan="2" halign="left">sum</th>
    </tr>
    <tr>
      <th>time</th>
      <th>Lunch</th>
      <th>Dinner</th>
      <th>Lunch</th>
      <th>Dinner</th>
    </tr>
    <tr>
      <th>day</th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>Thur</th>
      <td>17.664754</td>
      <td>18.780000</td>
      <td>1077.55</td>
      <td>18.78</td>
    </tr>
    <tr>
      <th>Fri</th>
      <td>12.845714</td>
      <td>19.663333</td>
      <td>89.92</td>
      <td>235.96</td>
    </tr>
    <tr>
      <th>Sat</th>
      <td>NaN</td>
      <td>20.441379</td>
      <td>0.00</td>
      <td>1778.40</td>
    </tr>
    <tr>
      <th>Sun</th>
      <td>NaN</td>
      <td>21.410000</td>
      <td>0.00</td>
      <td>1627.16</td>
    </tr>
  </tbody>
</table>
</div>