## module import

In [1]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

## 데이터셋 로드

In [3]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## copy

DataFrame을 복제합니다. 복제한 DataFrame을 수정해도 **원본에는 영향을 미치지 않습니다.**

In [5]:
df_copy = df.copy()

`df_copy`의 `age`를 99999로 임의 수정하도록 하겠습니다.

In [87]:
df_copy.loc[:, ['age', 'pclass', 'survived', 'sex']] = 99999
df_copy.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,99999,99999,99999,99999.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,99999,99999,99999,99999.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,99999,99999,99999,99999.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,99999,99999,99999,99999.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,99999,99999,99999,99999.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


# 결측치

결측치는 **비어있는 데이터**를 의미합니다.

결측치에 대한 처리는 매우 중요합니다.

결측치에 대한 처리를 해주려면 **다음의 내용**을 반드시 알아야 합니다.

1. 결측치 데이터 확인
2. 결측치가 아닌 데이터 확인
3. 결측 데이터 채우기
4. 결측 데이터 제거하기

## 결측치 확인 - isnull(), isna()

컬럼별 결측치의 개수를 확인하기 위해서는 `sum()` 함수를 붙혀주면 됩니다.
`sum()`은 Pandas의 통계 관련 함수

### isnull()

In [7]:
df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

### isna()

isnull()과 동작이 완전 같습니다. 편한 걸로 사용하면 됩니다.

DataFrame 전체 결측 데이터의 개수를 합산하기 위해서는 `sum()`을 두번 사용하면 됩니다.

In [8]:
df.isnull().sum().sum()

869

## 결측치가 아닌 데이터 확인 - notnull()

`notnull()`은 `isnull()`과 정확히 반대 개념입니다.

In [89]:
df.notna().sum()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 결측 데이터 필터링

`isnull()` 함수가 결측 데이터를 찾는 **boolean index**입니다.

즉, `loc`에 적용하여 조건 필터링을 걸 수 있습니다.

In [10]:
df.loc[df['age'].isnull()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
17,1,2,male,,0,0,13.0000,S,Second,man,True,,Southampton,yes,True
19,1,3,female,,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True
26,0,3,male,,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True


## 연습문제

타이타닉 승객 데이터에서 `age`가 결측치인 승객의 나이를 **30세**로 일괄 채워주세요

In [12]:
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [13]:
df['age'].isnull().value_counts()

age
False    714
True     177
Name: count, dtype: int64

In [14]:
df.loc[df['age'].isnull()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
17,1,2,male,,0,0,13.0000,S,Second,man,True,,Southampton,yes,True
19,1,3,female,,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True
26,0,3,male,,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [18]:
df.loc[df['age'].isnull(), 'age'] = 30
print(df['age'].isnull().sum)
print(df['age'].mean().round(4))

<bound method Series.sum of 0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool>
29.7589


In [23]:
assert df['age'].isnull().sum() == 0
assert df['age'].mean().round(4) == 29.7589

## 결측치 채우기 - fillna()

`fillna()`를 활용하면 결측치에 대하여 **일괄적으로 값을 채울 수** 있습니다.

In [24]:
df = sns.load_dataset('titanic')

In [25]:
df1 = df.copy()

In [26]:
df1.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


888번 index의 결측치가 700으로 채워진 것을 확인할 수 있습니다.

In [28]:
df1['age'].fillna(700).tail()

886     27.0
887     19.0
888    700.0
889     26.0
890     32.0
Name: age, dtype: float64

In [29]:
df1['age'] = df1['age'].fillna(700)
df1.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,700.0,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


## 통계값으로 채우기

### 평균으로 채우기

In [27]:
df1['age'].fillna(df1['age'].mean()).tail()

886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, dtype: float64

### 중앙 값으로 채우기

In [30]:
df1['age'].fillna(df1['age'].median()).tail()

886     27.0
887     19.0
888    700.0
889     26.0
890     32.0
Name: age, dtype: float64

## 연습문제

- 남자승객의 나이의 결측치는 남자 승객의 나이의 평균으로 채운다.
- 여자 승객의 나이의 결측치는 여자 승객의 나이의 평균으로 채운다.
- 결측치를 모두 채운 후 age 컬럼의 평균을 출력합니다. 

In [62]:
df = sns.load_dataset('titanic')
df1 = df.copy()
mean_male = df1.loc[df['sex'] == 'male', 'age'].mean()
mean_female = df1.loc[df['sex'] == 'female', 'age'].mean()

df1.loc[df['sex'] == 'male', 'age'] = df1.loc[df['sex'] == 'male', 'age'].fillna(mean_male)
df1.loc[df['sex'] == 'female', 'age'] = df1.loc[df['sex'] == 'female', 'age'].fillna(mean_female)

### 최빈값으로 채우기

In [66]:
df1['deck'].tail()

886    NaN
887      B
888    NaN
889      C
890    NaN
Name: deck, dtype: category
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

**최빈값(mode)** 으로 채울 때에는 반드시 **0번째 index 지정**하여 값을 추출한 후 채워야 합니다.

In [67]:
deck_mode = df1['deck'].mode()[0]

In [68]:
df1['deck'].fillna(deck_mode).tail()

886    C
887    B
888    C
889    C
890    C
Name: deck, dtype: category
Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G']

## NaN 값이 있는 데이터 제거하기 (dropna)

In [92]:
df1 = df.copy()
print(df1.shape)

(891, 15)


`dropna()`로 **1개라도 NaN값이 있는 행**은 제거할 수 있습니다. (`how='any'`)

In [93]:
df2 = df1.dropna()
df2.isnull().sum().sum()

0

기본 옵션값은 how=any로 설정되어 있으며, 다음과 같이 변경할 수 있습니다.

* any : 1개라도 NaN이 있으면 drop
* all : 모두 NaN값이 존재 시 drop

In [95]:
df2 = df1.dropna(how='all')
df2.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

## 제출

제출을 위해 새로 로드된 타이타닉 데이터셋에서 `age` 컬럼의 결측치를 `age` 컬럼의 평균값으로 채운 결과를 `result_age`에 저장하세요.
- 앞선 예시처럼 마지막 5개 행(`tail`)이 아닌 **전체** 결과를 저장해야 합니다.
- 결과는 전체 DataFrame이 아닌 **`age` 컬럼만 Series 형태로** 제출합니다.

In [84]:
df1 = df.copy()

mean_age = df1['age'].mean()
df1.loc[df1['age'].isnull(), 'age'] = mean_age
result_df = df1['age']

0      22.000000
1      38.000000
2      26.000000
3      35.000000
4      35.000000
         ...    
886    27.000000
887    19.000000
888    29.699118
889    26.000000
890    32.000000
Name: age, Length: 891, dtype: float64