## 모듈 import

In [None]:
from IPython.display import Image
import numpy as np
import pandas as pd
import seaborn as sns

## 데이터셋 로드

In [None]:
df = sns.load_dataset('titanic')
df.head()

**컬럼(columns) 설명**

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 남자(man), 여자(woman), 아이(child)
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

## copy

DataFrame을 **복제**합니다. 복제한 DataFrame을 수정해도 **원본에는 영향을 미치지 않습니다.**

In [None]:
df.head()

`copy()`로 DataFrame을 복제합니다.

In [None]:
df_copy = df.copy()

In [None]:
df_copy.head()

`df_copy`의 `age`를 99999로 임의 수정하도록 하겠습니다.

In [None]:
df_copy.loc[0, 'age'] = 99999

수정사항이 반영된 것을 확인할 수 있습니다.

In [None]:
df_copy.head()

하지만, 원본 DataFrame의 **데이터는 변경되지 않고 그대로 남아** 있습니다.

In [None]:
df.head()

# 결측치

결측치는 **비어있는 데이터**를 의미합니다.

결측치에 대한 처리는 매우 중요합니다. 

결측치에 대한 처리를 해주려면 **다음의 내용**을 반드시 알아야 합니다.

1. 결측 데이터 확인
2. 결측치가 **아닌** 데이터 확인
3. 결측 데이터 **채우기**
4. 결측 데이터 **제거하기**

## 결측치 확인 - isnull(), isna()

컬럼(column)별 결측치의 갯수를 확인하기 위해서는 `sum()` 함수를 붙혀주면 됩니다.

`sum()`은 Pandas의 통계 관련 함수이며, 통계 관련 함수는 추후에 더 자세히 알아볼 예정입니다.

**isnull()**

In [None]:
df.isnull().sum()

**isna()**

isnull() 과 동작이 완전 같습니다. 편한 것으로 써주세요. (심지어 도큐먼트도 같습니다)

In [None]:
df.isna().sum()

DataFrame 전체 결측 데이터의 갯수를 합산하기 위해서는 `sum()`을 두 번 사용하면 됩니다.

In [None]:
df.isnull().sum().sum()

## 결측치가 아닌 데이터 확인 - notnull()

`notnull()`은 `isnull()`과 정확히 **반대** 개념입니다.

In [None]:
df.notnull().sum()

## 결측 데이터 필터링

`isnull()` 함수가 결측 데이터를 찾는 **boolean index** 입니다.

즉, `loc`에 적용하여 조건 필터링을 걸 수 있습니다.

In [None]:
df.loc[df['age'].isnull()]

## 연습문제

타이타닉 승객 데이터에서 `age`가 결측치인 승객의 나이를 **30세**로 일괄 채워 주세요

In [None]:
# 코드를 입력해 주세요


In [None]:
# 검증코드
# 본 Cell을 실행시 ERROR가 발생하지 않아야 함
assert df['age'].isnull().sum() == 0
assert df['age'].mean().round(4) == 29.7589

## 결측치 채우기 - fillna()

`fillna()`를 활용하면 결측치에 대하여 **일괄적으로 값을 채울 수** 있습니다.

In [None]:
# 다시 원본 DataFrame 로드
df = sns.load_dataset('titanic')

In [None]:
# 원본을 copy하여 df1 변수에 
df1 = df.copy()

In [None]:
df1.tail()

888번 index의 **결측치가 700으로 채워**진 것을 확인할 수 있습니다.

In [None]:
df1['age'].fillna(700).tail()

In [None]:
df1['age'] = df1['age'].fillna(700)

In [None]:
df1.tail()

## 통계값으로 채우기

In [None]:
df1 = df.copy()

In [None]:
df1.tail()

### 평균으로 채우기

In [None]:
df1['age'].fillna(df1['age'].mean()).tail()

### 중앙값으로 채우기

In [None]:
df1['age'].fillna(df1['age'].median()).tail()

## 연습문제

- 남자 승객의 나이의 **결측치**는, **남자 승객의 나이의 평균**으로 채웁니다.
- 여자 승객의 나이의 **결측치**는, **여자 승객의 나이의 평균**으로 채웁니다.
- 결측치를 모두 채운 후 age 컬럼의 평균을 출력합니다.(검증코드 실행하여 올바른 값이 출력 되는지 확인)

In [None]:
# 코드를 입력해 주세요


In [None]:
# 검증코드
# Cell 실행시 오류가 발생하지 않으면 PASS
assert (df1['age'].isnull().sum() == 0)
assert df1['age'].mean().round(5) == 29.73603

### 최빈값으로 채우기

In [None]:
df1['deck'].mode()

**최빈값(mode)**으로 채울 때에는 반드시 **0번째 index 지정**하여 값을 추출한 후 채워야 합니다.

In [None]:
df1['deck'].mode()[0]

In [None]:
df1['deck'].fillna(df1['deck'].mode()[0]).tail()

## NaN 값이 있는 데이터 제거하기 (dropna)

In [None]:
df1 = df.copy()

In [None]:
df1.tail()

`dropna()`로 **1개 라도 NaN 값이 있는 행**은 제거할 수 있습니다. (`how='any'`)

In [None]:
df1.dropna()

기본 옵션 값은 `how=any`로 설정되어 있으며, 다음과 같이 변경할 수 있습니다.

- **any**: 1개 라도 NaN값이 존재시 drop
- **all**: 모두 NaN값이 존재시 drop

In [None]:
df1.dropna(how='all')