# 2. Null 데이터 처리하기
## Keypoint!
- 두 DataFrame에는 결측치가 있을 수 있고, 이를 Null 데이터라고 합니다.
- DataFrame의 여러 함수를 통해서 Null데이터를 다른 값으로 변경하거나, 제거해줄 수 있습니다.

---

정형 데이터의 특성상 한 행은 여러 정보가 열을 기준으로 담겨있습니다.  
하지만 측정 상의 오류 등의 이유로 해당 값이 없는 경우가 있는데요, 이를 **Null 데이터**라고 합니다.

Null 데이터는 데이터분석을 진행하는 과정에서 유의깊게 살펴봐야하는데요  
저희가 앞으로 시각화를 진행하거나, 기술통계량을 구하는 과정에서 의도치 않은 결과가 나올 수 있기 때문입니다.

In [2]:
# DataFrame을 사용하기 위해 Pandas를 불러와봅시다.

import pandas as pd

In [4]:
# Null 데이터가 있는 데이터의 예시
data = pd.read_csv('./train.csv')
data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### **0. 데이터 준비하기**

`.read_csv()`를 이용해서 Comma Separated Value를 DataFrame으로 생성해줄 수 있습니다.

In [5]:
# train.csv 데이터를 이용해서 새로 데이터를 만들어봅시다.

data = pd.read_csv("./train.csv")

data.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


NaN이 어떤 Column에 있는지 확인하고 싶다면 `.isnull()`을 사용할 수 있습니다.

In [6]:
# 데이터가 NaN인지 확인하기
data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### **1. Null 데이터 처리 I - 데이터 제거하기 : `.dropna()`**

데이터를 제거하는 것이 분석에 도움이 되는 경우, `NaN`이 포함된 행을 제거해줄 수 있습니다.

- `dropna()` : *NaN* 이 포함된 행을 제거합니다.


In [7]:
# NaN이 있는 행을 전부 제거하기
data.dropna(axis=0)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [8]:
# NaN이 있는 열을 전부 제거하기
data.dropna(axis=1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare
0,1,0,3,"Braund, Mr. Owen Harris",male,1,0,A/5 21171,7.2500
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1,0,PC 17599,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,0,0,STON/O2. 3101282,7.9250
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,1,0,113803,53.1000
4,5,0,3,"Allen, Mr. William Henry",male,0,0,373450,8.0500
...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,0,0,211536,13.0000
887,888,1,1,"Graham, Miss. Margaret Edith",female,0,0,112053,30.0000
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,1,2,W./C. 6607,23.4500
889,890,1,1,"Behr, Mr. Karl Howell",male,0,0,111369,30.0000


### **2. Null 데이터 처리 II - 데이터 치환하기 : `.fillna()`**

데이터를 다른 값으로 변경(치환)하는 것이 분석에 도움이 되는 경우, `NaN`값을 다른 값으로 변경해줄 수 있습니다.

- `fillna()` : *NaN* 을 다른 값으로 대체합니다.

In [13]:
# NaN을 0으로 치환하기

# data.fillna(0)['Age'].mean()
# 이렇게 하면 data type을 고려하지 않은채 값을 채우게 된다.
# 'Age'를 예로들면, 평균값에 많은 오차가 생길 수 있다.

data['Age'] = data['Age'].fillna(data['Age'].mean())
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,C148,C


In [15]:
# 특정 Column만 치환하기

data['Age'].mean()


29.69911764705882