Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Data Handling - Pandas  
> **Pandas**  
파이썬에서 데이터 핸들링을 가능하게 해주는 가장 인기 있는 라이브러리

> **DataFrame**  
DataFrame은 Pandas의 핵심 객체, DataFrame은 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체

> **Index**  
RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값

> **Series**  
칼럼이 하나뿐인 데이터 구조체  
(cf) DataFrame은 칼럼이 여러 개인 데이터 구조체

## 7. 결손 데이터 처리하기  
> **결손 데이터**  
칼럼에 값이 없는(Null)인 경우를 의미하며, 이를 넘파이의 **NaN**으로 표시한다.  
기본적으로 Machine Learning은 NaN 값을 처리하지 않고, 평균, 총합 등의 함수 연산에서도 제외되므로 이 Nan 값을 다른 값으로 대체해야 한다.  


### 7-1. isna()로 결손 데이터 여부 확인  
- **isna( )**  
: 데이터의 NaN 여부를 알려줌, DataFrame에 isna()를 수행하면 모든 칼럼의 값이 NaN인지 아닌지를 True나 False로 알려줌  

- **DataFrame.isna().sum()**   
: 결손 데이터의 개수 구하기  

- **fillna( )**  
: 결손 데이터(NaN 값)를 다른 값으로 대체  

*(주의) fillna()를 이용해 반환 값을 다시 받거나 `inplace=True` 파라미터를 fillna()에 추가해야 실제 데이터 세트 값이 변경됨*

In [None]:
# titanic DataFrame 만들기
import pandas as pd

titanic_df = pd.read_csv("titanic_train.csv")

# 결손 데이터 여부 확인
titanic_df.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [None]:
# 결손 데이터 개수 확인
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [None]:
# 타이타닉 데이터 세트의 'Cabin' 칼럼의 NaN 값을 'C000'으로 대체하기
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head()

#titanic_df['Cabin'].fillna('C000', inplace=True)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,C000,S


In [None]:
# Age 칼럼의 NaN 값을 평균 나이로, Embarked 칼럼의 NaN 값을 'S'로 대체하기
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64