## 데이터 핸들링 - 판다스
- 판다스(Pandas) : 파이썬의 대표적인 데이터 처리 패키지

#### 특징
- 월스트리트 금융회사의 분석 전문가 웨스 매키니(Wes McKinney)가 회사에서 사용하는 분석용 데이터 핸들링 툴이 마음에 안 들어서 개발했다.
- 행과 열로 이루어진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양한 기능을 제공한다.
- 많은 부분이 넘파이 기반으로 작성됐지만 넘파이보다 훨씬 유연하고 편리하게 데이터를 처리한다.
- 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터나 CSV 등의 파일을 쉽게 DataFrame으로 변경해 데이터를 가공/분석한다.

#### 핵심 객체
- DataFrame : 여러 개의 로우와 칼럼으로 이뤄진 2차원 데이터를 담는 데이터 구조체이다.
- Series : 칼럼이 하나뿐인 데이터 구조체이다. DataFrame은 여러 개의 Series로 이뤄졌다.
- Index : RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값이다. Series와 DataFrame은 모두 Index를 key 값으로 가지고 있다.

#### 인덱스
- 인덱스는 단순히 순차 값과 같은 의미 없는 식별자만 아니라 고유성이 보장된다면 의미 있는 데이터값 할당도 가능하다.
- 인덱스는 DataFrame, Series가 만들어진 후에도 변경할 수 있다.
- 인덱스는 숫자형뿐만 아니라 문자열도 가능하다. 단, 모든 인덱스는 고유성이 보장돼야 한다.

### 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

In [None]:
#판다스 모듈 임포트
import pandas as pd

#### 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 API
- read_csv() : 칼럼을 콤마(',')로 구분한 파일 포맷 변환을 위한 API
- read_table() : 칼럼을 탭('\t')으로 구분한 파일 포맷 변환을 위한 API
- read_fwf() : Fixed Width, 즉 고정 길이 기반의 칼럼 포맷을 DataFrame으로 로딩하기 위한 API

#### read_csv()
- read_csv(filepath_or_buffer, sep=',')
- filepath에는 로드하려는 데이터 파일의 경로를 포함한 파일명을 입력한다.
- filepath에 파일명만 입력되면 파이썬 실행 파일이 있는 디렉터리와 동일한 디렉터리에 있는 파일명을 로딩한다.
- sep에 필드 구분 문자를 입력하면 어떤 필드 구분 문자 기반의 파일 포맷도 DataFrame으로 변환한다.
- sep 인자를 생략하면 자동으로 콤마로 할당한다.

타이타닉 탑승자 데이터 파일: https://www.kaggle.com/c/titanic/data

In [None]:
#titanic_df=pd.read_csv(데이터 파일 경로명)
#titanic_df=pd.read_csv(파일명)
titanic_df = pd.read_csv('titanic_train.csv')

In [None]:
print('titanic 변수 type:', type(titanic_df))

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>


In [None]:
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


- 인자로 들어온 파일을 로딩해 DataFrame 객체로 반환한다.
- 별다른 파라미터 지정이 없으면 파일의 맨 처음 로우를 칼럼명으로 인지하고 칼럼으로 변환한다.

In [None]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- DataFrame.head()는 DataFrame의 맨 앞에 있는 5개의 로우를 반환한다.
- DataFrame.head(N)는 DataFrame의 맨 앞에 있는 N개의 로우를 반환한다.

In [None]:
print('DataFrame 크기 :', titanic_df.shape)

DataFrame 크기 : (891, 12)


- DataFrame 객체의 shape 변수는 DataFrame의 행과 열을 튜플 형태로 반환한다.

#### DataFrame의 메타 데이터 조회하기

In [None]:
#info()
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


- 총 데이터 개수, 칼럼의 타입, Null 데이터 개수를 알 수 있다.

In [None]:
#describe()
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


- 데이터의 분포도를 아는 것은 머신러닝 알고리즘의 성능을 향상시키는 중요한 요소이다. describe() 메서드는 개략적인 수준의 분포도를 확인할 수 있어 유용하다.
- 오직 숫자형(int, float 등) 칼럼의 분포도만 조사하며 자동으로 object 타입의 칼럼은 출력에서 제외한다.
- count는 Not Null인 데이터 개수, mean은 전체 데이터의 평균값, std는 표준편차, min은 최솟값, max는 최댓값이다.
- 25%는 25 percentile 값, 50%는 50 percentile 값, 75%는 75 percentile 값을 의미한다.
- describe() 메서드는 해당 숫자 칼럼이 특정 범주에 속하는 값을 코드화한 칼럼, 즉 숫자형 카테고리 칼럼인지 판단할 수 있다.

### titanic_df에서 카테고리 칼럼을 판단하라.

#### Pclass 칼럼의 분포도 살펴보기
- DataFrame의 [] 연산자 내부에 칼럼명을 입력하면 Series 형태로 특정 데이터 칼럼 데이터 세트가 반환된다.
- Series는 Index와 단 하나의 칼럼으로 구성된 데이터 세트이다.
- Series 객체에 value_conts() 메서드를 호출하면 지정된 칼럼의 데이터값 개수를 반환한다.

In [None]:
titanic_pclass = titanic_df['Pclass']
print(titanic_pclass)
print(type(titanic_pclass)) # serise

0      3
1      1
2      3
3      1
4      3
5      3
6      1
7      3
8      3
9      2
10     3
11     1
12     3
13     3
14     3
15     2
16     3
17     2
18     3
19     3
20     2
21     2
22     3
23     1
24     3
25     3
26     3
27     1
28     3
29     3
      ..
861    2
862    1
863    3
864    2
865    2
866    2
867    1
868    3
869    3
870    3
871    1
872    1
873    3
874    2
875    3
876    3
877    3
878    3
879    1
880    2
881    3
882    3
883    2
884    3
885    3
886    2
887    1
888    3
889    1
890    3
Name: Pclass, Length: 891, dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
titanic_pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

In [None]:
value_counts = titanic_pclass.value_counts()
print(value_counts)
print(type(value_counts))

3    491
1    216
2    184
Name: Pclass, dtype: int64
<class 'pandas.core.series.Series'>


- value_counts()는 칼럼 값별 데이터 개수가 많은 순서로 정렬되어 값을 반환한다.
- value_counts()는 고유 칼럼 값을 식별자(인덱스)로 사용한다.
- value_counts() 메서드는 Series 객체에만 정의돼 있다. 즉 DataFrame은 가지고 있지 않다.
- vlaue_counts()가 반환하는 데이터 타입도 Series 객체이다.

### DataFrame의 칼럼 데이터 세트 생성과 수정

In [None]:
#Titanic DataFrame에 새로운 칼럼 Age_0을 추가하고 일괄적으로 0값을 할당
titanic_df['Age_0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


- DataFrame의 칼럼 데이터 세트 생성과 수정은 [] 연산자를 이용한다.
- 칼럼 Series에 상숫값을 할당하면 Series의 모든 데이터 세트에 일괄적으로 적용된다.

In [None]:
#기존 칼럼 Series의 데이터를 이용해 새로운 칼럼 Series 만들기
titanic_df['Age_by_10'] = titanic_df['Age'] * 10
titanic_df['Family_no'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1 #sibling and spouse/parent and child
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_no
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0,350.0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,350.0,1


In [None]:
#DataFrame 내의 기존 칼럼 값 업데이트
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_no
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


### DataFrame 데이터 삭제
- DataFRame에서 데이터의 삭제는 drop() 메서드를 이용한다.
- drop() 메서드의 원형은 DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

In [None]:
#칼럼 삭제
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df = titanic_drop_df.drop('Age_by_10', axis=1)
titanic_drop_df = titanic_drop_df.drop('Family_no', axis=1)
titanic_drop_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- axis 값에 따라 특정 칼럼 또는 특정 로우를 드롭한다.
- axis=1을 입력하고 labels에 원하는 칼럼명을 입력하면 지정된 칼럼을 드롭한다.
- axis=0을 입력하면 DataFrame은 자동으로 labels에 오는 값을 인덱스로 간주한다.

In [None]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_no
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


- inplace=False이면 자신의 DataFrame의 데이터는 삭제하지 않으며, 삭제된 결과 DataFrame을 반환한다.
- inplace=True이면 자신의 DataFrame의 데이터를 삭제한다.

In [None]:
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_no'], axis=1, inplace=True)
print('inplace=True 로 drop 후 반한된 값:', drop_result)
titanic_df.head(3)

inplace=True 로 drop 후 반한된 값: None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


- 여러 개의 칼럼을 삭제하고 싶으면 리스트 형태로 삭제하고자 하는 칼럼명을 입력해 labels 파라미터로 입력한다.
- inplace=True이면 반환 값이 None이 된다.

In [None]:
#로우 삭제
pd.set_option('display.width', 100)
pd.set_option('display.max_colwidth', 15)

print('#### befor axis 0 drop ####')
print(titanic_df.head(3))

titanic_df.drop([0, 1, 2], axis=0, inplace=True)

print('#### after axis 0 drop ####')
print(titanic_df.head(3))

#### befor axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket  \
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599   
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   

      Fare Cabin Embarked  
0   7.2500   NaN        S  
1  71.2833   C85        C  
2   7.9250   NaN        S  
#### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare  \
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000   
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   

  Cabin Embarked  
3  C123        S  
4   NaN        S  
5

### 데이터 셀렉션 및 필터링

#### DataFrame의 [] 연산자
- 넘파이에서 [] 연산자 : 행의 위치, 열의 위치, 슬라이싱 범위 등을 지정
- DataFrame의 [] 연산자 : 칼럼 명 문자나 칼럼 명의 리스트 객체 또는 인덱스로 변환 가능한 표현식. 즉 칼럼 지정 연산자

In [None]:
#칼럼 데이터 추출
print('단일 칼럼 데이터 추출 : \n', titanic_df['Pclass'].head(3))
print('\n여러 칼럼 데이터 추출 : \n', titanic_df[['Survived', 'Pclass']].head(3))

단일 칼럼 데이터 추출 : 
 3    1
4    3
5    3
Name: Pclass, dtype: int64

여러 칼럼 데이터 추출 : 
    Survived  Pclass
3         1       1
4         0       3
5         0       3


- DataFrame에 ['칼럼명']으로 '칼럼명'에 해당하는 칼럼 데이터의 일부만 추출할 수 있다.
- 여러 개의 칼럼에서 데이터를 추출하려면 ['칼럼1','칼럼2']와 같이 리스트 객체를 이용한다.

In [None]:
#숫자 값 입력
# print('[] 안에 숫자 index는 KeyError 오류 발생:\n', titanic_df[0])

- titanic_df[0]같은 표현식은 오류를 발생한다. 0이 칼럼 명이 아니기 때문이다.

In [None]:
#슬라이싱
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


- 판다스의 인덱스 형태로 변환 가능한 표현식은 []내에 입력할 수 있다.

In [None]:
#불린 인덱싱
titanic_df[titanic_df['Pclass'] == 3].head(3)
# print(titanic_df['Pclass'] == 3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. ...",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Ma...",male,2.0,3,1,349909,21.075,,S


#### DataFrame의 [] 연산자 가이드
- DataFrame 바로 뒤의 [] 연산자는 넘파이의 []나 Series의 []와 다르다.
- DataFrame 바로 뒤의 [] 내 입력 값은 칼럼명(또는 칼럼 리스트)을 지정해 칼럼 지정 연산에 사용하거나 불린 인덱스 용도로만 사용한다.

#### 불린 인덱싱

In [None]:
titanic_df[titanic_df['Age'] > 60].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C


- []내에 불린 인덱싱을 적용하면 반환되는 객체가 DataFrame이다.

In [None]:
#[]
titanic_df[titanic_df['Age'] > 60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [None]:
# loc[]


In [None]:
#나이가 60세 이상이고, 선실 등급이 1등급이며, 성별이 여성인 승객 추출
titanic_df[(titanic_df['Age'] > 60) & (titanic_df['Pclass'] == 1) & (titanic_df['Sex'] == 'female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


- and 조건일 때는 &
- or 조건일 때는 |
- not 조건일 때는 ~

### 결손 데이터 처리하기
- 판다스는 결손 데이터(Missing Data)를 처리하는 API를 제공한다.
- 결손 데이터는 칼럼에 값이 없는, 즉 NULL인 경우를 의미하고, 이를 넘파이의 NaN으로 표시한다.
- 기본적으로 머신러닝 알고리즘은 NaN 값을 처리하지 않으므로 이 값을 다른 값으로 대체해야 한다.
- NaN 값은 평균, 총합 등의 함수 연산 시 제외된다.
- NaN의 여부를 확인하는 API는 isna()이다.
- NaN 값을 다른 값으로 대체하는 API는 fillna()이다.

#### isna()로 결손 데이터 여부 확인
- DataFrame에 isna()를 수행하면 모든 칼럼의 값이 NaN인지 아닌지를 True나 False로 알려준다.

In [None]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
5,False,False,False,False,False,True,False,False,False,False,True,False


In [None]:
#결손 데이터의 개수
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          685
Embarked         2
dtype: int64

- sum()을 호출 시 True는 내부적으로 숫자 1로, False는 숫자 0으로 변환된다.

#### fillna()로 결손 데이터 대체하기

In [None]:
#타이타닉 데이터 세트의 'Cabin'칼럼의 NaN 값을 'C000'으로 대체
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,C000,S
5,6,0,3,"Moran, Mr. ...",male,,0,0,330877,8.4583,C000,Q
6,7,0,1,"McCarthy, M...",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Ma...",male,2.0,3,1,349909,21.075,C000,S


- fillna()를 이용해 반환 값을 다시 받거나 inplace=True 파라미터를 fillna()에 추가해야 실제 데이터 세트 값이 변경된다.

In [None]:
#'Age'칼럼의 NaN 값을 평균 나이로, 'Embarked'칼럼의 NaN 값을 'S'로 대체
# 모든 결손 데이터 처리
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64