# 문제정의

- 데이터 전처리 및 시각화 방법에 대해 학습

# 데이터 수집

In [1]:
import pandas as pd

# index_col : 인덱스 컬럼을 설정
train = pd.read_csv("./data/titanic_train.csv", index_col="PassengerId")
test = pd.read_csv("./data/titanic_test.csv", index_col="PassengerId")

# 탐색적 데이터 분석 및 전처리

In [2]:
print(train.shape)
print(test.shape)

(891, 11)
(418, 10)


- 분석 feature : Pclass, Age, Name, SibSp, Parch, Fare, Ticket, Cabin, Embarked
- 예측 target label : Survived

- feature 

<table border=0 align=left width=700>
  <tr><th>feature<th width=200>의미<th width=300>설명<th> 타입
  <tr><td>Survivied<td>생존여부<td>target 라벨 (0 : 사망, 1 : 생존)<td>integer
  <tr><td>Pclass<td>티켓의 클래스<td>1 = 1등석, 2 = 2등석, 3 = 3등석<td>integer
  <tr><td>Name<td>이름<td>호칭과 이름으로 구성<td>string   
  <tr><td>Sex<td>성별<td>male, female로 구분<td>string    
  <tr><td>Age<td>나이<td>0-80세<td>integer
  <tr><td>SibSp<td>함께 탑승한 형제와 배우자의 수<td><td>integer
  <tr><td>Parch<td>함께 탑승한 부모, 아이의 수<td><td>integer
  <tr><td>Ticket<td>티켓 번호<td>alphabat + integer<td>string 
  <tr><td>Fare<td>탑승료<td><td>float
  <tr><td>Cabin<td>객실 번호<td>alphabat + integer<td>string
  <tr><td>Embarked<td>탑승 항구<td>C = Cherbourg, Q = Queenstown, S = Southampton<td>string
</table>      

## 탐색적 데이터 분석

- 데이터 이해를 이해하자
- 결측치 (컬럼에 값이 었는 데이터), 이상치 (다른 값들과 차이가 큰 값), 오류가 있는 확인
- 기술통계
- 상관관계
- 시각화

## 결측치 확인

- info(), describe(), isnull()과 sum() 함수 등을 이용

In [3]:
# 훈련 데이터의 결측치
train.info()

# Age, Cabin, Embarked에 결측치가 존재

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [4]:
# 테스트 데이터의 결측치 확인
test.info()

# Age, Fare, Cabin에 결측치가 존재

<class 'pandas.core.frame.DataFrame'>
Int64Index: 418 entries, 892 to 1309
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    418 non-null    int64  
 1   Name      418 non-null    object 
 2   Sex       418 non-null    object 
 3   Age       332 non-null    float64
 4   SibSp     418 non-null    int64  
 5   Parch     418 non-null    int64  
 6   Ticket    418 non-null    object 
 7   Fare      417 non-null    float64
 8   Cabin     91 non-null     object 
 9   Embarked  418 non-null    object 
dtypes: float64(2), int64(3), object(5)
memory usage: 35.9+ KB


- 결측치 채우는 방법
  - 수치형인 경우
    - 기술통계 (평균, 중간값)
    - 결측치가 적은 경우 : 전체 평균이나 중간값을 대입
    - 결측치가 많은 경우 : 결측치가 있는 데이터의 다른 컬럼과 같은 값을 갖는 데이터의 결측치 통계를 사용
  
  - 범주형인 경우
    - 결측치가 적은 경우 : 데이터수가 가장 많은 클래스로 할당 -> 기존 데이터가 결측치가 있는 데이터에 의해 영향을 덜 받기 때문에)
    - 결측치가 많은 경우 : 데이터수가 가장 많은 클래스로 할당 -> 편향이 됨 -> 기존 데이터의 개수 비율만큼 랜덤으로 할당

In [5]:
# 결측치 개수 확인
train.isnull().sum()

Survived      0
Pclass        0
Name          0
Sex           0
Age         177
SibSp         0
Parch         0
Ticket        0
Fare          0
Cabin       687
Embarked      2
dtype: int64

In [6]:
test.isnull().sum()

Pclass        0
Name          0
Sex           0
Age          86
SibSp         0
Parch         0
Ticket        0
Fare          1
Cabin       327
Embarked      0
dtype: int64

In [7]:
train.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [8]:
test.describe()

Unnamed: 0,Pclass,Age,SibSp,Parch,Fare
count,418.0,332.0,418.0,418.0,417.0
mean,2.26555,30.27259,0.447368,0.392344,35.627188
std,0.841838,14.181209,0.89676,0.981429,55.907576
min,1.0,0.17,0.0,0.0,0.0
25%,1.0,21.0,0.0,0.0,7.8958
50%,3.0,27.0,0.0,0.0,14.4542
75%,3.0,39.0,1.0,0.0,31.5
max,3.0,76.0,8.0,9.0,512.3292


In [9]:
# 등급별(Pclass) 통계 (평균)
# groupby() : 원하는 컬럼을 중심으로 그룹핑해주는 함수
# Pclass 컬럼의 클래스별로 각 컬럼의 평균을 계산
train.groupby("Pclass").mean()

Unnamed: 0_level_0,Survived,Age,SibSp,Parch,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0.62963,38.233441,0.416667,0.356481,84.154687
2,0.472826,29.87763,0.402174,0.380435,20.662183
3,0.242363,25.14062,0.615071,0.393075,13.67555


- 1등실 생존율이 높았다
- 나이를 보면 3등실에 나이가 적은 승객이 많았다
- 1등실일수록 가족수가 적었다, 3등실일수록 가족수가 많았다

In [12]:
train.groupby(["Pclass", "Survived"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,SibSp,Parch,Fare
Pclass,Survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0,43.695312,0.2875,0.3,64.684007
1,1,35.368197,0.492647,0.389706,95.608029
2,0,33.544444,0.319588,0.14433,19.412328
2,1,25.901566,0.494253,0.643678,22.0557
3,0,26.555556,0.672043,0.384409,13.669364
3,1,20.646118,0.436975,0.420168,13.694887


- 3등실 승객의 사망/생존자의 요금은 비슷하다
- 1등실 승객의 사망/생존자의 요금은 생존자의 요금이 더 비쌌다
- 같은 클래스에서는 나이가 어릴수록 생존이 높았다

## Age 결측치 채우기

- 결측치가 있는 데이터의 다른 컬럼의 값과 같은 데이터의 평균값을 사용해서 결측치를 채움

- 그럼 어떤 컬럼을 참조할까요 ?
  - 결측치가 있는 컬럼(Age)과 상관관계가 높은 컬럼 선택 (범주형)
  
- 피벗 테이블을 활용   

- apply()을 이용하여 전체 데이터에 결측치를 채움
  - 데이터프레임의 데이터를 분리해서 원하는 처리를 수행한 후 다시 병합하는 함수 - 재구조화 함수 (reconstruct function)

In [13]:
# Age 컬럼과 상관관계가 높은 컬럼 찾기
train.corr()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
Survived,1.0,-0.338481,-0.077221,-0.035322,0.081629,0.257307
Pclass,-0.338481,1.0,-0.369226,0.083081,0.018443,-0.5495
Age,-0.077221,-0.369226,1.0,-0.308247,-0.189119,0.096067
SibSp,-0.035322,0.083081,-0.308247,1.0,0.414838,0.159651
Parch,0.081629,0.018443,-0.189119,0.414838,1.0,0.216225
Fare,0.257307,-0.5495,0.096067,0.159651,0.216225,1.0


In [16]:
# 피벗 테이블 생성
# values : 결측치를 채울 컬럼
# index : 참고할 컬럼 목록 리스트
# aggfunc : 사용할 수학 도구 (평균, 중간값)
pt1 = train.pivot_table(values = "Age",
                        index = ["Pclass", "Sex"],
                        aggfunc = "mean")

pt1

Unnamed: 0_level_0,Unnamed: 1_level_0,Age
Pclass,Sex,Unnamed: 2_level_1
1,female,34.611765
1,male,41.281386
2,female,28.722973
2,male,30.740707
3,female,21.75
3,male,26.507589


In [17]:
# 피벗 테이블에 접근하는 방법
pt1.loc[1, "male"]

Age    41.281386
Name: (1, male), dtype: float64

In [21]:
import numpy as np

# Age 컬럼의 결측치를 채우는 함수
def fill_age(row) :
    # 한 줄 데이터에서 Age 컬럼이 결측치라면
    if np.isnan(row["Age"]) :
        # 피벗 테이블을 참조 (같은 Pclass와 Sex인 값을 반환)
        return pt1.loc[row["Pclass"], row["Sex"]]
    # 결측치가 아닌 경우
    else :
        return row["Age"]        

In [24]:
# axis=1 : 한 줄씩 넘긴다
# astype("int64") : 나이는 실수가 없으니 정수로 변환
train["Age"] = train.apply(fill_age, axis=1).astype("int64")
test["Age"] = test.apply(fill_age, axis=1).astype("int64")

In [25]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       891 non-null    int64  
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(1), int64(5), object(5)
memory usage: 83.5+ KB


In [26]:
test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 418 entries, 892 to 1309
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pclass    418 non-null    int64  
 1   Name      418 non-null    object 
 2   Sex       418 non-null    object 
 3   Age       418 non-null    int64  
 4   SibSp     418 non-null    int64  
 5   Parch     418 non-null    int64  
 6   Ticket    418 non-null    object 
 7   Fare      417 non-null    float64
 8   Cabin     91 non-null     object 
 9   Embarked  418 non-null    object 
dtypes: float64(1), int64(4), object(5)
memory usage: 35.9+ KB


## train 데이터의 Embarked 결측치 채우기

In [27]:
# 가장 많은 데이터수를 갖는 클래스(S)로 결측치를 할당
train["Embarked"].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [28]:
# Embarked 컬럼이 결측치인 값을 S로 채운다
train["Embarked"] = train["Embarked"].fillna("S")

In [29]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       891 non-null    int64  
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  891 non-null    object 
dtypes: float64(1), int64(5), object(5)
memory usage: 83.5+ KB
