# 타이타닉 데이터셋 설명

출처: [Kaggle Titanic Data](https://www.kaggle.com/competitions/titanic/data)

## 데이터 사전 (Data Dictionary)

| 변수 | 정의 | 설명 (Key) |
| :--- | :--- | :--- |
| **survival** | 생존 여부 | 0 = 아니오, 1 = 예 |
| **pclass** | 티켓 등급 | 1 = 1등석, 2 = 2등석, 3 = 3등석 |
| **sex** | 성별 | |
| **Age** | 나이 | |
| **sibsp** | 타이타닉에 탑승한 형제/배우자 수 | |
| **parch** | 타이타닉에 탑승한 부모/자녀 수 | |
| **ticket** | 티켓 번호 | |
| **fare** | 여객 운임 | |
| **cabin** | 객실 번호 | |
| **embarked** | 탑승 항구 | C = 셰르부르(Cherbourg), Q = 퀸스타운(Queenstown), S = 사우스햄튼(Southampton) |

## 변수 참고사항 (Variable Notes)

*   **pclass**: 사회경제적 지위(SES)를 나타내는 대리 변수입니다.
    *   1st = 상류층
    *   2nd = 중산층
    *   3rd = 하류층
*   **age**: 나이가 1보다 작으면 소수(fractional)로 표현됩니다. 나이가 추정치인 경우 xx.5 형태로 표시됩니다.
*   **sibsp**: 이 데이터셋에서 가족 관계는 다음과 같이 정의됩니다:
    *   Sibling = 형제, 자매, 의붓형제, 의붓자매
    *   Spouse = 남편, 아내 (정부(mistresses)와 약혼자는 포함되지 않음)
*   **parch**: 이 데이터셋에서 가족 관계는 다음과 같이 정의됩니다:
    *   Parent = 어머니, 아버지
    *   Child = 딸, 아들, 의붓딸, 의붓아들
    *   일부 어린이는 유모와만 함께 여행했으며, 이 경우 parch=0입니다.

#### 1. 데이터셋 불러오기

In [13]:
import pandas as pd
import numpy as np
import os

In [14]:
import os
import pandas as pd

# 현재 작업 경로 확인
HOME = os.getcwd()

# 만약 현재 경로에 'data' 폴더가 없다면, 상위 폴더(scikit-learn)를 HOME으로 재설정
if not os.path.exists(os.path.join(HOME, "data")):
    HOME = os.path.dirname(HOME)

# 경로 결합
trainCSV = os.path.join(HOME, "data", "titanic", "train.csv")
print(f"File Path: {trainCSV}")

# 데이터 로드
train_df = pd.read_csv(trainCSV)
train_df.head()

File Path: c:\Users\ailee\github\Datasience\scikit-learn\data\titanic\train.csv


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### 2. 데이터 확인 (info(), describe(), head(), tail())

In [15]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [16]:
train_df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [17]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [18]:
train_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


#### 3. 결측치 확인

In [19]:
# train_df 전체 결측치를 확인
train_df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### 4. 결측치 처리(수치형, 문자형)

**중앙값(median)** 

데이터 : [3,1,2,4,5,100] -> 정렬 [1,2,3,4,5,7,100] -> 중앙값 4

**평균(mean)**

데이터 : [3,1,2,4,5,100] -> 평균 21.666666666666668


In [20]:
# fillna()를 사용하여 결측치 채우기 (평균값, 중앙값)
#train_df['Age']
#train_df['Age'].fillna(train_df['Age'].mean(), inplace=False)
train_df['Age'].fillna(train_df['Age'].median(), inplace=False)

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    28.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [21]:
# sklearn의 simple imputer를 사용한 결측치 처리
from sklearn.impute import SimpleImputer

# 1. simple imputer 생성 
# strategy는 mean, median, most_frequent, constant
# 수치형 데이터는 4가지 모두 사용가능
# 문자열 데이터는 most_frequent, constant 사용
imputer = SimpleImputer(strategy='mean')

# 2. fit_transform으로 결측치 처리
train_df[['Age']] = imputer.fit_transform(train_df[['Age']])

In [22]:
train_df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [23]:
# 최빈값이 무엇인지 확인
train_df['Embarked'].value_counts()

Embarked
S    644
C    168
Q     77
Name: count, dtype: int64

In [24]:
# Embarked 결측치 처리 (imputer로 최빈값(most_frequent)으로 채우기)

# 1. imputer 생성
imputer = SimpleImputer(strategy='most_frequent')

# 2. fit_transform으로 결측치 처리
train_df[['Embarked']] = imputer.fit_transform(train_df[['Embarked']])

In [25]:
train_df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64

In [26]:
# 최빈값으로 데이터가 추가된 것을 확인
train_df['Embarked'].value_counts()

Embarked
S    646
C    168
Q     77
Name: count, dtype: int64

In [27]:
# 'Cabin'데이터가 존재하는 행만 선택
train_df[train_df['Cabin'].notnull()].head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [28]:
# train_df['Cabin'] 컬럼은 삭제
train_df.drop(columns=['Cabin'], inplace=True)


In [29]:
# 'Cabin'컬럼이 삭제된 것을 확인할 수 있다.
train_df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S


#### 5. 레이블 인코딩
* 인공지능 모델은 문자열을 처리할 수 없습니다. 따라서 문자열 데이터를 숫자로 변환하는 것이 필요합니다. 
* 이 과정을 레이블 인코딩이라고 합니다.

In [30]:
# train_df에서 레이블 인코딩을 해야하는 대상은? ['Sex', 'Embarked']
# sklearn에는 LabelEncoder가 있다. 'male','Female' -> 0,1
from sklearn.preprocessing import LabelEncoder

# 1. 레이블 인코더를 생성
label_encoder = LabelEncoder()
#label_encoder2 = LabelEncoder()
# 2. fit_transform으로 레이블 인코딩을 적용
# fit은 데이터를 확인 'male','Female' -> 0,1
train_df['Sex_label'] = label_encoder.fit_transform(train_df['Sex'])
# fit은 데이터를 확인 'S','C','Q' -> 0,1,2
train_df['Embarked_label'] = label_encoder.fit_transform(train_df['Embarked'])

In [31]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Sex_label,Embarked_label
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,1,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,0,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,0,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,1,2


#### 6. 원-핫 인코딩
원-핫 인코딩으로 변환하는 이유는 컴퓨터가 데이터를 0,1,2 라는 숫자형태 보다는 벡터 형태로 처리할 수 있도록 변환하는 것이 효율적입니다. (원-핫 벡터)

In [32]:
# pandas에는 원-핫 인코딩을 위한 get_dummies가 있다.
# train_df에서 원-핫 인코딩을 해야하는 대상은? ['Pclass', 'Sex', 'Embarked']
pd.get_dummies(train_df, columns=['Pclass', 'Sex', 'Embarked'])



Unnamed: 0,PassengerId,Survived,Name,Age,SibSp,Parch,Ticket,Fare,Sex_label,Embarked_label,Pclass_1,Pclass_2,Pclass_3,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,1,0,"Braund, Mr. Owen Harris",22.000000,1,0,A/5 21171,7.2500,1,2,False,False,True,False,True,False,False,True
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.000000,1,0,PC 17599,71.2833,0,0,True,False,False,True,False,True,False,False
2,3,1,"Heikkinen, Miss. Laina",26.000000,0,0,STON/O2. 3101282,7.9250,0,2,False,False,True,True,False,False,False,True
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.000000,1,0,113803,53.1000,0,2,True,False,False,True,False,False,False,True
4,5,0,"Allen, Mr. William Henry",35.000000,0,0,373450,8.0500,1,2,False,False,True,False,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,"Montvila, Rev. Juozas",27.000000,0,0,211536,13.0000,1,2,False,True,False,False,True,False,False,True
887,888,1,"Graham, Miss. Margaret Edith",19.000000,0,0,112053,30.0000,0,2,True,False,False,True,False,False,False,True
888,889,0,"Johnston, Miss. Catherine Helen ""Carrie""",29.699118,1,2,W./C. 6607,23.4500,0,2,False,False,True,True,False,False,False,True
889,890,1,"Behr, Mr. Karl Howell",26.000000,0,0,111369,30.0000,1,0,True,False,False,False,True,True,False,False


In [33]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Sex_label,Embarked_label
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,1,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,0,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,0,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,0,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,1,2


#### 7. 정규화(Normalization, 표준화:Standardization)

In [34]:
movie = {'naver': [2, 4, 6, 8, 10], 
         'netflix': [1, 2, 3, 4, 5]
         }

In [35]:
movie = pd.DataFrame(data=movie)
movie

Unnamed: 0,naver,netflix
0,2,1
1,4,2
2,6,3
3,8,4
4,10,5


### MinxScaler

In [None]:
# sklearn에서는 정규화를 위한 함수로 MinxScaler가 있다.
from sklearn.preprocessing import MinMaxScaler


# 1. MinmaxScaler를 생성 (min=0, max=5)
min_max_scaler = MinMaxScaler(feature_range=(0, 1))

# 2. fit_transform 으로 데이터를 변환
movie2 = min_max_scaler.fit_transform(movie)


In [44]:
movie2

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [0.75, 0.75],
       [1.  , 1.  ]])

* 여러개의 컬럼이 존재할때 서로 다른 데이터의 특성(단위가)이 다른 데이터를 비교할수 있게 해준다.

예시를 집값 데이터로 들면,
집의 크기(m^2), 방의 갯수(개), 지하철 역과의 거리(km), 마트와의 거리(km)
집의 크기 : 50 ~ 130
방의 갯수 : 1 ~ 5
지하철역과의 거리 : 0.1 ~ 10
마트와의 거리 : 0.1 ~  9


In [50]:
import pandas as pd

# 1. 데이터 생성 (딕셔너리 형태)
data = {
    '집의 크기(m2)': [85.5, 120.2, 55.0, 105.8, 72.4],
    '방의 갯수(개)': [3, 4, 1, 3, 2],
    '지하철역과의 거리(km)': [0.5, 2.1, 0.2, 5.4, 1.1],
    '마트와의 거리(km)': [1.2, 0.8, 4.5, 2.3, 0.3]
}

# 2. 데이터프레임 생성
df = pd.DataFrame(data)

# 3. 결과 출력
print(df)

   집의 크기(m2)  방의 갯수(개)  지하철역과의 거리(km)  마트와의 거리(km)
0       85.5         3            0.5          1.2
1      120.2         4            2.1          0.8
2       55.0         1            0.2          4.5
3      105.8         3            5.4          2.3
4       72.4         2            1.1          0.3


In [51]:
# df를 정규화(MinMaxScale)

# 1. MinmaxScaler를 생성 (min=0, max=1)
# 일반적으로 정규화시에는 0~1사이 값으로 많이 사용함.
min_max_scaler = MinMaxScaler(feature_range=(0, 1))

# 2. fit_transform 으로 데이터를 변환
df2 = min_max_scaler.fit_transform(df)

In [52]:
df2

array([[0.46779141, 0.66666667, 0.05769231, 0.21428571],
       [1.        , 1.        , 0.36538462, 0.11904762],
       [0.        , 0.        , 0.        , 1.        ],
       [0.7791411 , 0.66666667, 1.        , 0.47619048],
       [0.26687117, 0.33333333, 0.17307692, 0.        ]])

# 표준화 (Standard Scaling)
* 평균이 0이고, 표준 편차가 1이 되도록 변환

In [56]:
# 표준화를 위한 샘플 데이터셋 생성
x = np.arange(10)

# 이사이(outlier)를 추가
x[9] = 1000
x

array([   0,    1,    2,    3,    4,    5,    6,    7,    8, 1000])

In [57]:
 x.mean(), x.std()

(np.float64(103.6), np.float64(298.8100399919654))

In [59]:
# 1차원 을 2차원으로 바꿈
x = x.reshape(-1,1)
x

array([[   0],
       [   1],
       [   2],
       [   3],
       [   4],
       [   5],
       [   6],
       [   7],
       [   8],
       [1000]])

In [62]:
# sklearn 에서 StandardScaler
from sklearn.preprocessing import StandardScaler

# 1. StandardScaler를 생성
Standard_Scaler = StandardScaler() 

# 2. fit_transform
Standard_Scaled =  Standard_Scaler.fit_transform(x)
Standard_Scaled

array([[-0.34670856],
       [-0.34336196],
       [-0.34001535],
       [-0.33666874],
       [-0.33332213],
       [-0.32997553],
       [-0.32662892],
       [-0.32328231],
       [-0.3199357 ],
       [ 2.9998992 ]])

In [63]:
# 실제로 평균이 0이고, 표준 편차가 1이 되었는가? 확인
# 4x10^-17 ->거의 0 , 표준 편차 1
Standard_Scaled.mean(), Standard_Scaled.std()

(np.float64(4.4408920985006264e-17), np.float64(1.0))