### 타이타닉 생존자 예측 데이터셋 (Titanic - Machine Learning from Disaster)

**데이터 사전 (Data Dictionary)**

| 변수명 (Variable) | 정의 (Definition) | 상세 정보 (Key) |
| :--- | :--- | :--- |
| **PassengerId** | 승객 고유 번호 | 각 승객에게 부여된 고유한 일련번호 |
| **Survived** | 생존 여부 | 0 = No (사망), 1 = Yes (생존) |
| **Pclass** | 티켓 등급 (객실 등급) | 1 = 1st (최고급), 2 = 2nd (중급), 3 = 3rd (저급) |
| **Name** | 이름 | 승객의 전체 성명 |
| **Sex** | 성별 | male (남성), female (여성) |
| **Age** | 나이 | 1세 미만은 분수로 표시되며, 추정 연령은 'xx.5' 형태로 표시됨 |
| **SibSp** | 함께 탑승한 형제/자매 및 배우자 수 | 형제, 자매, 의붓 형제/자매, 배우자(약혼자는 제외) 포함 |
| **Parch** | 함께 탑승한 부모 및 자녀 수 | 부모(어머니, 아버지), 자녀(아들, 딸, 의붓 자녀) 포함 |
| **Ticket** | 티켓 번호 | 티켓의 고유 식별 번호 |
| **Fare** | 탑승 요금 | 승객이 지불한 요금 |
| **Cabin** | 객실 번호 | 승객이 머물렀던 객실의 고유 번호 |
| **Embarked** | 승선 항구 | C = Cherbourg, Q = Queenstown, S = Southampton |

**추가 참고 사항 (Variable Notes)**
* **Pclass:** 사회 경제적 지위(SES)를 나타내는 지표 (1st = 상류층, 2nd = 중산층, 3rd = 하류층)
* **Age:** 1세 미만은 분수 형태, 추정치는 'xx.5'로 표시
* **SibSp & Parch:** 함께 탑승한 가족 구성원의 규모 파악 가능

 ### 1. 데이터셋 불러오기

In [14]:
import pandas as pd
import numpy as np
import os

In [15]:
# 상대경로 설정
train_df = pd.read_csv('data/titanic/train.csv')
# 절대경로 설정**
# get Current Working Directory
Home = os.getcwd()
print(Home)
# "역슬래시" 두개 써줘야 함. 참고로 그냥 "슬래시"는 하나여도 불러는 온다^^
path = os.path.join(Home, "data\\titanic\\train.csv")
# path2 = os.path.join(Home, "data\titanic\train.csv")
# print(path)
# print("path2 : {}".format(path2))

train_df = pd.read_csv(path)
train_df.head()

c:\Users\user\github\DataScience\scikit-learn


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 2. 데이터 확인(info(), describe(), head(), tail())

In [16]:
# train_df.tail()
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [17]:
train_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### 3. 결측치 확인

In [18]:
# 데이터 프레임 전체에서 컬럼별로 결측치 몇개씩 있는지 확인
train_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### 4. 결측치 처리 (수치형, 문자형)

**중앙값 (median)**
데이터 : [3,1,2,4,5,100] -> 정렬 : [1,2,3,4,5,7,100] -> 중앙값 : 4

**평균 (mean)**
데이터 : [1,2,3,4,5,100] -> 평균 : 21.666666666666668

In [19]:
train_df['Age'].mean()

np.float64(29.69911764705882)

In [20]:
# fillna()를 사용하여 결측치 채우기 (평균값)
train_df[['Age']].fillna(train_df['Age'].mean(), inplace=False)

# fillna()를 사용하여 결측치 채우기 (중앙값)
train_df[['Age']].fillna(train_df['Age'].median(), inplace=False)

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0
...,...
886,27.0
887,19.0
888,28.0
889,26.0


In [21]:
# sklearn의 simple imputer를 사용하여 결측치 처리

from sklearn.impute import SimpleImputer

# 1. simpleimputer 생성
# mean, median, most_frequent, constat. docs 읽어보고 오기
# 수치형 데이터는 4가지 모두 사용 가능
# 문자열 데이터는 most_frequent, constat 사용 가능
imputer = SimpleImputer(strategy='mean')

# 2. fit_transform으로 결측치 처리
# 대괄호가 두개.
train_df[['Age']] = imputer.fit_transform(train_df[['Age']])
# 초보자는 평균값으로 처리하지만 나중에 고민해보기. 계급을 나눠 연령별 평균으로 채운다던가..

In [22]:
train_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [23]:
# Embarked 결측치 처리 (imputer로 최빈값(most_frequent)으로 채우기)

# 1. imputer 생성
imputer = SimpleImputer(strategy='most_frequent')

# 2. fit_transform으로 결측치 처리
# SimpleImputer에 데이터 줄 때 2차원으로 줘야 함
train_df[['Embarked']] = imputer.fit_transform(train_df[['Embarked']])

In [24]:
# 최빈값이 무엇인지 확인
train_df['Embarked'].value_counts()

Embarked
S    646
C    168
Q     77
Name: count, dtype: int64

In [25]:
# 'Cabin'데이터가 존재하는 행만 선택
# notna = not null
train_df[train_df['Cabin'].notna()]
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [26]:
# 'Cabin'컬럼 삭제. drop은 늘 inplace =false 먼저 test
train_df.drop('Cabin', axis=1, inplace=True)

In [27]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S


### 5. 레이블 인코딩

* 인공지능 모델은 문자열을 처리할 수 없습니다. 따라서 문자열 데이터를 숫자로 변환하는 것이 필요합니다. 
* 이 과정을 레이블 인코딩이라고 합니다.

In [28]:
# train_df에서 레이블 인코딩을 해야하는 대상은? 'Sex', 'Embarked'
# 1. 함수로 만들어서 사용
# 2. LabelEncoder 사용. 'male', 'Femail' -> 0,1 인코더가 알아서 변환

from sklearn.preprocessing import LabelEncoder
# 1. 레이블 인코더를 생성
label_encoder1 = LabelEncoder()
label_encoder2 = LabelEncoder()
# 2. 레이블 인코더를 사용 (raw 데이터를 라벨별로 알아둬야 어떻게 바뀌었는지 체크 가능할 듯.)
# train_df['Sex'] = label_encoder1.fit_transform(train_df['Sex'])
train_df['Embarked'] = label_encoder2.fit_transform(train_df['Embarked'])


In [29]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,2


### 6. 원-핫 인코딩
원-핫 인코딩으로 변환하는 이유 : 컴퓨터가 데이터를 0, 1, 2라는 숫자 형태보다는 벡터 형태로 처리할 수 있도록 변환하는 것이 효율적이다. (= 원 핫 벡터)

In [30]:
# 원 핫 인코딩. pandas의 get_dummies
# 원 핫 인코딩을 적용 대상 : 'pclass', 'sex', 'embarked'
# sklearn의 onehotencoding 보다 get_dummies를 더 많이 사용해.
pd.get_dummies(train_df, columns=['Pclass','Sex', 'Embarked'])

Unnamed: 0,PassengerId,Survived,Name,Age,SibSp,Parch,Ticket,Fare,Pclass_1,Pclass_2,Pclass_3,Sex_female,Sex_male,Embarked_0,Embarked_1,Embarked_2
0,1,0,"Braund, Mr. Owen Harris",22.000000,1,0,A/5 21171,7.2500,False,False,True,False,True,False,False,True
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.000000,1,0,PC 17599,71.2833,True,False,False,True,False,True,False,False
2,3,1,"Heikkinen, Miss. Laina",26.000000,0,0,STON/O2. 3101282,7.9250,False,False,True,True,False,False,False,True
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.000000,1,0,113803,53.1000,True,False,False,True,False,False,False,True
4,5,0,"Allen, Mr. William Henry",35.000000,0,0,373450,8.0500,False,False,True,False,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,"Montvila, Rev. Juozas",27.000000,0,0,211536,13.0000,False,True,False,False,True,False,False,True
887,888,1,"Graham, Miss. Margaret Edith",19.000000,0,0,112053,30.0000,True,False,False,True,False,False,False,True
888,889,0,"Johnston, Miss. Catherine Helen ""Carrie""",29.699118,1,2,W./C. 6607,23.4500,False,False,True,True,False,False,False,True
889,890,1,"Behr, Mr. Karl Howell",26.000000,0,0,111369,30.0000,True,False,False,False,True,True,False,False


In [31]:
# 원 핫 인코딩. pandas의 get_dummies
# 원 핫 인코딩을 적용 대상 : 'pclass', 'sex', 'embarked'
# from sklearn.preprocessing import OneHotEncoder

# # 1. 원 핫 인코더를 생성
# one_hot_encoder = OneHotEncoder()

# # 2. 원 핫 인코더를 사용
# train_df[['Pclass_label']] = one_hot_encoder.fit_transform(train_df[['Pclass']])
# train_df[['Sex_label']] = one_hot_encoder.fit_transform(train_df[['Sex']])
# train_df[['Embarked_label']] = one_hot_encoder.fit_transform(train_df[['Embarked']])

In [45]:
train_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,2
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,2
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,2
...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,2
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,2
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,2
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,0


### 7. 정규화 (Normalization, 표준화 (Standardization))

In [33]:
movie = {'naver': [2, 4, 6, 8, 10], 
         'netflix': [1, 2, 3, 4, 5]
         }

In [34]:
movie = pd.DataFrame(data=movie)
movie

Unnamed: 0,naver,netflix
0,2,1
1,4,2
2,6,3
3,8,4
4,10,5


### 정규화
### MinMaxScaler
- 1. 같은 데이터인데 스케일이 서로 다를 때 스케일 맞춰주는 역할

In [35]:
# sklearn에서는 정규화를 위한 MinMaxScaler가 있다.
from sklearn.preprocessing import MinMaxScaler
# 1. MinMaxScaler 객체 생성 (min : 0, max: 5)
min_max_scaler = MinMaxScaler(feature_range=(0,5))

# 2. fit_transform으로 데이터를 변환
movie2 = min_max_scaler.fit_transform(movie)

In [36]:
movie2

array([[0.  , 0.  ],
       [1.25, 1.25],
       [2.5 , 2.5 ],
       [3.75, 3.75],
       [5.  , 5.  ]])

- 2. 여러개의 컬럼이 존재할 때 서로 다른 데이터의 특성(단위)이 다른 데이터 비교 가능

예시를 집값 데이터로 들면, 

집의 크기(m3^), 방의 갯수, 지하철 역과의 거리(km), 마트와의거리(km)

집의 크기 : 50 ~ 130

방의 갯수 : 1 ~ 5

지하철 역과의 거리 : 0.1 ~ 10

마트와의거리 : 0.1 ~ 9

In [37]:
import pandas as pd

# 1. 데이터 생성 (딕셔너리 형태)
data = {
    '집의 크기(m2)': [85.5, 120.2, 55.0, 105.8, 72.4],
    '방의 갯수(개)': [3, 4, 1, 3, 2],
    '지하철역과의 거리(km)': [0.5, 2.1, 0.2, 5.4, 1.1],
    '마트와의 거리(km)': [1.2, 0.8, 4.5, 2.3, 0.3]
}

# 2. 데이터프레임 생성
df = pd.DataFrame(data)

# 3. 결과 출력
print(df)

   집의 크기(m2)  방의 갯수(개)  지하철역과의 거리(km)  마트와의 거리(km)
0       85.5         3            0.5          1.2
1      120.2         4            2.1          0.8
2       55.0         1            0.2          4.5
3      105.8         3            5.4          2.3
4       72.4         2            1.1          0.3


In [38]:
#  df를 정규화(MinMaxScaler)

# 1. MinMaxScaler 객체 생성 (min=1, max =1)
# 일반적으로 정규화시에는 0~1사이 값으로 많이 사용함
min_max_scaler = MinMaxScaler(feature_range=(0,1))

# 2. fit_transform으로 데이터 변환
df2 = min_max_scaler.fit_transform(df)

In [39]:
df2

array([[0.46779141, 0.66666667, 0.05769231, 0.21428571],
       [1.        , 1.        , 0.36538462, 0.11904762],
       [0.        , 0.        , 0.        , 1.        ],
       [0.7791411 , 0.66666667, 1.        , 0.47619048],
       [0.26687117, 0.33333333, 0.17307692, 0.        ]])

### 표준화(Standard Scaling)
### StandardScaler

* 평균이 0이고, 표준편차가 1이 되도록 변환

In [40]:
# 표준화를 위한 샘플 데이터셋 생성
x = np.arange(10)
x
# 이상치(outlier) 추가
x[9] = 1000

x

array([   0,    1,    2,    3,    4,    5,    6,    7,    8, 1000])

In [41]:
x.mean(), x.std()

(np.float64(103.6), np.float64(298.8100399919654))

In [42]:
# x data(1차원)를 2차원으로 변경

x = x.reshape(-1, 1)
x

array([[   0],
       [   1],
       [   2],
       [   3],
       [   4],
       [   5],
       [   6],
       [   7],
       [   8],
       [1000]])

In [43]:
# sklearn에서 StandardScaler
from sklearn.preprocessing import StandardScaler
# 1. StandardScaler 객체 생성
standard_scaler = StandardScaler()

# 2. StandardScaler 객체 학습
# 여기서 fit_transform과 fit 함수의 차이 알아보기
standard_scaled = standard_scaler.fit_transform(x)
standard_scaled

array([[-0.34670856],
       [-0.34336196],
       [-0.34001535],
       [-0.33666874],
       [-0.33332213],
       [-0.32997553],
       [-0.32662892],
       [-0.32328231],
       [-0.3199357 ],
       [ 2.9998992 ]])

In [44]:
# 실제로 평균이 0, 표준편차가 1이 되었는지 확인
# 4.4408920985006264e-17 = 4X10^-17 = 거의 0
# np.float64(1.0) = 1.0
standard_scaled.mean(), standard_scaled.std()

(np.float64(4.4408920985006264e-17), np.float64(1.0))