## 목표
 - 타이타닉 데이터를 활용하여 생존자/사망자 예측해보자
 - kaggle 경진대회에 참가하여 우리 점수를 확인해보자
 - 머신러닝의 전체 과정을 체험해보자
 
## 머신러닝 과정
 - 1. 문제정의 : 목표 설정, 어떤 모델
 - 2. 데이터 수집 : 분류를 할거라면 class로 담긴 레이블이 있는 데이터 수집
 - 3. 데이터 전처리 : 이상치/결측치 처리
 - 4. 데이터 탐색 (탐색적 데이터 분석) : 기술 통계, 특성 간의 관계
 - 5. 모델 선택 및 하이퍼 파라미터 설정
 - 6. 모델 예측 및 평가
 - 7. 모델 서비스화

https://www.kaggle.com/competitions/titanic/data?select=train.csv
- train- 학습용 문제, 답
- test - 테스트용 문제  -> 답은 kaggle 가지고 있음
- pre 잘했는지 평가하기 위해서 kaggle 업로드
- submission - pre를 제출하기 위한 답안지 파일 
![image.png](attachment:image.png)

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns # 시각화 라이브러리
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

In [10]:
# train, test 변수에 데이터 불러와서 담기
# (단, 인덱스를 승객의 번호로 설정해서 담아줄 것)
train = pd.read_csv('./data/titanic/train.csv', index_col='PassengerId')
test = pd.read_csv('./data/titanic/test.csv', index_col='PassengerId')
train

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [11]:
test

Unnamed: 0_level_0,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...
1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


 0.   Survived  - 생존/ 사망 여부 (답 데이터, Class Label)
 1.   Pclass    - 승객의 등급(1- 귀족층,2- 중간층,3- 하위계층)
 2.   Name      - 이름      
 3.   Sex       - 성별(male, female)
 4.   Age       - 나이(0~
 5.   SibSp     - 형제자매+배우자 수
 6.   Parch     - 부모 + 자식 수
 7.   Ticket    - 티겟 번호
 8.   Fare      - 요금
 9.   Cabin     - 객실번호
 10.  Embarked  - 승선항

In [19]:
print(train.shape, test.shape) # test 정답 데이터 x(-1)
print(train.columns)
print(test.columns)

(891, 11) (418, 10)
Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')
Index(['Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked'],
      dtype='object')


#### 데이터 전처리 및 데이터 탐색
##### 결측치 확인

In [26]:
# info 함수 통해서 train 결측치 확인
# 결측치 존재 컬럼 : Age, Cabin, Embarked
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [35]:
# info 함수 통해서 test 결측치 확인
# 결측치 존재 컬럼 : Age, Cabin, Fare
test.isnull().sum()

Pclass        0
Name          0
Sex           0
Age          86
SibSp         0
Parch         0
Ticket        0
Fare          1
Cabin       327
Embarked      0
dtype: int64

#### train 데이터 기준으로 embarked 컬럼 확인

In [42]:
# train 데이터 기준으로 Embarked 컬럼 확인
# nan 있다
train['Embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [37]:
# 빈도수가 높은 승선항 알파벳으로 결측치를 처리해보자
train['Embarked'].value_counts() # S 644 로 채워보자!

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [None]:
# test는 안보나요?
# 탐색용 데이터는 train,
# 모델 학습 : 모델이 학습을 잘하도록 데이터를 셋팅
# test 데이터는 모델을 일반화시키는데 도움이 되지 않음
# train 데이터가 학습할 때 사용되고 모델의 일반화에 도움을 줌

In [45]:
# Embarked 결측치를 'S'로 채우기
# ('S'가 최빈값이기 때문)
# fillna(채울 값)
train['Embarked'].fillna('S')
train['Embarked'].unique()
train['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

#### test - Fare 결측치 처리
 - 요금 평균, 중앙값 계산 가능
 - 데이터 분석을 진행하면서 관련이 있을 법한 컬럼을 연관지어서 대체값을 확인해보자.

In [48]:
# train 기준으로 데이터 탐색
# Fare 컬럼 정보 확인 -> 기술통계량
train['Fare'].describe()
# max값이 넘 높으니까 중앙값 말고 평균값으로 결측치 채워넣자

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: Fare, dtype: float64

In [63]:
# 변수(특성) 간의 상관관계 확인
# 상관계수(숫자) : -1 ~ 1
corr = train.corr().abs()
# 생존, 사망과 연관이 있는 컬럼 확인해보자
corr['Survived'].sort_values()
# Pclass가 생존/사망과 연관성이 있을수도?

  corr = train.corr().abs()


SibSp       0.035322
Age         0.077221
Parch       0.081629
Fare        0.257307
Pclass      0.338481
Survived    1.000000
Name: Survived, dtype: float64

In [91]:
# Pclass, Fare 두 개 컬럼만 인덱싱
# groupby는 count(), mean(), median(), max(), min()과 자주쓰임
train.loc[:, ['Pclass','Fare']].groupby('Pclass').median()

Unnamed: 0_level_0,Fare
Pclass,Unnamed: 1_level_1
1,60.2875
2,14.25
3,8.05
