In [24]:
import numpy as np # 연산 
import pandas as pd # 데이터 처리
import seaborn as sns

In [25]:
# 1. 데이터셋 불러오기
titanic = sns.load_dataset('titanic')

In [26]:
# 2 feature 분석
# 2-1 
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [27]:
# 2-2
titanic.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


# 2-3 
## count: colunm별 총 data 수
## mean: 평균

`df.mean(axis=None, skipna=None, level=None, numeric_only=None, kwargs)`
  - axis : {0 : index / 1 : columns} 계산의 기준이 될 축
  - skipna : 결측치를 무시할지 여부
  - level : Multi Index의 경우 연산을 수행할 레벨
  - numeric_only : 숫자, 소수, 부울만 이용할지 여부
  - kwargs : 함수에 전달할 추가 키워드

## std: 표준편차

`df.std(axis=None, skipna=None, level=None, ddof=1, numeric_only=None, kwargs)`
- axis : 표본표준편차를 구할 축을 지정
- skipna : 결측치를 무시할지 여부
- level : Multi Index의 경우 대상 레벨을 지정
- ddof : 표본표준편차 계산의 분모가되는 자유도를 지정 산식은 n - ddof값으로 기본값은 n-1
- numeric_only : 숫자, 소수, bool로 구성된 열만 대상으로할지 여부
- kwargs : 함수의 경우에 추가적으로 적용할 키워드

## max/min: 최대/최소값

`df.max(axis=None, skipna=None, level=None, numeric_only=None, kwargs)`
`df.min(axis=None, skipna=None, level=None, numeric_only=None, kwargs)`
- axis : {0 : index / 1 : columns} 계산의 기준이 될 축입니다.
- skipna : 결측치를 무시할지 여부
- level : Multi Index의 경우 연산을 수행할 레벨
- numeric_only : 숫자, 소수, 부울만 이용할지 여부
- kwargs : 함수에 전달할 추가 키워드

## 25/50.75%: 백분위수 지점

`df.quantile(q=0.5, axis=0, numeric_only=True, interpolation='linear')`
- q : 분위수 입니다. 소수로 표현합니다. (예 : 75% = 0.75)
- aixs : 분위수의 값을 구할 축
- numeric_only : 수(소수)만 대상으로할지 여부 False일 경우 datetime 및 timedelta 데이터의 분위수도 계산
- interpolation : 분위수에 값이 없을때 보간하는 방법
  - liner : i + (j - i) x 비율 [분위수 앞, 뒤 수 간격 * 비율]
  - lower : i [분위수 앞, 뒤수 중 작은수]
  - higher : j [분위수 앞, 뒤수 중 큰수]
  - midpoint : (i+j)÷2 [분위수 앞, 뒤수의 중간값]
  - nearest : i or j [분위수 앞, 뒤수중 분위수에 가까운 수]


In [28]:
# 2-4 결측치 확인
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [29]:
# 3 feature engineering
# 3-1 결측치 처리
# 중앙값
titanic['age'] = titanic['age'].fillna(titanic['age'].median())
# 최빈값
titanic['embarked'] = titanic['embarked'].fillna(titanic['embarked'].mode()[0])

In [30]:
# 확인
titanic['age'].isnull().sum()

0

In [31]:
titanic['embarked'].isnull().sum()

0

In [32]:
# 3-2 수치형으로 인코딩
titanic['sex'] = titanic['sex'].map({'male': 0, 'female': 1})
titanic['alive'] = titanic['alive'].map({'yes': 1, 'no': 0})
titanic['embarked'] = titanic['embarked'].map({'C': 0, 'Q': 1, 'S': 2,})

In [33]:
# 확인
titanic['sex'].head()

0    0
1    1
2    1
3    1
4    0
Name: sex, dtype: int64

In [34]:
titanic['alive'].head()

0    0
1    1
2    1
3    1
4    0
Name: alive, dtype: int64

In [35]:
titanic['embarked']

0      2
1      0
2      2
3      2
4      2
      ..
886    2
887    2
888    2
889    0
890    1
Name: embarked, Length: 891, dtype: int64

In [36]:
# 3-3 새로운 feature 생성
# 가족의 수 + 본인
titanic['family_size'] = titanic['sibsp'] + titanic['parch'] + 1 
# 확인
titanic['family_size'].head()

0    2
1    2
2    1
3    2
4    1
Name: family_size, dtype: int64

In [37]:
# 4 모델 학습시키기
# 4-1 모델 학습 준비
# 데이터 준비
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']]
X = titanic.drop('survived', axis=1) 
y = titanic['survived'] 

In [38]:
# 학습/평가 데이터 분할
from sklearn.model_selection import train_test_split # 데이터 분할
from sklearn.preprocessing import StandardScaler # 표준화 도구

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler() # 평균이 0 표준차가 1
X_train = scaler.fit_transform(X_train) # 평균과 편차를 찾아서 정규화
X_test = scaler.transform(X_test) # fit 제거 

In [39]:
# 4-2 로지스틱 회귀 분석
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

# 평가
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")

Accuracy: 0.8044692737430168
Classification Report:
              precision    recall  f1-score   support

           0       0.82      0.86      0.84       105
           1       0.78      0.73      0.76        74

    accuracy                           0.80       179
   macro avg       0.80      0.79      0.80       179
weighted avg       0.80      0.80      0.80       179



In [40]:
# 4-3 의사결정나무 모델
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import mean_squared_error

# 의사결정나무 모델 생성
rf_model = DecisionTreeClassifier(max_depth=3, random_state=42)
# n_estimators: 생성할 트리 개수

# 모델 학습
rf_model.fit(X_train, y_train)

# 예측
y_pred_rf = rf_model.predict(X_test)

# 평가
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
print(f"Accuracy: {accuracy_score(y_test, y_pred_rf)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred_rf)}")

Accuracy: 0.7988826815642458
Classification Report:
              precision    recall  f1-score   support

           0       0.80      0.88      0.84       105
           1       0.80      0.69      0.74        74

    accuracy                           0.80       179
   macro avg       0.80      0.78      0.79       179
weighted avg       0.80      0.80      0.80       179



In [41]:
# 4-4 XGBoost 모델
import xgboost as xgb
from sklearn.metrics import mean_squared_error

# XGBoost 모델 생성
xgb_model = xgb.XGBClassifier(n_estimators=150, learning_rate=0.1, max_depth=3, random_state=42)

# 모델 학습
xgb_model.fit(X_train, y_train)

# 예측
y_pred_xgb = xgb_model.predict(X_test)

# 평가 - 0에 가까울 수록 우수
mse_xgb = mean_squared_error(y_test, y_pred_xgb)
print(f'XGBoost 모델의 MSE: {mse_xgb}')

XGBoost 모델의 MSE: 0.18435754189944134
