In [3]:
import seaborn as sns
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [4]:
# seaborn을 통해 타이타닉 데이터셋 로드
data = sns.load_dataset('titanic')


In [16]:
# 데이터 전처리
# 'sex' 열을 숫자로 인코딩합니다.
label_encoder = LabelEncoder()
data['sex'] = label_encoder.fit_transform(data['sex'])
# data['sex']

0      1
1      0
2      0
3      0
4      1
      ..
886    1
887    0
888    0
889    1
890    1
Name: sex, Length: 891, dtype: int64

In [8]:
# 'age'의 결측값을 중앙값으로 대체.   ########### 다른 값으로 대체 하여보기
data['age'].fillna(data['age'].median(), inplace=True)


In [11]:
# 사용할 특성 선택              ############ 다른 특성 조합 사용하기
X = data[['pclass', 'sex', 'age']]
y = data['survived']


# SibSp: 타이타닉호에 탑승한 형제, 자매 또는 배우자의 수. 가족 구성원의 수가 생존 확률에 미치는 영향?
# Parch: 타이타닉호에 탑승한 부모 또는 자녀의 수. 이 역시 가족과 함께 여행하는 승객의 생존 확률에 미치는 영향?
# Fare: 탑승권 요금 -> 승객의 사회경제적 지위를 반영?
# Cabin: 객실 번호. 특정 객실이 위치한 선박의 구역이 생존에 영향? ex) 일구명보트에 더 가까운 객실
# Embarked: 승객이 타이타닉호에 탑승한 항구(C = Cherbourg, Q = Queenstown, S = Southampton) 생존율과의 관련?


In [17]:
# 데이터를 훈련 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 특성 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
X_train

array([[ 0.81925059, -1.37207547, -0.10684835],
       [-0.38096838,  0.72882288,  0.12218133],
       [-0.38096838,  0.72882288,  0.12218133],
       ...,
       [ 0.81925059,  0.72882288, -0.10684835],
       [ 0.81925059, -1.37207547,  0.50389745],
       [-0.38096838,  0.72882288,  2.33613483]])

In [13]:
# 로지스틱 회귀 모델 생성 및 학습
model = LogisticRegression()
model.fit(X_train, y_train)

In [14]:
# 테스트 데이터에 대한 예측 수행
y_pred = model.predict(X_test)

In [15]:
# 모델 성능 평가        ### 다른 변수 조합에서의 결과 비교해 보기
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy: 0.7988826815642458
Confusion Matrix:
 [[93 17]
 [19 50]]
Classification Report:
               precision    recall  f1-score   support

           0       0.83      0.85      0.84       110
           1       0.75      0.72      0.74        69

    accuracy                           0.80       179
   macro avg       0.79      0.79      0.79       179
weighted avg       0.80      0.80      0.80       179

