In [54]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

# 데이터 로드
file_url = "https://raw.githubusercontent.com/MyungKyuYi/AI-class/main/titanic.csv"
df = pd.read_csv(file_url)

In [74]:
# 데이터 확인
print("데이터프레임 컬럼명:\n", df.columns)

데이터프레임 컬럼명:
 Index(['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare',
       'Sex_male', 'Cabin_A14', 'Cabin_A16',
       ...
       'Cabin_E8', 'Cabin_F E69', 'Cabin_F G63', 'Cabin_F G73', 'Cabin_F2',
       'Cabin_F33', 'Cabin_F38', 'Cabin_F4', 'Cabin_G6', 'Cabin_T'],
      dtype='object', length=154)


In [94]:
# 불필요한 컬럼 제거 (Name, Ticket, Embarked 제거)
df = df.drop(columns=['Name', 'Ticket', 'Embarked'], errors='ignore')

# 나이(Age) 컬럼의 결측치를 평균으로 대체
df['Age'] = df['Age'].fillna(df['Age'].mean())

# 결측치 처리
df = df.dropna()

# 문자열 데이터 확인 및 처리
string_columns = df.select_dtypes(include=['object']).columns
print("\n 문자열 컬럼 확인:", string_columns)


🚀 0개의 행이 결측치 때문에 삭제됨

 문자열 컬럼 확인: Index([], dtype='object')


In [78]:
# 종속변수 컬럼명 확인
target_column = 'Survived'  # 타이타닉 생존 여부 컬럼
print("종속변수 컬럼명:", target_column)

# 레이블 갯수 확인 (숫자)
print(df[target_column].value_counts())

# 독립변수(X)와 종속변수(y) 분리
X = df.drop(columns=[target_column])  # 종속변수 제외
y = df[target_column]   # 종속변수

# 데이터 분할 (훈련 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 데이터 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

종속변수 컬럼명: Survived
Survived
1    136
0     68
Name: count, dtype: int64


In [80]:
# 결정 트리 모델 학습 및 평가
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred_dt = dt.predict(X_test)
print("결정 트리 정확도:", accuracy_score(y_test, y_pred_dt))
print(classification_report(y_test, y_pred_dt, zero_division=1))

결정 트리 정확도: 0.7560975609756098
              precision    recall  f1-score   support

           0       0.75      0.43      0.55        14
           1       0.76      0.93      0.83        27

    accuracy                           0.76        41
   macro avg       0.75      0.68      0.69        41
weighted avg       0.75      0.76      0.74        41



In [82]:
# 랜덤 포레스트 모델 학습 및 평가
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
print("랜덤 포레스트 정확도:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf, zero_division=1))

랜덤 포레스트 정확도: 0.7317073170731707
              precision    recall  f1-score   support

           0       0.67      0.43      0.52        14
           1       0.75      0.89      0.81        27

    accuracy                           0.73        41
   macro avg       0.71      0.66      0.67        41
weighted avg       0.72      0.73      0.71        41



In [84]:
# SVM 모델 학습 및 평가
svm = SVC(kernel='linear', random_state=42)
svm.fit(X_train_scaled, y_train)
y_pred_svm = svm.predict(X_test_scaled)
print("SVM 정확도:", accuracy_score(y_test, y_pred_svm))
print(classification_report(y_test, y_pred_svm, zero_division=1))

SVM 정확도: 0.8048780487804879
              precision    recall  f1-score   support

           0       0.71      0.71      0.71        14
           1       0.85      0.85      0.85        27

    accuracy                           0.80        41
   macro avg       0.78      0.78      0.78        41
weighted avg       0.80      0.80      0.80        41



In [86]:
# 로지스틱 회귀 모델 학습 및 평가
lr = LogisticRegression(max_iter=500, random_state=42)
lr.fit(X_train_scaled, y_train)
y_pred_lr = lr.predict(X_test_scaled)
print("로지스틱 회귀 정확도:", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr, zero_division=1))

로지스틱 회귀 정확도: 0.7560975609756098
              precision    recall  f1-score   support

           0       0.70      0.50      0.58        14
           1       0.77      0.89      0.83        27

    accuracy                           0.76        41
   macro avg       0.74      0.69      0.71        41
weighted avg       0.75      0.76      0.74        41



In [88]:
# KNN 모델 학습 및 평가
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)
y_pred_knn = knn.predict(X_test_scaled)
print("KNN 정확도:", accuracy_score(y_test, y_pred_knn))
print(classification_report(y_test, y_pred_knn, zero_division=1))

KNN 정확도: 0.6585365853658537
              precision    recall  f1-score   support

           0       1.00      0.00      0.00        14
           1       0.66      1.00      0.79        27

    accuracy                           0.66        41
   macro avg       0.83      0.50      0.40        41
weighted avg       0.78      0.66      0.52        41

