In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix

# titanic 데이터 CSV 파일 읽기
url = "https://raw.githubusercontent.com/MyungKyuYi/AI-class/refs/heads/main/titanic.csv"  # 실제 경로로 변경하세요
df = pd.read_csv(url)
    
# 데이터프레임 확인
display(df.head())
print("컬럼 목록:", df.columns)

# 결측치 확인
print(df.isnull().sum(),"\n")
# 결측치 제거(Age만 다른 데이터의 평균으로 수정)
df["Age"] = df["Age"].fillna(df["Age"].mean())
'''
# pandas에서 inplace=True가 제대로 실행되지 않을 수 있어, 3.0버전부터는 일부 경우 아예 동작하지 않음
df['Age'].fillna(df['Age'].mean(), inplace=True) 
'''

# 레이블의 데이터 비율을 확인(imbalanced data인지 확인)
print(df['Survived'].value_counts(),"\n")

# 불필요한 컬럼 제거
df.drop(columns=['Name', 'Ticket', 'Cabin', 'Embarked'], inplace=True)

# LabelEncoder 객체 생성
label_encoder = LabelEncoder()
# 모든 컬럼을 숫자로 변환
for column in df.columns:
    df[column] = label_encoder.fit_transform(df[column])
# 엔코딩 후에도 label value count 결과는 같음
print(df['Survived'].value_counts(),"\n")


# 데이터 전처리
X = df.iloc[:, 2:]  # 특성(Feature) 데이터
y = df.iloc[:, 1]    # 레이블(Label) 데이터

# x/y데이터. train/test 데이터 분리 (학습 80%, 테스트 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Decision Tree 분류
from sklearn.tree import DecisionTreeClassifier

dt_model = DecisionTreeClassifier() # Deicision Tree 모델 생성
dt_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_dt = dt_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
dt_acc = accuracy_score(y_test, y_pred_dt) # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Decision Tree 정확도: {dt_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_dt) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# Random Forest 분류
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100) # Random Forest 모델 생성
rf_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_rf = rf_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
rf_acc = accuracy_score(y_test, y_pred_rf)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Random Forest 정확도: {rf_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_rf) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# SVM 분류
from sklearn.svm import SVC

svm_model = SVC() # SVM 모델 생성
svm_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_svm = svm_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
svm_acc = accuracy_score(y_test, y_pred_svm)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"SVM 정확도: {svm_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_svm) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# Logistic Regression 분류
from sklearn.linear_model import LogisticRegression

lr_model = LogisticRegression(max_iter=200) # Logistic Regression 모델 생성
lr_model.fit(X_train, y_train) # x,y train 데이터를 모델에 학습
y_pred_lr = lr_model.predict(X_test) # 모델이 x test 데이터로 y test 데이터를 예측
lr_acc = accuracy_score(y_test, y_pred_lr)  # 예측 결과가 실제 결과와 같은지 정확도 검사
print(f"Logistic Regression 정확도: {lr_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_lr) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

# KNN 분류
from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=5)  # k=5 설정
knn_model.fit(X_train, y_train)  # 학습 데이터로 모델 학습
y_pred_knn = knn_model.predict(X_test)  # 예측
knn_acc = accuracy_score(y_test, y_pred_knn) # 정확도 검사
print(f"KNN 정확도: {knn_acc:.4f}") # 정확도 검사 결과를 출력
conf_matrix = confusion_matrix(y_test, y_pred_knn) # Confusion Matrix, 예측값과 결과값을 비교하여 TP, FP, FN, TN 개수 반환
print("Confusion Matrix:", "\n", conf_matrix) # Confusion Matrix 결과를 출력

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


컬럼 목록: Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64 

Survived
0    549
1    342
Name: count, dtype: int64 

Survived
0    549
1    342
Name: count, dtype: int64 

Decision Tree 정확도: 0.7542
Confusion Matrix: 
 [[85 20]
 [24 50]]
Random Forest 정확도: 0.8045
Confusion Matrix: 
 [[93 12]
 [23 51]]
SVM 정확도: 0.6592
Confusion Matrix: 
 [[99  6]
 [55 19]]
Logistic Regression 정확도: 0.8101
Confusion Matrix: 
 [[90 15]
 [19 55]]
KNN 정확도: 0.6480
Confusion Matrix: 
 [[82 23]
 [40 34]]
