In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

#titanic_data를 이용해 data_load.
#isnull로 결측치 확인 후 'age'결측치는 평균으로 채움.
#나머지 결측치는 제거.
#레이블 확인.
#불필요한 컬럼 -> passengerId,name,ticket,cabin,embarked 제거
#엔코딩(encoding) : 문자열 데이터 숫자 데이터로 변환 -> 대부분의 머신러닝 알고리즘은 수학적 연산 기반(문자 -> 숫자)
#value_counts()로 변환 전/후 확인 
#5가지 머신러닝 분류

# 1️⃣ 데이터 로드
file_path = "C:/Users/Minseok/AI_CLASS/titanic.csv" 
df = pd.read_csv(file_path) #csv_file load

# 2️⃣ 결측치 확인
print("🔍 [결측치 개수 확인]")
print(df.isnull().sum())  # 각 컬럼별 결측치 개수 출력

# 3️⃣ 결측치 처리: 'Age'는 평균으로 채우고, 나머지는 제거
df['Age'].fillna(df['Age'].mean(), inplace=True)  # 'Age' 결측치는 평균값으로 채움
df.dropna(inplace=True)  # 나머지 결측치는 삭제

# 4️⃣ 레이블 확인 (Survived)
print("\n🎯 [타겟 레이블 확인]")
print(df['Survived'].value_counts())  # 생존(1) vs 사망(0) 개수 출력

# 5️⃣ 불필요한 컬럼 제거
df.drop(columns=['PassengerId', 'Name', 'Ticket', 'Cabin', 'Embarked'], inplace=True)

# 6️⃣ 문자 데이터를 숫자로 변환 (변환 전/후 비교)
print("\n🔄 [변환 전 데이터 확인]")
print(df.head())  # 변환 전 데이터 확인

label_encoders = {}  # 각 컬럼별 LabelEncoder 저장용
for col in df.select_dtypes(include=['object']).columns:  # 문자열 데이터만 변환
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le  # 인코더 저장

print("\n🔄 [변환 후 데이터 확인]")
print(df.head())  # 변환 후 데이터 확인

# 7️⃣ 데이터 분할 (훈련 & 테스트)
X = df.drop(columns=['Survived'])  # 입력 변수
y = df['Survived']  # 타겟 변수

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 8️⃣ 5가지 머신러닝 모델 적용
models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "SVM": SVC(kernel="linear"),
    "KNN": KNeighborsClassifier(n_neighbors=5)
}

for name, model in models.items():
    print(f"\n🏆 [{name}]")
    
    # 모델 학습
    model.fit(X_train, y_train)
    
    # 예측
    y_pred = model.predict(X_test)
    
    # 성능 평가
    acc = accuracy_score(y_test, y_pred)
    print(f"✅ 정확도: {acc:.4f}")
    print(classification_report(y_test, y_pred))


🔍 [결측치 개수 확인]
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

🎯 [타겟 레이블 확인]
Survived
1    134
0     68
Name: count, dtype: int64

🔄 [변환 전 데이터 확인]
    Survived  Pclass     Sex   Age  SibSp  Parch     Fare
1          1       1  female  38.0      1      0  71.2833
3          1       1  female  35.0      1      0  53.1000
6          0       1    male  54.0      0      0  51.8625
10         1       3  female   4.0      1      1  16.7000
11         1       1  female  58.0      0      0  26.5500

🔄 [변환 후 데이터 확인]
    Survived  Pclass  Sex   Age  SibSp  Parch     Fare
1          1       1    0  38.0      1      0  71.2833
3          1       1    0  35.0      1      0  53.1000
6          0       1    1  54.0      0      0  51.8625
10         1       3    0   4.0      1      1  16.7000
11         1       1

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True)  # 'Age' 결측치는 평균값으로 채움


✅ 정확도: 0.8049
              precision    recall  f1-score   support

           0       0.71      0.71      0.71        14
           1       0.85      0.85      0.85        27

    accuracy                           0.80        41
   macro avg       0.78      0.78      0.78        41
weighted avg       0.80      0.80      0.80        41


🏆 [SVM]
✅ 정확도: 0.6829
              precision    recall  f1-score   support

           0       0.53      0.71      0.61        14
           1       0.82      0.67      0.73        27

    accuracy                           0.68        41
   macro avg       0.67      0.69      0.67        41
weighted avg       0.72      0.68      0.69        41


🏆 [KNN]
✅ 정확도: 0.6341
              precision    recall  f1-score   support

           0       0.44      0.29      0.35        14
           1       0.69      0.81      0.75        27

    accuracy                           0.63        41
   macro avg       0.57      0.55      0.55        41
weighted avg  

In [2]:
# 1️⃣ 로지스틱 회귀 (Logistic Regression)
from sklearn.linear_model import LogisticRegression

# 모델 생성 및 학습
model_lr = LogisticRegression(max_iter=1000)
model_lr.fit(X_train, y_train)

# 예측 및 평가
y_pred_lr = model_lr.predict(X_test)
acc_lr = accuracy_score(y_test, y_pred_lr)

print("\n🏆 [로지스틱 회귀]")
print(f"✅ 정확도: {acc_lr:.4f}")
print(classification_report(y_test, y_pred_lr))


🏆 [로지스틱 회귀]
✅ 정확도: 0.7073
              precision    recall  f1-score   support

           0       0.58      0.50      0.54        14
           1       0.76      0.81      0.79        27

    accuracy                           0.71        41
   macro avg       0.67      0.66      0.66        41
weighted avg       0.70      0.71      0.70        41



In [3]:
#2️⃣ 의사결정나무 (Decision Tree)
from sklearn.tree import DecisionTreeClassifier

# 모델 생성 및 학습
model_dt = DecisionTreeClassifier(random_state=42)
model_dt.fit(X_train, y_train)

# 예측 및 평가
y_pred_dt = model_dt.predict(X_test)
acc_dt = accuracy_score(y_test, y_pred_dt)

print("\n🌳 [의사결정나무]")
print(f"✅ 정확도: {acc_dt:.4f}")
print(classification_report(y_test, y_pred_dt))


🌳 [의사결정나무]
✅ 정확도: 0.8049
              precision    recall  f1-score   support

           0       0.71      0.71      0.71        14
           1       0.85      0.85      0.85        27

    accuracy                           0.80        41
   macro avg       0.78      0.78      0.78        41
weighted avg       0.80      0.80      0.80        41



In [4]:
#3️⃣ 랜덤 포레스트 (Random Forest)
from sklearn.ensemble import RandomForestClassifier

# 모델 생성 및 학습
model_rf = RandomForestClassifier(n_estimators=100, random_state=42)
model_rf.fit(X_train, y_train)

# 예측 및 평가
y_pred_rf = model_rf.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)

print("\n🌲 [랜덤 포레스트]")
print(f"✅ 정확도: {acc_rf:.4f}")
print(classification_report(y_test, y_pred_rf))


🌲 [랜덤 포레스트]
✅ 정확도: 0.8049
              precision    recall  f1-score   support

           0       0.71      0.71      0.71        14
           1       0.85      0.85      0.85        27

    accuracy                           0.80        41
   macro avg       0.78      0.78      0.78        41
weighted avg       0.80      0.80      0.80        41



In [5]:
# 4️⃣ 서포트 벡터 머신 (SVM)
from sklearn.svm import SVC

# 모델 생성 및 학습
model_svm = SVC(kernel="linear")
model_svm.fit(X_train, y_train)

# 예측 및 평가
y_pred_svm = model_svm.predict(X_test)
acc_svm = accuracy_score(y_test, y_pred_svm)

print("\n🎯 [서포트 벡터 머신]")
print(f"✅ 정확도: {acc_svm:.4f}")
print(classification_report(y_test, y_pred_svm))


🎯 [서포트 벡터 머신]
✅ 정확도: 0.6829
              precision    recall  f1-score   support

           0       0.53      0.71      0.61        14
           1       0.82      0.67      0.73        27

    accuracy                           0.68        41
   macro avg       0.67      0.69      0.67        41
weighted avg       0.72      0.68      0.69        41



In [6]:
#5️⃣ K-최근접 이웃 (K-Nearest Neighbors, KNN)
from sklearn.neighbors import KNeighborsClassifier

# 모델 생성 및 학습
model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train, y_train)

# 예측 및 평가
y_pred_knn = model_knn.predict(X_test)
acc_knn = accuracy_score(y_test, y_pred_knn)

print("\n📌 [K-최근접 이웃]")
print(f"✅ 정확도: {acc_knn:.4f}")
print(classification_report(y_test, y_pred_knn))


📌 [K-최근접 이웃]
✅ 정확도: 0.6341
              precision    recall  f1-score   support

           0       0.44      0.29      0.35        14
           1       0.69      0.81      0.75        27

    accuracy                           0.63        41
   macro avg       0.57      0.55      0.55        41
weighted avg       0.60      0.63      0.61        41

