In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.preprocessing import LabelEncoder


# 파일 경로 지정
file_path = r"C:\Gachon\3-1\인공지능개론\titanic.csv"

# CSV 파일 읽기
df = pd.read_csv(file_path)

# 결측치 확인
missing_values = df.isnull().sum()

# 결측치가 있는 열과 그 수 출력
print("\n결측치 확인:")
print(missing_values)

mean_age = df['Age'].mean()


결측치 확인:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


In [7]:
# age 컬럼의 결측치를 평균값으로 채우기

df['Age'] = df['Age'].fillna(mean_age)

print("Age 열:")
print(df['Age'].head(20))

print("레이블 'Survived'의 분포:")
print(df['Survived'].value_counts())

Age 열:
0     22.000000
1     38.000000
2     26.000000
3     35.000000
4     35.000000
5     29.699118
6     54.000000
7      2.000000
8     27.000000
9     14.000000
10     4.000000
11    58.000000
12    20.000000
13    39.000000
14    14.000000
15    55.000000
16     2.000000
17    29.699118
18    31.000000
19    29.699118
Name: Age, dtype: float64
레이블 'Survived'의 분포:
Survived
0    549
1    342
Name: count, dtype: int64


In [9]:
# 불필요한 칼럼들 제거
columns_to_delete = ['PassengerId', 'Name', 'Ticket', 'Embarked', 'Cabin']
df = df.drop(columns=columns_to_delete)


# 불필요한 칼럼들이 제거된 데이터프레임 출력
print("불필요한 칼럼들이 제거된 데이터프레임:")
print(df.head(10))

불필요한 칼럼들이 제거된 데이터프레임:
   Survived  Pclass     Sex        Age  SibSp  Parch     Fare
0         0       3    male  22.000000      1      0   7.2500
1         1       1  female  38.000000      1      0  71.2833
2         1       3  female  26.000000      0      0   7.9250
3         1       1  female  35.000000      1      0  53.1000
4         0       3    male  35.000000      0      0   8.0500
5         0       3    male  29.699118      0      0   8.4583
6         0       1    male  54.000000      0      0  51.8625
7         0       3    male   2.000000      3      1  21.0750
8         1       3  female  27.000000      0      2  11.1333
9         1       2  female  14.000000      1      0  30.0708


In [15]:
# 'Survived'는 라벨, 나머지는 특성
X = df.drop(columns='Survived')
y = df['Survived']

# LabelEncoder 초기화
label_encoder = LabelEncoder()

# 특정 컬럼만 인코딩
columns_to_encode = ['Sex']  # 인코딩할 컬럼 리스트 (예시: 'Sex')

for column in columns_to_encode:
    X[column] = label_encoder.fit_transform(X[column])

print(X)


# 데이터셋을 훈련 세트와 테스트 세트로 분리 (80% 훈련, 20% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 분류기 정의
classifiers = {
    "Random Forest": RandomForestClassifier(),
    "Decision Tree": DecisionTreeClassifier(),
    "Logistic Regression": LogisticRegression(),
    "K-Nearest Neighbors": KNeighborsClassifier(),
    "Support Vector Machine": SVC()
}

# 각 모델을 훈련하고 성능 평가
for model_name, clf in classifiers.items():
    print(f"\n{model_name} 모델:")
    
    # 모델 학습
    clf.fit(X_train, y_train)
    
    # 예측
    y_pred = clf.predict(X_test)
    
    # 정확도
    accuracy = accuracy_score(y_test, y_pred)
    print(f"정확도: {accuracy:.4f}")
    
    # 혼동 행렬
    cm = confusion_matrix(y_test, y_pred)
    print("혼동 행렬:")
    print(cm)

     Pclass  Sex        Age  SibSp  Parch     Fare
0         3    1  22.000000      1      0   7.2500
1         1    0  38.000000      1      0  71.2833
2         3    0  26.000000      0      0   7.9250
3         1    0  35.000000      1      0  53.1000
4         3    1  35.000000      0      0   8.0500
..      ...  ...        ...    ...    ...      ...
886       2    1  27.000000      0      0  13.0000
887       1    0  19.000000      0      0  30.0000
888       3    0  29.699118      1      2  23.4500
889       1    1  26.000000      0      0  30.0000
890       3    1  32.000000      0      0   7.7500

[891 rows x 6 columns]

Random Forest 모델:
정확도: 0.8045
혼동 행렬:
[[91 14]
 [21 53]]

Decision Tree 모델:
정확도: 0.7598
혼동 행렬:
[[86 19]
 [24 50]]

Logistic Regression 모델:
정확도: 0.8101
혼동 행렬:
[[92 13]
 [21 53]]

K-Nearest Neighbors 모델:
정확도: 0.6983
혼동 행렬:
[[85 20]
 [34 40]]

Support Vector Machine 모델:
정확도: 0.6536
혼동 행렬:
[[99  6]
 [56 18]]
