In [32]:
#모듈 삽입
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#데이터셋 로드
titanic = sns.load_dataset('titanic')

#전처리를 하기 위한 데이터 파악
titanic.describe()

# 필요한 열 선택
df = titanic[['survived', 'pclass', 'age', 'sibsp', 'parch', 'fare']]

#결측치 / 나이의 평균값이 아닌 중앙값으로 대입. 극단치의 영향을 줄일 수 있다.
df.loc[:, 'age'] = df['age'].fillna(df['age'].median())

# 카테고리형 변수를 원-핫 인코딩
df = pd.get_dummies(df, columns = ['pclass'], drop_first = True)

#Survived 예측을 위해 drop을 사용
X = df.drop('survived', axis = 1)
y = df['survived']

#학습 데이터와 테스트 데이터를 8:2 비율로 나눔.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#모델 설정
lr_model = LogisticRegression(max_iter=200)

# 모델 학습 및 예측
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)

# 모델의 평가
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")



Accuracy: 0.7374301675977654
Classification Report:
              precision    recall  f1-score   support

           0       0.72      0.90      0.80       105
           1       0.79      0.50      0.61        74

    accuracy                           0.74       179
   macro avg       0.75      0.70      0.71       179
weighted avg       0.75      0.74      0.72       179

Confusion Matrix:
[[95 10]
 [37 37]]


In [33]:
print(titanic.columns)

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')
