In [1]:
import seaborn as sns
import pandas as pd

titanic = sns.load_dataset('titanic')
print(titanic.columns) 
#columns: 함수를 이용해 column들의 이름을 확인 할 수 있다.

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')


In [2]:
titanic.info() # info(): 함수를 이용해 각 데이터들의 타입, 결측치 등을 알 수있다.
titanic.head() # head(): 함수를 이용해 데이터 프레임의 첫 5행을 출력

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [3]:
titanic.describe()
# describe : Pandas 데이터프레임의 숫자형 열에 대한 통계 요약 제공

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [4]:
# count : 컬럼별 총 데이터 수
# mean / std : 컬럼별 데이터의 평균 / 표균편차
# min / max : 컬럼별 데이터 최소값 / 최대값
# 25 / 50 / 75% : 백분위수의 각 지점으로, 분포를 반영해 평균을 보완하는 목적으로 사용

In [5]:
print(titanic.isnull().sum())  
# isnull().sum() 함수를 이용하면 각 열의 결측치의 개수가 출력된다.

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [6]:
# Age 열의 결측치를 중앙값으로 대체
titanic['age'] = titanic['age'].fillna(titanic['age'].median())

# Embarked 열의 결측치를 최빈값으로 대체
titanic['embarked'] = titanic['embarked'].fillna(titanic['embarked'].mode()[0])

In [7]:
# 결측값 처리 결과 확인
print("Age 열의 결측값 개수:", titanic['age'].isnull().sum())
print("Embarked 열의 결측값 개수:", titanic['embarked'].isnull().sum())

Age 열의 결측값 개수: 0
Embarked 열의 결측값 개수: 0


In [8]:
# Sex(성별) 열을 남자는 0, 여자는 1로 변환
titanic['sex'] = titanic['sex'].map({'male': 0, 'female': 1})

# Alive(생존 여부) 열을 yes는 1, no는 0으로 변환
titanic['alive'] = titanic['alive'].map({'yes': 1, 'no': 0})

# Embarked(승선 항구) 열을 'C'는 0, 'Q'는 1, 'S'는 2로 변환
titanic['embarked'] = titanic['embarked'].map({'C': 0, 'Q': 1, 'S': 2})

# 변환 후 데이터 확인
print(titanic[['sex', 'alive', 'embarked']].head())

   sex  alive  embarked
0    0      0         2
1    1      1         0
2    1      1         2
3    1      1         2
4    0      0         2


In [9]:
#Logistic_Regression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#4번 필수 과제 분량 시작

#seaborn의 Titanic 데이터 로드
titanic = sns.load_dataset('titanic')

# 가족 크기 계산
titanic['family_size'] = titanic['sibsp'] + titanic['parch']

#학습에 필요한 feature
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']]


# 결측값 처리 / 임시로 진행했으니 과제 요구에 맞는 변환 필요, 과제 3-1 참고사항 확인
titanic.dropna(inplace=True)

#LabelEncoder로 object 타입인 열들을 숫자로 변환 / 임시로 진행했으니 과제 요구에 맞는 변환 필요, 과제 3-2 참고사항 확인
label_encoder = LabelEncoder()
titanic['sex'] = label_encoder.fit_transform(titanic['sex'])
titanic['embarked'] = label_encoder.fit_transform(titanic['embarked'])

#특성 데이터(X)와 타겟 데이터(y) 분리
X = titanic.drop(columns=['survived'])  # 특성 데이터 (생존 여부를 제외한 나머지)
y = titanic['survived']  # 타겟 데이터 (생존 여부)

#학습 데이터와 테스트 데이터를 8:2 비율로 나눔
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#데이터 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

#LogisticRegression 분류 모델 생성
lr_model = LogisticRegression()

#모델 학습
lr_model.fit(X_train_scaled, y_train)

#테스트 데이터로 예측
y_pred =lr_model.predict(X_test_scaled)

# 모델의 평가
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")



Accuracy: 0.7972027972027972
Classification Report:
              precision    recall  f1-score   support

           0       0.77      0.91      0.83        80
           1       0.85      0.65      0.74        63

    accuracy                           0.80       143
   macro avg       0.81      0.78      0.79       143
weighted avg       0.81      0.80      0.79       143

Confusion Matrix:
[[73  7]
 [22 41]]


In [10]:
#random_forest
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.tree import DecisionTreeClassifier


#4번 필수 과제 분량 시작


#seaborn의 Titanic 데이터 로드
titanic = sns.load_dataset('titanic')

# 가족 크기 계산
titanic['family_size'] = titanic['sibsp'] + titanic['parch']

#학습에 필요한 feature
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']]


# 결측값 처리 / 임시로 진행했으니 과제 요구에 맞는 변환 필요, 과제 3-1 참고사항 확인
titanic.dropna(inplace=True)

#LabelEncoder로 object 타입인 열들을 숫자로 변환 / 임시로 진행했으니 과제 요구에 맞는 변환 필요, 과제 3-2 참고사항 확인
label_encoder = LabelEncoder()
titanic['sex'] = label_encoder.fit_transform(titanic['sex'])
titanic['embarked'] = label_encoder.fit_transform(titanic['embarked'])

#특성 데이터(X)와 타겟 데이터(y) 분리
X = titanic.drop(columns=['survived'])  # 특성 데이터 (생존 여부를 제외한 나머지)
y = titanic['survived']  # 타겟 데이터 (생존 여부)

#학습 데이터와 테스트 데이터를 8:2 비율로 나눔
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#데이터 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# DecisionTreeClassifier 분류 모델 생성
model = DecisionTreeClassifier(random_state=42)

#모델 학습
model.fit(X_train, y_train)

#테스트 데이터로 예측
y_pred = model.predict(X_test)

# 모델의 평가
print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")

Accuracy: 0.7132867132867133
Classification Report:
              precision    recall  f1-score   support

           0       0.72      0.79      0.75        80
           1       0.70      0.62      0.66        63

    accuracy                           0.71       143
   macro avg       0.71      0.70      0.70       143
weighted avg       0.71      0.71      0.71       143

Confusion Matrix:
[[63 17]
 [24 39]]


In [13]:
#xgboost
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

#4번 필수 과제 분량 시작


#seaborn의 Titanic 데이터 로드
titanic = sns.load_dataset('titanic')

# 가족 크기 계산
titanic['family_size'] = titanic['sibsp'] + titanic['parch']

#학습에 필요한 feature
titanic = titanic[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']]


# 결측값 처리 / 임시로 진행했으니 과제 요구에 맞는 변환 필요, 과제 3-1 참고사항 확인
titanic.dropna(inplace=True)

#LabelEncoder로 object 타입인 열들을 숫자로 변환 / 임시로 진행했으니 과제 요구에 맞는 변환 필요, 과제 3-2 참고사항 확인
label_encoder = LabelEncoder()
titanic['sex'] = label_encoder.fit_transform(titanic['sex'])
titanic['embarked'] = label_encoder.fit_transform(titanic['embarked'])

#특성 데이터(X)와 타겟 데이터(y) 분리
X = titanic.drop(columns=['survived'])  # 특성 데이터 (생존 여부를 제외한 나머지)
y = titanic['survived']  # 타겟 데이터 (생존 여부)

#학습 데이터와 테스트 데이터를 8:2 비율로 나눔
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#데이터 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


#XGBoost 분류 모델 생성 / 모델 확인 필요
xgb_model = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')


#모델 학습
xgb_model.fit(X_train_scaled, y_train)

#테스트 데이터로 예측
y_pred_xgb = xgb_model.predict(X_test_scaled)

#모델의 정확도 평가
mse_xgb = mean_squared_error(y_test, y_pred_xgb)
print(f'XGBoost 모델의 MSE: {mse_xgb}')

XGBoost 모델의 MSE: 0.23776223776223776


Parameters: { "use_label_encoder" } are not used.

