In [2]:
import seaborn as sns
import pandas as pd
import numpy as np

In [3]:
titanic = sns.load_dataset('titanic')

# 원본 데이터프레임을 복사
titanic_original = titanic.copy()

In [4]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [5]:
titanic.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [6]:
titanic.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [7]:
# 나이(age) 열의 결측값을 중앙값으로 채움
titanic['age'].fillna(titanic['age'].median(), inplace=True)

# 승선한 항구(embarked) 열의 결측값을 최빈값으로 채움
titanic['embarked'].fillna(titanic['embarked'].mode()[0], inplace=True)


# 승선 도시(embark_town) 열의 결측값을 'Unknown'으로 채움 
titanic['embark_town'].fillna('Unknown', inplace=True)


# 'deck' 열을 object 타입으로 변환
titanic['deck'] = titanic['deck'].astype(str)

# 결측값을 'Unknown'으로 채움
titanic['deck'].fillna('Unknown', inplace=True)

#결측치 제거 데이터 프레임
titanic_no_nan = titanic

#deck과 embark_town을 fillna(0)로 진행했을 때 TypeError
#해결하기 위해 dtype으로 각 데이터 타입을 확인
#숫자형 데이터'0'에서 문자형 데이터'Unknown'으로 대체
#각 타입을 astype(category)과 (object)로 타입 변화 추가해도 안됨
#이유를 찾아보니 원래 카테고리 타입인 데이터에는 새로운 카테고리 값을 추가할 때 에러가 발생
#category 타입 경우 새로운 카테고리를 추가하기 위해선 기존 카테고리 목록에 추가 되어있어야 가능 
#또는 타입을 변환을 진행할 때 astype(object)로 작성해서 오류
#astype(str)로 수정 하니 object타입으로 변환 가능

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  titanic['age'].fillna(titanic['age'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  titanic['embarked'].fillna(titanic['embarked'].mode()[0], inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediat

In [8]:
# 성별 인코딩: 'male'은 0, 'female'은 1로 매핑
titanic_no_nan['sex'] = titanic_no_nan['sex'].map(lambda x: 0 if x == 'male' else 1 )
# 생존 여부 인코딩: 'yes'는 0, 'no'는 1로 매핑
titanic_no_nan['alive'] = titanic_no_nan['alive'].map(lambda x: 0 if x == 'yes' else 1)
# 승선한 항구 인코딩: 'C'는 0, 'Q'는 1, 'S'(Southampton)은 2로 매핑
titanic_no_nan['embarked'] = titanic_no_nan['embarked'].map(lambda x: 0 if x == 'C' else 1 if x == 'Q' else 2)
# 승객 등급 인코딩: 'First'는 0, 'Second'는 1, 'Third'는 2로 매핑
titanic_no_nan['class'] = titanic_no_nan['class'].map(lambda x: 0 if x =='First' else 1 if x =='Second' else 2) 
# 성별에 따른 그룹화 인코딩: 'man'은 0, 나머지(여성)는 1로 매핑
titanic_no_nan['who'] = titanic_no_nan['who'].map(lambda x: 0 if x == 'man' else 1)
# 성인 남성 여부 인코딩: 'False'는 0, 'True'는 1로 매핑
titanic_no_nan['adult_male'] = titanic_no_nan['adult_male'].map(lambda x: 0 if x == 'False' else 1)
# 갑판 인코딩: 'A'는 0, 'B'는 1, 'C'는 2, 'D'는 3, 'E'는 4, 'F'는 5, 'G'는 6으로 매핑
titanic_no_nan['deck'] = titanic_no_nan['deck'].map(lambda x:  0 if x == 'A' else 1 if x == 'B' else 2 if x == 'C' else 3 if x == 'D' else 4 if x == 'E' else 5 if x == 'F' else 6)
# 승선 도시 인코딩: 'Cherbourg'는 1, 'Queenstown'은 2, 'Southampton'은 3, 결측값은 0으로 매핑
titanic_no_nan['embark_town'] = titanic_no_nan['embark_town'].map(lambda x: 1 if x == 'Cherbourg' else 2 if x == 'Queenstown' else 3 if x == 'Southampton' else 0)
# 혼자 탑승 여부 인코딩: 'False'는 0, 'True'는 1로 매핑
titanic_no_nan['alone'] = titanic_no_nan['alone'].map(lambda x: 0 if x == 'False' else 1)

#head함수에서 class의 데이터 타입이 category인것으로 확인
#타입 통일을 위해서 astype으로 int 적용해도 category로 나옴
#str을 적용해서 int64로 바뀐것 확인
titanic_no_nan['class'].astype(str)

# 인코딩된 데이터프레임을 titanic_enco 변수에 저장
titanic_enco = titanic_no_nan 

In [9]:
#인코딩이 잘 이루어 졌는지 확인하기 위해 컬럼별로 head함수 적용
print(titanic_enco['sex'].head())
print(titanic_enco['alive'].head())
print(titanic_enco['embarked'].head())
print(titanic_enco['class'].head())
print(titanic_enco['who'].head())
print(titanic_enco['adult_male'].head())
print(titanic_enco['deck'].head())
print(titanic_enco['embark_town'].head())
print(titanic_enco['alone'].head())

0    0
1    1
2    1
3    1
4    0
Name: sex, dtype: int64
0    1
1    0
2    0
3    0
4    1
Name: alive, dtype: int64
0    2
1    0
2    2
3    2
4    2
Name: embarked, dtype: int64
0    2
1    0
2    2
3    0
4    2
Name: class, dtype: category
Categories (3, int64): [0, 1, 2]
0    0
1    1
2    1
3    1
4    0
Name: who, dtype: int64
0    1
1    1
2    1
3    1
4    1
Name: adult_male, dtype: int64
0    6
1    2
2    6
3    2
4    6
Name: deck, dtype: int64
0    3
1    1
2    3
3    3
4    3
Name: embark_town, dtype: int64
0    1
1    1
2    1
3    1
4    1
Name: alone, dtype: int64


In [10]:
#형제,자매, 부부, 부모, 자식의 수는 가족family_size로 묶을 수 있어 데이터 관리에 용이함
#본인을 포함 시켜야 하니 +1
titanic_enco['family_size'] = titanic_enco['sibsp'] + titanic_enco['parch'] + 1

print(titanic_enco['family_size'].head())

0    2
1    2
2    1
3    2
4    1
Name: family_size, dtype: int64


In [11]:
#이상치를 확인 했지만 특별히 높은 값이 없어 그대로 진행
#모든 열의 이상치 확인

#25%보다 작거나 75%보다 크면 이상치로 처리
#quantile로 이상치의 기준점 설정
for column in titanic_enco.columns:
    Q1 = titanic_enco[column].quantile(0.25)
    Q3 = titanic_enco[column].quantile(0.75)
    IQR = Q3 - Q1

    # 이상치 범위 설정
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    #여기서 |는 OR의 논리연산자
    #C열의 값중 lower_bound보다 작거나 upper_bound보다 큰 수를 이상치로 간주해 outliers에 저장해서 확인
    outliers = titanic_enco[(titanic_enco[column] < lower_bound) | (titanic_enco[column] > upper_bound)]

    # 이상치가 있을 경우 출력
    # outliers 데이터프레임이 비어 있지 않은지 확인하는 조건문
    # empty 속성은 데이터프레임이 비어있으면 True, 데이터가 하나라도 있으면 False를 반환
    if not outliers.empty:
        print(f"Column: {column}")
        print(outliers[[column]])  # 해당 열의 이상치만 출력
        print()  # 줄바꿈
        
# 값이 출력 되었지만 양이 너무 적어보여 GPT에 제대로 작동 한지 검증해서 마지막 열에만 적용 된것을 확인
# 조건문을 활용한 출력 값 코드 이해 X

Column: age
       age
7     2.00
11   58.00
15   55.00
16    2.00
33   66.00
..     ...
827   1.00
829  62.00
831   0.83
851  74.00
879  56.00

[66 rows x 1 columns]

Column: sibsp
     sibsp
7        3
16       4
24       3
27       3
50       4
59       5
63       3
68       4
71       5
85       3
88       3
119      4
159      8
164      4
171      4
176      3
180      8
182      4
201      8
229      3
233      4
261      4
266      4
278      4
324      8
341      3
374      3
386      5
409      3
480      5
485      3
541      4
542      4
634      3
642      3
683      5
686      4
726      3
787      4
792      8
813      4
819      3
824      4
846      8
850      4
863      8

Column: parch
     parch
7        1
8        2
10       1
13       5
16       1
..     ...
871      1
879      1
880      1
885      5
888      2

[213 rows x 1 columns]

Column: fare
         fare
1     71.2833
27   263.0000
31   146.5208
34    82.1708
52    76.7292
..        ...
846   69.5500
849 

AssertionError: 

In [12]:
# 중복값 확인
#모델 성능 개선을 위해 중복값 존재하는지 확인 후 제거
print(titanic_enco.duplicated().sum())

#데이터 중복값 제거 후 titanic_no_duplicates 변수에 저장

titanic_no_duplicates = titanic_enco.drop_duplicates()

110


In [13]:
#로지스틱 회귀 모델
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

data = titanic_no_duplicates

data = data[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']].dropna()

X = data.drop('survived', axis=1)
y = data['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 스케일링
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 모델 생성 및 학습
model = LogisticRegression()
model.fit(X_train, y_train)

# 예측
# model.predict(X_test) 학습된 모델을 사용하여 테스트데이터 X_test에 대한 예측값을 계산.예측 결과는 y_pred에 저장
y_pred = model.predict(X_test)

print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")
# accuracy_score(y_test, y_pred) 실제값 y_test와 예측 값 y_pred를 비교하여 정확도 계산
# classification_report(y_test, y_pred) 모델의 성능을 요약하여 출력(정밀도, 재현율,F1점수, 지원)
# confusion_matrix(y_test, y_pred) 혼동 행렬을 생성하여 모델의 성능을 시각적으로 나타낸다.
#Precision (정밀도): 모델이 양성으로 예측한 것 중 실제 양성의 비율입니다.
#Recall (재현율): 실제 양성 샘플 중에서 모델이 올바르게 예측한 비율입니다.
#F1-Score: 정밀도와 재현율의 조화 평균으로, 두 지표의 균형을 잡아줍니다.(높을 수 록 성능이 균형있게 수행 된 것이다.)
#평균 Avg 나온 숫자들이 비슷할 수록 좋다.
# 혼동행렬: TP, FN, FP, TN
#TP (True Positives): 올바르게 긍정으로 예측된 샘플 수
#FP (False Positives): 잘못 긍정으로 예측된 샘플 수
#TN (True Negatives): 올바르게 부정으로 예측된 샘플 수
#FN (False Negatives): 잘못 부정으로 예측된 샘플 수

#정확도는 67%
#Classification Report의 차이가 크지 않은것으로 봐선 학습은 잘 진행 된것으로 보인다
#recall이 0.56으로 낮아 긍정 클래스를 잘 놓치고 있다는 점이 우려 됨

Accuracy: 0.7898089171974523
Classification Report:
              precision    recall  f1-score   support

           0       0.80      0.84      0.82        89
           1       0.78      0.72      0.75        68

    accuracy                           0.79       157
   macro avg       0.79      0.78      0.78       157
weighted avg       0.79      0.79      0.79       157

Confusion Matrix:
[[75 14]
 [19 49]]


In [18]:
#랜덤 포레스트 모델

from sklearn.ensemble import BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


data = titanic_no_duplicates

data = data[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']].dropna()

X = data.drop('survived', axis=1)
y = data['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# 모델 학습
rf_model.fit(X_train_scaled, y_train)

# 예측
y_pred_rf = rf_model.predict(X_test_scaled)

# 평가
mse_rf = mean_squared_error(y_test, y_pred_rf)
print(f'랜덤 포레스트 모델의 MSE: {mse_rf}')

# 훈련 데이터에서 예측
y_train_pred = xgb_model.predict(X_train_scaled)

# 훈련 데이터의 MSE 계산
mse_train = mean_squared_error(y_train, y_train_pred)
print(f'훈련 데이터에 대한 MSE: {mse_train}')

print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")

#MSE는 회귀모델에 적합한 평가모델이기 때문에 좋지 못한 성능으로 나온다.
# 0 또는 1로 나뉘는 이진 분류는, MSE가 0.25는 예측이 실제 값에서 평균적으로 0.5 (반쯤 맞고 반쯤 틀림) 정도
#과적합: 훈련 데이터에서 너무 성능이 좋고 테스트 데이터에서 성능이 떨어진다면 과적합의 징후
#0.06 정도 차이로 과적합은 없는듯

랜덤 포레스트 모델의 MSE: 0.17056965569709837
훈련 데이터에 대한 MSE: 0.09365911883179091
Accuracy: 0.7898089171974523
Classification Report:
              precision    recall  f1-score   support

           0       0.80      0.84      0.82        89
           1       0.78      0.72      0.75        68

    accuracy                           0.79       157
   macro avg       0.79      0.78      0.78       157
weighted avg       0.79      0.79      0.79       157

Confusion Matrix:
[[75 14]
 [19 49]]


In [38]:
!pip install xgboost

Collecting xgboost
  Downloading xgboost-2.1.1-py3-none-win_amd64.whl.metadata (2.1 kB)
Downloading xgboost-2.1.1-py3-none-win_amd64.whl (124.9 MB)
   ---------------------------------------- 0.0/124.9 MB ? eta -:--:--
   ---------------------------------------- 0.3/124.9 MB ? eta -:--:--
   ---------------------------------------- 0.8/124.9 MB 2.2 MB/s eta 0:00:56
   ---------------------------------------- 1.3/124.9 MB 2.2 MB/s eta 0:00:58
    --------------------------------------- 1.8/124.9 MB 2.2 MB/s eta 0:00:56
    --------------------------------------- 2.1/124.9 MB 2.2 MB/s eta 0:00:56
    --------------------------------------- 2.6/124.9 MB 2.1 MB/s eta 0:01:00
    --------------------------------------- 2.9/124.9 MB 2.0 MB/s eta 0:01:00
   - -------------------------------------- 3.4/124.9 MB 2.1 MB/s eta 0:01:00
   - -------------------------------------- 3.7/124.9 MB 2.1 MB/s eta 0:00:59
   - -------------------------------------- 3.9/124.9 MB 2.0 MB/s eta 0:01:01
   - ---

In [17]:
#XGBoost 모델

import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.ensemble import BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


data = titanic_no_duplicates

data = data[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'family_size']].dropna()

X = data.drop('survived', axis=1)
y = data['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

xgb_model = xgb.XGBRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

# 모델 학습
xgb_model.fit(X_train_scaled, y_train)

# 예측
y_pred_xgb = xgb_model.predict(X_test_scaled)

# 평가
mse_xgb = mean_squared_error(y_test, y_pred_xgb)
print(f'XGBoost 모델의 MSE: {mse_xgb}')

# 훈련 데이터에서 예측
y_train_pred = xgb_model.predict(X_train_scaled)

# 훈련 데이터의 MSE 계산
mse_train = mean_squared_error(y_train, y_train_pred)
print(f'훈련 데이터에 대한 MSE: {mse_train}')

print(f"Accuracy: {accuracy_score(y_test, y_pred)}")
print(f"Classification Report:\n{classification_report(y_test, y_pred)}")
print(f"Confusion Matrix:\n{confusion_matrix(y_test, y_pred)}")

#과적합: 훈련 데이터에서 너무 성능이 좋고 테스트 데이터에서 성능이 떨어진다면 과적합의 징후
#0.06 정도 차이로 과적합은 없는듯
# 0 또는 1로 나뉘는 이진 분류는, MSE가 0.25는 예측이 실제 값에서 평균적으로 0.5 (반쯤 맞고 반쯤 틀림) 정도


XGBoost 모델의 MSE: 0.1423170693239965
훈련 데이터에 대한 MSE: 0.09365911883179091
Accuracy: 0.7898089171974523
Classification Report:
              precision    recall  f1-score   support

           0       0.80      0.84      0.82        89
           1       0.78      0.72      0.75        68

    accuracy                           0.79       157
   macro avg       0.79      0.78      0.78       157
weighted avg       0.79      0.79      0.79       157

Confusion Matrix:
[[75 14]
 [19 49]]


In [None]:
# 오류코드입니다 실행 시키지 마세요

titanic_no_nan['sex'] = titanic_no_nan['sex'].map({'male': 0, 'female': 1})
titanic_no_nan['alive'] = titanic_no_nan['alive'].map({'no': 1, 'yes': 0})
titanic_no_nan['embarked'] = titanic_no_nan['embarked'].map({'C': 0, 'Q': 1, 'S': 2})
titanic_no_nan['class'] = titanic_no_nan['class'].map({'First': 0, 'Second': 1, 'Third': 2})
titanic_no_nan['who'] = titanic_no_nan['who'].map({'man': 0, 'woman': 1})
titanic_no_nan['adult_male'] = titanic_no_nan['adult_male'].map({'True': 1, 'False': 0})
titanic_no_nan['deck'] = titanic_no_nan['deck'].map({'A': 1, 'B': 2, 'C': 3, 'D': 4, 'E': 5, 'F': 6, 'G': 7, 'nan': 0})
titanic_no_nan['embark_town'] = titanic_no_nan['embark_town'].map({'Cherbourg': 1, 'Queenstown': 2, 'Southampton': 3, 'Unknown': 0})
titanic_no_nan['alone'] = titanic_no_nan['alone'].map({'False': 0, 'True': 1})

# map만 사용하였을때 nan값으로 처리 되어서 lambda함수를 같이 사용해야 된다는 피드백 받음
# 그래서 lambda함수를 사용하면 왜 되는건지 찾아봄
# map만 사용했을 땐 사전의 키와 값을 직접적으로 연결하여 변환하기에 간단한 매핑 가능
# lambda함수를 사용하게 되면 복잡한 변환 로직 사용 가능하며 어떤 형식이든 유연히 처리
