In [119]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 데이터 불러오기
data = pd.read_csv('titanic.csv' , encoding='cp949')

In [120]:
# 입력 특성과 타겟 값 나누기
data_col = data[['객실등급','성별', '나이','생존여부']]
data_col

Unnamed: 0,객실등급,성별,나이,생존여부
0,3,male,22.0,0
1,1,female,38.0,1
2,3,female,26.0,1
3,1,female,35.0,1
4,3,male,35.0,0
...,...,...,...,...
886,2,male,27.0,0
887,1,female,19.0,1
888,3,female,,0
889,1,male,26.0,1


In [121]:
#결측치 값 처리
pd.isna(data)

#결측치 처리 - 행제거
#결측치를 가지고 있는 행들 삭제
first_df = data_col.dropna(how='any')

In [122]:
#결측치 삭제 확인

print(data_col.count())
print(first_df.count())

객실등급    891
성별      891
나이      714
생존여부    891
dtype: int64
객실등급    714
성별      714
나이      714
생존여부    714
dtype: int64


In [123]:
# 이상치 처리
#범주형 변수의 이상치 확인

# 성별 열의 값이 여성 또는 남성이 아닌 행만 <--- 이상치 : 없음
first_df[ ~ first_df["성별"].isin(['male','female']) ]

#이상치를 가진 행 삭제
#students = students[ students["class"].isin(['1','2'])

Unnamed: 0,객실등급,성별,나이,생존여부


In [124]:
# 객실등급 열의 값이 1,2,3 이 아닌 행만 <--- 이상치 : 없음
first_df[ ~ first_df["객실등급"].isin([1,2,3]) ]

Unnamed: 0,객실등급,성별,나이,생존여부


In [125]:
first_df.to_csv("extracted_data.csv", index=False, encoding='cp949')

In [126]:
# 원핫 인코딩 - 성별
from sklearn.preprocessing import OneHotEncoder
import pandas as pd
def main():
    
    # 데이터 불러오기
    data = pd.read_csv('extracted_data.csv' , encoding='cp949')
    
    enc = OneHotEncoder(categories='auto')
    sourcedata = [
        ['male'],
        ['female']
    ]
    enc.fit(sourcedata)
    
    # 해당 열을 추출하여 2D 배열로 변환
    data_categorical = data["성별"].values.reshape(-1, 1)
    
    # 원핫인코딩으로 번역
    encoded_data = enc.transform(data_categorical).toarray() 
   
    # 기존 데이터파일의 성별 칼럼 삭제
    second_df = data.drop('성별', axis=1)
    
    # 변환된 데이터를 DataFrame으로 만들기
    encoded_df = pd.DataFrame(encoded_data)    
    encoded_df.columns= ['남성','여성']
    
    
    # 칼럼 병합
    result_data = pd.concat([second_df, encoded_df],axis=1)
    
    # 결과를 새로운 파일로 저장
    result_data.to_csv('encoded_excel_data.csv', index=False)
    
if __name__ == '__main__':
    main()
    

In [127]:
data = pd.read_csv('encoded_excel_data.csv')

data

Unnamed: 0,객실등급,나이,생존여부,남성,여성
0,3,22.0,0,0.0,1.0
1,1,38.0,1,1.0,0.0
2,3,26.0,1,1.0,0.0
3,1,35.0,1,1.0,0.0
4,3,35.0,0,0.0,1.0
...,...,...,...,...,...
709,3,39.0,0,1.0,0.0
710,2,27.0,0,0.0,1.0
711,1,19.0,1,1.0,0.0
712,1,26.0,1,0.0,1.0


In [139]:
# RandomForestClassifier 로 학습

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 데이터 불러오기
data = pd.read_csv('encoded_excel_data.csv')

# 입력 특성과 타겟 값 나누기
x = data[['객실등급', '나이', '남성','여성']]
y = data['생존여부']

# 데이터 정규화
scaler = MinMaxScaler()
x_normalized = scaler.fit_transform(x)

# 학습 데이터와 테스트 데이터로 나누기
x_train, x_test, y_train, y_test = train_test_split(x_normalized, y)

# 랜덤 포레스트 모델 생성
model = RandomForestClassifier(random_state=42)

# #SVC이용방법
# model = svm.SVC()

# 모델 학습
model.fit(x_train, y_train)

# 테스트 데이터에 대한 예측
y_pred = model.predict(x_test)


In [140]:
# 정확도
accuracy = accuracy_score(y_test, y_pred)
print(f'정확도: {accuracy}')

정확도: 0.8100558659217877


In [141]:
# 재현율
recall = recall_score(y_test, y_pred)
print(f'재현율: {recall}')

재현율: 0.7941176470588235


In [142]:
# 정밀도
precision = precision_score(y_test, y_pred)
print(f'정밀도: {precision}')

정밀도: 0.7297297297297297
