##### 분석 목표 : 타이타닉 호에 탑승한 승객들의 생존여부 예측
###### 생존에 영향을 끼친 주요 요인은 무엇인가?

###### PassengerId: 승객 ID (각 승객을 고유하게 식별하는 번호)
###### Survived: 생존 여부 (0: 사망, 1: 생존)
###### Pclass: 객실 등급 (1: 1등석, 2: 2등석, 3: 3등석)
###### Name: 이름
###### Sex: 성별
###### Age: 나이
###### SibSp: 함께 탑승한 형제자매 및 배우자 수
###### Parch: 함께 탑승한 부모 및 자녀 수
###### Ticket: 티켓 번호
###### Fare: 요금
###### Cabin: 객실 번호
###### Embarked: 탑승 항구 (C: 셰르부르, Q: 퀸스타운, S: 사우샘프턴)

In [1]:
import pandas as pd

train_data = pd.read_csv('./datasets/titanic/train.csv')

test_data = pd.read_csv('./datasets/titanic/test.csv')

In [None]:
train_data.info()

In [None]:
# 숫자형 데이터에 대한 기초 통계 정보
# describe : 설명하다
train_data.describe()

In [None]:
train_data.isnull()

In [None]:
train_data.isnull().sum()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# multiple을 이용해 age, survived 항목을 하나로 보여줌
sns.histplot(data=train_data, x='Age', hue='Survived', multiple='stack')
plt.title('age by survival')
plt.show()

In [7]:
# train_data['Sex'] = train_data['Sex'].map({'male' : 0 , 'female' : 1})

# train_data['Sex'].head()

In [8]:
# train_data.info()

In [9]:
# train_data['Embarked'] = train_data['Embarked'].map({'C' : 1 , 'S' : 2, 'Q' : 3})

# train_data = pd.get_dummies(train_data, columns=['Embarked'])

In [10]:
# train_data.info()

In [11]:
# train_data.head(3)

In [12]:
# 상관계수
# correlation = train_data.drop(['Name', 'Ticket', 'Cabin'], axis=1).corr()

# print(correlation['Survived'])

In [13]:
# 범주형 변수를 숫자로 변환 (예: 성별을 0, 1로 변환)
train_data['Sex'] = train_data['Sex'].map({'male': 0, 'female': 1})

# Embarked 변수는 범주형이므로 원-핫 인코딩 (C, Q, S 각각의 열로 변환)
train_data = pd.get_dummies(train_data, columns=['Embarked'], drop_first=True)

In [None]:
# 필요한 라이브러리 임포트
import pandas as pd
import sklearn.ensemble
import sklearn.model_selection
import matplotlib.pyplot as plt
import seaborn as sns

# 특징(feature)와 타겟(target) 변수 설정
# 타겟: 'Survived' (생존 여부)
# 특징: 'Survived', 'Name', 'Ticket', 'Cabin', 'PassengerId' 등 중요하지 않은 변수 제외
X = train_data.drop(['PassengerId', 'Survived', 'Name', 'Ticket', 'Cabin'], axis=1)
y = train_data['Survived']

# 학습용 데이터와 테스트용 데이터를 80:20으로 분리
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, test_size=0.2, random_state=42)

# 랜덤 포레스트 모델 생성 및 학습
model = sklearn.ensemble.RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# 변수 중요도 추출
importances = model.feature_importances_
feature_names = X.columns

# 변수 중요도를 데이터프레임으로 정렬
importance_df = pd.DataFrame({'Feature': feature_names, 'Importance': importances})

importance_df = importance_df.sort_values(by='Importance', ascending=False)

# 변수 중요도 출력
print(importance_df)

# 변수 중요도 시각화
plt.figure(figsize=(10, 6))
sns.barplot(x='Importance', y='Feature', data=importance_df)
plt.title('Feature Importance using Random Forest')
plt.show()

In [None]:
import sklearn.metrics

# 테스트 데이터로 생존 여부 예측
y_pred = model.predict(X_test)

# 정확도 평가
accuracy = sklearn.metrics.accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')