# 안녕하세요, 여러분 ^^ 

# 디지코 디그리 AI 모델링 과정 
# 🎈"도전 머신러닝" 시간에 오신 여러분을 환영합니다!

## 오늘은 <font color="#01918a">'타이타닉 생존자 예측'</font> 문제를 해결해 보겠습니다.

<img src = "https://images.unsplash.com/photo-1654170816607-f355d5cd5619?ixlib=rb-4.0.3&ixid=M3wxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8fA%3D%3D&auto=format&fit=crop&w=2664&q=80" width=100% align="center"/>

<div align="right">사진: <a href="https://unsplash.com/ko/%EC%82%AC%EC%A7%84/TQAWPDbuwrc?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>의<a href="https://unsplash.com/@ep_petrus?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Edwin Petrus</a></div>

---

## 1. 데이터 수집 및 분석
### 1) 데이터 불러오기

In [None]:
# pip 이용해서 필요 라이브러리 설치(앞선 실습에서 미 설치 시 실행)

# 사내 컴퓨터 사용 시
#!pip install --trusted-host pypi.python.org --trusted-host files.pythonhosted.org --trusted-host pypi.org -U graphviz

# import os
# os.environ["PATH"] += os.pathsep + os.path.abspath("./bin")

# 사외 컴퓨터 사용 시
#!pip install pandas-profiling seaborn graphviz

In [None]:
# 기본 라이브러리 불러오기
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

---

## 2. 데이터 전처리 (1)
불필요한 컬럼을 삭제하거나 기존 데이터로 부터 새로운 컬럼을 생성합니다.
데이터의 결측치를 확인하고 처리합니다
- 데이터 가공하기
- 결측치 제거하기
- 불필요한 컬럼 삭제하기

---

## 3. 데이터 전처리 (2)
범주형 변수를 수치형 데이터로 변환하고, 다양한 특성들의 스케일을 조정하여 데이터를 모델링에 적합한 형태로 전처리하는 과정입니다.

- 범주형 데이터 인코딩
- 특성 스케일링/정규화

---

## 4. 머신러닝 모델링
데이터를 수집하고 전처리하여 특성을 선택하고 엔지니어링한 후, 
학습 데이터와 검증용 데이터를 분리하고 적절한 머신러닝 모델을 선택하여 학습시킨 다음,
모델의 성능을 평가하고 성능을 향상시키는 작업을 수행하는 단계입니다.

- Train(학습용), Test(검증용) 데이터 셋 분할
- 머신러닝 모델 구현하기
- 머신러닝 모델 저장하기

---

## 5. 머신러닝 모델 활용하기
머신러닝 모델 활용은 저장된 모델을 로드하고, 새로운 입력 데이터(Test 데이터)를 제공하여 예측 또는 추론을 수행하면 됩니다. <br>이 과정을 통해 모델을 활용하여 실제 문제에 대한 예측을 수행할 수 있습니다.
- 머신러닝 모델 로드(불러오기)
- Test 데이터 준비하기
- 머신러닝 모델 예측하기

### 1) 머신러닝 모델 로드(불러오기)
저장된 모델 파일을 로드합니다. <br>
scikit-learn은 joblib 라이브러리를 활용하여 모델을 저장하고 로드할 수 있는 dump와 load 함수를 제공합니다.<br>

#### ① 저장한 모델 불러오기
joblib의 load 함수를 사용하여 저장된 모델을 로드할 수 있습니다.
> - loaded_model = joblib.load('model_file.pkl')<br>
> load 함수를 사용하여 저장된 파일의 경로와 이름을 전달하면 모델이 로드됩니다.

In [None]:
# 라이브러리 임포트
import joblib

#model 저장
my_model = joblib.load('./model_사번_이름.pkl')

In [None]:
my_model

### 2) Test 데이터 준비하기
모델을 활용하기 위해 Test 데이터를 준비해야합니다. Test 데이터는 모델이 예측을 수행할 때 필요한 특성들을 포함해야 합니다. <br> 
데이터를 모델이 요구하는 형식에 맞게 가공하고 스케일링 등의 전처리 작업을 수행합니다.

#### ① Test 데이터 불러오기
- **pandas 라이브러리의 read_csv 함수를 사용하면 파일을 불러오고 변수에 저장할 수 있습니다.**

In [None]:
df_train = pd.read_csv("./data/train_preprocessing_2.csv")
df_test = pd.read_csv('./data/test.csv')

In [None]:
df_train.info()

In [None]:
df_test.info()

#### ② Test 데이터 전처리하기
- **Title 변수 만들기**

In [None]:
df_test['Title'] = df_test['Name'].str.extract(' ([a-zA-Z]+)\.')

# 대표 호칭 이외는 Others로 변경
df_test.loc[df_test['Title'].isin(['Mr', 'Miss', 'Mrs'])==False, ['Title']] = 'Others'

- **결측치 처리하기**

In [None]:
df_test.isnull().sum()

In [None]:
# Imputer 라이브러리 불러오기
from sklearn.impute import KNNImputer, SimpleImputer

# KNNImputer를 사용하여 'Age' 결측치를 예측하여 대체
imputer = KNNImputer(n_neighbors=3)
df_test['Age'] = imputer.fit_transform(df_test[['Age']])
df_test['Age'] = df_test['Age'].astype(int)

# SimpleImputer를 사용하여 'Embarked' 최빈값으로 대체
imputer = SimpleImputer(strategy='most_frequent')
df_test['Embarked'] = imputer.fit_transform(df_test[['Embarked']])

- **불필요한 컬럼 삭제하기**

In [None]:
drop_cols = ['PassengerId', 'Name', 'Ticket', 'Cabin']
df_test.drop(drop_cols, axis=1, inplace=True)

- **데이터 인코딩하기**

In [None]:
# get_dummies를 활용하여 범주형 데이터 가변수화 진행
# 범주형 컬럼 리스트
dummy_vars = ['Title', 'Pclass', 'Sex', 'Embarked']

df_test = pd.get_dummies(df_test, columns=dummy_vars, drop_first=True)

- **데이터 스케일링하기**<br>
테스트 데이터는 학습 데이터와 동일한 스케일링 범위로 조정되어야 합니다. 그러나 테스트 데이터를 스케일링할 때마다 최소값과 최대값을 새로 계산하면 학습 데이터와 다른 스케일링 범위가 적용될 수 있습니다.<br>
학습 데이터에는 모델이 이미 노출되어 있으므로, 학습 데이터의 스케일링 범위를 사용하는 것이 테스트 데이터의 정보 유출을 방지하고 일관성을 유지하는 데 도움이 됩니다.
<br><br>
학습 데이터에는 fit_transform()을 사용하여 최소값과 최대값을 계산하고 데이터를 스케일링합니다.<br> 
그 후, 테스트 데이터에는 transform()을 사용하여 학습 데이터에서 계산된 최소값과 최대값을 사용하여 동일한 스케일링을 적용합니다. 

In [None]:
#from sklearn.preprocessing import MinMaxScaler
# 스케일러 생성하기
scaler = MinMaxScaler()

# 학습용 데이터 스케일러 불러오기
scaler = joblib.load("./scaler.pkl")

# 데이터 스케일링하기
df_test = scaler.transform(df_test)

#데이터 프레임
df_test = pd.DataFrame(df_test, columns=scaler.feature_names_in_)

In [None]:
df_test.head(3)

### 3) 머신러닝 모델 예측하기
준비된 데이터를 사용하여 모델에 입력하여 예측을 수행하거나 추론 결과를 얻습니다. <br> 
모델에 입력 데이터를 전달하고, 모델은 해당 데이터에 대한 예측값을 반환합니다. 

#### ① 불러온 모델로 Test 데이터 예측하기

In [None]:
# 불러온 모델로 예측하기
predict = my_model.predict(df_test)

#### ② 정답 데이터와 비교하기
모델이 예측한 결과를 정답 데이터('actual.csv')를 불러와서 f1_score를 확인해보세요.

In [None]:
actual = pd.read_csv("./data/actual.csv")

In [None]:
actual.head(3)

In [None]:
from sklearn.metrics import f1_score

f1_score(actual['Survived'], predict)

---