## PyCaret 설치

In [None]:
!pip install pycaret

Google Colab 사용자의 경우 다음의 코드를 실행합니다.

In [None]:
from pycaret.utils import enable_colab

enable_colab()

## 분류 Classification

- 분류 모델은 정답 값(label)에 대하여 **클래스(class)**가 존재하면 개별 데이터를 특정 클래스로 분류할 수 있는 모델입니다.

- (예시) 암/정상 환자 분류, 스팸/햄 메일 분류

## 필요한 모듈 import

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

pd.options.display.max_columns = None

## 실습을 위한 데이터셋 로드

In [None]:
from IPython.display import Image

Image('https://static1.squarespace.com/static/5006453fe4b09ef2252ba068/t/5090b249e4b047ba54dfd258/1351660113175/TItanic-Survival-Infographic.jpg')

건조 당시 세계 최대의 여객선이었지만,**1912년의 최초이자 최후의 항해 때 빙산과 충돌해 침몰한 비운의 여객선**. 아마도 세상에서 가장 유명한 여객선이자 침몰선일 것입니다. 

침몰한 지 100년이 넘었지만 아직까지 세계에서 가장 유명한 침몰선입니다. 

사망자 수는 1위는 아니지만, 세계적으로 유명한 영화의 영향도 있고, 당시 최첨단 기술에 대해 기대감이 컸던 사회에 큰 영향을 끼치기도 한데다가, 근대 사회에서 들어서자마자 얼마 안된, 그리고 **유명인사들이 여럿 희생된 대참사**이기 때문에 가장 유명한 침몰선이 되었습니다. 또한 이 사건을 기점으로 여러가지 안전 조약들이 생겨났으니 더더욱 그렇습니다.

In [None]:
dataset = sns.load_dataset('titanic')
dataset.head()

In [None]:
# 데이터셋 크기 출력
dataset.shape

### 컬럼 설명

- survivied: 생존여부 (1: 생존, 0: 사망)
- pclass: 좌석 등급 (1등급, 2등급, 3등급)
- sex: 성별
- age: 나이
- sibsp: 형제 + 배우자 수
- parch: 부모 + 자녀 수
- fare: 좌석 요금
- embarked: 탑승 항구 (S, C, Q)
- class: pclass와 동일
- who: 성별과 동일
- adult_male: 성인 남자 여부
- deck: 데크 번호 (알파벳 + 숫자 혼용)
- embark_town: 탑승 항구 이름
- alive: 생존여부 (yes, no)
- alone: 혼자 탑승 여부

## STEP 1) 셋업 setup

머신러닝 예측 방식에 따라 다음 중 하나를 골라 import 합니다.

In [None]:
from pycaret.classification import *  # 분류
# from pycaret.regression import *      # 회귀
# from pycaret.clustering import *      # 군집
# from pycaret.anomaly import *         # 이상 탐지
# from pycaret.arules import *          # 연관 규칙

**`setup` 함수**

- `data`: 학습할 데이터셋을 지정합니다.
- `target`: 예측할 대상(target) 컬럼을 지정합니다.
- `session_id`: SEED 값을 지정합니다.

In [None]:
clf = setup(data=dataset, 
            target='survived', 
            session_id=123) 

## STEP 2) 모든 모델에 대한 학습 compare_models

`compare_models`
- `sort`: 정렬 기준이 되는 평가지표를 설정합니다.
- `n_select`: 상위 N개의 알고리즘을 선택합니다.
- `fold`: Cross Validation 평가 Fold의 개수를 지정합니다.

In [None]:
best_model = compare_models(sort='Accuracy', n_select=3, fold=5)

In [None]:
# 제일 성능이 좋은 모델을 출력합니다.
print(best_model)

`survived`를 예측하는 정확도가 상당히 높게 나왓습니다.

`alive` 컬럼이 `dataset`에 속해 있기 때문에 머신러닝 알고리즘이 `alive`컬럼 정보를 보고 예측했을 가능성이 큽니다.

따라서, `alive` 컬럼을 제거한 후 다시 머신러닝 학습 모델을 만들어 보도록 하겠습니다. 

In [None]:
dataset.head(3)

- `ignore_features`에 리스트(list) 형식으로 컬럼 정보를 지정합니다. 이 옵션에 지정된 컬럼 정보는 분석 / 학습시 무시하게 됩니다.
- `silent=True`는 컬럼 정보가 맞게 설정이 되었는지 확인차 다시 물어보는 interactive 창을 띄우지 않습니다.

In [None]:
clf = setup(data=dataset, 
            ignore_features=['alive'], # 분석/학습에 고려하지 않을 feature(컬럼) 제거
            target='survived', 
            session_id=123, 
            silent=True,
            ) 

In [None]:
best_model = compare_models(sort='Accuracy', n_select=3, fold=5)