## PyCaret 설치

In [None]:
# !pip install pycaret

Google Colab 사용자의 경우 다음의 코드를 실행합니다.

In [None]:
from pycaret.utils import enable_colab

enable_colab()

## 분류 Classification

- 분류 모델은 정답 값(label)에 대하여 **클래스(class)**가 존재하면 개별 데이터를 특정 클래스로 분류할 수 있는 모델입니다.

- (예시) 암/정상 환자 분류, 스팸/햄 메일 분류

## 필요한 모듈 import

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

pd.options.display.max_columns = None

**피마 인도 당뇨병 데이터베이스**

[데이터셋 출처: Pima Indians Diabetes Database](https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database)

성인 소득 분류 데이터셋을 활용하여 소득 수준을 예측합니다.


**컬럼 설명**

- age : 나이
- workclass : 고용 형태
- fnlwgt : 사람 대표성을 나타내는 가중치 (final weight의 약자)
- education : 교육 수준
- education_num : 교육 수준 수치
- marital_status: 결혼 상태
- occupation : 업종
- relationship : 가족 관계
- race : 인종
- sex : 성별
- capital_gain : 양도 소득
- capital_loss : 양도 손실
- hours_per_week : 주당 근무 시간
- native_country : 국적

**income : 수익 (예측해야 하는 값)**
- 0: <=50K
- 1: >50K

In [2]:
# 데이터셋 로드
dataset = pd.read_csv('data/income_train.csv')

In [3]:
# 상위 5개의 행 출력
dataset.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,income
0,31,Private,119432,Bachelors,13,Married-civ-spouse,Sales,Husband,White,Male,0,0,40,United-States,1
1,21,Private,296158,HS-grad,9,Never-married,Other-service,Own-child,White,Male,0,0,40,United-States,0
2,23,Private,33423,Some-college,10,Never-married,Sales,Not-in-family,White,Female,0,0,30,United-States,0
3,46,Private,144351,Masters,14,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,1
4,39,Private,348960,HS-grad,9,Married-civ-spouse,Handlers-cleaners,Husband,White,Male,0,0,40,United-States,0


In [4]:
dataset.shape

(24420, 15)

## STEP 1) 셋업 setup

머신러닝 예측 방식에 따라 다음 중 하나를 골라 import 합니다.

In [5]:
# 분류
from pycaret.classification import *  

**`setup` 함수**

- `data`: 학습할 데이터셋을 지정합니다.
- `target`: 예측할 대상(target) 컬럼을 지정합니다.
- `session_id`: SEED 값을 지정합니다.

In [6]:
clf = setup(data=dataset, 
            target='income', 
            session_id=123) 

MemoryError: Unable to allocate 33.4 GiB for an array with shape (262155, 17093) and data type float64

## STEP 2) 모든 모델에 대한 학습 compare_models

`compare_models`
- `sort`: 정렬 기준이 되는 평가지표를 설정합니다.
- `n_select`: 상위 N개의 알고리즘을 선택합니다.
- `fold`: Cross Validation 평가 Fold의 개수를 지정합니다.

In [None]:
best_model = compare_models(sort='Accuracy', n_select=3, fold=5)

In [None]:
# 제일 성능이 좋은 모델을 출력합니다.
print(best_model)

- `ignore_features`에 리스트(list) 형식으로 컬럼 정보를 지정합니다. 이 옵션에 지정된 컬럼 정보는 분석 / 학습시 무시하게 됩니다.
- `verbose=False`는 컬럼 정보가 맞게 설정이 되었는지 확인차 다시 물어보는 interactive 창을 띄우지 않습니다.

In [None]:
clf = setup(data=dataset, 
            target='Outcome', 
            session_id=123, 
            verbose=False
            ) 

In [None]:
best_model = compare_models(sort='Accuracy', n_select=3, fold=5)