# Machine Learning
***


## 주요 파이프라인

- 1. 모델링 방향 선택(회귀 or 분류)
- 2. 데이터 전처리
- 3. 모델 지정
- 4. 데이터 학습 및 검증
- 5. 예측
- 6. 예측 값 파일로 변환(csv)

## 분석 모형 선택하기

#### RandomForest, XGBoost, Lightgbm 3개만 기억하자!

위 3개는 알고리즘을 의미하고 모델 자체를 의미하지는 않는다.

즉 각 알고리즘에 대해 **Regression**, **Classification**을 정하는 것이 작업 2유형의 첫번째 관문!!

## 회귀(Regression)

- 회귀는 Regressor 메서드를 사용하여 종속변수를 예측하는 것으로 종속변수가 연속형일 경우이다.
- 예를 들어 상점별 매출액, 영화 관객 수 등이 있다.


## 분류(Classification)

- 분류는 Classifier를 사용하여 종속변수를 예측하는 것으로 종속변수가 이산형일 경우이다.
- 예를 들어 생존 여부, 남여 성별, 기사의 카테고리 등 범주형 변수와 관련이 있다.
- 예측해야 할 클래스가 2개인 경우 이진 분류(binary), 3개 이상인 경우 다중 분류(multiclass)라고 칭한다.
***

문제를 받게 되면 가장 먼저 우리가 예측해야 할 **종속변수**를 보고 모델링 방향을 정해야 한다.

모델링 방향에 따라 결과도 다르고 사용할 평가지표도 다르기 때문에 가장 중요하다고 볼 수 있다.

간단한 예로 그 차이를 보도록 하자.

In [35]:
from sklearn.datasets import load_iris

In [36]:
data = load_iris().data

In [37]:
target = load_iris().target

In [38]:
iris = pd.DataFrame(data, columns = load_iris().feature_names)

In [39]:
iris['target'] = target

#### 분류 알고리즘 적용

In [40]:
from sklearn.linear_model import LogisticRegression

In [41]:
lr_clf = LogisticRegression(random_state = 42)

In [42]:
from sklearn.model_selection import train_test_split

In [55]:
X_train, X_test, y_train, y_test = train_test_split(iris.iloc[:, :-1], iris.target, test_size = .3, random_state = 42)

In [44]:
lr_clf.fit(X_train, y_train)

LogisticRegression(random_state=42)

In [29]:
pred = lr_clf.predict(X_test)

In [30]:
from sklearn.metrics import accuracy_score

In [31]:
acc = accuracy_score(y_test, pred)

In [32]:
print(f'{lr_clf.__class__.__name__}의 정확도는 {acc}')

LogisticRegression의 정확도는 1.0


In [18]:
import pandas as pd

In [46]:
X_test['target'] = y_test

In [47]:
X_test['prediction'] = pred

In [49]:
X_test.head(10)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,prediction
73,6.1,2.8,4.7,1.2,1,1
18,5.7,3.8,1.7,0.3,0,0
118,7.7,2.6,6.9,2.3,2,2
78,6.0,2.9,4.5,1.5,1,1
76,6.8,2.8,4.8,1.4,1,1
31,5.4,3.4,1.5,0.4,0,0
64,5.6,2.9,3.6,1.3,1,1
141,6.9,3.1,5.1,2.3,2,2
68,6.2,2.2,4.5,1.5,1,1
82,5.8,2.7,3.9,1.2,1,1


#### 회귀 알고리즘 적용

In [56]:
X_train, X_test, y_train, y_test = train_test_split(iris.iloc[:, :-1], iris.target, test_size = .3, random_state = 42)

In [57]:
from sklearn.linear_model import LinearRegression

In [58]:
lr_clf = LinearRegression()

In [59]:
lr_clf.fit(X_train, y_train)

LinearRegression()

In [60]:
pred = lr_clf.predict(X_test)

In [61]:
pred

array([ 1.24069097, -0.04537609,  2.24501083,  1.35143666,  1.29775083,
        0.01024241,  1.05031173,  1.82525399,  1.37084413,  1.06699186,
        1.70363485, -0.08712067, -0.165166  , -0.07724353, -0.03380619,
        1.40167699,  2.00651252,  1.04725931,  1.28368327,  1.97600474,
        0.01782354,  1.59952875,  0.079732  ,  1.92307532,  1.8621986 ,
        1.8790815 ,  1.80251247,  2.04196713,  0.01873817,  0.01291496,
       -0.15365607, -0.08046738,  1.18506728, -0.00461982, -0.02934265,
        1.68665136,  1.29088786, -0.07995434, -0.09076782, -0.16795331,
        1.75520461,  1.37514144,  1.3174234 , -0.07193336, -0.1131512 ])

어떤 클래스(범주형 변수)에 속하는지에 대해 예측을 해야하는데 연속형 값을 반환했다. 심지어 음수로 예측하기도 하는데 우리가 보유한 데이터에 있는 클래스에는 정수형 클래스만 존재하고 소수형태는 없다. 즉 클래스를 예측해야하는 분류문제에 회귀 모델링을 적용하면 아주 이상한 결과를 얻게 된다.

***

문제에서 분류 혹은 회귀를 하라고 명시를 해줄수도 있지만 직관적으로 어떤 모델링을 해야 하는지 연습을 할 필요가 있다!

### sklearn을 활용하여 아주 간단한 머신러닝 모델링 프로세스 이해하기

- 1. 데이터를 전처리 한다. -> 결측값, 문자열 변수, 이상치 등
- 2. 내가 사용할 모델을 정한다. -> RandomForest, DecisionTree
- 3. 학습 및 검증 데이터를 나눈다. -> train_test_split, KFold, StratifiedKFold 등
- 4. 모델을 학습한다. -> fit(독립변수, 종속변수)
- 5. 모델을 검증한다. -> 모델링에 맞는 평가지표를 활용(정확도, RMSE 등)
- 6. test 데이터로 예측값을 구한다. -> predict(test 데이터)
- 7. submission을 만든다. -> 예측값.to_csv('파일명', index = False)