# Machine Learning 기초  

![](./main.jpg)  
이제 본격적으로! 머신러닝에 대해 공부해볼 겁니다. 아마 많은 분들이 이 컨텐츠에 대해 관심을 가지고 스터디를 신청하셨을 거 같아요 ㅎㅎ 하지만 데이터에 대해 익숙해지지 않은 상태로 바로 머신러닝과 인공지능에 들어가면 그 흐름을 이해하지도 못한 채, 정말 의미 없이 여러분의 시간을 날려버릴 가능성이 매우 높습니다. 비유를 하자면.. 사칙연산을 배우지도 않고 미분부터 하는 느낌정도? 
  
아무튼! 여기까지 배운 내용들을 잘 해결하셨다면, 이제부터 하는 내용은 **"코드적으로는"** 그렇게 어렵지 않을 거예요! 지금부터는 코드를 연습한다는 느낌보다는 `개념의 흐름을 더 중요하게` 생각하시고 공부하시는 게 얻어가는 게 더 많을 겁니다. 
  
나중에 짜게 되실 복잡한 딥러닝 코드들도, 결국 이러한 흐름을 코드로 표현한 것에 불과하니까요!  
  
머신러닝 컨텐츠는 3주에 걸쳐 진행됩니다. 그 중 첫 주차인 오늘은, 머신러닝의 간단한 흐름과 그 과정들을 대표적인 도구인 `sklearn`을 통해 배워볼 거예요!  
  
`sklearn`을 통해 가장 간단한 데이터셋에 대해 분류 작업을 수행해보고, 간단하게 흐름 정도만 파악하겠습니다. 학습에 있어서 데이터의 어떤 특성이 요구되는지, 그런 특성들을 어떻게 만들 수 있는지는 다음주차인 `지도학습` 시간에 다뤄보도록 할게요! 


<br>

--- 
**알림**
- 본 컨텐츠는 강의 형식이 아닌, 스스로 공부하시는 분들을 위한 일종의 문제집 입니다.
- 데이터라는 큰 바다에서 여러분이 쓸 데 없는 시간 낭비 없이 바로바로 핵심을 배우실 수 있도록 커리큘럼을 짜봤습니다.
- 이 컨텐츠의 문제들만 해결한다고 실력이 오르지 않습니다. 본 컨텐츠의 목적은 문제를 해결하는 과정에서 발생하는 고민과 질문을 통한 실력 향상입니다. 
- 문제에서 절대 떠먹여주지 않습니다. 물고기를 잡아주는 것이 아닌, 물고기를 잡는 방법을 여러분이 이 컨텐츠를 통해 알아가셨으면 합니다.

# 간단한 분류 프로젝트 해보기
머신러닝은 별 게 아닙니다. 모여진 데이터들에서 정해진 패턴을 파악하는 걸 있어보이게 머신러닝이라고 이름을 붙인 것뿐입니다.  
  
예를 들어, 우리가 다뤘던 데이터인 펭귄데이터셋도 생각해보면 그런 느낌이었죠.  
> 부리의 길이가 x, 두께는 y, 몸무게는 z, 사는 지역은 k 인 펭귄의 종은 A   

이런 식의 어떤 대상(Target)과 대상이이 가지는 특징(Feature)들의 관계를 파악하는 게 바로 머신러닝입니다.
  
> 내가 예전에 학습한 데이터에 의하면... 부리의 길이가 x'고 두께는 y'고 몸무게는 z', 사는 지역은 k' 이니까.... 이 펭귄의 종은 A겠군!  

 라고 할 수 있도록 우리는 기계를 학습시키는 게 우리의 목표인 것이죠.  
  
그래서 **Machine Learning**이기도 하구요. 그럼, 기계는 어떻게 학습시킬 수 있을까요? 한번 가장 기초적인 과정을 따라가봅시다!


### 1-1 데이터 불러오기
위에서 말씀 드렸다 싶이, 머신러닝은 데이터가 가지는 특징(Feature)과 그래서 그 데이터가 뭔지(Target) 사이의 패턴을 파악하는 일입니다.  
  
이번 시간에는 간단하게, 유방암의 여부를 예측해보는 Task를 해볼 겁니다.   
아래 코드를 실행시켜, 유방암 데이터를 받아주세요  
  
<br>

```python
X, y = load_breast_cancer(return_X_y=True, as_frame=True)

dataset = pd.concat([X, y], axis=1)
dataset
```
  
<br>
  
데이터를 받아주신 뒤, 이 데이터의 Feature는 어떤지, Label은 어떤지 설명해주세요.  
다시 말해, 이 데이터는 어떤 목표를 가지고 구축된 데이터인지 말씀해주세요!

_예시_  
![](./1-1answer.png)




In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer


In [2]:
X, y = load_breast_cancer(return_X_y=True, as_frame=True)

dataset = pd.concat([X, y], axis=1)
dataset

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890,0
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902,0
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300,0
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115,0
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637,0
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820,0
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400,0


In [3]:
dataset.describe(), dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

(       mean radius  mean texture  mean perimeter    mean area  \
 count   569.000000    569.000000      569.000000   569.000000   
 mean     14.127292     19.289649       91.969033   654.889104   
 std       3.524049      4.301036       24.298981   351.914129   
 min       6.981000      9.710000       43.790000   143.500000   
 25%      11.700000     16.170000       75.170000   420.300000   
 50%      13.370000     18.840000       86.240000   551.100000   
 75%      15.780000     21.800000      104.100000   782.700000   
 max      28.110000     39.280000      188.500000  2501.000000   
 
        mean smoothness  mean compactness  mean concavity  mean concave points  \
 count       569.000000        569.000000      569.000000           569.000000   
 mean          0.096360          0.104341        0.088799             0.048919   
 std           0.014064          0.052813        0.079720             0.038803   
 min           0.052630          0.019380        0.000000             0.0000

In [5]:
dataset["target"].value_counts()

1    357
0    212
Name: target, dtype: int64

유방암 유무가 target으로 나타나고
여러 수치들을 이용해 유방암 유무를 예측한다.

## 1-2 train_test_split

머신러닝을 훈련시킬 때는 머신러닝이 패턴을 학습할 `학습데이터`와 모델의 성능을 학습과정에서 평가하기 위한 `검증데이터`, 마지막으로 최종적으로 실전 투입에서의 성능을 평가하기 위한 `테스트데이터`가 필요합니다.
  
쉽게 비유하면, 수능이라는 점수를 잘 내기 위해서 평소에 1월 ~ 8월 모의고사로 공부를 하고, 9월 모의고사로 "아 대충 이정도 나오겠구나~"로 생각하죠?  
여기서 1월에서 8월까지의 모의고사를 `학습데이터`라고 할 수 있고, 실전은 아니지만 실전 상황을 가정하고 우리의 실력을 확인해보기 위해 사용한 9월 모의고사 성적을 `검증데이터`, 그리고 수능을 `테스트데이터`라고 할 수 있습니다.
  
실전에선, 데이터 한 뭉텅이만 있고, 우리는 그 데이터에 대해 학습시킨 다음, 미래에 들어올 미지의 데이터를 예측해야합니다.  
즉, 환자 500명의 데이터만을 가지고, 앞으로 들어올 환자(기존의 500명에는 포함 안 되어 있는 새로운 환자)의 데이터만을 가지고 유방암이 걸렸는지 안 걸렸는지 예측을 해내야 한다는 것이죠. 
  
그래서!! 일단 가지고 있는 데이터를 **분리**시켜야 합니다.  
위에서 말했던 그대로, 이 모델이 어느 정도의 성능이 될 지 미리 알아둘 필요가 있기 때문이죠.  
  
`sklearn`의 `train_test_split`을 이용하면, 쉽게 처리할 수 있습니다.
  
아래 예시 코드의 빈 칸에 들어갈 함수를 입력하고, 학습 데이터와 검증 데이터를 나눠주세요!  
  
**단, 검증데이터의 비율은 0.2, random_state=42로 고정시켜주세요.**
```python
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = """HERE YOUR CODE"""
print(f"Shape of X_train: {X_train.shape}")
print(f"Shape of y_train: {y_train.shape}")
print(f"Shape of X_val: {X_test.shape}")
print(f"Shape of y_val: {y_test.shape}")
```
  
__예시__  
![](./1-2answer.png)
  


In [6]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Shape of X_train: {X_train.shape}")
print(f"Shape of X_val: {X_val.shape}")
print(f"Shape of y_train: {y_train.shape}")
print(f"Shape of y_val: {y_val.shape}")

Shape of X_train: (455, 30)
Shape of X_val: (114, 30)
Shape of y_train: (455,)
Shape of y_val: (114,)


### 간단한 O, X퀴즈
- 위에서 분리해낸 X_val과 y_val은 학습 과정에 사용되어, 모델의 패턴 학습에 활용된다 (O, X)  
🙅‍♀️ 땡!!!! 검증 데이터셋은 말 그대로 모델의 성능을 실전에 투입되기 전에 테스트해보기 위한 용도입니다. 즉, 실전을 가정하는 데이터셋이라는 것이죠. 우리가 9월 모의고사로 실력을 테스트해보려고 하는데 9월 모의고사 문제와 답안지를 미리 알고 있으면 안 된다는 얘기입니다. 


# 2. Preprocessing 전처리
데이터셋 분리에 성공했다면, 이제 전처리를 해주어야 합니다.  
전처리를 모델의 성능을 가르는 가장 큰 요소로, 사실 어떤 모델을 썼냐~ 세부 설정은 뭐로 했냐~ 이런 거보다 데이터 전처리를 바꾸는 게 성능을 가장 크게 바꾼답니다.  
  

> **"Garbage in, Garbage out!!"**  

Data Driven 사고에 대해서 조금 더 알고 싶으시다면, [여기](https://www.techopedia.com/whats-the-difference-between-model-driven-ai-and-data-driven-ai/7/34776)에서 한번 쭉 읽어보시는 것도 흥미진진 하실거예요 ㅎㅎ
  
그런 만큼, 전처리는 모델의 전체적인 과정에 있어 가장 오랜 시간을 들여야 하는 파트입니다.  
  
쉽게 비유를 하면, 우리가 여자친구나 남자친구에게 크리스마스에 파스타를 만들어주려고 한다고 해봅시다.  
그럼, 장을 보고~ 재료 정리하고~ 재료 다듬고~ 요리하고~ 서빙하고~ 이 과정을 거치는데, 실제로 어디에서 가~~장 시간이 많이 쇼요될까요?  
  
맞아요 사실 장을보고 재료를 다듬는 과정까지가 제일 오래 걸린답니다. 실제로 요리하는 시간은 생각보다 오래 걸리지 않거든요 ㅎㅎ   
  
우리가 모델링 하는 걸 요리로 비유했을 때, **재료를 다듬는 과정까지를 전처리**라고 할 수 있습니다. 하지만 동시에 **가장 중요한 과정**이라고 할 수 있습니다.
사실 4주에 걸쳐 데이터를 핸들링하는 방법에 대해 배운 이유는, 바로 이 전처리에 걸리는 시간을 좀 줄이기 위해서도 없지 않아 있어요 ㅎㅎ..  
  
가장 오래 걸리고 이런 저런 생각을 많이 해야하는 파트지만, 우리는 튜토리얼이니까 조금 간단하게 `결측치 제거`와 `Scaling`만 보고 넘어가보도록 할게요.

## 2-1 null값 삭제
데이터를 학습하는 데에 있어서 null값(결측치)는 도움이 되지 않습니다. 오히려 학습을 방해하거나 혼동을 줄 수 있죠.  
결측치를 다루는 방법은 여러가지가 있습니다.  
  
> 1. 삭제하기
> 2. 다른 값으로 대체하기  
>     2-1. 통계값(평균값, 최빈값, 중앙값..)  
>     2-2. EDA를 통해 알아낸 사실로 대체하기 (필사할 때 아셨죠?)  
  
이 외에도 다양한 방법이 있지만 일단 우리는 여기서 가장 간단한 방법인 `삭제하기` 로 실습해보도록  
  
**우리가 사용하는 데이터에는 결측치가 없기 때문에, 일단 나름대로 Data Frame을 생성해보고, 결측치를 제거하는 코드를 실습해볼게요!**

<br>

```python
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(100, 5), columns=["A","B","C","D","E"])

for _ in range(10):
    row_idx = np.random.choice(df.index)
    col_idx = np.random.choice(df.columns)
    df.loc[row_idx, col_idx] = np.nan

print(f"🔎 # of NaN Values :\n {df.isnull().sum()}")
print(f"Shape of Data Frame : {df.shape}")

> HERE YOUR CODE!

print(f"🚀 결측치 처리 후 :\n {df.isnull().sum()}")
print(f"Shape of Data Frame : {df.shape}")
```

검색 힌트 : pd.dropna(), pd.isnull().sum()

In [7]:
df = pd.DataFrame(np.random.randn(100, 5), columns=["A","B","C","D","E"])

for _ in range(10):
    row_idx = np.random.choice(df.index)
    col_idx = np.random.choice(df.columns)
    df.loc[row_idx, col_idx] = np.nan

print(f"🔎 # of NaN Values :\n {df.isnull().sum()}")
print(f"Shape of Data Frame : {df.shape}")

df.dropna(axis=0, inplace=True)

print(f"🚀 결측치 처리 후 :\n {df.isnull().sum()}")
print(f"Shape of Data Frame : {df.shape}")

🔎 # of NaN Values :
 A    5
B    0
C    1
D    3
E    1
dtype: int64
Shape of Data Frame : (100, 5)
🚀 결측치 처리 후 :
 A    0
B    0
C    0
D    0
E    0
dtype: int64
Shape of Data Frame : (90, 5)


## 2-2 Scaling 하기  
모델의 안정적인 학습을 위해서는 `데이터의 단위를 통일` 시켜주는 것이 좋습니다.  
이유는 다음과 같아요!
    
> 1. Feature간의 상대적 중요도가 더 잘 드러납니다.  
> 2. 이상치의 영향력이 감소합니다.  
> 3. 연산 효율이 좋아집니다.  
    
조금 더 직관적인 설명을 드려볼게요.  
우리가 만약 주택의 가격을 예측하는 업무를 맡았다고 해볼게요!  
주택의 가격을 결정하는 Feature들로 __"방 개수", "주택 평수"__ 를 설정했다고 해봅시다.  
  
근데 생각해보면 **방 개수**는 해봐야 1~5개 정도로, **주택 평수**는 1 ~ 100까지 뭐 다양하겠죠?  
**즉, 다시 말해 두 데이터간의 범위에 있어서 차이가 발생합니다.**  
   
그럼, 머신러닝이 이를 학습할 때 어떤 문제가 발생할까요?  
  
> 🤖: 어... 얘는... 변동폭이 크니까... 중요한가,,,? 얘는... 변동폭이 그리 안 크니까 안 중요한 거겠지,,,?
  
이런 식으로 오해할 수 있어요. 그러기 때문에, 일반적으로 딥러닝이나 Tree 모델을 제외한 나머지 모델로 학습을 시킬 때는 꼭 Scaling을 진행해주는 것이 좋습니다.  
  
### 문제
`sklearn`의 `StandardScaler`를 이용하여 `X_train`과 `X_val`을 Scaling 해주세요.  

단, X_train엔 `fit_transform()`을, X_val엔 `transform()` 메소드를 적용해서 Scaling 해주세요!  
  
그리고 왜 학습데이터엔 `fit_transform()`을 사용해도 되지만, 검증용이나 테스트 데이터엔 `transform()`만을 이용해야 하는지 적어주세요!
  
<br>

Base Line  
```python
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

scaler = '''HERE YOUR CODE!'''

scaled_X_train = '''HERE YOUR CODE!'''
scaled_X_val = '''HERE YOUR CODE!'''

scaled_X_train_check = scaled_X_train.reshape(30, -1)
print(f"Scaling전 데이터의 최대, 최소, 평균, std: {X_train['mean texture'].max(), X_train['mean texture'].min(),  X_train['mean texture'].mean(),  X_train['mean texture'].std()}")
print(f"Scaling후 데이터의 최대, 최소, 평균, std: {scaled_X_train_check[0].max(), scaled_X_train_check[0].min(), scaled_X_train_check[0].mean(), scaled_X_train_check[0].std()}")
```
  
<br>

검색 힌트 : fit_transform()과 transform()차이, sklearn Standard Scaler, sklearn Scaler 종류
  
_예시_  
![](./2-2answer.png)

<br>

### ❗ 심화학습 ❗   
오잉? 트리모델은 왜 Scaling이 안 필요할까요? 그 작동방식을 한번 확인해보고, 왜 안 필요한지 WIL에 적어주세요! (어떤 형태로든 적어주시면 됩니다. md파일에 그대로 적어주셔도 되고, 블로그에 적어주셔도 되고..) 


In [9]:
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

scaler = StandardScaler()
scaler.fit(X_train)
scaled_X_train = scaler.transform(X_train)
scaled_X_val = scaler.transform(X_val)

scaled_X_train_check = scaled_X_train.reshape(30, -1)
print(f"Scaling전 데이터의 최대, 최소, 평균, std: {X_train['mean texture'].max(), X_train['mean texture'].min(),  X_train['mean texture'].mean(),  X_train['mean texture'].std()}")
print(f"Scaling후 데이터의 최대, 최소, 평균, std: {scaled_X_train_check[0].max(), scaled_X_train_check[0].min(), scaled_X_train_check[0].mean(), scaled_X_train_check[0].std()}")

Scaling전 데이터의 최대, 최소, 평균, std: (39.28, 9.71, 19.185032967032967, 4.266004530881453)
Scaling후 데이터의 최대, 최소, 평균, std: (8.438936670491492, -1.4407529621170216, 0.19602811306761933, 1.1739751826530365)


## 2-3 학습시키기
이제 우리가 전처리한 데이터를 학습시키는 일만 남았습니다.  
데이터를 학습할 모델을 고르는 것도 사실 중요한 일 중 하나지만, 일단 저희는 Tree 모델 중에서 가~~~~장 기본이 되는 `DecisionTree`와 `Random Foreset`를 사용해서 성능을 비교해볼게요!  
  
이번 문제는 그냥 간단하게, `아~ 이런 이런 함수를 써서 학습시키고 예측하는구나~` 정도로만 알고 넘어가셔도 좋을 것같습니다.  
  
sklearn의 `DecisionTreeClassifier`로 `scaled_X_train`과 `y_train`을 이용해서 학습을 진행해주세요!  
단, `DecisionTreeClassifier`의 `random_state`는 42로 고정시켜주세요.

<br>

**Base Line**
```python
from sklearn.tree import DecisionTreeClassifier

classifier = '''HERE YOUR CODE!!'''

classifier.'''HERE YOUR CODE!!'''

print("🤖Training is Done!")
```  

<br>

검색 힌트: sklearn DecisionTree, sklearn 모델 학습

In [10]:
from sklearn.tree import DecisionTreeClassifier

classifier = DecisionTreeClassifier(random_state=42)
classifier.fit(scaled_X_train, y_train)
print("Training is Done!")

Training is Done!


## 2-4 예측하기
2-3에서 모델을 우리 데이터에 맞게 학습시켰습니다. 이제 그럼 이 학습된 모델이 실전에서 잘 작동할 수 있는지 확인해봐야겠죠?  
학습된 모델을 기반으로 데이터를 넣어 prediction을 구할 수 있습니다.  
  
2-4에서 학습시킨 모델로 `scaled_X_val`을 예측해주세요!  
그리고 모델의 정확도(Accuracy)가 얼마나 되는지, `sklearn`의 `accuracy_score`를 통해 계산해주세요!  

<br>

**Base Line**
```python
from sklearn.metrics import '''HERE YOUR CODE!!'''

predictions = classifier.'''HERE YOUR CODE!!'''
accuracy = '''HERE YOUR CODE!!'''

print(f"Model Accuracy: {accuracy}")
```

<br>

검색 힌트: sklearn 모델 predict, sklearn 정확도 계산  
  
_예시_  
![](./2-4answer.png)

In [11]:
from sklearn.metrics import accuracy_score

predictions = classifier.predict(scaled_X_val)
accuarcy = accuracy_score(y_val, predictions)

print(f"Model Accuracy: {accuarcy:.5f}")

Model Accuracy: 0.94737


## 2-5 다른 모델도 써보기
우리는 `DecisionTree`알고리즘을 통해 94% 라는 높은 정확도를 얻어냈습니다.  
그럼 Ensemble 모델의 원조할머니급인 `Random Forest`의 성능도 한번 확인해볼까요?  
  
랜덤포레스트로 학습과 예측, 정확도 계산까지의 코드를 완성해주세요!  
단, `RandomForestClassifier`의 random_state는 42로 고정해주세요.

<br>

```python
from sklearn.ensemble import '''HERE YOUR CODE!!'''

rf_clf = '''HERE YOUR CODE!!'''
rf_clf.'''HERE YOUR CODE!!'''
rf_prediction = rf_clf.'''HERE YOUR CODE!!'''

rf_acc = '''HERE YOUR CODE!!'''
print(f"Random Forest Model Accuracy: {rf_acc}")
```

<br>

검색 힌트: sklearn Random Forest
  
_예시_  
![](./2-5answer.png)

In [12]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(scaled_X_train, y_train)
rf_prediction = rf_clf.predict(scaled_X_val)

rf_acc = accuracy_score(y_val, rf_prediction)
print(f"Random Forest Accuracy: {rf_acc:.5f}")

Random Forest Accuracy: 0.96491


# 심화 학습
우리는 방금 Decision Tree와 Random Forest의 결과를 비교해봤습니다. 분명 같은 데이터로 두 모델을 학습시켰는데, Random Forest의 정확도가 조금 더 높게 나왔습니다.  
**왜 그 럴 까 요?**  
Random Forest는 이름에서도 느껴졌듯이, Tree가 여러개 모인 모델입니다.  
하나보단 둘이 더 낫고, 셋보단 넷, 넷보단 여러명이 더 나을 때가 있죠. 우리가 함께 모여 팀프로젝트를 하는 이유가 바로 그거구요.  
  
왜 Random Forest가 Decision Tree보다 더 나은 성능을 보이는지 공부한 결과를 블로그에 정리하신 뒤, 해당 링크를 `@자기혁명왕`에게 보내주세요!  
  
힌트는 **`Ensemble`** 입니다. 딥러닝에서도 쓰이는 아주 중요한 개념이니, 심화학습이긴 하지만 한번 쯤은 쓱-- 공부라도 하시는 걸 추천드려용 ㅎㅎ

Random Forest는 여러 다른 의사결정트리를 만들어 결과를 다수결로 결정한다.

각 Tree들이 다양한 시각에서 데이터를 관찰, 학습하기 때문에
뛰어난 부분은 더 향상되고 취약한 부분을 보완할 수 있다.

그래서 개별 모델로 학습한 경우에 비해 Overfitting을 막을 수 있고 일반화 성능도 향상시킬 수 있다.


# 5주차 종료 
머신러닝의 가장 일반적인 흐름을 살펴봤습니다. 어떤가요? 생각보다 코드들이 막 그렇게 복잡하지는 않죠?  
맞습니다. 사실 `pytorch`나 `tensorflow`와 같은 딥러닝에 특화된 프레임워크가 아닌 `sklearn`은 그렇게 복잡한 코드를 요구하지는 않습니다.  
  
때문에, 코드적 스킬보다는 그 코드가 의미하는 것, 그리고 개념이 더 중요하다고 할 수 있죠.  
  
사실 성능도 코드를 어떻게 잘 지지고 볶았냐에서 갈린다고 하기 보다는 데이터 전처리를 얼마나 알맞게 잘 했냐, 어떤 아이디어를 적용시켰냐! 가 사실은 성능에 있어서 더 큰 영향을 주더라구용  
  
위의 과정에서 나온 `Scaling`, `fit`과 `fit_transform()`의 차이, `결측치 처리 방법` 모두 머신러닝을 할 때 성능을 가를 수 있는 중요한 요소들입니다.  
시간 되실 때, 꼭 한번쯤은 복습하시는 걸 추천드려요 ㅎㅎ
  
## 숙제 
시험기간인 만큼, 큰 부담은 최대한 안 드리려고 합니다.  
여러분이 위의 과정을 하시면서 배운 것들을 블로그에 정리한 뒤, md 파일에 블로그 링크를 함께 달아주세요!  
  
궁금하신 게 생기시면 언제든지 편하게 질문주세요 ㅎㅎ 그럼 다음에 봐요! 
