# scikit-learn (사이킷런)
scikit-learn은 Python에서 머신러닝과 데이터 전처리를 위한 가장 널리 사용되는 라이브러리입니다.
머신러닝 모델을 쉽게 구축하고, 학습시키고, 평가할 수 있도록 다양한 기능을 제공합니다.
sklearn은 NumPy, SciPy, matplotlib 등을 기반으로 하며, 전처리, 모델링, 평가, 파이프라인까지 폭넓게 지원합니다.



 <img src="https://drive.google.com/uc?id=1qDgJy0lCSDQv1_0uoBRJlK8op6QAEIXy" height="150" width="300">


scikit-learn은 다음과 같은 주요 특징을 가지고 있습니다:

- 간편한 API : .fit(), .transform(), .predict() 등 직관적 메서드 제공

- 전처리 기능 제공 : 스케일링, 인코딩, 결측치 대체 등 전처리 도구 내장

- 다양한 알고리즘 지원 : 분류, 회귀, 클러스터링, 차원 축소 등 머신러닝 모델 제공

- 일관된 사용 방식 : 모든 객체가 유사한 방식으로 작동하여 학습이 쉬움

- 파이프라인 지원 : 전처리와 모델 학습을 순차적으로 자동화 가능


<br/>
<br/>
여기에서는 데이터 전처리를 위해 scikit learn 을 사용해보겠습니다.

<br/>
먼저 라이브러리를 불러오겠습니다.
scikit learn 은 sklearn 이라는 명칭으로 사용됩니다.

In [None]:
import sklearn
import numpy as np
import pandas as pd

## 범주형 데이터 전처리
범주형 데이터이 텍스트로 이루어져 있는 경우, 컴퓨터가 데이터분석에서 처리할 수 없습니다. 따라서 데이터 전처리 과정에서 범주형 데이터는 숫자로 변화해야합니다.
<br/>
범주형 데이터를 전처리를 하는 방식 중 많이 쓰이는 2가지를 소개합니다.
* 레이블 인코딩 (Label encoding)
* 원핫 인코딩 (OneHot encoding)

<br/>
<br/>
<br/>
<br/>

### 1) 레이블 인코딩 (Label Encoding)
텍스트 데이터를 숫자로 변환하는 가장 간단한 방법입니다. 각 범주데이터를 0,1,2... 차례로 변환 시켜주는 방식입니다. 여기에서  sklearn 의 LabelEncoder 클래스를 활용합니다.  
여러 도시를 담은 `도시` 컬럼을 생성하고 각 도시를 0, 1, 2... 와 같은 숫자로 바꿔 `도시_인코딩` 컬럼에 저장해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 데이터 생성
df = pd.DataFrame({"도시": ["서울", "부산", "대전", "서울", "부산"]})

# 라벨 인코딩 적용
encoder = LabelEncoder()
df["도시_인코딩"] = encoder.fit_transform(df["도시"])

print(df)

   도시  도시_인코딩
0  서울       2
1  부산       1
2  대전       0
3  서울       2
4  부산       1


### 2) 원 핫 인코딩 (One-Hot Emcoding)
원핫 인코딩은 범주형 데이터를 숫자로 표현하지만, 각 범주를 단순 숫자배열이 아닌, 별도 열(column)을 만들어서 0 또는 1로 표시하는 방식입니다.  

`도시` 컬럼의 각 고유값을 새로운 열로 만들어, 해당 행의 도시에만 1(True)을 표시하고 나머진 0(False)로 표시해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안
df = pd.get_dummies(df, columns=["도시"])
print(df)

   도시_인코딩  도시_대전  도시_부산  도시_서울
0       2  False  False   True
1       1  False   True  False
2       0   True  False  False
3       2  False  False   True
4       1  False   True  False


<br/>
<br/>
<br/>

# 데이터의 정규화 & 표준화

## 데이터의 정규화 (Normalization)
정규화는 데이터의 값을 0과 1 사이로 압축하는 작업입니다.
가장 많이 사용되는 방식은 MinMaxScaler 입니다.

## 특징

* 데이터를 0과 1 사이의 값으로 변환하는 방법
* 각 특성(feature)이 서로 다른 범위를 가지더라도 모든 값을 같은 스케일로 맞출 수 있음
* 최소값(min)과 최대값(max)을 기준으로 데이터를 변환하기 때문에, 이상치(outlier)의 영향을 받을 가능성이 있음
* 데이터의 크기가 너무 클 경우 값이 한쪽으로 치우치는 것을 방지하고, 모델이 학습하는 속도를 높이고 성능을 개선하는 효과가 있음

`(5, 1)` 크기의 데이터를 생성하고 `MinMaxScaler()`을 이용해 0과 1 사이로 정규화해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

import numpy as np
from sklearn.preprocessing import MinMaxScaler

data = np.array([[100], [200], [300], [400], [500]])  # 예제 데이터

scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

print(normalized_data)


[[0.  ]
 [0.25]
 [0.5 ]
 [0.75]
 [1.  ]]


## 데이터의 표준화 (Standardization)
표준화는 데이터의 평균을 0, 표준편차를 1로 변환하는 전처리 기법입니다.

주로 변수의 단위와 크기가 다른 경우, 모델의 성능 향상과 학습 안정성 확보를 위해 사용합니다.

## 특징

* 데이터를 평균이 0, 표준편차가 1인 정규 분포로 변환하는 방법
* 이상치(outlier)가 있어도 크게 영향을 받지 않음
* 데이터가 서로 다른 단위를 가지고 있거나, 평균과 분산이 크게 차이가 나는 경우에 사용함
* 데이터가 정규분포를 따르는 경우, 표준화를 하면 통계적 분석이 더 정확해짐

`StandardScaler()`를 이용하여 위에서 만든 데이터를 평균 0, 표준편차 1로 표준화해보세요.


In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

print(standardized_data)


[[-1.41421356]
 [-0.70710678]
 [ 0.        ]
 [ 0.70710678]
 [ 1.41421356]]
