# KNN
- 최근접 이웃 알고리즘
- 가장 가까운 거리에 있는 K 개의 데이터의 값을 보고 결과를 예측
- 학습 자체가 데이터를 저장하는 것만 하기 때문에 학습이라는 것이 존재하지 않는다.
- 근처에 있는 값만 보고 예측하기 때문에 예측 속도도 빠르다.
- 데이터따라 성능이 매우 좋지 않을 가능성이 있다.


## KNN 분류

In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나 이상 설정할 경우
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 모델의 최적의 하이퍼파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR


#### 데이터 준비>데이터 전처리(X,y-인코딩( LabelEncoder())-표준화(StandardScaler()))

### 기본 모델로 돌려본다
- KNeighborsClassifier()
- 기본으로 n_neighbors=5로 설정되어있다.

In [None]:
# 이웃의 개수는 기본이 5로 설정되어 있다.
model1=KNeighborsClassifier()

#교차검증
kfold=KFold(n_splits=10,shuffle=True,random_state=1)

r1=cross_val_score(model1,X,y,scoring='f1',cv=kfold)

print(f'평균정확도:{r1.mean()}')

###  GridSearchCV
### 모델 하이퍼 파라미터 튜닝
- 하이퍼 파라미터 : 모델의 학습 성능 향상을 위해 설정하는 값. 
- 잘못 설정되면 성능에 악영향을 미칠 수 있다.
- n_neighbors : 이웃의 개수
- 이웃의 개수가 많으면 편향될 확률이 높아진다.
- X와y에 제일 적합한 파라미터를 알아 낼 수 있다.

###### GridSearchCV 파라미터에 정해둔 params를 입력한다.( param_grid=params)

In [None]:
params = {
    # 'n_neighbors' : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
    'n_neighbors' : list(range(1, 11))
}

# 사용할 모델 객체를 생성한다.
model2 = KNeighborsClassifier()

# 최적의 하이퍼 파라미터를 찾는다
kfold = KFold(n_splits=10, shuffle=True, random_state=1)

#최적 하이퍼 파라미터를 찾기위한 GridSearchCV 모델 생성
grid_clf = GridSearchCV(model2, param_grid=params, scoring='f1', cv=kfold)

#X와y에 대해 학습시킨다.
grid_clf.fit(X, y)

#X와y에 제일 적합한 파라미터를 알아 낼 수 있다.

# 결과출력
print(f'최적의 하이퍼 파라미터 : {grid_clf.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf.best_score_}')


 ##### grid_clf.best_estimator_= 최적의 하이퍼파라미터가 셋팅된 모델

In [None]:
# 최적의 하이퍼파라미터가 셋팅된 모델을 받아온다.
best_model = grid_clf.best_estimator_
# 학습
best_model.fit(X, y)

In [None]:
# 학습된 모델로 y를 예측한다.
y_pred = best_model.predict(X)

#얼마나 잘 학습되었는지 그래프로 표현

#실제 y값 표현
plt.scatter(list(range(len(y))), y, label='original')

#예측 y값 표현
plt.scatter(list(range(len(y_pred))), y_pred, label='prediction')

plt.legend()

plt.show()


##### predict_proba= 확률로 표현

In [None]:
# 결과 확률
proba_a1 = best_model.predict_proba(X)
proba_a1

In [None]:
#그래프로 표현
# 0일 확률들
a10 = proba_a1[:, 0]
# 1일 확률들
a11 = proba_a1[:, 1]

plt.scatter(list(range(len(a10))), a10, label='0일 확률')
plt.scatter(list(range(len(a11))), a11, label='1일 확률')
plt.legend()
plt.show()

### 새로운 데이터로 y값을예측해본다.
- 데이터 준비(X값으로만 이루어진 데이터) >데이터 전처리(표준화)

In [None]:
# 결과를 예측한다.
y_pred = best_model.predict(새로운 데이터 X)
y_pred

In [None]:
# 예측 확률을 시각화한다.

##### 결과 데이터 복원

In [None]:
# 결과 데이터를 복원한다.
result_data = encoder1.inverse_transform(y_pred)
result_data


##### 결과 저장

In [None]:
# 결과를 저장한다.
df2['target'] = result_data
df2.to_csv('data/breast_cancer_KNN.csv')
print('저장완료')


## KNN 회귀

#### 데이터 준비>데이터 전처리(X,y-인코딩( LabelEncoder())-표준화(StandardScaler()))

### KNeighborsRegressor() 기본 모델 사용하기 
- n_neighbors : 5

In [None]:
#모델 생성
model1=KNeighborsRegressor()

#교차검증 수행
kfold= KFold(n_splits=10,shuffle=True, random_state=1)
r1= cross_val_score(model1,X,y,scoring='r2',cv=kfold)
print(f'평균 성능 수치 : {r1.mean()}')

#### 모델 하이퍼 파라미터 튜닝>학습>검증>새로운데이터로 예측

In [None]:
params = {
    # 이웃의 개수
    'n_neighbors' : list(range(1, 11))
}


kfold=KFold(n_splits=10,shuffle=True, random_state=1)

model2=KNeighborsRegressor()
grid_clf=GridSearchCV(model2,param_grid=params, scoring='r2',cv=kfold)

grid_clf.fit(X,y)
print(f'최적의 하이퍼 파라미터 : {grid_clf.best_params_}')
print(f'최적의 모델 평균성능 : {grid_clf.best_score_}')


In [None]:
#진짜 결과와 예측 결과를 시각화하여 패턴을 학인
plt.plot(y,label='original')
plt.plot(y_pred, label='prediction')
plt.legend()
plt.show()

### 저장

In [None]:
df2['target'] = y_pred
df2.to_csv('data/boston_KNN.csv')
print('저장완료')


# 선형모델
- 데이터를 확인하고 그 와 관련된 선을 찾는 알고리즘
- 분류 : 경계선을 찾는다.
- 회귀 : 예측선을 찾는다.



## 분류

#### 데이터 준비>데이터 전처리(X,y-인코딩( LabelEncoder())-표준화(StandardScaler()))

### 기본 모델 사용
- LogisticRegression : 경계선과 가장 가까운 데이터와의 거리가 가장 가까울 수 있도록 경계선을 찾는다.
- SVM(SVC) : 경계선과 가장 가까운 데이터와의 거리가 가장 멀 수 있도록 경계선을 찾는다.


#### LogisticRegression()

In [None]:
model1 = LogisticRegression()

# 교차 검증
kfold = KFold(n_splits=10, shuffle=True, random_state=1)

r1 = cross_val_score(model1, X, y, scoring='f1', cv=kfold)

print(f'평균 정확도 : {r1.mean()}')


#### SVC()

In [None]:
model2 = SVC()

# 교차 검증
kfold = KFold(n_splits=10, shuffle=True, random_state=1)

r1 = cross_val_score(model2, X, y, scoring='f1', cv=kfold)

print(f'평균 정확도 : {r1.mean()}')

### 모델 하이퍼 파라미터 튜닝
- 규제 : 선형 모델은 직선을 찾으려고 한다. 따라서 규제를 통해 직선을 다른 형태로 변형할 수 있다.
- l2 규제 : 각 가중치(학습을 통해 찾아내야 하는 상수들)의 제곱한 값의 합에 규제 강도를 곱한다. 규제 강도를 크게하면 가중치가 더 많이 감소되고 규제 강도를 작게하면 가중치가 증가한다.
- l1 규제 : 각 가중치의 합에 규제 강도를 곱한다.


#### LogisticRegression 


- penalty : 규제의 종류(l1, l2, elasticnet, none)
- C : 규제의 강도 

In [None]:
params = {
    'penalty' : ['l1', 'l2', 'elasticnet', 'none'],
    'C' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model1 = LogisticRegression()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf1 = GridSearchCV(model1, param_grid=params, scoring='f1', cv=kfold)
grid_clf1.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf1.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf1.best_score_}')


#### SVM(SVC)

- SVM은 penalty가 l2로 고정되어 있다####
- C : 규제의 강도 

In [None]:
params = {
    'C' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model2 = SVC()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf2 = GridSearchCV(model2, param_grid=params, scoring='f1', cv=kfold)
grid_clf2.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf2.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf2.best_score_}')

### 최적의 모델에 전체 데이터를 학습 시킨다.

In [None]:
# 최적의 하이퍼파라미터가 셋팅된 모델을 받아온다.

# LogisticRegression()
best_model1 = grid_clf1.best_estimator_

# SVC()
best_model2 = grid_clf2.best_estimator_

# SVM의 경우 확률을 찍어보기 위해서는 다음과 같은 값을 설정해야 한다.
best_model2.probability = True

# 학습
best_model1.fit(X, y)
best_model2.fit(X, y)


### 학습한 데이터를 통해 검증한다. 
- LogisticRegression()

In [None]:
y_pred1 = best_model1.predict(X)

plt.scatter(list(range(len(y))), y, label='original')
plt.scatter(list(range(len(y_pred1))), y_pred1, label='prediction')
plt.legend()
plt.title('LogisticRegression')
plt.show()


In [None]:
# 결과 확률
proba_a1 = best_model1.predict_proba(X)

# 0일 확률들
a10 = proba_a1[:, 0]
# 1일 확률들
a11 = proba_a1[:, 1]

plt.scatter(list(range(len(a10))), a10, label='0일 확률')
plt.scatter(list(range(len(a11))), a11, label='1일 확률')
plt.legend()
plt.title('LogisticRegression')

plt.show()

- SVC()

In [None]:
y_pred2 = best_model2.predict(X)

plt.scatter(list(range(len(y))), y, label='original')
plt.scatter(list(range(len(y_pred2))), y_pred2, label='prediction')
plt.legend()
plt.title('SVM(SVC)')
plt.show()

In [None]:
# 결과 확률
proba_a1 = best_model2.predict_proba(X)

# 0일 확률들
a10 = proba_a1[:, 0]
# 1일 확률들
a11 = proba_a1[:, 1]

plt.scatter(list(range(len(a10))), a10, label='0일 확률')
plt.scatter(list(range(len(a11))), a11, label='1일 확률')
plt.legend()
plt.title('SVM(SVC)')
plt.show()


### 새로운 데이터에 대한 예측을 수행한다.

#### 데이터 준비>데이터 전처리(표준화(StandardScaler())>결과 예측>시각화

# 회귀
- LinearRegression : 가장 기본적인 선형 회귀. 규제 함수가 없다.
- Ridge:LinearRegression에 규제함수 l2를 추가한것
- Lasso: LinearRegression에 규제함수 l1를 추가한것
- ElasticNet:Ridge와Lasso 결합
- SVM(SVR): 서브백터머신 방식으로 회귀를 수행한다.

#### 데이터 준비>데이터 전처리(X,y-인코딩( LabelEncoder())-표준화(StandardScaler()))

### 기본모델 사용하기


In [None]:
model1 = LinearRegression()
model2 = Ridge()
model3 = Lasso()
model4 = ElasticNet()
model5 = SVR()


In [None]:
# 교차 검증 수행
kfold = KFold(n_splits=10, shuffle=True, random_state=1)

r1 = cross_val_score(model1, X, y, scoring='r2', cv=kfold)
r2 = cross_val_score(model2, X, y, scoring='r2', cv=kfold)
r3 = cross_val_score(model3, X, y, scoring='r2', cv=kfold)
r4 = cross_val_score(model4, X, y, scoring='r2', cv=kfold)
r5 = cross_val_score(model5, X, y, scoring='r2', cv=kfold)


In [None]:
print(f'평균 성능 수치 : {r1.mean()}')
print(f'평균 성능 수치 : {r2.mean()}')
print(f'평균 성능 수치 : {r3.mean()}')
print(f'평균 성능 수치 : {r4.mean()}')
print(f'평균 성능 수치 : {r5.mean()}')


### 모델 하이퍼 파라미터 튜닝

- LinearRegression

In [None]:
# LinearRegressino 은 규제 함수가 존재하지 않기 때문에 설정할 하이퍼
# 파라미터가 존재하지 않는다.

- Ridge

In [None]:
# alpha : 값이 작을 수록 규제가 약해지고 값이 클수록 규제가 강해진다.
params = {
    'alpha' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model2 = Ridge()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf2 = GridSearchCV(model2, param_grid=params, scoring='r2', cv=kfold)
grid_clf2.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf2.best_params_}')
print(f'최적의 모델 평균성능 : {grid_clf2.best_score_}')


- Lasso

In [None]:
# alpha : 값이 작을 수록 규제가 약해지고 값이 클수록 규제가 강해진다.
params = {
    'alpha' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model3 = Lasso()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf3 = GridSearchCV(model3, param_grid=params, scoring='r2', cv=kfold)
grid_clf3.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf3.best_params_}')
print(f'최적의 모델 평균성능 : {grid_clf3.best_score_}')


- ElasticNet

In [None]:
# alpha : 값이 작을 수록 규제가 약해지고 값이 클수록 규제가 강해진다.
params = {
    'alpha' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model4 = ElasticNet()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf4 = GridSearchCV(model4, param_grid=params, scoring='r2', cv=kfold)
grid_clf4.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf4.best_params_}')
print(f'최적의 모델 평균성능 : {grid_clf4.best_score_}')


- SVM(SVR)

In [None]:
# C : 규제의 강도 
params = {
    'C' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000]
}

model5 = SVR()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)
grid_clf5 = GridSearchCV(model5, param_grid=params, scoring='r2', cv=kfold)
grid_clf5.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf5.best_params_}')
print(f'최적의 모델 평균성능 : {grid_clf5.best_score_}')

In [None]:
best_model1 = LinearRegression()
best_model2 = grid_clf2.best_estimator_
best_model3 = grid_clf3.best_estimator_
best_model4 = grid_clf4.best_estimator_
best_model5 = grid_clf5.best_estimator_

print(best_model1)
print(best_model2)
print(best_model3)
print(best_model4)
print(best_model5)


In [None]:
best_model1.fit(X, y)
best_model2.fit(X, y)
best_model3.fit(X, y)
best_model4.fit(X, y)
best_model5.fit(X, y)


### 학습 데이터를 가지고 검증한다.

In [None]:
# 학습 데이터를 통해 예측 결과를 가져온다
y_pred1 = best_model1.predict(X)
y_pred2 = best_model2.predict(X)
y_pred3 = best_model3.predict(X)
y_pred4 = best_model4.predict(X)
y_pred5 = best_model5.predict(X)

In [None]:
# 진짜 결과와 예측 결과를 시각화하여 패턴을 확인한다.
plt.plot(y, label='original')
plt.plot(y_pred1(2,3,4,5), label='prediction')
plt.legend()
plt.title('LinearRegression')
plt.show()


### 새로운 데이터에 대한 예측을 수행한다.

#### 데이터 준비>데이터 전처리(표준화(StandardScaler())>결과 예측>시각화

In [None]:
# 예측결과 추출
y_pred1 = best_model1.predict(scaled_data)
y_pred2 = best_model2.predict(scaled_data)
y_pred3 = best_model3.predict(scaled_data)
y_pred4 = best_model4.predict(scaled_data)
y_pred5 = best_model5.predict(scaled_data)

### 저장

In [None]:
df2['target'] = y_pred1
df2.to_csv('data/boston_LinearRegression.csv')

df2['target'] = y_pred2
df2.to_csv('data/boston_Ridge.csv')

df2['target'] = y_pred3
df2.to_csv('data/boston_Lasso.csv')

df2['target'] = y_pred4
df2.to_csv('data/boston_ElasticNet.csv')

df2['target'] = y_pred5
df2.to_csv('data/boston_SVR.csv')

print('저장완료')