### 머신러닝 개요
- AI > ML(머신러닝) > DL(딥러닝) - AI라는 것이 모든것을 다 포괄한 의미

#### 인공지능 개발 파이썬 프레임워크
- NumPy, Scipy
- Pandas
- Matplotlib
- plotly - Matplotlib 대체할 수 있는 시각화라이브러리(Dash)
- Scikit-learn - sklearn 이라고도 불림 고전적인 머신러닝 라이브러리(V), 쉽고, 빠름
- Theano - 머신러닝용 라이브러리
- Tensorflow - 머신러닝/딥러닝 라이브러리, 점유율 1위
- Keras - 점유율 3위. 딥러닝위해서 독립개발. 실제 사용시 Keras, Tensorflow를 동시에 사용해야 했음.
  Tensorflow 2.0이 Keras를 병합
- PyTorch - 점유율 2위. 제일 핫한 딥러닝 라이브러리. Facebook, YOLO 이미지, 객체인식 프레임워크랑 병합.

##### Scikit-learn 으로 머신러닝
- 일반 프로그램 : 입력값 x로 출력값 y 도출
- 머신러닝 : 입렵값 x, 출력값 y를 넣어서 학습모델을 생성. 새로운 x를 학습모델에 넣으면 새로운 y를 도출

- 지도학습 : 대부분 머신러닝은 개발자(사람)가 어떤 결과가 나온다는 것을 지도해줌

##### 뷴속평가지표
- 절대값 평균오차 : MAE, mean_absolute_error() 함수 사용
- 제곱 평균오차 : MSE, mean_square_error() 함수 사용
- 제곱평균의 제곱근 오차 : RMSE. Scikit-Learn에 없음
- 분산비율 : Variance score, r2_score() 사용

## 머신러닝 실습

### 보스턴 집값가격 예측

#### 데이터 수집
##### Scikit-Learn 라이브러리 데이터

In [None]:
# Scikit-Learn 라이브러리 설치
!pip install scikit-learn

In [None]:
# 필수 라이브러리 사용등록
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## `load_boston` has been removed from scikit-learn since version 1.2.
## scikit-Learn 1.2버전이상에서는 load_boston이 없어짐
#from sklearn.datasets import load_boston
from sklearn.datasets import fetch_openml

In [None]:
# 보스턴 집값데이터 다운로드
X, y = fetch_openml('boston',return_X_y=True)

In [None]:
X['MEDV'] = y

In [None]:
dfBostonHousing = X

In [None]:
dfBostonHousing.to_excel('./data/BostonHousing.xlsx', index=False)

In [None]:
dfBostonHousing.tail()

In [None]:
dfBostonHousing.info()

##### 각 컬럼 설명
|CRIM|ZN|INDUS|CHAS|NOX|RM|AGE|
|---|---|---|---|---|---|---|
|범죄발생률|25,000평방피트 초과 거주지역 비율|비상업지역 넓이비율|찰스강 더미변수(1:강경계,0:경계아님)|일산화질소농도|거주가능방수|1940이전건출주택비율|
|DIS|RAD|TAX|PTRATIO|B|LSTAT|MEDV|
|5개 주요고용센터까지 가중거리|고속도로접근용이도|10,000달러당 재산세비율|지역교사와 학생수 비율|흑인거주비율|하위계층비율|가격(본인소유주택가격 중앙값)|

#### 분석모델 구축, 결과 분석
- 전체 데이터(100%)에서 보통 70~80% 훈련(train)시 사용, 20~30%데이터를 검증(test)시 사용

In [None]:
## 회귀분석 모델, 함수 사용등록
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
# 통합데이터에서 독립변수만 다시 분리하려면
X = dfBostonHousing.drop(['MEDV'], axis=1)
X

In [None]:
# 훈련용 데이터와 평가용 데이터 분할
# Pandas DF에서 순서대로 데이터를 자르면, 고가의 집 데이터가 후반부에 몰려있으면 훈련데이터와 검증데이터의 편차가 너무 커짐(데이터 머신러닝 학습이 제대로X)
# train_test_split() 데이터를 랜덤으로 잘랏 훈련데이터와 검증데이터 분할
# test_size=0.3 30% 0.2조정가능
# random_state = 105 / RME 23 | 156 / 17.x|
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=156)

In [None]:
X_test

In [None]:
X_train, y_train

In [None]:
# 선형회귀 모델 생성
lr = LinearRegression()

In [None]:
# 선형회귀 모델 훈련
lr.fit(X_train, y_train)

In [None]:
# 선형회귀 분석 : 검증(평가) 데이터를 넣어서 예측 수행
y_predict = lr.predict(np.array(X_test))

In [None]:
# 검증데이터 실제값
y_test

In [None]:
# 선형회귀모델 예측값
y_predict

In [None]:
# 제곱평균오차로 평가
mse = mean_squared_error(y_test, y_predict)
rmse = np.sqrt(mse) # NumPy에 있는 squreroot 함수 사용
r2 = r2_score(y_test, y_predict)

print(f'MSE = {mse}')
print(f'RMSE = {rmse}')
print(f'R^2(variance score) = {r2}')

In [None]:
 ## Y절편 값, 회귀계수값
print(f'Y절편값 = {lr.intercept_}')
print(f'회수계수값 = {np.round(lr.coef_,1)}')

In [None]:
pd.Series(data=np.round(lr.coef_,2),index=X.columns)

##### 회귀계수, 절편이 필요한 이유
- 선형회귀 방정식 도출
- $$Y_{MEDV} = -0.11X_{CRIM} + 0.07X_{ZN} + 0.03X_{INDUS} + 3.05X_{CHAS} -19.8X_{NOX} + 3.5X_{RM} + 0.01X_{AGE} \\
    -1.74X_{DIS} + 0.36X_{RAD} - 0.01X+{TAX} - 0.92X_{PTRATIO} + 0.01X_{B} - 0.57X_{LSTAT} + 40.996$$


##### 각각의 독립변수와 종속변수 MEDV 간의  상관관계 산점도

In [None]:
['CRIM','ZN','INDUS','NOX','RM','AGE','DIS','TAX','PTRATIO','B','LSTAT']

In [None]:
dfBostonHousing['CHAS'] = dfBostonHousing['CHAS'].astype('int32')
dfBostonHousing['RAD'] = dfBostonHousing['RAD'].astype('int32')

In [None]:
fig, axs = plt.subplots(figsize=(16,16), ncols=3, nrows=5)

# dType이 category면 산점도를 그릴 수 없음
# astype()으로 형변환으로 사용
x_features = list(X.columns)

for i, feat in enumerate(x_features):
    row = i // 3
    col = i % 3
    sns.regplot(data=dfBostonHousing,x=feat, y='MEDV',ax=axs[row][col])

plt.show()

##### 결론
- 13가지의 독립변수 중 가격과 높은 상관관계가 있는 것
  - RM  : 방의 개수가 많으면 그 주변 집값은 높다
  - LSTAT   :   하위계층이 많이 살고 있으면 그 주변 집값은 낮다