## chapter 12 : 머신러닝과 활용사례

### 12.1 인공지능과 머신러닝

### 12.2 머신러닝을 깊이 알아보자

### 12.3 명시적 프로그래밍과 머신러닝

### 12.4 회귀문제를 알아보자

### 12.5 선형 회귀 문제를 풀기위한 오차 줄이기

In [None]:
import numpy as np

# 넘파이를 이용하여 구현한 평균 절대 오차
y = np.array([1, 2, 3, 4, 5])                  # 실제 y값
y_hat = np.array([1.2, 2.4, 2.5, 4.6, 5.4])    # 추정한 y값
diff = np.abs(y - y_hat)                       # y_hat과 y 차이의 절대값
e_mae = diff.sum() / len(diff)
print('평균 절대 오차 =', e_mae)

In [None]:
print('평균 절대 오차 =', np.average(diff))

In [None]:
from sklearn.metrics import mean_absolute_error

# sklearn에서 제공하는 함수를 사용해보자. 위의 결과와 동일하다.
print('평균 절대 오차 =', mean_absolute_error(y, y_hat))

### 12.6 선형 회귀 문제를 풀기위한 오차 함수 : 평균 제곱 오차

In [None]:
import numpy as np

# 넘파이를 이용하여 구현한 평균 제곱 오차
y = np.array([1, 2, 3, 4, 5])                 # 실제 y값
y_hat = np.array([1.2, 2.4, 2.5, 4.6, 5.4])   # 추정한 y값
diff = (y - y_hat) ** 2     # y_hat과 y의 차이값의 제곱
e_mse = np.average(diff)
print('평균 제곱 오차 =', e_mse)

In [None]:
from sklearn.metrics import mean_squared_error

# sklearn에서 제공하는 함수를 사용해보자. 위의 결과와 동일하다.
print('평균 제곱 오차 =', mean_squared_error(y, y_hat))

---
### 12.7 가장 간단한 회귀 : 선형 회귀 분석
#### 선형 회귀를 scikit-learn 라이브러리로 구현해 보자

In [None]:
import numpy as np
from sklearn import linear_model  # scikit-learn 모듈을 가져온다

regr = linear_model.LinearRegression()

In [None]:
X = [[164], [179], [162], [170]]  # 다중회귀에도 사용하도록 함
y = [53, 63, 55, 59]              # y = f(X)의 결과
regr.fit(X, y)

### 12.8 선형 회귀로 예측하기 : 키와 몸무게는 상관관계가 있을까

In [None]:
regr.fit(X, y)

In [None]:
coef = regr.coef_           # 직선의 기울기
intercept = regr.intercept_ # 직선의 절편
score = regr.score(X, y)    # 학습된 직선이 데이터를 얼마나 잘 따르나 (1에 가까울수록 좋은 성능)

print("y =", coef, "* X + ", intercept)
print("The score of this line for the data: ", score)

In [None]:
input_data = [ [180], [185] ]

In [None]:
result = regr.predict(input_data)
print(result)

#### 선형 회귀 모델로 예측하기

In [None]:
regr.predict([[169]])

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model  # scikit-learn 모듈을 가져온다

regr = linear_model.LinearRegression()

X = [[164], [179], [162], [170]]  # 선형회귀의 입력은 2차원으로 만들어야 함
y = [53, 63, 55, 59]     # y = f(X)의 결과값
regr.fit(X, y)

# 학습 데이터와 y 값을 산포도로 그린다.
plt.scatter(X, y, color='black')

# 학습 데이터를 입력으로 하여 예측값을 계산한다.
y_pred = regr.predict(X)

# 학습 데이터와 예측값으로 선그래프로 그린다.
# 계산된 기울기와 y 절편을 가지는 직선이 그려진다
plt.plot(X, y_pred, color='blue', linewidth=3)
plt.show()

#### LAB 12-1 : 키가 비슷해도 남,녀의 몸무게는 다를 것 : 다차원 선형회귀

In [None]:
import numpy as np
from sklearn import linear_model

regr = linear_model.LinearRegression()
# 남자는 0, 여자는 1
X = [[164, 1], [167, 1], [165, 0], [170, 0], [179, 0], [163, 1], [159, 0], [166, 1]]    # 입력데이터를 2차원으로 만들어야 함
y = [43, 48, 47, 66, 67, 50, 52, 44]     # y 값은 1차원 데이터
regr.fit(X, y)         # 학습
print('계수 :', regr.coef_ )
print('절편 :', regr.intercept_)
print('점수 :', regr.score(X, y))

In [None]:
print('은지와 동민이의 추정 몸무게 :', regr.predict([[166, 1], [166, 0]]))

#### LAB 12-2 : 주택의 실면적과 대중교통 접근성 그리고 가격

In [None]:
import numpy as np
from sklearn import linear_model

regr = linear_model.LinearRegression()

# 입력데이터를 다음과 같이 2차원으로 만들어야 함
X = [[85, 6],[76, 5],[50, 4],[44, 3],[57, 4],[88, 5],[78, 7],[97, 7],\
     [45, 3], [76, 6]]
y = [8.9, 7.7, 3.1, 1.8, 6.7, 9.5, 8.4, 12.2, 2.3, 8.5]     # y 값은 1차원 데이터
regr.fit(X, y)         # 학습
print('계수 :', regr.coef_ )
print('절편 :', regr.intercept_)
print('점수 :', regr.score(X, y))

In [None]:
print('실면적 65 m^2, 접근성 점수 5 :', regr.predict([[65, 5]]))
print('실면적 75 m^2, 접근성 점수 5 :', regr.predict([[75, 5]]))

### 12.9 사이킷런의 당뇨병 예제와 학습 데이터 생성

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn import datasets

# 당뇨병 데이터 세트를 sklearn의 데이터집합으로부터 읽어들인다.
diabetes = datasets.load_diabetes()

In [None]:
print('shape of diabetes.data: ', diabetes.data.shape)
# 10개의 특성을 가지는 442개의 데이터가 있음
print(diabetes.data)

In [None]:
print('입력 데이터의 특성들')
print(diabetes.feature_names)

In [None]:
print(diabetes.DESCR)

In [None]:
# 당뇨수치 값이 들어있는 target 데이터

print('target data y:', diabetes.target.shape)
print(diabetes.target)

In [None]:
X = diabetes.data
y = diabetes.target
X.shape, y.shape

### 12.10 학습용 데이터와 테스트용 데이터

In [None]:
from sklearn import linear_model

regr = linear_model.LinearRegression()

regr.fit(X, y)         # 모델 학습 시키기
print('계수 :', regr.coef_ )
print('절편 :', regr.intercept_)
print('점수 :', regr.score(X, y))

In [None]:
# 학습 데이터와 테스트 데이터를 분리한다.
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(diabetes.data,diabetes.target,\
                                                 test_size = 0.2)
regr = linear_model.LinearRegression()
regr.fit(X_train, y_train)

In [None]:
score = regr.score(X_train, y_train)  # 학습용 데이터의 적합 점수
print(score)
score = regr.score(X_test, y_test)    # 테스트용 데이터의 적합 점수
print(score)

### 12.11 데이터의 특성들 중에서 중요한 특성으로 모델을 만들자

In [None]:
import pandas as pd

diabetes_df = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
diabetes_df['target'] = diabetes.target
diabetes_df.head()

In [None]:
corr = diabetes_df.corr()
corr

In [None]:
order = corr.loc[:'s6', 'target'].abs().sort_values()[::-1]
print('중요도에 따라 정렬된 특성:')
print(order)

In [None]:
# 학습 데이터와 테스트 데이터를 분리한다.
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(diabetes.data[:,np.newaxis, 2],
                                                 diabetes.target,
                                                 test_size = 0.2)
regr = LinearRegression()
regr.fit(X_train, y_train)
print('계수 :', regr.coef_ )
print('절편 :', regr.intercept_)
print('점수 :', regr.score(X_test, y_test))

In [None]:
X = diabetes.data[:, np.newaxis, 2]  # 배열의 차원을 증가시킴
print(X[:5])    # 이차원 형태의 행렬이 되었는가 확인

#### LAB 12-3 : 중요한 특성으로 이루어진 데이터프레임을 만들자

In [None]:
import pandas as pd

diabetes_df = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
diabetes_df['target'] = diabetes.target

features = ['bmi', 's5', 'bp', 'target']
new_diabetes_df = diabetes_df.loc[:, features]
new_diabetes_df

#### 잠깐 -  newaxis를 이용한 배열의 차원 증가 방법

In [None]:
import numpy as np

A = np.array([1, 2, 3])
A.shape

In [None]:
B = A[:, np.newaxis]
B.shape

In [None]:
B

In [None]:
C = A[np.newaxis, :]
C.shape

In [None]:
C

#### LAB 12.4 : 체질량 지수(bmi)와 s5 특성으로 선형 회귀 모델을 만들자

In [None]:
# 학습 데이터와 테스트 데이터를 분리한다.
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(diabetes.data[:,[2, 8]],
                                                 diabetes.target,
                                                 test_size = 0.2)
regr = LinearRegression()
regr.fit(X_train, y_train)
print('계수 :', regr.coef_ )
print('절편 :', regr.intercept_)
print('테스트 데이터에 대한 점수 :', regr.score(X_test, y_test))

### 12.12 선형 회귀 모델의 결과를 시각화하자

In [None]:
# 학습 데이터와 테스트 데이터를 분리한다.
from sklearn.model_selection import train_test_split
import numpy as np

X_train,X_test,y_train,y_test=train_test_split(diabetes.data[:,[2, 8]],
                                              diabetes.target,
                                              test_size=0.2, random_state=42)
regr_A = LinearRegression()
regr_A.fit(X_train, y_train)
y_pred = regr_A.predict(X_test)

print(y_pred[:5])
print(y_test[:5])
print('선형회귀 모델 A의 예측값과 실제 데이터의 값')
print(np.column_stack((y_pred[:5], y_test[:5])))

In [None]:
import matplotlib.pyplot as plt

plt.scatter(y_pred[:5], y_test[:5])
x = np.linspace(0, 330, 100)  # 구간 지정
plt.plot(x, x, linewidth = 3, color = 'blue')

In [None]:
plt.scatter(y_pred, y_test)
x = np.linspace(0, 330, 100)  # 구간 지정
plt.plot(x, x, linewidth = 3, color = 'blue')

In [None]:
# 학습 데이터와 테스트 데이터를 분리한다.
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(diabetes.data[:,[1, 5]],
                                               diabetes.target,
                                               test_size=0.2, random_state=42)
regr_B = LinearRegression()
regr_B.fit(X_train, y_train)
y_pred = regr_B.predict(X_test)

plt.scatter(y_pred, y_test)
x = np.linspace(0, 330, 100)  # 구간 지정
plt.plot(x, x, linewidth = 3, color = 'blue')

### 12.13 사례 분석 - 선형회귀: 기대수명 예측하기
#### 기대수명 데이터 읽어오기와 결측 확인하기

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns    # 시각화를 위하여 Seaborn 라이브러리를 이용함

life = pd.read_csv('https://raw.githubusercontent.com/dongupak/DataSciPy/master/data/csv/life_expectancy.csv')
life.head()

In [None]:
life = life[['Life expectancy', 'Year', 'Alcohol',
           'Percentage expenditure', 'Total expenditure',
           'Hepatitis B', 'Measles', 'Polio', 'BMI', 'GDP',
           'Thinness 1-19 years', 'Thinness 5-9 years']]

life.head()

In [None]:
life.shape

In [None]:
life.isnull().sum()

In [None]:
life.dropna(inplace = True)
# None 값을 삭제했기 때문에 데이터는 많이 줄어 들었음
life.shape

### 12.14 각 특징들 사이의 상관관계를 살펴보자

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

life = pd.read_csv('https://raw.githubusercontent.com/dongupak/DataSciPy/master/data/csv/life_expectancy.csv')

sns.set(rc={'figure.figsize':(12,10)})
correlation_matrix = life.corr(numeric_only=True).round(2)
sns.heatmap(data=correlation_matrix, annot=True)

plt.show()

#### 어떤 특징들이 서로 상관관계가 있을까

In [None]:
import pandas as pd
import seaborn as sns    # 시각화를 위하여 Seaborn 라이브러리를 이용함
import matplotlib.pyplot as plt

sns.pairplot(life[['Life expectancy', 'Alcohol', 'Percentage expenditure', 'Measles', 'Polio', 'BMI', 'GDP', 'Thinness 1-19 years']])

plt.show()

### 12.15 간단한 회귀모델을 만들자

In [None]:
import pandas as pd
import seaborn as sns    # 시각화를 위하여 Seaborn 라이브러리를 이용함
import matplotlib.pyplot as plt
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

life = pd.read_csv('https://raw.githubusercontent.com/dongupak/DataSciPy/master/data/csv/life_expectancy.csv')

life.dropna(inplace = True)

X = life[['Alcohol', 'Percentage expenditure', 'Polio', 'BMI', 'GDP', 'Thinness 1-19 years']]
y = life['Life expectancy']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

regr = LinearRegression()
regr.fit(X_train, y_train)

y_test_predict = regr.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_test_predict))
print('RMSE =', rmse)

In [None]:
plt.scatter(y_test, y_test_predict)
plt.plot(y_test, y_test, color='red')
plt.show()