# 학생의 공부한 시간 / 점수를 표시하는 예제

In [None]:
import pandas as pd

# 공부한 시간 / 점수 
df = pd.DataFrame({'hours': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                   'score': [60, 62, 64, 66, 68, 70, 72, 74, 76, 78]})

In [None]:
# 데이터셋 조회
df

In [None]:
# 데이터를 시각화
import matplotlib.pyplot as plt

plt.scatter(df.hours, df.score)  # 점도표
plt.xlabel('Hours')
plt.ylabel('Score')
plt.show()

In [None]:
# 시각화된 결과를 통해 패턴을 알 수 있다. 
# 머신러닝 기법을 이용해 분석하기 위해 데이터를 분할.

In [None]:
# 학습 데이터 X와 라벨데이터 y 로 데이터 분할
X = df[['hours']]
y = df[['score']]

In [None]:
X

In [None]:
y

In [None]:
# 데이터를 numpy 포맷으로 변환
X = X.to_numpy ()
y = y.to_numpy ()

In [None]:
# 선형회기 머신러닝 기법 적용
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()     # scikit learn LinearRegression 개체 생성
regressor.fit(X, y)    # fit 메서드를 사용해 모델 트레이닝 실행

In [None]:
# 이렇게 regressor 모델을 생성한다.

In [None]:
# 데이터에 없던 값을 넣어 머신러닝 모델이 예측을 잘 하는지 확인.

In [None]:
# 테스트 데이터 생성
test_df = pd.DataFrame({'hours': [12]})  # 학습 데이터에 없던 값

In [None]:
X_test = test_df.to_numpy ()
y_pred = regressor.predict(X_test)
y_pred

In [None]:
# 예측을 잘 한다. 
# 하지만, 정확도를 알 수가 없다. 어떻게 해야 할까?

In [None]:
# 정확도를 예측하려면 트레이닝 / 테스트 데이터셋을 분리 

In [None]:
from sklearn.model_selection import train_test_split

# 데이터를 트레이닝 데이터셋과 테스트 데이터셋으로 분리 
X_train, X_test, y_train, y_test = train_test_split(
                                                    X, 
                                                    y, 
                                                    test_size=0.3,    # 7:3의 비율로 분리
                                                    random_state=42
                                                   )


In [None]:
X_train
# 7건의 트레이닝 데이터

In [None]:
y_train

In [None]:
X_test
# 3건의 테스트 데이터

In [None]:
y_test

In [None]:

regressor = LinearRegression()     # scikit learn LinearRegression 개체 생성
regressor.fit(X_train, y_train)    # fit 메서드를 사용해 모델 트레이닝 실행

y_pred = regressor.predict(X_test)

In [None]:
y_pred

In [None]:
X_test

In [None]:
from sklearn import metrics

# MSE - 에러율
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))

# 최소제곱법 - 기울기 a를 구하는 방법
- x = [1, 2, 3, 4, 5]
- y = [60, 62, 64, 66, 68]

![](doc_img/a.jpg)

In [None]:
# 코드로 구현
import numpy as np
x = [1, 2, 3, 4, 5]
y = [60, 62, 64, 66, 68]

mx = np.mean(x)
my = np.mean(y)
print(mx, my)

In [None]:
divisor = sum([(i-mx)**2 for i in x])

In [None]:
def top(x, mx, y, my):
    d = 0
    for i in range(len(x)):
        d += (x[i] - mx) * (y[i] - my)
    return d

dividend = top(x, mx, y, my)

In [None]:
a = dividend / divisor
a  # 기울기 출력. 이렇게 기울기를 구할 수 있다.

In [None]:
# 할일 : 추가 데이터셋를 이용해 - MSE를 확인한다.
df = pd.DataFrame({'hours': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                   'score': [60, 63, 64, 67, 68, 71, 72, 75, 76, 78]})