In [118]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.linear_model import LinearRegression

In [120]:
data = pd.read_csv('1.01. Simple linear regression.csv')
data.head()

Unnamed: 0,SAT,GPA
0,1714,2.4
1,1664,2.52
2,1760,2.54
3,1685,2.74
4,1693,2.83


In [122]:
x = data['SAT']
y = data['GPA']

In [124]:
x_matrix = x.values.reshape(-1,1)
x_matrix.shape

(84, 1)

In [126]:
y.shape

(84,)

In [128]:
reg = LinearRegression()

In [130]:
reg.fit(x_matrix,y)

In [102]:
reg.coef_

array([0.00165569])

In [40]:
#error 이유: sklearn은 2차원 형식의 데이터를 원하는데, x.shape은 1차원적인 array임
#must reshape X into a matrix(2D object)
#(-1,1) 로 reshape하라고 제시한 해결 방법 활용

In [138]:
#LinearRegression(copy_X=True, fit_intercept = True, n_jobs=1, normalize=False)
#이전 버전에서는 LinearRegression의 기본 매개변수 값을 명시적으로 보여주었으나, 최신 버전에서는 생략함

In [106]:
#R-squared
reg.score(x_matrix,y)

0.40600391479679754

In [108]:
#coefficients
reg.coef_

array([0.00165569])

In [112]:
#intercept
reg.intercept_

0.2750402996602799

In [142]:
#predict
#predict 메서드는 2D배열을 예상하기 때문에 [[예측 대상의 SAT]]형태로 입력해야 함
reg.predict([[1740]])

array([3.15593751])

In [146]:
new_data = pd.DataFrame(data=[1740,1760],columns=['SAT'])
#또는 new_data = pd. DataFrame({'SAT': [1740, 1760]})
new_data

Unnamed: 0,SAT
0,1740
1,1760


In [148]:
reg.predict(new_data)



array([3.15593751, 3.18905127])

In [150]:
#경고 이유: 이 경고는 scikit-learn의 LinearRegression 모델을 사용할 때 입력 데이터의 피처 이름이 모델이 학습될 때 사용된 피처 이름과 일치하지 않아서 발생합니다. 이 경고는 일반적으로 입력 데이터가 pandas 데이터프레임에서 나올 때 발생할 수 있습니다.

#X has feature names: 예측에 사용된 데이터 X가 피처 이름을 가지고 있음
#LinearRegression was fitted without feature names: 모델이 학습될 때는 피처 이름이 없이 학습되었음

#해결 방안: 학습 데이터와 예측 데이터 모두 동일한 형식을 사용(numpy 배열을 사용하거나 pandas 데이터프레임을 사용하는 방식으로 일관성을 유지)
#위쪽에서 x를 정의할 때, x = data[['SAT']] 로 DataFrame 형식을 유지하면 경고 해결될 것임

In [164]:
new_data['Predicted_GPA'] = reg.predict(new_data[['SAT']])
#그냥 reg.predict(new_data)라고 입력하니까, 계속 오류 발생해서 수정함
#reg.predict(new_data[['SAT']])라고 예측에 사용할 피처를 명확히 지정함
new_data



Unnamed: 0,SAT,Predicted_GPA
0,1740,3.155938
1,1760,3.189051
