**선형회귀**

In [None]:
# 결측치 실습
from sklearn.impute import SimpleImputer
import pandas as pd

# 결측치를 median 값으로 채우기
imputer = SimpleImputer(strategy="median")

# csv 읽어오기
test_data = pd.read_csv("wine_crack.csv")

# median 값이 얼마인지 파악
imputer.fit(test_data)

# 결측치를 median 값으로 바꿔준다. transform()
imputerX = imputer.transform(test_data)

In [None]:
imputerX

In [None]:
# 와인 측정 데이터 Wine Quality Data Set https://archive.ics.uci.edu/ml/datasets/wine+quality

'''
속성
1: fixed acidity 주석산 농도
2: volatile acidity 아세트산 농도
3: citric acid 구연산 농도
4: residual sugar 잔류 당분 농도
5: chlorides 염화나트륨 농도
6: free sulfur dioxide 유리 아황산 농도
7: total sulfur dioxide 총 아황산 농도
8: density 밀도
9: pH
10: sulphates 황산칼륨 농도
11: alcohol 알코올 도수
12: quality (score between 0 and 10) 와인의 맛(0~10등급)
13: class 와인 종류 (1: 레드와인, 0: 화이트와인)
'''

In [None]:
# 샘플 코드
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sklearn.linear_model

# 데이터 적재
wine_data = pd.read_csv("./wine.csv")
print(wine_data)

In [None]:
# 데이터 준비 - train 컬럼 선정 및 target(정답값) 설정
X = wine_data[["residual sugar", "density"]]
y = wine_data["alcohol"]

print(X)
print(y)

In [None]:
# 선형 모델 선택
model = sklearn.linear_model.LinearRegression()

# 모델 훈련
# 모델한테 X 데이터[residual sugar와 density]를 주고, 정답값 y로부터 최소제곱법을 최적의 w를 찾아낸다.
model.fit(X, y)

# 예측
# 임의의 residual sugar와 density 넣기
X_new = [[1.8, 0.99490]]
print("예측값:", model.predict(X_new))

In [None]:
# "fixed acidity"~"density" 값을 사용하여 "pH" 값 예측하기
# 데이터 준비 - train 컬럼 선정 및 target(정답값) 설정
X = wine_data[["fixed acidity", "volatile acidity", "citric acid", "residual sugar", "chlorides", "free sulfur dioxide", "total sulfur dioxide", "density"]]
y = wine_data["pH"]

print(X)
print(y)

In [None]:
# 선형 모델 선택
model = sklearn.linear_model.LinearRegression()

# 모델 훈련
# 모델한테 X 데이터를 주고, 정답값 y로부터 최소제곱법을 최적의 w를 찾아낸다.
model.fit(X, y)

# 예측
# 임의의 컬럼값 넣기 (8개의 데이터가 1개의 컬럼)
X_new = [[7.4, 0.7, 0, 1.9, 0.076, 11, 34, 0.99490]]
print("예측값:", model.predict(X_new))

In [None]:
# "volatile acidity"~"residual sugar" 값을 사용하여 "pH" 값 예측하기
# 데이터 준비 - train 컬럼 선정 및 target(정답값) 설정
X = wine_data[["volatile acidity", "citric acid", "residual sugar"]]
y = wine_data["pH"]

print(X)
print(y)

In [None]:
# 선형 모델 선택
model = sklearn.linear_model.LinearRegression()

# 모델 훈련
# 모델한테 X 데이터를 주고, 정답값 y로부터 최소제곱법을 최적의 w를 찾아낸다.
model.fit(X, y)

# 예측
# 임의의 컬럼값 넣기 (3개의 데이터가 3개의 컬럼)
X_new = [[0.7, 0, 1.9], [0.88, 0, 2.6], [0.76, 0.04, 2.3]]
print("예측값:", model.predict(X_new))

In [None]:
# "chlorides", "density"~"sulphates" 값을 사용하여 "alcohol" 값 예측하기
# 데이터 준비 - train 컬럼 선정 및 target(정답값) 설정
X = wine_data[["chlorides", "density", "pH", "sulphates"]]
y = wine_data["alcohol"]

print(X)
print(y)

In [None]:
# 선형 모델 선택
model = sklearn.linear_model.LinearRegression()

# 모델 훈련
# 모델한테 X 데이터를 주고, 정답값 y로부터 최소제곱법을 최적의 w를 찾아낸다.
model.fit(X, y)

# 예측
# 임의의 컬럼값 넣기 (4개의 데이터가 1개의 컬럼)
X_new = [[0.076, 0.9978, 3.51, 0.56]]
print("예측값:", model.predict(X_new))

**다항회귀**

In [None]:
# Polynomial Regression
import numpy as np
import numpy.random as rnd

# 넘파이로 랜덤한 값을 생성 시 내일도 똑같은 랜덤값을 뽑고 싶을 때, 그 뽑는 기준을 fix 해놓으면 된다.
# 우리는 그걸 랜덤시드라고 한다.
np.random.seed(42)

m = 100
X = 6 * np.random.rand(m, 1) - 3 # 0부터 1사이의 균일 분포에서 100행 1열의 난수 matrix array 생성
y = 0.5 * X ** 2 + X + 2 + np.random.randn(m, 1)

print(X)
print("===============")
print(y)

In [None]:
plt.plot(X, y, "b.")
plt.xlabel("$x_1$", fontsize=18) # $는 수학적 notation으로 표시
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.axis([-3, 3, 0, 10]) # x축 min범위, x축 max범위, y축 min범위, y축 max 범위
plt.show()

In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly_features = PolynomialFeatures(degree=2, include_bias=False)
poly_features.fit(X)
X_poly = poly_features.fit_transform(X)

print(X[0])
print(X_poly[0])
print(X_poly)

In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)

In [None]:
# 새로운 데이터 생성 -3에서 3까지 100개 추출 및 (100행 1열)
X_new=np.linspace(-3, 3, 100).reshape(100, 1)
X_new_poly = poly_features.transform(X_new)
y_new = lin_reg.predict(X_new_poly)

plt.plot(X, y, "b.") # 데이터 plot
plt.plot(X_new, y_new, "r", linewidth=2) # 선그리는 부분
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.axis([-3, 3, 0, 10])

plt.show()

In [None]:
from sklearn.linear_model import Ridge

X = 3 * np.random.rand(m, 1)
y = 1 + 0.5 * X + np.random.randn(m, 1) / 1.5

ridge_reg = Ridge(alpha=1, solver="cholesky", random_state=42) # 숄레스키 행렬분해
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])

In [None]:
from sklearn.linear_model import SGDRegressor

X = 3 * np.random.rand(m, 1)
y = 1 + 0.5 * X + np.random.randn(m, 1) / 1.5
sgd_reg = SGDRegressor(max_iter=50, penalty="l2", tol=1e - 3, random_state=42)

sgd_reg.fit(X, y.ravel())
sgd_reg.predict([[1.5]])

In [None]:
ridge_reg = Ridge(alpha=1, solver="sag", random_state=42) # Stochastic Average Gradient Descent
ridge_reg.fit(X, y)
ridge_reg.predict([[1.5]])

In [None]:
from sklearn.linear_model import Lasso

lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)
lasso_reg.predict([[1.5]])

In [None]:
from sklearn.linear_model import ElasticNet

elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5, random_state=42)
elastic_net.fit(X, y)
elastic_net.predict([[1.5]])