In [None]:
%config InlineBackend.figure_formats = {'png', 'retina'}

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 가격 예측 선형회귀분석
df = sns.load_dataset('diamonds')
df.tail(2)

In [None]:
# 1. 결측치 확인

In [None]:
import missingno as msno

In [None]:
msno.matrix(df)
plt.show()

In [None]:
# 2. 데이터 전처리

# 2.1 숫자형 데이터 컬럼만 사용
# 2.2 더미 변수화
# 2.3 데이터셋 분리

In [None]:
df.info()

In [None]:
# 범주형 데이터 카테고리별 데이터수
cut = df["cut"].value_counts()
cut

In [None]:
# 최빈값 구하기

In [None]:
np.argmax(cut)

In [None]:
cut.index[np.argmax(cut)]

In [None]:
# 2.1 숫자형 데이터 컬럼만 사용

In [None]:
columns, types = [], ["int", "float"]

for column, dtype in df.dtypes.items():
    if dtype in types:
        columns.append(column)
        
# columns = [column for column, dtype in df.dtypes.items() if dtype in types]

df1 = df[columns]
df1.tail(2)

In [None]:
# 2.2 더미 변수화

In [None]:
# 범주형 컬럼 필터링
types = ["object", "category"]
columns = [column for column, dtype in df.dtypes.items() if str(dtype) in types]
columns

In [None]:
# 더미변수화
dummies = [pd.get_dummies(df[column]) for column in columns]
dummies[0].tail(2)

In [None]:
# 데이터 프레임에 합치기
df2 = pd.concat([df, *dummies], axis=1).drop(columns=columns)
df2.tail(2)

In [None]:
pd.options.display.max_columns = 30

In [None]:
df2.tail(2)

In [None]:
# 2.3 데이터셋 분리

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
feature, target = df1.drop(columns=["price"]), df1["price"]
# feature, target = df2.drop(columns=["price"]), df1["price"]
train_x, test_x, train_y, test_y = train_test_split(feature, target, test_size=0.3, random_state=1)

In [None]:
# 3. 모델 학습

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression().fit(train_x, train_y)

In [None]:
# 4. 모델 예측 및 평가

In [None]:
# 테스트 데이터 예측
pred_y = model.predict(test_x).astype("int")
pred_y[-5:], test_y[-5:].values

In [None]:
# 평가
from sklearn.metrics import mean_absolute_error

In [None]:
np.round(mean_absolute_error(pred_y, test_y), 3)

In [None]:
# df1 : 886.718
# df2 : 733.923

In [None]:
# 5. 시각화

In [None]:
sns.pairplot(df1)
plt.show()

In [None]:
# 아웃라이어 제거
df3 = df1[(df1["x"] != 0) & (df1["y"] != 0) & (df1["z"] != 0) & (df1["y"] < 20) & (df1["z"] < 20)]
len(df1), len(df3), len(df1) - len(df3)

In [None]:
df3.reset_index(drop=True, inplace=True)

In [None]:
sns.pairplot(df3)
plt.show()

In [None]:
# x, y, z 2차항 : 다항회귀 적용

In [None]:
from sklearn.preprocessing import PolynomialFeatures

In [None]:
poly_features = PolynomialFeatures(degree=2, include_bias=False) # 2차방정식

x_poly = poly_features.fit_transform(df3[["x"]])
y_poly = poly_features.fit_transform(df3[["y"]])
z_poly = poly_features.fit_transform(df3[["z"]])

xyz = np.c_[x_poly, y_poly, z_poly]
xyz_df = pd.DataFrame(xyz, columns=["x", "x2", "y", "y2", "z", "z2"])
xyz_df.tail(2)

In [None]:
df4 = pd.concat([df3.drop(columns=list("xyz")), xyz_df], axis=1)
df4.tail(2)

In [None]:
# 데이터셋 분리
feature, target = df4.drop(columns=["price"]), df4["price"]
train_x, test_x, train_y, test_y = train_test_split(feature, target, test_size=0.3, random_state=1)

In [None]:
# 모델 학습
model = LinearRegression().fit(train_x, train_y)

In [None]:
# 모델 예측 및 평가

In [None]:
pred_y = model.predict(test_x).astype("int")
pred_y[-5:], test_y[-5:].values

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
np.round(mean_absolute_error(pred_y, test_y), 3)

In [None]:
# df1 : 886.718 : 수치형 데이터만 사용
# df2 : 733.923 : 범주형 데이터 더미변수화 해서 사용
# df4 : 822.635 : df1 데이터에서 23개의 아웃라이어 제거 후 x,y,z 컬럼을 다항식으로 변경해서 사용

In [None]:
# hw. df4에 범주형 데이터 더미변수화한 데이터 추가해서 모델 생성후 MAE 구하기
# 주의사항 : df4는 아웃라이어가 제거되어 df2의 dummies 데이터와 row의 갯수가 맞지 않음

In [None]:
df5 = pd.concat([df2.loc[df4.index], df4[["x2", "y2", "z2"]]], axis=1) 
df5.tail(2)

In [None]:
# 데이터셋 분리
feature, target = df5.drop(columns=["price"]), df5["price"]
train_x, test_x, train_y, test_y = train_test_split(feature, target, test_size=0.3, random_state=1)

In [None]:
model = LinearRegression().fit(train_x, train_y)

In [None]:
pred_y = model.predict(test_x).astype("int")

In [None]:
np.round(mean_absolute_error(pred_y, test_y), 3)