In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+",  skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

In [None]:
df=pd.DataFrame(data, columns=['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
                               'TAX', 'PTRATIO', 'B', 'LSTAT'])

In [None]:
df['TARGET']=target
df

# 요약 통계
1. chas 에 따른 집가격(target)위 평균, 표준편차, 중앙값을 구하라.
2. 선형회귀분석을 모델을 생성하고 모델을 사용하여 예측값을 구하라.
3. 새로운 데이터 2개를 사용하여 예측값을 구하라.
4. 부분회귀분석 시각화를 작성하여 독립변수들이 종속변수에 미치는 영향을 분석하라.
    - 1개독립변수 분석(plot_partregress)은 (CRIM)으로한다.
    - plot_partregress_grid() 작성.

In [None]:
# 1
chas_mean = df.groupby('CHAS')['TARGET'].mean()
chas_std = df.groupby('CHAS')['TARGET'].std()
chas_median = df.groupby('CHAS')['TARGET'].median()

print("chas = 0 평균:", chas_mean[0])
print("chas = 0 표준편차:", chas_std[0])
print("chas = 0 중앙값:", chas_median[0])

print("chas = 1 평균:", chas_mean[1])
print("chas = 1 표준편차:", chas_std[1])
print("chas = 1 중앙값:", chas_median[1])

In [None]:
# 2
X = df.drop('TARGET', axis=1)
y = df['TARGET']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

# 테스트 데이터에 대한 예측값 계산
y_pred = model.predict(X_test)

print("예측값:", y_pred)

In [None]:
# 3
new_data = np.array([[0.02, 18, 2.0, 0, 0.4, 6.5, 65, 4.0, 3, 300, 15, 390, 6.0],
                     [0.12, 0, 12.0, 1, 0.7, 5.5, 80, 3.5, 4, 400, 17, 360, 8.0]])

new_predictions = model.predict(new_data)
print("새로운 데이터 예측값:", new_predictions)

In [None]:
# 4-1
fig = plt.figure(figsize=(12, 8))
fig = sm.graphics.plot_partregress("TARGET", "CRIM", [], data=df, obs_labels=False)

plt.show()

In [None]:
# 4-2
X = sm.add_constant(df.drop('TARGET', axis=1))

model = sm.OLS(df['TARGET'], X)
results = model.fit()

fig = plt.figure(figsize=(12, 8))
fig = sm.graphics.plot_partregress_grid(results, fig=fig)

plt.show()
