# 캘리포니아 집값 예측 자료

- input
  - MedInc: Block group 내 중간 소득 (단위: $10,000)

  - HouseAge: Block group 내 주택의 중간 연령

  - AveRooms: 가구당 평균 방 개수

  - AveBedrms: 가구당 평균 침실 개수

  - Population: Block group 내 인구 수

  - AveOccup: 가구당 평균 거주자 수

  - Latitude: Block group의 위도

  - Longitude: Block group의 경도

- 타겟 (Target)

  - MedHouseVal: Block group 내 중간 주택 가격 (단위: $100,000)

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

# 데이터 불러오기
california_housing = fetch_california_housing()

# 데이터를 판다스 데이터프레임으로 변환
X = pd.DataFrame(california_housing.data, columns=california_housing.feature_names)
y = pd.DataFrame(california_housing.target, columns = ['MedHouseVal'])

In [None]:
X.head()

In [None]:
y.head()

#선형회귀모형을 학습하는 첫번째 방법: statsmodels 패키지 사용

In [None]:
import statsmodels.api as sm

X1 = sm.add_constant(X)
lin_model = sm.OLS(y, X1)
res = lin_model.fit()
res.summary()

#선형회귀모형을 학습하는 두번째 방법: sklearn 패키지의 LinearRegression 함수 사용

In [None]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)

In [None]:
lin_reg.coef_

In [None]:
lin_reg.intercept_

#붓꽃 데이터 분석

- 총 4개의 입력변수와 1개의 출력변수로 구성

 - 입력변수 : sepal_length, sepal_width, petal_length, petal_width - 전부 수치형 변수
 - 출력변수 : species - 범주형 변수

In [None]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris

In [None]:
y = iris['species']
y

In [None]:
# 특성과 라벨 분리
y = iris['species'].astype('category')
y = pd.get_dummies(y)
y.head()


In [None]:
y = np.array(y.loc[:,"setosa"], dtype = float) # y=1 denotes setosa
X = np.array(iris.iloc[:,0:4])

print("X.shape, y.shape:", X.shape, y.shape)

In [None]:
y

In [None]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X, y)

In [None]:
log_reg.coef_

In [None]:
log_reg.intercept_

#모형 평가(학습자료 ver.)

- 회귀모형의 평가
- 분류모형의 평가


In [None]:
#### 선형회귀모형의 학습오차
#1st ver.
from sklearn.metrics import mean_squared_error
mean_squared_error(y,res.predict(X1))

In [None]:
#2nd ver.
pred = lin_reg.predict(X)
mean_squared_error(y,pred)

In [None]:
#3rd ver.

((y-pred)**2).sum()/len(y)

In [None]:
### 로지스틱 모형의 평가


pred = log_reg.predict(X)
pred

In [None]:
pred_prob = log_reg.predict_proba(X)
pred_prob

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y, pred)

In [None]:
print(log_reg.score(X, y))

In [None]:
import sklearn.metrics as metrics

pred_prob = log_reg.predict_proba(X)
preds = pred_prob[:,1]
fpr, tpr, threshold = metrics.roc_curve(y, preds)
roc_auc = metrics.auc(fpr, tpr)
roc_auc

In [None]:
import matplotlib.pyplot as plt
plt.title('Receiver Operating Characteristic')
plt.plot(fpr, tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([-0.1, 1.1], [-0.1, 1.1],'r--')
plt.xlim([-0.1, 1.1])
plt.ylim([-0.1, 1.1])
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.show()