# 데이터 수집

In [1]:
!git clone https://github.com/AnalyticsKnight/yemoonsaBigdata

Cloning into 'yemoonsaBigdata'...


In [2]:
import pandas as pd

data = pd.read_csv("./yemoonsaBigdata/datasets/Part2/housing_data.csv", header=None, sep=',')
col_names = ["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT", "MEDV", "isHighValue"]
data.columns = col_names

In [3]:
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV,isHighValue
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0,0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6,0
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7,1
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4,1
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2,1


해당 데이터셋은 각 도시별 정보를 나타낸다.

- CRIM : 도시의 인당 범죄율  
- ZN : 25,000스퀘어 피트가 넘는 거주지 비율  
- INDUS : 소매업이 아닌 업종 지역 비율  
- CHAS : 찰스 강 인접 여부(인접하면 1, 아니면 0)  
- NOX : 10ppm당 일산화질소 농도  
- RM : 주택의 평균 방 개수  
- AGE : 1940년 전에 지어진 자가 비율  
- DIS : 5개의 보스턴 고용 센터까지 가중치가 적용된 거리  
- RAD : 방사형 고속도로까지의 접근성 지수  
- TAX : 만 달러당 재산세 비율  
- PTRATIO : 도시의 학생 - 교사 비율  
- B : 1000(Bk-0.63)^2 (Bk : 도시 흑인 비율)  
- LSTAT : 저소득층 비율 (%)  
- MEDV : 자가 주택의 중앙값 (단위: 1,000달러)  
- isHighValue : 주택의 고가 여부 (MEDV 값이 25 이상인 경우 1, 아니면 0)

# 데이터 전처리

## 데이터 확인

In [4]:
data.shape

(526, 15)

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 526 entries, 0 to 525
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   CRIM         506 non-null    float64
 1   ZN           526 non-null    float64
 2   INDUS        526 non-null    float64
 3   CHAS         526 non-null    int64  
 4   NOX          526 non-null    float64
 5   RM           526 non-null    float64
 6   AGE          526 non-null    float64
 7   DIS          526 non-null    float64
 8   RAD          526 non-null    int64  
 9   TAX          526 non-null    float64
 10  PTRATIO      526 non-null    float64
 11  B            526 non-null    float64
 12  LSTAT        526 non-null    float64
 13  MEDV         526 non-null    float64
 14  isHighValue  526 non-null    int64  
dtypes: float64(12), int64(3)
memory usage: 61.8 KB


In [6]:
data.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV,isHighValue
count,506.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0,526.0
mean,3.613524,10.931559,11.306616,0.06654,0.555954,6.271076,68.81654,3.74288,9.41635,410.547529,18.513308,357.888099,12.721578,22.374525,0.250951
std,8.601545,22.977112,6.934739,0.249461,0.113854,0.69814,27.868375,2.083661,8.653743,169.180818,2.147684,89.829808,7.101213,9.1044,0.433973
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0,0.0
25%,0.082045,0.0,5.19,0.0,0.453,5.87925,45.625,2.101425,4.0,279.0,17.4,376.0575,7.15,16.85,0.0
50%,0.25651,0.0,9.69,0.0,0.538,6.1835,77.5,3.09575,5.0,334.5,19.1,391.955,11.49,21.1,0.0
75%,3.677083,12.5,18.1,0.0,0.624,6.6135,93.9,5.112625,24.0,666.0,20.2,396.3975,17.0575,24.95,0.75
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0,1.0


## 결측치 처리

In [7]:
data.isnull().sum()

CRIM           20
ZN              0
INDUS           0
CHAS            0
NOX             0
RM              0
AGE             0
DIS             0
RAD             0
TAX             0
PTRATIO         0
B               0
LSTAT           0
MEDV            0
isHighValue     0
dtype: int64

In [8]:
data.isnull().sum()/data.shape[0]

CRIM           0.038023
ZN             0.000000
INDUS          0.000000
CHAS           0.000000
NOX            0.000000
RM             0.000000
AGE            0.000000
DIS            0.000000
RAD            0.000000
TAX            0.000000
PTRATIO        0.000000
B              0.000000
LSTAT          0.000000
MEDV           0.000000
isHighValue    0.000000
dtype: float64

### 결측치를 대체할 경우

In [9]:
data1 = data.copy()
med_val = data['CRIM'].median()
data1['CRIM'] = data1['CRIM'].fillna(med_val)

### 결측치를 제거할 경우

In [11]:
data = data.loc[data['CRIM'].notnull(), ] # data = data.dropna()
data.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV,isHighValue
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806,0.26087
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104,0.439543
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0,0.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025,0.0
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2,0.0
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0,1.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0,1.0


## 이상치 처리

In [20]:
Q1, Q3 = data['MEDV'].quantile([0.25, 0.75])
IQR = Q3-Q1
upper_bound = Q3 + 1.5*IQR
lower_bound = Q1 - 1.5*IQR

print(f"이상치 범위 : {upper_bound:.2f} 초과 또는 {lower_bound:.2f} 미만")
print(f"이상치 개수 : {len(data[(data['MEDV']>upper_bound)|(data['MEDV']<lower_bound)])}")
print(f"이상치 비율 : {len(data[(data['MEDV']>upper_bound)|(data['MEDV']<lower_bound)])/len(data):.2f}")

이상치 범위 : 36.96 초과 또는 5.06 미만
이상치 개수 : 40
이상치 비율 : 0.08


In [21]:
def get_outlier_prop(x):
    Q1, Q3 = x.quantile([0.25, 0.75])
    IQR = Q3-Q1
    upper_bound = Q3 + 1.5*IQR
    lower_bound = Q1 - 1.5*IQR
    outliers = x[(x>upper_bound)|(x<lower_bound)]
    return str(round(100*len(outliers)/len(x), 1)) + '%'

data.apply(get_outlier_prop)

CRIM           13.0%
ZN             13.4%
INDUS           0.0%
CHAS            6.9%
NOX             0.0%
RM              5.9%
AGE             0.0%
DIS             1.0%
RAD             0.0%
TAX             0.0%
PTRATIO         3.0%
B              15.2%
LSTAT           1.4%
MEDV            7.9%
isHighValue     0.0%
dtype: object

### 예시 1. IQR 값 기준으로 MEDV 변수의 이상치 제거

In [22]:
Q1, Q3 = data['MEDV'].quantile([0.25, 0.75])
IQR = Q3-Q1
upper_bound = Q3 + 1.5*IQR
lower_bound = Q1 - 1.5*IQR

data1 = data[(data['MEDV']<=upper_bound)&(data['MEDV']>=lower_bound)]
data1.shape

(466, 15)

### 예시 2. MEDV 변수 값이 45 이상인 경우를 이상치로 보고 제거

In [23]:
data2 = data[~(data['MEDV']>=45)]
data2.shape

(484, 15)

## 변수 변환

변수 변환은 다음의 두 가지 경우에 적용한다.  
1. 변수의 분포가 한쪽으로 크게 치우쳐져 있어 정규분포를 따르지 않는 경우
    - 로그 변환, 제곱근 변환, Box-Cox 등
    - 변수의 왜도를 줄일 수 있다.
1. 각 변수별로 데이터의 범위 및 단위가 다를 경우
    - 스케일링(학습 데이터에 대해서만 scaler fit)

In [26]:
data.apply(lambda x:x.skew(), axis=0)

CRIM           5.223149
ZN             2.225666
INDUS          0.295022
CHAS           3.405904
NOX            0.729308
RM             0.403612
AGE           -0.598963
DIS            1.011781
RAD            1.004815
TAX            0.669956
PTRATIO       -0.802325
B             -2.890374
LSTAT          0.906460
MEDV           1.108098
isHighValue    1.092403
dtype: float64

보통 왜도의 절대값이 3을 넘어가면 치우쳐져 있는 것으로 판단한다.  
CRIM, CHAS이 3을 넘어가는데,  
CHAS는 더미 변수이므로 따로 변환하지 않는다.

In [27]:
import numpy as np

data['CRIM'] = np.log1p(data['CRIM'])
data['CRIM'].skew()

1.2692005882725572

# 회귀 모델링

## 데이터 탐색

회귀 모델에서는 종속변수로 MEDV 변수를 사용한다.  
분류 모델에서 종속변수로 사용할 isHighValue 변수는 제외하여 df_r이라는 데이터프레임으로 저장한 후  
데이터 탐색을 진행하자

In [32]:
df_r = data.drop(['isHighValue'], axis=1)

corr 함수를 사용하여 변수들 간의 상관관계 행렬을 구할 수 있다.  
기본적으로 피어슨 상관관계 계수 값을 보여준다.

In [33]:
cols = ['MEDV', 'LSTAT', 'RM', 'CHAS', 'RAD', 'TAX']
df_r[cols].corr()

Unnamed: 0,MEDV,LSTAT,RM,CHAS,RAD,TAX
MEDV,1.0,-0.737663,0.69536,0.17526,-0.381626,-0.468536
LSTAT,-0.737663,1.0,-0.613808,-0.053929,0.488676,0.543993
RM,0.69536,-0.613808,1.0,0.091251,-0.209847,-0.292048
CHAS,0.17526,-0.053929,0.091251,1.0,-0.007368,-0.035587
RAD,-0.381626,0.488676,-0.209847,-0.007368,1.0,0.910228
TAX,-0.468536,0.543993,-0.292048,-0.035587,0.910228,1.0


MEDV & LSTAT : -0.7377 강한 음의 상관관계  
MEDV & RM : 0.6954 강한 양의 상관관계  
따라서 LSTAT과 RM은 MEDV를 예측하는데 중요한 변수로 쓰일 수 있다.

RAD & TAX : 0.9102 강한 양의 상관관계  
이 두 변수는 다중공선성을 유발하므로  
둘 중 한 변수만 사용하거나, 주성분 분석을 사용할 수 있다.

## 분석 모형 구축

### 데이터 분할

In [34]:
from sklearn.model_selection import train_test_split

X_cols = ['LSTAT', 'PTRATIO', 'TAX', 'AGE', 'NOX', 'INDUS', 'CRIM']

X = df_r[X_cols].values
y = df_r['MEDV'].values

X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X, y, test_size=0.3, random_state=123)

### 데이터 스케일링

In [35]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

X_train_r_scaled = scaler.fit_transform(X_train_r)
X_test_r_scaled = scaler.transform(X_test_r)

### 모델 구축

Linear Regression, SVM, Random Forest 모델을 만들어보자.  
각 모델은 각각 다양한 하이퍼파라미터를 가지고 있다.  
익혀보자.

#### Linear Regression

In [36]:
from sklearn.linear_model import LinearRegression

model_lr = LinearRegression()
model_lr.fit(X_train_r_scaled, y_train_r)

In [39]:
model_lr.coef_ # 회귀계수

array([-32.51042803, -11.94191767,  -3.84240793,   5.58034429,
        -4.34593586,   0.98706819,   6.83941179])

In [40]:
model_lr.intercept_ # 절편

38.03006298623825

#### SVM

In [41]:
from sklearn.svm import SVR

model_svr = SVR()
model_svr.fit(X_train_r_scaled, y_train_r)

#### Random Forest

In [43]:
from sklearn.ensemble import RandomForestRegressor

model_rfr = RandomForestRegressor(random_state=123)
model_rfr.fit(X_train_r_scaled, y_train_r)

Random Forest에서는 feature_importances_ 값을 이용해서  
모델에서 사용하는 변수 중요도를 확인할 수 있다.

In [45]:
for x, val in zip(X_cols, model_rfr.feature_importances_):
    print(f"{x} : {val:.3f}")

LSTAT : 0.718
PTRATIO : 0.070
TAX : 0.040
AGE : 0.038
NOX : 0.056
INDUS : 0.013
CRIM : 0.064


## 분석 모형 평가

In [46]:
y_pred_lr = model_lr.predict(X_test_r_scaled)
y_pred_svr = model_svr.predict(X_test_r_scaled)
y_pred_rfr = model_rfr.predict(X_test_r_scaled)

In [51]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

print('-'*30)
print('Linear Regression 결과')
print(f"MAE : {mean_absolute_error(y_test_r, y_pred_lr)}")
print(f"MSE : {mean_squared_error(y_test_r, y_pred_lr)}")
print(f"MAPE : {mean_absolute_percentage_error(y_test_r, y_pred_lr)}")
print('-'*30)
print('SVM 결과')
print(f"MAE : {mean_absolute_error(y_test_r, y_pred_svr)}")
print(f"MSE : {mean_squared_error(y_test_r, y_pred_svr)}")
print(f"MAPE : {mean_absolute_percentage_error(y_test_r, y_pred_svr)}")
print('-'*30)
print('Random Forest 결과')
print(f"MAE : {mean_absolute_error(y_test_r, y_pred_rfr)}")
print(f"MSE : {mean_squared_error(y_test_r, y_pred_rfr)}")
print(f"MAPE : {mean_absolute_percentage_error(y_test_r, y_pred_rfr)}")
print('-'*30)

------------------------------
Linear Regression 결과
MAE : 4.407845076044857
MSE : 34.86058230300996
MAPE : 0.22286249629203117
------------------------------
SVM 결과
MAE : 3.8456186511784822
MSE : 36.88968253893292
MAPE : 0.17035219659659093
------------------------------
Random Forest 결과
MAE : 2.96703947368421
MSE : 17.954533684210524
MAPE : 0.1466907579946105
------------------------------


# 분류 모델링

## 데이터 탐색

분류 모델에서는 종속변수로 isHighValue 변수를 사용한다.  
따라서 MEDV 변수를 제외한 df_c 데이터프레임을 사용하자.

In [53]:
df_c = data.drop('MEDV', axis=1)

각 독립변수의 평균값(또는 백분위수)을 구하여 유효한 독립변수를 탐색할 수 있다.

In [54]:
import numpy as np

df_c.groupby('isHighValue').apply(np.mean).T

  return mean(axis=axis, dtype=dtype, out=out, **kwargs)
  return mean(axis=axis, dtype=dtype, out=out, **kwargs)


isHighValue,0,1
CRIM,0.975497,0.354194
ZN,6.691176,24.602273
INDUS,12.777353,6.488485
CHAS,0.050802,0.121212
NOX,0.575957,0.494454
RM,6.028837,7.009394
AGE,73.275134,55.257576
DIS,3.593655,4.365642
RAD,10.729947,6.204545
TAX,440.78877,316.007576


## 분석 모형 구축

### 데이터 분할

In [56]:
from sklearn.model_selection import train_test_split

X_cols = ['LSTAT', 'PTRATIO', 'TAX', 'AGE', 'NOX', 'INDUS', 'CRIM']

X = df_c[X_cols].values
y = df_c['isHighValue'].values

X_train_c, X_test_c, y_train_c, y_test_c = train_test_split(X, y, test_size=0.3, random_state=123)

### 데이터 스케일링

In [58]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

X_train_c_scaled = scaler.fit_transform(X_train_c)
X_test_c_scaled = scaler.transform(X_test_c)

### 모델 구축

#### Logistic Regression

In [59]:
from sklearn.linear_model import LogisticRegression

model_lo = LogisticRegression()
model_lo.fit(X_train_c_scaled, y_train_c)

In [60]:
model_lo.coef_

array([[-4.67917856, -2.26271976, -0.80852617,  0.45926521, -0.32914015,
        -1.36930599,  0.86834454]])

In [61]:
model_lo.intercept_

array([1.90334599])

#### SVM

In [62]:
from sklearn.svm import SVC

model_svc = SVC(probability=True)
model_svc.fit(X_train_c_scaled, y_train_c)

#### Random Forest

In [63]:
from sklearn.ensemble import RandomForestClassifier

model_rfc = RandomForestClassifier(random_state=123)
model_rfc.fit(X_train_c_scaled, y_train_c)

In [65]:
for x, val in zip(X_cols, model_rfc.feature_importances_):
    print(f"{x} : {val:.3f}")

LSTAT : 0.378
PTRATIO : 0.105
TAX : 0.112
AGE : 0.087
NOX : 0.080
INDUS : 0.134
CRIM : 0.104


## 분석모형 평가

predict 함수를 사용하면 threshold가 0.5인 상태로 예측값을 구하게 된다.  
즉 예측 확률이 0.5 이상이면 1, 아니면 0을 얻는다.  

predict_proba 함수를 사용하면 예측 확률을 구할 수 있다

In [66]:
y_pred_lo = model_lo.predict(X_test_c_scaled)
y_pred_svc = model_svc.predict(X_test_c_scaled)
y_pred_rfc = model_rfc.predict(X_test_c_scaled)

sklearn 패캐지의 accuracy_score, precision_score, recall_score 등의 함수를 사용하면  
정확도, 정밀도, 재현율 지표 값을 구할 수 있다.

또한 동일한 패키지의 classification_report 함수를 사용하면 평가 지표를 한 번에 다 구할 수 있다.

In [67]:
from sklearn.metrics import classification_report

print('-'*60)
print('Logistic Regression 결과')
print(classification_report(y_test_c, y_pred_lo, labels=[0, 1]))
print('-'*60)
print('SVM 결과')
print(classification_report(y_test_c, y_pred_svc, labels=[0, 1]))
print('-'*60)
print('Random Forest 결과')
print(classification_report(y_test_c, y_pred_rfc, labels=[0, 1]))
print('-'*60)

------------------------------------------------------------
Logistic Regression 결과
              precision    recall  f1-score   support

           0       0.90      0.97      0.93       115
           1       0.89      0.65      0.75        37

    accuracy                           0.89       152
   macro avg       0.89      0.81      0.84       152
weighted avg       0.89      0.89      0.89       152

------------------------------------------------------------
SVM 결과
              precision    recall  f1-score   support

           0       0.92      0.96      0.94       115
           1       0.84      0.73      0.78        37

    accuracy                           0.90       152
   macro avg       0.88      0.84      0.86       152
weighted avg       0.90      0.90      0.90       152

------------------------------------------------------------
Random Forest 결과
              precision    recall  f1-score   support

           0       0.94      0.96      0.95       115
       

이번엔 AUROC 값을 구해보자

In [70]:
from sklearn.metrics import roc_auc_score

y_pred_lo = model_lo.predict_proba(X_test_c_scaled)[:, 1]
y_pred_svc = model_svc.predict_proba(X_test_c_scaled)[:, 1]
y_pred_rfc = model_rfc.predict_proba(X_test_c_scaled)[:, 1]

In [71]:
print(f'Logistic Regression 결과 : {roc_auc_score(y_test_c, y_pred_lo):.3f}')
print(f'SVM 결과 : {roc_auc_score(y_test_c, y_pred_svc):.3f}')
print(f'Random Forest 결과 : {roc_auc_score(y_test_c, y_pred_rfc):.3f}')

Logistic Regression 결과 : 0.918
SVM 결과 : 0.937
Random Forest 결과 : 0.966
