# Project1 : 캘리포니아 주택 가격 분석

## 1. 데이터셋
+ scikit-learn 에서 제공하는 캘리포니아 주택 가격 데이터를 이용하여
1990년대 캘리포니아 지역의 주택 가격에 대한 데이터
+ 데이터셋은  20,640개의 관측값과 8개의 독립변수(feature), 1개의 종속변수 (target)으로 구성됨

## 2. 데이터 확인 및 전처리

In [2]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [12]:
!pip install scikit-learn



In [20]:
# 데이터 불러오기
from sklearn.datasets import fetch_california_housing
data= fetch_california_housing(as_frame=True)
df = data.frame
df.head(3)

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521


In [21]:
# 데이터 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   MedInc       20640 non-null  float64
 1   HouseAge     20640 non-null  float64
 2   AveRooms     20640 non-null  float64
 3   AveBedrms    20640 non-null  float64
 4   Population   20640 non-null  float64
 5   AveOccup     20640 non-null  float64
 6   Latitude     20640 non-null  float64
 7   Longitude    20640 non-null  float64
 8   MedHouseVal  20640 non-null  float64
dtypes: float64(9)
memory usage: 1.4 MB


+ 캘리포니아 주택 가격 데이터를 확인한 결과 , 관측값은 20,640개, 변수는 9개로 나타남
+ 주택 가격에 영향을 미치는 특성(feature)은 다음과 같음
  + MedInc	지역 중위 소득 (10,000 USD)
  + HouseAge	주택 연식 (건축 후 경과된 연도 수)
  + AveRooms	가구당 평균 방 개수
  + AveBedrms	가구당 평균 침실 개수
  + Population	지역 내 인구 수
  + AveOccup	가구당 평균 거주 인원 수
  + Latitude	위도
  + Longitude	경도
  + MedHouseVal	주택 중위 가격 (100,000 USD)
+ 종속변수(target)는 MedhouseVal임

In [24]:
# 데이터 전처리 : 결측값 확인
df.isna().sum()

MedInc         0
HouseAge       0
AveRooms       0
AveBedrms      0
Population     0
AveOccup       0
Latitude       0
Longitude      0
MedHouseVal    0
dtype: int64

<br>

## 3. 학습/평가 데이터 분할
 + 학습 데이터와 평가 데이터를 7:3 비율로 분할함

In [34]:
a,b = [10,20]
print(a)
print(b)

10
20


In [46]:
# 학습/평가 데이터 분할 (7:3 비율)
X = data.data         #feature
y = data.target      #target

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [47]:
X_train

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
7061,4.1312,35.0,5.882353,0.975490,1218.0,2.985294,33.93,-118.02
14689,2.8631,20.0,4.401210,1.076613,999.0,2.014113,32.79,-117.09
17323,4.2026,24.0,5.617544,0.989474,731.0,2.564912,34.59,-120.14
10056,3.1094,14.0,5.869565,1.094203,302.0,2.188406,39.26,-121.00
15750,3.3068,52.0,4.801205,1.066265,1526.0,2.298193,37.77,-122.45
...,...,...,...,...,...,...,...,...
11284,6.3700,35.0,6.129032,0.926267,658.0,3.032258,33.78,-117.96
11964,3.0500,33.0,6.868597,1.269488,1753.0,3.904232,34.02,-117.43
5390,2.9344,36.0,3.986717,1.079696,1756.0,3.332068,34.03,-118.38
860,5.7192,15.0,6.395349,1.067979,1777.0,3.178891,37.58,-121.96


In [37]:
20640*0.7

14447.999999999998

In [48]:
data.target

0        4.526
1        3.585
2        3.521
3        3.413
4        3.422
         ...  
20635    0.781
20636    0.771
20637    0.923
20638    0.847
20639    0.894
Name: MedHouseVal, Length: 20640, dtype: float64

In [49]:
y_test

20046    0.47700
3024     0.45800
15663    5.00001
20484    2.18600
9814     2.78000
          ...   
17505    2.37500
13512    0.67300
10842    2.18400
16559    1.19400
5786     2.09800
Name: MedHouseVal, Length: 6192, dtype: float64

In [40]:
print(X_train.shape)

(14448, 8)


<br>

## 4. 데이터 탐색

In [50]:
y_train

7061     1.93800
14689    1.69700
17323    2.59800
10056    1.36100
15750    5.00001
          ...   
11284    2.29200
11964    0.97800
5390     2.22100
860      2.83500
15795    3.25000
Name: MedHouseVal, Length: 14448, dtype: float64

In [52]:
# 요약 통계량 확인
df_train = pd.concat([X_train,y_train],axis=1)
df_train.describe()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
count,14448.0,14448.0,14448.0,14448.0,14448.0,14448.0,14448.0,14448.0,14448.0
mean,3.876892,28.575374,5.438125,1.098033,1427.927326,3.119236,35.650669,-119.584102,2.06924
std,1.904908,12.613634,2.453569,0.447498,1140.22519,12.373636,2.135742,2.00293,1.157492
min,0.4999,1.0,0.888889,0.333333,3.0,0.692308,32.55,-124.35,0.14999
25%,2.567225,18.0,4.448928,1.006783,791.0,2.43038,33.94,-121.8,1.193
50%,3.5391,29.0,5.232422,1.049492,1168.0,2.817147,34.27,-118.51,1.793
75%,4.758075,37.0,6.060692,1.100328,1727.0,3.279135,37.72,-118.01,2.646
max,15.0001,52.0,141.909091,25.636364,35682.0,1243.333333,41.95,-114.31,5.00001


In [None]:
# 중위 주택 가격의 평균은 약 20만 달러,표준편차는 11만 달러로 나타남
# + 중위 주택 가격의 최소값은 1만4천 달러,1사분위수는 11만 9천 달러 중앙값은 1