## 알림
- mySQL 문법을 사용하여 데이터 전처리를 하였습니다.
- 비트나미(bitnami)를 사용하여 mySQL을 설치하고 로컬서버에 데이터 베이스를 구성하였습니다.

~~굳이 데이터를 Dataframe으로 불러오고 Database로 전환한 후 다시 Dataframe으로 전환하여 작업한 이유는 mySQL문법과 SQLAlchmy의 활용에 대해 배운 내용을 복습하기 위함입니다.~~

데이터에 대한 설명 및 출처
- cofix : 금리 (출처 : [은행연합회소비자포탈](https://portal.kfb.or.kr/fingoods/cofix.php))
- cpi : 소비자물가지수(출처 : [국가통계포탈(KOSIS)](http://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1J17002&conn_path=I2))
- iaip : 산업생상지수 (출처 : [이나라지표](http://www.index.go.kr/potal/main/EachDtlPageDetail.do?idx_cd=2838)
- googletrend : 구글 "주택정책" 검색 비율 (출처 : [구글트랜드](https://trends.google.co.kr/trends/?geo=KR))
- 주택도시보증공사_전국 평균 분양가격(2019년 9월) (출처 : [공공데이터 포탈(DATA)](https://www.data.go.kr/dataset/3035522/fileData.do))

## Master 테이블 만들기
1. 데이터 베이스화
    1. 한글로 쓰인 컬럼명 및 값을 영어로 변경(iaip의 경우 행렬 전환 후 컬럼명 및 값을 영어로 변경)
    2. SQLAlchemy를 활용한 sql 데이터 저장
2. 날짜 형식 통일
3. JOIN

### 데이터 베이스화

#### 1. 한글로 쓰인 컬럼명 및 값을 영어로 변경
     - euc-kr 및 utf-8 엔코딩을 사용한 자료를 이용할 경우 데이터 베이스 생성이 되지 않는 등의 문제가 발생하였습니다. 이에 따라, 원활한 작업진행을 위해 한글로된 컬럼 및 값을 영어로 변환해 주었습니다.

##### 주택도시보증공사_전국 평균 분양가격(2019년 9월)

In [36]:
house_df = pd.read_csv('datas/주택도시보증공사_전국 평균 분양가격(2019년 9월).csv', encoding = "utf-8") # 메모장을 이용하여 utf-8로 엔코딩된 csv로 파일을 바꾸었으나, 데이터 테이블 생성이 되지 않았다. 추측컨데 이미 euc-kr로 기입된경우 새로 작성하지 않는 이상 부분 부분 문제를 일으킬 수 이다. 그래서 한글로 된 데이터를 일일이 영어로 전화해주었다.
house_df.columns

Index(['지역명', '규모구분', '연도', '월', '분양가격(㎡)'], dtype='object')

In [37]:
house_df.columns = ["local", "size", "year", "month", "price"]

In [38]:
def rename_local(local_name):
    if local_name == '서울':
        return "seoul"
    if local_name == '인천':
        return "inchun"
    if local_name == '경기':
        return "gyeong-gi"
    if local_name == '부산':
        return "busan"
    if local_name == '대구':
        return "daegu"
    if local_name == '광주':
        return "gwangju"
    if local_name == '대전':
        return "daejeon"
    if local_name == '울산':
        return "ulsan"
    if local_name == '세종':
        return "sejong"
    if local_name == '강원':
        return "gangwon"
    if local_name == '충북':
        return "chungbuk"
    if local_name == '충남':
        return 'chungnam'
    if local_name == '전북':
        return 'jeonbuk'
    if local_name == '전남':
        return 'jeonnam'
    if local_name == '경북':
        return 'gyeongbuk'
    if local_name == '경남':
        return 'gyeongnam'
    if local_name == '제주':
        return "jeju"

In [39]:
def rename_size(size):
    if size == '전체':
        return "total"
    if size == '전용면적 60㎡이하':
        return "to60"
    if size == '전용면적 60㎡초과 85㎡이하':
        return "60to85"
    if size == '전용면적 85㎡초과 102㎡이하':
        return "85to102"
    if size == '전용면적 102㎡초과':
        return "over102"

In [40]:
house_df["local"] = house_df["local"].apply(rename_local)
house_df["size"] = house_df["size"].apply(rename_size)

In [41]:
house_df.head(5)

Unnamed: 0,local,size,year,month,price
0,seoul,total,2015,10,5841
1,seoul,to60,2015,10,5652
2,seoul,60to85,2015,10,5882
3,seoul,85to102,2015,10,5721
4,seoul,over102,2015,10,5879


##### cofix

In [42]:
cofix_df = pd.read_csv('Cofix.csv',  encoding="euc-kr")
cofix_df.columns

Index(['공시일', '대상월', '신규취급액기준 COFIX', '잔액기준 COFIX'], dtype='object')

In [43]:
cofix_df.columns = ['publication_date', 'target_month', 'new_bases_COFIX', 'balance_bases_COFIX']
cofix_df.to_csv("datas/cofix.csv", index = False, encoding = "utf-8")

##### cpi

In [44]:
cpi_df = pd.read_csv('CPI.csv',  encoding="euc-kr")
cpi_df.columns

Index(['기간', '총지수', '농축수산물', '공업제품', '전기·수도·가스', '집세', '공공서비스', '개인서비스'], dtype='object')

In [45]:
cpi_df.columns = ['duration', 'total_index', 'agricutural', 'industria', 'e_w_g', 'rent', 'public', 'personal']
cpi_df.to_csv("datas/cpi.csv", index = False, encoding = "utf-8")

##### google trend

In [46]:
gtrend_df = pd.read_csv('datas/googletrend.csv',  encoding="utf-8")

#### (iaip의 경우 행렬 전환 후 컬럼명 및 값을 영어로 변경)
##### iaip

In [27]:
iaip_df = pd.read_csv('iaip.csv',  encoding="utf-8")
date = iaip_df.columns
production_index  = list(iaip_df.loc[0])
year_on_year = list(iaip_df.loc[1])
mining = list(iaip_df.loc[2])
construction = list(iaip_df.loc[3])
service = list(iaip_df.loc[4])
public = list(iaip_df.loc[5])

In [28]:
datas = {
    "date" : date,
    "production_index" : production_index,
    "year_on_year" : year_on_year,
    "mining" : mining,
    "construction" : construction,
    "service" : service,
    "public" : public,
}


In [29]:
iaip_df = pd.DataFrame(datas)
iaip_df = iaip_df.drop(index = 0).reset_index(drop=True)

#### 2. SQLAlchemy를 활용한 sql 데이터 저장

In [49]:
from sqlalchemy import *
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

In [50]:
engine = create_engine("mysql://root:dss123@localhost/eda_datas")

In [51]:
engine

Engine(mysql://root:***@localhost/eda_datas)

In [34]:
cofix_df.to_sql(name="cofix", con=engine, if_exists="replace")
cpi_df.to_sql(name="cpi", con=engine, if_exists="replace")
gtrend_df.to_sql(name="gtrend", con=engine, if_exists="replace")
house_df.to_sql(name="house", con=engine, if_exists="replace
# iaip의 경우 날짜 데이터에 한글이 포함되어 있어 heidi를 사용하여 바로 테이블화 하였다.

### 2. 날짜 형식 통일
- 원데이터 날짜 형식
  
컬럼|날짜 형태
---|---
cofix|2015-12-15
cpi|2015, 01
gtrend|2015-01-02
house|year : 2016, month : 10
iaip|201501월

- 통일된 날짜 형식
  
    **<center>201501<center/>**

**아래는 각 데이터를 위와 같은 형식으로 변환한 쿼리 문이다**
- cofix
  
CREATE view cofix_view AS  
SELECT replace(LEFT(publication_date, 7),"-","") AS DATE1, new_bases_COFIX, balance_bases_COFIX  
FROM cofix  
ORDER BY DATE1 DESC;  

- cpi
  
CREATE view cpi_view AS  
SELECT REPLACE(duration*100, ",","") AS DATE1, total_index  
FROM cpi  
ORDER BY DATE1 DESC;  

- googletrend
  
CREATE view gtrend_view AS  
SELECT replace(LEFT(date, 7),"-","") AS DATE1 , avg(rate) AS rate_avg  
FROM gtrend  
GROUP BY DATE1  
ORDER BY DATE1 DESC;  

- house
  
CREATE VIEW house_view AS  
SELECT replace(YEAR*100+MONTH,",","") AS DATE1,LOCAL, size, price  
FROM house  
ORDER BY DATE1 DESC, LOCAL ASC;  

- iaip
  
CREATE VIEW iaip_view AS  
SELECT left(CONCAT(LEFT(DATE, 4), RIGHT(DATE, 3)),6) AS DATE1, production_index  
FROM iaip  
ORDER BY DATE1 DESC;  

#### 3. JOIN

In [74]:
QUERY = """
# join
SELECT d.DATE1, d.LOCAL, d.size, d.price, a.new_bases_COFIX, 
b.total_index AS cpi_index, c.rate_avg, e.production_index
FROM cofix_view as a, cpi_view AS b, gtrend_view AS c, 
(SELECT DATE1, LOCAL, size, price 
FROM house_view
WHERE price != "null" AND  price !=" " AND price != "-") AS d, 
iaip_view AS e
WHERE a.date1 = b.DATE1 AND b.DATE1 = c.DATE1 AND c.DATE1 = d.DATE1 AND d.DATE1 = e.DATE1 
AND d.LOCAL = "seoul" AND d.size = "total"
ORDER BY DATE1 DESC

"""

In [72]:
master_df = pd.read_sql(QUERY, engine)

In [73]:
master_df

Unnamed: 0,DATE1,LOCAL,size,price,new_bases_COFIX,cpi_index,rate_avg,production_index
0,201909,seoul,total,8085,1.52,105.57,33.2,105.3
1,201908,seoul,total,8093,1.68,105.21,15.5,105.4
2,201907,seoul,total,8067,1.78,104.91,37.0,107.8
3,201906,seoul,total,8100,1.85,105.17,32.0,109.0
4,201905,seoul,total,7786,1.85,105.31,28.0,108.7
5,201904,seoul,total,7784,1.94,105.26,23.25,107.4
6,201903,seoul,total,7772,1.92,104.86,24.6,108.4
7,201902,seoul,total,7627,1.99,105.07,16.25,95.8
8,201901,seoul,total,7600,2.04,104.54,18.5,104.8
9,201812,seoul,total,7398,1.96,104.49,22.2,116.4
