# 데이터프레임을 mysql에 업로드
2020-05-25 : building,around 
2020-05-27 : building에 호 추가, 이미지 저장
### building 테이블 스키마
```
CREATE TABLE rot.building (
  num INT NOT NULL AUTO_INCREMENT,
  address VARCHAR(100) NULL,
  sd VARCHAR(20) NULL,
  sgg VARCHAR(20) NULL,
  emd VARCHAR(20) NULL,
  latitude VARCHAR(45) NULL,
  longitude VARCHAR(45) NULL,
  exclusive VARCHAR(10) NULL,
  floor VARCHAR(10) NULL,
  ho VARCHAR(10) NULL,
  kind VARCHAR(10) NULL,
  detail VARCHAR(10) NULL,
  cost VARCHAR(10) NULL,
  monthly VARCHAR(10) NULL,
  license VARCHAR(45) NULL,
  image VARCHAR(200) NULL,
  contractedAt DATE NULL,
  createdAt DATETIME NULL,
  PRIMARY KEY (num))
ENGINE = InnoDB
DEFAULT CHARACTER SET = utf8;
```
---
### around 테이블 스키마
```
CREATE TABLE rot.around (
  num INT NOT NULL AUTO_INCREMENT,
  address VARCHAR(100) NULL,
  trans INT NULL,
  comforts INT NULL,
  education INT NULL,
  medical INT NULL,
  eatery INT NULL,
  culture INT NULL,
  PRIMARY KEY (num),
  UNIQUE INDEX address_UNIQUE (address ASC) VISIBLE)
ENGINE = InnoDB
DEFAULT CHARACTER SET = utf8;
```

In [1]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

### 데이터 연결

In [2]:
db_connection_str = 'mysql+pymysql://test:rot123456789!!@k02b2031.p.ssafy.io:3306/rot'
db_connection = create_engine(db_connection_str)
conn = db_connection.connect()

### local
db_connection_str = 'mysql+pymysql://root:ssafy@localhost:3306/rot'
db_connection = create_engine(db_connection_str)
conn = db_connection.connect()

# building

### 파일 불러오기

In [54]:
dtypes={'전용면적':str,'거래금액':str,'층':str,'건물종류':str,'거래형태':str,'월세':str,'계약날짜':str,'시도':str,'시군구':str,'읍면동':str,'위도':str,'경도':str,'도로명주소':str}
df = pd.read_csv('./data/대전전국데이터합친최종본.csv', sep=',',dtype=dtypes)

In [55]:
df.dtypes

전용면적     object
거래금액     object
층        object
건물종류     object
거래형태     object
월세       object
계약날짜     object
시도       object
시군구      object
읍면동      object
위도       object
경도       object
도로명주소    object
dtype: object

### 칼럼 이름 재정의

In [56]:
df.rename(columns={'전용면적':'exclusive','거래금액':'cost',"도로명주소":'address',
             '시도':'sd','시군구':'sgg','읍면동':'emd',
             '위도':'latitude','경도':'longitude','층':'floor',
             '거래형태':'detail','건물종류':'kind','계약날짜':'contractedAt',
             '월세':'monthly'},inplace=True)

### 데이터 저장일자, 데이터 길이 수정(전용면적,위도,경도)

In [57]:
import random
import datetime

def get_license(row):
    return "SSAFY-대전-00"+str(random.randint(1,5))
df['license'] = df.apply(get_license, axis=1)

In [58]:
df['createdAt'] = datetime.datetime.now()
df['exclusive'] = df['exclusive'].str[:5]
df['latitude'] = df['latitude'].str[:14]
df['longitude'] = df['longitude'].str[:13]
df['image']='default.png'

In [None]:
df.columns

In [157]:
df.dtypes

exclusive               object
cost                    object
floor                   object
kind                    object
detail                  object
monthly                 object
contractedAt            object
sd                      object
sgg                     object
emd                     object
latitude                object
longitude               object
address                 object
license                 object
createdAt       datetime64[ns]
image                   object
ho                      object
dtype: object

### 호 1~9까지 랜덤값 지정

In [202]:
du = {}
def get_ho(row):
    addr  = row['address']
    date = row['contractedAt']
    floor = row['floor']+'f'
    ho = random.randint(1,15)
    b = [16,False, False, False, False, False, False, False, False, False,False,False,False,False,False,False]
    
    if addr in du: # 주소 중복
        if date in du[addr]: # 같은 날짜에 있어
            if floor in du[addr][date]: # 같은 층
                t = du[addr][date][floor]
                if t[ho] is True:
                    idx = 0
                    while t[ho] is True:
                        ho = random.randint(1,15)
                        idx+=1
                        if idx==15:
                            t = du[addr][date][floor][0]
                            du[addr][date][floor][0]+=1
                            return str(t)
                    t[ho]=True
                    du[addr][date][floor]=t
                elif t[ho] is False:
                    t[ho]=True
                    du[addr][date][floor]=t
            else: # 같은 층이 아니야
                b[ho]=True
                du[addr][date][floor]=b
                
        else:
            b[ho]=True
            du[addr][date]={}
            du[addr][date][floor]=b
    else: # 주소 중복이 없는 경우
        du[addr]={}
        b[ho]=True
        du[addr][date]={}
        du[addr][date][floor]=b
    return ho

In [203]:
df['ho'] = df.apply(get_ho, axis=1)

In [None]:
df = df.astype({'ho':str})

In [214]:
df['ho'].unique()

array(['9', '1', '8', '10', '2', '7', '15', '11', '13', '3', '6', '5',
       '14', '4', '12', '16', '17', '18', '19', '20', '21', '22', '23',
       '24', '25', '26', '27', '28'], dtype=object)

In [215]:
df[df.duplicated(['address','contractedAt','floor','ho'])][['address','contractedAt','floor','ho']]

Unnamed: 0,address,contractedAt,floor,ho


In [None]:
df[df['sd'].str.contains('대전')]['kind'].value_counts()

In [220]:
import os
op = []
ap = []
yd = []
path_dir = './image'
op_list = os.listdir(path_dir+"/op")
ap_list = os.listdir(path_dir+"/ap")
yd_list = os.listdir(path_dir+"/yd")

In [None]:
def setImage(row):
    if row['kind']=="아파트":
        r= random.randint(0,len(ap_list)-1)
        return ap_list[r]
    elif row['kind']=='연립/다세대':
        r= random.randint(0,len(yd_list)-1)
        return yd_list[r]
    elif row['kind']=='오피스텔':
        r= random.randint(0,len(op_list)-1)
        return op_list[r]
df['image'] = df.apply(setImage, axis=1)

In [232]:
len(list(df['image'].unique()))

4797

### append로 기존에 있는 테이블에 내용 추가

#### replace의 경우를 대비한 dtype 설정내용(지금은 안씀)
dtypesql = {'exclusive':sqlalchemy.types.VARCHAR(10), 
            'cost':sqlalchemy.types.VARCHAR(10), 
            'address':sqlalchemy.types.VARCHAR(100), 
            'sd':sqlalchemy.types.VARCHAR(20), 
            'sgg':sqlalchemy.types.VARCHAR(20), 
            'emd':sqlalchemy.types.VARCHAR(20), 
            'latitude':sqlalchemy.types.VARCHAR(45), 
            'longitude':sqlalchemy.types.VARCHAR(45), 
            'floor':sqlalchemy.types.VARCHAR(10), 
            'detail':sqlalchemy.types.VARCHAR(10), 
            'kind':sqlalchemy.types.VARCHAR(10), 
            'contractedAt':sqlalchemy.Date(), 
            'createdAt':sqlalchemy.DateTime(), 
            'monthly':sqlalchemy.types.VARCHAR(100), 
}
df.to_sql(name='building', con=db_connection, if_exists='append', index=False,dtype=dtypesql)

In [233]:
df.to_sql(name='building', con=db_connection, if_exists='append',index=False)

---
# around
### 데이터불러오기

In [24]:
dtypes={'도로명주소':str,'위도':str,'경도':str,'교통':int,'마트편의점':int,'교육시설':int,'의료시설':int,'음식점카페':int,'문화공간':int}
df1 = pd.read_csv('./data/대전카테고리.csv', sep=',',dtype=dtypes)

In [25]:
df1_final = df1[['도로명주소','교통','마트편의점','교육시설','의료시설','음식점카페','문화공간']].copy()

In [27]:
df1_final.dtypes

도로명주소    object
교통        int32
마트편의점     int32
교육시설      int32
의료시설      int32
음식점카페     int32
문화공간      int32
dtype: object

In [28]:
df1_final.rename(columns={'도로명주소':'address','교통':'trans','마트편의점':'comforts','교육시설':'education','의료시설':'medical','음식점카페':'eatery','문화공간':'culture'}, inplace=True)

In [29]:
df1_final

Unnamed: 0,address,trans,comforts,education,medical,eatery,culture
0,대전광역시 대덕구 신탄진동 신탄진로834번길 15,0,27,92,60,408,2
1,대전광역시 동구 삼성동 대전로867번길 52,2,55,182,115,1163,22
2,대전광역시 동구 용운동 용운로 163,0,25,73,29,272,10
3,대전광역시 서구 관저동 도안남로 146,0,37,214,90,726,5
4,대전광역시 서구 관저동 도안남로 143,0,33,207,90,694,5
...,...,...,...,...,...,...,...
3015,대전광역시 서구 복수동 유등로17번길 130-5,0,20,137,17,316,4
3016,대전광역시 유성구 장대동 유성대로730번길 119-1,2,95,113,111,1374,12
3017,대전광역시 서구 도마동 도마8길 77,0,27,133,87,586,4
3018,대전광역시 서구 변동 도마로63번길 76,0,32,136,57,511,4


In [30]:
df1_final.to_sql(name='around', con=db_connection, if_exists='append',index=False)