## read csv & dataframe concat

In [1]:
import os
import pandas as pd

data = pd.read_csv(os.getcwd()+"/장애인편의시설.csv",encoding='utf-8')

## 데이터 확인

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 88450 entries, 0 to 32999
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   faclNm         88417 non-null  object 
 1   faclTyCd       88450 non-null  object 
 2   lcMnad         88450 non-null  object 
 3   faclLat        86416 non-null  float64
 4   faclLng        86416 non-null  float64
 5   salStaDivCd    88450 non-null  object 
 6   wfcltId        88450 non-null  int64  
 7   phone          35781 non-null  object 
 8   opening_hours  8636 non-null   object 
 9   evalInfo       87147 non-null  object 
dtypes: float64(2), int64(1), object(7)
memory usage: 7.4+ MB


## 결측값, 폐업한 곳 제거

In [3]:
print('초기',len(df))
none = df["faclNm"].isin(["시설물명 미입력"])
df = df[~none]
print('시설물명 미입력 제거 후',len(df))
null = df["faclNm"].isnull()
df = df[~null]
print('시설물명 None 제거 후',len(df))
closed = df["salStaDivCd"].isin(["N"])
df = df[~closed]
print("폐업한 곳 제거 후:",len(df))
latIsNone = df["faclLat"].isnull()
df = df[~latIsNone]
print("위경도 X:",len(df))
evalInfoIsNone = df["evalInfo"].isnull()
df = df[~evalInfoIsNone]
print("시설물 정보 X:",len(df))
df.info()

초기 88450
시설물명 미입력 제거 후 87403
시설물명 None 제거 후 87370
폐업한 곳 제거 후: 87123
위경도 X: 85199
시설물 정보 X: 83934
<class 'pandas.core.frame.DataFrame'>
Int64Index: 83934 entries, 0 to 32999
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   faclNm         83934 non-null  object 
 1   faclTyCd       83934 non-null  object 
 2   lcMnad         83934 non-null  object 
 3   faclLat        83934 non-null  float64
 4   faclLng        83934 non-null  float64
 5   salStaDivCd    83934 non-null  object 
 6   wfcltId        83934 non-null  int64  
 7   phone          34130 non-null  object 
 8   opening_hours  8204 non-null   object 
 9   evalInfo       83934 non-null  object 
dtypes: float64(2), int64(1), object(7)
memory usage: 7.0+ MB


## 컬럼명 변경
salStaDivCd: 영업상태구분코드 - Y : 영업, N : 폐업  
wfcltId: 시설ID  
evalInfo: 기구표목록

In [4]:
df = df.rename(columns={'faclNm' : 'location_name',
                       'lcMnad':'address',
                       'faclLat':'lat',
                       'faclLng':'lng',
                       'faclTyCd':'sub_category_id',
                       'evalInfo':'facilities'
                       })
df.columns

Index(['location_name', 'sub_category_id', 'address', 'lat', 'lng',
       'salStaDivCd', 'wfcltId', 'phone', 'opening_hours', 'facilities'],
      dtype='object')

## 편의시설 분류
01: 공공기관  
02: 교육시설  
03: 공공시설  
04: 복지시설  
05: 상업시설  
06: 문화, 종교, 체육시설  
07: 의료시설  
08: 장례시설  
09: 숙박시설  
10: 금융시설  
11: 주거시설  
12: 공단시설  

In [5]:
code={"01":["UC0A05","UC0K03","UC0O02","UC0K04","UC0K06","UC0A04",  
            "UC0A08","UC0A09","UC0A11","UC0K01","UC0K05","UC0A10","UC0P01"],  
     "02":["UC0H01","UC0G02","UC0G03","UC0G08","UC0G01","UC0I01","UC0I02",  
          "UC0N02","UC0G04","UC0G05","UC0G06","UC0G07"],
     "03":["UC0N01","UC0R02","UC0A12","UC0A13"],
     "04":["UC0H03","UC0H02","UC0H04","UC0H05","UC0A15"],
     "05":["UC0A01","UC0A02","UC0O01","UC0E01","UC0B02","UC0B01"],
     "06":["UC0C02","UC0B03","UC0G09","UC0T02","UC0J02","UC0T01","UC0A03",
          "UC0A07","UC0C01","UC0C04","UC0R01","UC0J01","UC0C03","UC0D01","UC0C05"],
     "07":["UC0F01","UC0F03","UC0F02","UC0A14","UC0A06"],
     "08":["UC0S01","UC0Q02","UC0Q01"],
     "09":["UC0L01","UC0V01","UC0L02"],
     "10":["UC0K02"],
     "11":["UC0U04","UC0U01","UC0U03","UC0U02"],
     "12":["UC0M01"]}

In [6]:
# 카테고리
mainCategory = {"01":"공공기관",
               "02":"교육시설",
               "03":"공공시설",
               "04":"복지시설",
               "05":"상업시설",
               "06":"문화, 종교, 체육시설",
               "07":"의료시설",
               "08":"장례시설",
               "09":"숙박시설",
               "10":"금융시설",
               "11":"주거시설",
               "12":"공단시설"}
subCategory = {"UC0A05":"우체국","UC0K03":"국민건강보험공단 및 지사","UC0O02":"전신전화국",
              "UC0K04":"국민연금공단 및 지사","UC0K06":"근로복지공단 및 지사",
              "UC0A04":"파출소, 지구대","UC0A08":"국민건강보험공단 및 지사",
              "UC0A09":"국민연금공단 및 지사","UC0A11":"근로복지공단 및 지사",
              "UC0K01":"국가 또는 지자체 청사","UC0K05":"한국장애인고용공단 및 지사",
              "UC0A10":"한국장애인고용공단 및 지사","UC0P01":"초등학교","UC0H01":"어린이집",
              "UC0G02":"유치원","UC0G03":"초등학교","UC0G08":"교육원·직업훈련소·학원 등",
              "UC0G01":"특수학교","UC0I01":"생활권수련시설","UC0I02":"자연권수련시설","UC0G06":"전문대학",
              "UC0N02":"운전학원","UC0G04":"중학교","UC0G05":"고등학교","UC0G07":"대학교",
              "UC0N01":"주차장","UC0R02":"휴게소","UC0A12":"대피소","UC0A13":"공중화장실",
              "UC0H03":"노인복지시설","UC0H02":"아동복지시설","UC0H04":"장애인복지시설",
              "UC0H05":"사회복지시설","UC0A15":"봉안당","UC0A01":"수퍼마켓·일용품 등의 소매점",
              "UC0A02":"이용원·미용원·목욕장","UC0O01":"방송국","UC0E01":"도매·소매시장·상점",
              "UC0B02":"휴게음식점·제과점","UC0B01":"일반음식점","UC0C02":"관람장",
              "UC0B03":"안마시술소","UC0G09":"도서관","UC0T02":"자연공원","UC0J02":"운동장",
              "UC0T01":"도시공원","UC0A03":"지역자치센터","UC0C01":"공연장",
              "UC0A03":"지역자치센터","UC0A07":"공공도서관",
              "UC0C04":"전시장","UC0R01":"야외음악당·야외극장·어린이회관",
              "UC0J01":"체육관","UC0C03":"집회장","UC0D01":"종교집회장",
              "UC0C05":"동·식물원","UC0F01":"종합병원","UC0F03":"격리병원",
              "UC0F02":"병원·치과병원·한방병원·정신병원·요양병원","UC0A14":"의원·치과의원·한의원·조산소",
              "UC0A06":"보건소","UC0S01":"장례식장","UC0Q02":"봉안당","UC0Q01":"화장시설",
              "UC0L01":"일반숙박시설","UC0V01":"기숙사","UC0L02":"관광숙박시설",
              "UC0K02":"금융업소 등 일반업무시설","UC0U04":"다세대주택","UC0U01":"아파트","UC0U03":"연립주택",
              "UC0U02":"아파트 부대복리시설","UC0M01":"공장"}

## dict to df

In [7]:
main_category=pd.DataFrame(list(mainCategory.items()),
                   columns=['main_category_id', 'main_category_name'])
sub_category=pd.DataFrame(list(subCategory.items()),
                   columns=['sub_category_id', 'sub_category_name'])

## 사용하지 않는 컬럼 제거

In [8]:
df = df.drop(['wfcltId', 'salStaDivCd'], axis=1)
df.columns
df.head(3)

Unnamed: 0,location_name,sub_category_id,address,lat,lng,phone,opening_hours,facilities
0,과천중학교,UC0G04,경기도 과천시 희망4길 33,37.433183,126.989316,031-950-0311,,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안..."
1,청심국제중고등학교,UC0G04,경기도 가평군 미사리로 324-211,37.688432,127.540702,02-507-4901,,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안..."
2,원곡중학교,UC0G04,경기도 안산시 단원구 원선로 81,37.331331,126.801738,031-589-8900,,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안..."


## Mysql 연결

In [9]:
from sqlalchemy import create_engine
import pymysql
import pandas as pd
db_connection_str = 'mysql+pymysql://[db유저이름]:[db password]@[host address]/[db name]'
db_connection = create_engine(db_connection_str)
conn = db_connection.connect()

## df to sql

In [10]:
main_category.to_sql(name='main_category', con=conn, if_exists='append',index=False)
sub_category.to_sql(name='sub_category', con=conn, if_exists='append',index=False)

In [11]:
df.to_sql(name='location', con=conn, if_exists='append',index=False)

## 확인

In [12]:
location = pd.read_sql_query("select * from location", conn)
location.head()

Unnamed: 0,location_id,address,facilities,lat,lng,location_name,opening_hours,phone,sub_category_id
0,1,경기도 과천시 희망4길 33,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안...",37.4331830155264,126.98931575841436,과천중학교,,031-950-0311,UC0G04
1,2,경기도 가평군 미사리로 324-211,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안...",37.68843246963995,127.54070211822878,청심국제중고등학교,,02-507-4901,UC0G04
2,3,경기도 안산시 단원구 원선로 81,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안...",37.331331411712334,126.80173768944992,원곡중학교,,031-589-8900,UC0G04
3,4,성주로 148,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안...",37.4790693235209,126.772041507625,부천남중학교,,031-487-8095,UC0G04
4,5,범박로 27,"객실 및 침실,경보 및 피난설비,계단 또는 승강설비,대변기,복도,소변기,유도 및 안...",37.46869915380877,126.81167588588129,범박고등학교,,070-7096-7304,UC0G05
