# 마포구 음식점 크롤링데이터 전처리
- 마포구문화관광 사이트 내 모범음식점, 마포구위생과지정 관광식당, 서울시 관광협회지정 관광식당, 마포구위생과지정 안심식당
- Geocoder 적용을 위한 데이터 전처리 - x, y 좌표 column 생성
- 음식점 지정 주체 카테고리 4곳 column 화
- 웹사이트 주소중 whitespace(`\`) 문자 지우기
- 최종 목표: 김형준 님의 [지오코더 서비스](http://www.gisdeveloper.co.kr/?p=4784)를 활용하여 전처리한 주소에 대한 위경도 좌표 추가

In [127]:
# imports
import os
import pandas as pd

In [156]:
# json 파일 담을 list
json_files = []

In [157]:
for file in os.listdir("./"):
    if file.endswith("list.json"):
        json_files.append(os.path.join("./", file))

In [158]:
json_files

['./mapojoy_onstop_food_an_list.json',
 './mapojoy_onstop_food_tu_list.json',
 './mapojoy_onstop_food_cl_list.json',
 './mapojoy_onstop_food_mo_list.json']

### 전처리 항목 TODO
- 각각 파일 읽어 df로 받아오기
- 지정기관 column 각각 추가하기
- 웹사이트 주소 전처리(whitespace 문자 지우기)
- 합치기

In [159]:
# 각각 파일 읽어 df로 받아오기 (manually)
mobums = pd.read_json(json_files[3])

In [160]:
# mobums2.insert(-1, '지정기관', text, True)
mobums['지정기관'] = '모범음식점'

In [161]:
mobums[:3]

Unnamed: 0,번호,식당명,유형,주메뉴,위치,전화번호,홈페이지,지정기관
0,116,백미향,중식,짜장면,서울특별시 마포구 성지길 27 디엠아이빌딩 1층,312-8253,http://place.map.daum.net/15678895,모범음식점
1,115,원할머니보쌈마포공덕점,한식,보쌈정식,마포대로173 마포대로173,706-5382,http://place.map.daum.net/18286705,모범음식점
2,114,양산박,한식,"콩나물국밥, 비빔밥","마포대로 4길 37(도화동, 1층) 마포대로 4길 37(도화동, 1층)",711-0888,http://place.map.daum.net/13289458,모범음식점


In [162]:
# 위생과지정
hygiene = pd.read_json(json_files[2])
hygiene['지정기관'] = '마포구위생과지정 관광식당'
hygiene[:3]

Unnamed: 0,번호,식당명,유형,주메뉴,위치,전화번호,홈페이지,지정기관
0,30,마포원조주물럭,한식,"한우주물럭, 한우육회, 차돌박이",서울특별시 마포구 토정로 294,02-716-3001,http://place.map.daum.net/2143538978,마포구위생과지정 관광식당
1,29,마포옥하우스,한식,"한우양지설렁탕, 수육",서울 마포구 토정로 312 서울 마포구 토정로 312,02-716-6661,http://place.map.daum.net/10344284,마포구위생과지정 관광식당
2,28,이조명가,한식,"삼겹주물럭, 김치삼겹살, 부대찌개",서울 마포구 마포대로4나길 56 서울 마포구 마포대로4나길 56,02-707-3124,http://place.map.daum.net/23641753,마포구위생과지정 관광식당


In [163]:
# 관광협회 지정
tour = pd.read_json(json_files[1])
tour['지정기관'] = '서울시관광협회지정 관광식당'
tour[:2]

Unnamed: 0,번호,식당명,유형,주메뉴,위치,전화번호,홈페이지,지정기관
0,27,영빈루,중식,"마약짬뽕, 마약탕수육",서울 마포구 와우산로21길 19-16 NS TOWER 2층 서울 마포구 와우산로21...,02-322-8884,http://place.map.daum.net/20438452,서울시관광협회지정 관광식당
1,26,딤차이,중식,"소롱포, 차슈빠오","서울 마포구 신촌로 92 (노고산동,지하1층) 서울 마포구 신촌로 92 (노고산동,...",02-324-9111,http://place.map.daum.net/26967981,서울시관광협회지정 관광식당


In [164]:
# 마포구위생과지정 안심식당
safe = pd.read_json(json_files[0])
safe['지정기관'] = '마포구위생과지정'
safe[:2]

Unnamed: 0,번호,식당명,유형,주메뉴,위치,전화번호,홈페이지,지정기관
0,194,신흥부전,한식,육전,월드컵북로44길 30-5 (상암동),02-307-7934,-,마포구위생과지정
1,193,시골보쌈앤감자옹심이,한식,구이류,월드컵북로 400 (상암동),303-1592,-,마포구위생과지정


In [165]:
# df 병합
dfs = [mobums, hygiene, tour, safe]
total = pd.concat(dfs)

In [166]:
# 최종 병합된 df
total.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 367 entries, 0 to 193
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   번호      367 non-null    int64 
 1   식당명     367 non-null    object
 2   유형      367 non-null    object
 3   주메뉴     367 non-null    object
 4   위치      367 non-null    object
 5   전화번호    367 non-null    object
 6   홈페이지    367 non-null    object
 7   지정기관    367 non-null    object
dtypes: int64(1), object(7)
memory usage: 25.8+ KB


In [167]:
# json 으로 내보내기 전에 x,y 위경도 좌표 전용 col 만들기
total['cx'] = 0.0
total['cy'] = 0.0
total[:2]

Unnamed: 0,번호,식당명,유형,주메뉴,위치,전화번호,홈페이지,지정기관,cx,cy
0,116,백미향,중식,짜장면,서울특별시 마포구 성지길 27 디엠아이빌딩 1층,312-8253,http://place.map.daum.net/15678895,모범음식점,0.0,0.0
1,115,원할머니보쌈마포공덕점,한식,보쌈정식,마포대로173 마포대로173,706-5382,http://place.map.daum.net/18286705,모범음식점,0.0,0.0


In [168]:
links = total[:].홈페이지

In [169]:
# 링크 whitespace 제거
total['홈페이지'] = total['홈페이지'].replace(to_replace= r'\\', value= '', regex=True)

In [170]:
# json 파일로 내보내기
total.to_json('./total_restaurants.json', orient="records", force_ascii = False)

## Geocoder 적용을 위한 주소데이터 전처리

temp = total[:]
temp.info()

In [187]:
# 위치만 뽑아내기
addr = total['위치']

In [188]:
print(addr)

0      서울특별시 마포구 성지길 27 디엠아이빌딩 1층
1                 마포대로173 마포대로173
2                      마포대로 4길 37
3                   토정로308 토정로308
4                   마포대로 12길 53-1
                  ...            
189       서울특별시 마포구 독막로28길 7 110호
190         서울특별시 마포구 독막로26길 8 1층
191          서울특별시 마포구 토정로 196 2층
192        서울특별시 마포구 성산로 128 지하1층
193            서울특별시 마포구 월드컵로 164
Name: 위치, Length: 367, dtype: object


In [174]:
type(addr)

pandas.core.series.Series

In [175]:
name_addr = total[["식당명", "위치"]]
name_addr.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 367 entries, 0 to 193
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   식당명     367 non-null    object
 1   위치      367 non-null    object
dtypes: object(2)
memory usage: 16.7+ KB


In [186]:
# name_addr.to_json('./name_addr.json', orient = 'records', force_ascii = False)
# name_addr.to_csv('./name_addr.csv', encoding='euc-kr', index=False)

total.to_csv('./total.csv', encoding='euc-kr', index=False)

## 주소 전처리

In [189]:
addrs = total['위치']

for a in addrs:
    print(a.partition('(')[0])

    
total['위치'] = [a.partition('(')[0] for a in addrs]
total

서울특별시 마포구 성지길 27 디엠아이빌딩 1층
마포대로173 마포대로173
마포대로 4길 37
토정로308 토정로308
마포대로 12길 53-1
토정로 37길 13 토정로 37길 13
삼개로5길 8 삼개로5길 8
양화로15길 12 양화로15길 12
양화로 16길 10 양화로 16길 10
성미산로 13 성미산로 13
토정로 304 토정로 304
마포구 마포대로 8안길 18 마포구 마포대로 8안길 18
토정로32길 4 
마포대로8안길 18, 지하1층
백범로 122 
토정로308 토정로308
토정로 128, 6층 
마포구 도화길 43 마포구 도화길 43
마포대로14가길 4
토정로 37길 46 
토정로 312-1 토정로 312-1
월드컵북로 48길 13 월드컵북로 48길 13
마포구 월드컵로 34길 13 마포구 월드컵로 34길 13
월드컵로 1길 17 월드컵로 1길 17
도화길 46 도화길 46
마포대로 16길 13
월드컵북로44길 57 월드컵북로44길 57
월드컵북로44길 30-5 
월드컵로 164, 2층 
독막로 229, 2층
신촌로12가길 36 
마포대로 173 마포대로 173
마포대로 109 마포대로 109
마포대로 14길 19-1
토정로 257 토정로 257
굴레방로 19-1 굴레방로 19-1
월드컵북로 396 월드컵북로 396
마포대로4길 32-4 
마포구 월드컵로 396 마포구 월드컵로 396
망원로 49-1 망원로 49-1
동교로162 
큰우물로 66 
새창로 13 
월드컵로32길 11
대흥로 53, 1층 
월드컵로87 
토정로 307 
마포대로 19, 지1층 1,4호 
연남로 3길34 
월드컵북로48길 10 월드컵북로48길 10
토정로 170 
만리재로1길 14 만리재로1길 14
월드컵로 36길 18 월드컵로 36길 18
홍익로 29 홍익로 29
토정로35길 1 토정로35길 1
서울특별시 마포구 마포대로16길 9
서울특별시 마포구 월드컵로 39
서울특별시 마포구 백범로 23
서울특별시 마포구 마포대로4나길 7
서울특별시 마포구 동교로 267
서울특별

Unnamed: 0,번호,식당명,유형,주메뉴,위치,전화번호,홈페이지,지정기관,cx,cy
0,116,백미향,중식,짜장면,서울특별시 마포구 성지길 27 디엠아이빌딩 1층,312-8253,http://place.map.daum.net/15678895,모범음식점,0.0,0.0
1,115,원할머니보쌈마포공덕점,한식,보쌈정식,마포대로173 마포대로173,706-5382,http://place.map.daum.net/18286705,모범음식점,0.0,0.0
2,114,양산박,한식,"콩나물국밥, 비빔밥",마포대로 4길 37,711-0888,http://place.map.daum.net/13289458,모범음식점,0.0,0.0
3,113,봉피양마포,한식,설렁탕,토정로308 토정로308,715-2292,http://place.map.daum.net/17060534,모범음식점,0.0,0.0
4,112,금이네부대찌개,한식,"부대찌개, 구이류",마포대로 12길 53-1,701-6694,-,모범음식점,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...
189,5,문래돼지불백,한식,돼지불백,서울특별시 마포구 독막로28길 7 110호,02-716-6625,-,마포구위생과지정,0.0,0.0
190,4,남원추어탕,한식,추어탕,서울특별시 마포구 독막로26길 8 1층,02-714-5763,-,마포구위생과지정,0.0,0.0
191,3,마포장,중식,탕수육,서울특별시 마포구 토정로 196 2층,02-718-9655,-,마포구위생과지정,0.0,0.0
192,2,희우정,한식,쌈밥,서울특별시 마포구 성산로 128 지하1층,02-335-3732,-,마포구위생과지정,0.0,0.0


In [190]:
total

Unnamed: 0,번호,식당명,유형,주메뉴,위치,전화번호,홈페이지,지정기관,cx,cy
0,116,백미향,중식,짜장면,서울특별시 마포구 성지길 27 디엠아이빌딩 1층,312-8253,http://place.map.daum.net/15678895,모범음식점,0.0,0.0
1,115,원할머니보쌈마포공덕점,한식,보쌈정식,마포대로173 마포대로173,706-5382,http://place.map.daum.net/18286705,모범음식점,0.0,0.0
2,114,양산박,한식,"콩나물국밥, 비빔밥",마포대로 4길 37,711-0888,http://place.map.daum.net/13289458,모범음식점,0.0,0.0
3,113,봉피양마포,한식,설렁탕,토정로308 토정로308,715-2292,http://place.map.daum.net/17060534,모범음식점,0.0,0.0
4,112,금이네부대찌개,한식,"부대찌개, 구이류",마포대로 12길 53-1,701-6694,-,모범음식점,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...
189,5,문래돼지불백,한식,돼지불백,서울특별시 마포구 독막로28길 7 110호,02-716-6625,-,마포구위생과지정,0.0,0.0
190,4,남원추어탕,한식,추어탕,서울특별시 마포구 독막로26길 8 1층,02-714-5763,-,마포구위생과지정,0.0,0.0
191,3,마포장,중식,탕수육,서울특별시 마포구 토정로 196 2층,02-718-9655,-,마포구위생과지정,0.0,0.0
192,2,희우정,한식,쌈밥,서울특별시 마포구 성산로 128 지하1층,02-335-3732,-,마포구위생과지정,0.0,0.0


## 마지막: 주소에서 중복 제거
- string 반으로 잘라서 same check
- list로 split하고 in 체크로 중복 제거후 join

In [194]:
print(total['위치'])

0      서울특별시 마포구 성지길 27 디엠아이빌딩 1층
1                 마포대로173 마포대로173
2                      마포대로 4길 37
3                   토정로308 토정로308
4                   마포대로 12길 53-1
                  ...            
189       서울특별시 마포구 독막로28길 7 110호
190         서울특별시 마포구 독막로26길 8 1층
191          서울특별시 마포구 토정로 196 2층
192        서울특별시 마포구 성산로 128 지하1층
193            서울특별시 마포구 월드컵로 164
Name: 위치, Length: 367, dtype: object


In [195]:
processed_adrs = []
for v in total['위치']:
    adrs = v.split(' ')
    post = []
    for a in adrs:
        if a not in post:
            post.append(a)
    print(' '.join(post))
    processed_adrs.append(' '.join(post))

서울특별시 마포구 성지길 27 디엠아이빌딩 1층
마포대로173
마포대로 4길 37
토정로308
마포대로 12길 53-1
토정로 37길 13
삼개로5길 8
양화로15길 12
양화로 16길 10
성미산로 13
토정로 304
마포구 마포대로 8안길 18
토정로32길 4 
마포대로8안길 18, 지하1층
백범로 122 
토정로308
토정로 128, 6층 
마포구 도화길 43
마포대로14가길 4
토정로 37길 46 
토정로 312-1
월드컵북로 48길 13
마포구 월드컵로 34길 13
월드컵로 1길 17
도화길 46
마포대로 16길 13
월드컵북로44길 57
월드컵북로44길 30-5 
월드컵로 164, 2층 
독막로 229, 2층
신촌로12가길 36 
마포대로 173
마포대로 109
마포대로 14길 19-1
토정로 257
굴레방로 19-1
월드컵북로 396
마포대로4길 32-4 
마포구 월드컵로 396
망원로 49-1
동교로162 
큰우물로 66 
새창로 13 
월드컵로32길 11
대흥로 53, 1층 
월드컵로87 
토정로 307 
마포대로 19, 지1층 1,4호 
연남로 3길34 
월드컵북로48길 10
토정로 170 
만리재로1길 14
월드컵로 36길 18
홍익로 29
토정로35길 1
서울특별시 마포구 마포대로16길 9
서울특별시 마포구 월드컵로 39
서울특별시 마포구 백범로 23
서울특별시 마포구 마포대로4나길 7
서울특별시 마포구 동교로 267
서울특별시 마포구 양화로 99 1층 101호
서울특별시 마포구 마포대로16길 13
서울특별시 마포구 대흥로30길 17
서울특별시 마포구 토정로 315
서울특별시 마포구 월드컵로1길 30
서울특별시 마포구 백범로1길 12
서울특별시 마포구 모래내로7길 62 1층 103호
서울특별시 마포구 토정로37길 17 1,2층
서울특별시 마포구 신촌로 254 1,2층
서울특별시 마포구 상암산로 76 지1층
서울특별시 마포구 마포대로24길 4 상가2층
서울특별시 마포구 양화로11길 66 1,2층
서울특별시 마포구 도화길 35 1층일부
서울특

In [196]:
total['위치'] = processed_adrs

In [197]:
total['위치']

0      서울특별시 마포구 성지길 27 디엠아이빌딩 1층
1                         마포대로173
2                      마포대로 4길 37
3                          토정로308
4                   마포대로 12길 53-1
                  ...            
189       서울특별시 마포구 독막로28길 7 110호
190         서울특별시 마포구 독막로26길 8 1층
191          서울특별시 마포구 토정로 196 2층
192        서울특별시 마포구 성산로 128 지하1층
193            서울특별시 마포구 월드컵로 164
Name: 위치, Length: 367, dtype: object

In [198]:
total.to_csv('./preprocessed.csv',encoding='euc-kr', index=False)

## 중복되는 식당 제거