# Google Maps를 이용한 데이터 변경 및 정리

In [8]:
import pandas as pd

crime_raw_data = pd.read_csv("./result_data/01_crime_raw_data.csv")
crime_raw_data.head()

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,2.0
1,중부,살인,검거,2.0
2,중부,강도,발생,3.0
3,중부,강도,검거,3.0
4,중부,강간,발생,141.0


#### 🔰 DataFrame 재편성

> raw_data를 pivot_table()을 사용해 DataFrame을 재편성하고 "건수"를 합으로 재집계한다.

In [40]:
import numpy as np

crime_station = crime_raw_data.pivot_table(
	index="구분",
	columns=["죄종", "발생검거"],
	aggfunc=np.sum
)

crime_station.head()

Unnamed: 0_level_0,건수,건수,건수,건수,건수,건수,건수,건수,건수,건수
죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0


In [41]:
crime_station.columns = crime_station.columns.droplevel([0])
crime_station.head()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0


#### 🔰 컬럼 추가

> 구글맵을 이용해 경찰서 이름이 소속된 구 이름과 위도, 경도 정보를 저장할 컬럼을 생성한다.

- 새로 추가한 컬럼의 values를 모두 NaN으로 채운다.

In [42]:
crime_station["구별"] = np.nan
crime_station["lat"] = np.nan # latitude, 위도
crime_station["lng"] = np.nan # longitude, 경도
crime_station.head()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력,구별,lat,lng
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0,,,
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0,,,
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0,,,
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0,,,
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0,,,


#### 🔰 Python의 반복문

> Pandas에 잘 맞춰진 반복문용 함수 `iterrows()`에 대해 알아본다.

- pandas DataFrame은 index(row)와 column, 2차원 형태이다.

	이럴 때 for문을 사용하면, n번째라는 지정을 반복해야 하므로 가독률이 떨어진다.

- pandas DataFrame으로 반복문을 만들때 `itterows()` 함수를 사용하면 편리하다.

	받을 때, 인덱스와 행의 내용으로 나누어 받는 것만 주의할 것!

In [12]:
for idx, row in crime_station.iterrows():
    print(idx, end='\n\n')
    print(row)
    print('-'*30)

강남

죄종   발생검거
강간   검거       269.0
     발생       339.0
강도   검거        26.0
     발생        24.0
살인   검거         3.0
     발생         3.0
절도   검거      1129.0
     발생      2438.0
폭력   검거      2096.0
     발생      2336.0
구별              NaN
lat             NaN
lng             NaN
Name: 강남, dtype: float64
------------------------------
강동

죄종   발생검거
강간   검거       152.0
     발생       160.0
강도   검거        13.0
     발생        14.0
살인   검거         5.0
     발생         4.0
절도   검거       902.0
     발생      1754.0
폭력   검거      2201.0
     발생      2530.0
구별              NaN
lat             NaN
lng             NaN
Name: 강동, dtype: float64
------------------------------
강북

죄종   발생검거
강간   검거       159.0
     발생       217.0
강도   검거         4.0
     발생         5.0
살인   검거         6.0
     발생         7.0
절도   검거       672.0
     발생      1222.0
폭력   검거      2482.0
     발생      2778.0
구별              NaN
lat             NaN
lng             NaN
Name: 강북, dtype: float64
------------------------------
강서

죄종   발

In [13]:
count = 0
for idx, row in crime_station.iterrows():
    print(count, idx, type(idx))
    print("서울" + idx + "경찰서")
    print('-'*30)
    count += 1

0 강남 <class 'str'>
서울강남경찰서
------------------------------
1 강동 <class 'str'>
서울강동경찰서
------------------------------
2 강북 <class 'str'>
서울강북경찰서
------------------------------
3 강서 <class 'str'>
서울강서경찰서
------------------------------
4 관악 <class 'str'>
서울관악경찰서
------------------------------
5 광진 <class 'str'>
서울광진경찰서
------------------------------
6 구로 <class 'str'>
서울구로경찰서
------------------------------
7 금천 <class 'str'>
서울금천경찰서
------------------------------
8 남대문 <class 'str'>
서울남대문경찰서
------------------------------
9 노원 <class 'str'>
서울노원경찰서
------------------------------
10 도봉 <class 'str'>
서울도봉경찰서
------------------------------
11 동대문 <class 'str'>
서울동대문경찰서
------------------------------
12 동작 <class 'str'>
서울동작경찰서
------------------------------
13 마포 <class 'str'>
서울마포경찰서
------------------------------
14 방배 <class 'str'>
서울방배경찰서
------------------------------
15 서대문 <class 'str'>
서울서대문경찰서
------------------------------
16 서부 <class 'str'>
서울서부경찰서
------------------------------
1

#### 🔰 새로운 데이터 추가

> 경찰서 이름으로 googlemaps에서 위치 정보를 얻어와 필요한 데이터로 새로 추가한 컬럼 values를 채운다.

In [16]:
import googlemaps

gmaps = googlemaps.Client(key="")

In [15]:
crime_station.index

Index(['강남', '강동', '강북', '강서', '관악', '광진', '구로', '금천', '남대문', '노원', '도봉',
       '동대문', '동작', '마포', '방배', '서대문', '서부', '서초', '성동', '성북', '송파', '수서',
       '양천', '영등포', '용산', '은평', '종로', '종암', '중랑', '중부', '혜화'],
      dtype='object', name='구분')

In [43]:
cnt = 0
for idx, row in crime_station.iterrows():
    if idx == "동작":
        station_name = idx + "경찰서"
    else:
        station_name = "서울" + idx + "경찰서"
    
    temp = gmaps.geocode(station_name, language="ko")
    
    # 주소 정보 얻어오기
    tmp_gu = temp[0].get("formatted_address")
    
    # 위치(위도, 경도) 가져오기
    lat = temp[0].get("geometry")["location"]["lat"]
    lng = temp[0].get("geometry")["location"]["lng"]
    
    # 각 컬럼에 값 채우기
    crime_station.loc[idx, "구별"] = tmp_gu.split()[2]
    crime_station.loc[idx, "lat"] = lat
    crime_station.loc[idx, "lng"] = lng
    
    print(cnt)
    cnt += 1

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


In [44]:
crime_station["구별"]

구분
강남      강남구
강동      강동구
강북      강북구
강서      강서구
관악      관악구
광진      광진구
구로      구로구
금천      금천구
남대문      중구
노원      노원구
도봉      도봉구
동대문    동대문구
동작      동작구
마포      마포구
방배      서초구
서대문    서대문구
서부      은평구
서초      서초구
성동      성동구
성북      성북구
송파      송파구
수서      강남구
양천      양천구
영등포    영등포구
용산      용산구
은평      은평구
종로      종로구
종암      성북구
중랑      중랑구
중부       중구
혜화      종로구
Name: 구별, dtype: object

In [45]:
crime_station.head()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력,구별,lat,lng
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0,강남구,37.509435,127.066958
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0,강동구,37.528511,127.126822
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0,강북구,37.64348,127.011184
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0,강서구,37.551362,126.85028
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0,관악구,37.474395,126.951349


In [46]:
crime_station.tail()

죄종,강간,강간,강도,강도,살인,살인,절도,절도,폭력,폭력,구별,lat,lng
발생검거,검거,발생,검거,발생,검거,발생,검거,발생,검거,발생,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
구분,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
종로,113.0,137.0,3.0,6.0,0.0,4.0,389.0,952.0,1135.0,1291.0,종로구,37.571824,126.984153
종암,42.0,51.0,5.0,5.0,1.0,2.0,344.0,680.0,815.0,932.0,성북구,37.603691,127.040064
중랑,150.0,164.0,14.0,14.0,7.0,8.0,1052.0,1691.0,2712.0,3164.0,중랑구,37.605643,127.076487
중부,96.0,141.0,3.0,3.0,2.0,2.0,485.0,1204.0,1164.0,1335.0,중구,37.563617,126.989652
혜화,64.0,101.0,6.0,6.0,2.0,2.0,379.0,988.0,842.0,972.0,종로구,37.571968,126.998957


#### 🔰 멀티 컬럼 합치기

> "죄종"과 "발생검거" 두 줄의 컬럼을 하나로 합친다.

- 다음과 같은 결과를 기대한다. -> "강도검거", 강도발생", ..

- `df.columns.get_level_values(__level)` : 컬럼 레벨별로 값을 가져온다.

In [47]:
crime_station.columns.get_level_values(0)

Index(['강간', '강간', '강도', '강도', '살인', '살인', '절도', '절도', '폭력', '폭력', '구별', 'lat',
       'lng'],
      dtype='object', name='죄종')

In [48]:
crime_station.columns.get_level_values(1)

Index(['검거', '발생', '검거', '발생', '검거', '발생', '검거', '발생', '검거', '발생', '', '', ''], dtype='object', name='발생검거')

In [49]:
len(crime_station.columns.get_level_values(0)),	len(crime_station.columns.get_level_values(1))

(13, 13)

In [50]:
crime_station.columns.get_level_values(0)[2] + crime_station.columns.get_level_values(1)[2]

'강도검거'

In [51]:
tmp = [
	crime_station.columns.get_level_values(0)[n] + crime_station.columns.get_level_values(1)[n]
	for n in range(len(crime_station.columns.get_level_values(0)))
]
tmp

['강간검거',
 '강간발생',
 '강도검거',
 '강도발생',
 '살인검거',
 '살인발생',
 '절도검거',
 '절도발생',
 '폭력검거',
 '폭력발생',
 '구별',
 'lat',
 'lng']

In [55]:
crime_station.columns = tmp
crime_station.head()

Unnamed: 0_level_0,강간검거,강간발생,강도검거,강도발생,살인검거,살인발생,절도검거,절도발생,폭력검거,폭력발생,구별,lat,lng
구분,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
강남,269.0,339.0,26.0,24.0,3.0,3.0,1129.0,2438.0,2096.0,2336.0,강남구,37.509435,127.066958
강동,152.0,160.0,13.0,14.0,5.0,4.0,902.0,1754.0,2201.0,2530.0,강동구,37.528511,127.126822
강북,159.0,217.0,4.0,5.0,6.0,7.0,672.0,1222.0,2482.0,2778.0,강북구,37.64348,127.011184
강서,239.0,275.0,10.0,10.0,10.0,9.0,1070.0,1952.0,2768.0,3204.0,강서구,37.551362,126.85028
관악,264.0,322.0,10.0,12.0,7.0,6.0,937.0,2103.0,2707.0,3235.0,관악구,37.474395,126.951349


In [53]:
crime_station.to_csv("./result_data/03_crime_in_seoul_raw_data.csv", encoding='utf-8')