# 0. 목표

* pandas의 기본적인 사용법을 안다. 
* json 파일을 다룰 줄 안다. 
* 지도 시각화를 할 수 있다.

# 1. 라이브러리 불러오기

In [1]:
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import json
import folium

In [2]:
print("numpy: ", np.__version__)
print("pandas: ", pd.__version__)
print("matplotlib: ", matplotlib.__version__)
print("json: ", json.__version__)
print("folium: ", folium.__version__)

numpy:  1.23.5
pandas:  1.5.1
matplotlib:  3.6.2
json:  2.0.9
folium:  0.16.0


# 2. 데이터 불러오기

In [3]:
# 로컬
df = pd.read_csv("../data/crime_in_Seoul.csv", 
                    encoding="cp949")
df.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070
2,남대문서,1,0,6,4,65,46,1153,382,869,794
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711
4,혜화서,3,2,5,4,96,63,1114,424,1015,861


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   관서명     29 non-null     object
 1   살인 발생   29 non-null     int64 
 2   살인 검거   29 non-null     int64 
 3   강도 발생   29 non-null     int64 
 4   강도 검거   29 non-null     int64 
 5   강간 발생   29 non-null     int64 
 6   강간 검거   29 non-null     int64 
 7   절도 발생   29 non-null     object
 8   절도 검거   29 non-null     object
 9   폭력 발생   29 non-null     object
 10  폭력 검거   29 non-null     object
dtypes: int64(6), object(5)
memory usage: 2.6+ KB


* 데이터 수치에 대한 정의를 정확히!
* 콤마(,)가 있을 경우
* index_col = 0의 의미

In [5]:
crime = pd.read_csv("../data/crime_in_Seoul.csv", 
                    encoding="cp949",
                    thousands=",",
                    index_col = 0)

In [6]:
# 발생과 검거가 같으면 100% 검거라고 할 수 있는가?
crime

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
중부서,2,2,3,2,105,65,1395,477,1355,1170
종로서,3,3,6,5,115,98,1070,413,1278,1070
남대문서,1,0,6,4,65,46,1153,382,869,794
서대문서,2,2,5,4,154,124,1812,738,2056,1711
혜화서,3,2,5,4,96,63,1114,424,1015,861
용산서,5,5,14,14,194,173,1557,587,2050,1704
성북서,2,2,2,1,86,71,953,409,1194,1015
동대문서,5,5,13,13,173,146,1981,814,2548,2227
마포서,8,8,14,10,294,247,2555,813,2983,2519
영등포서,14,12,22,20,295,183,2964,978,3572,2961


In [7]:
crime.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29 entries, 중부서 to 수서서
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   살인 발생   29 non-null     int64
 1   살인 검거   29 non-null     int64
 2   강도 발생   29 non-null     int64
 3   강도 검거   29 non-null     int64
 4   강간 발생   29 non-null     int64
 5   강간 검거   29 non-null     int64
 6   절도 발생   29 non-null     int64
 7   절도 검거   29 non-null     int64
 8   폭력 발생   29 non-null     int64
 9   폭력 검거   29 non-null     int64
dtypes: int64(10)
memory usage: 2.5+ KB


In [8]:
crime.columns

Index(['살인 발생', '살인 검거', '강도 발생', '강도 검거', '강간 발생', '강간 검거', '절도 발생', '절도 검거',
       '폭력 발생', '폭력 검거'],
      dtype='object')

# 3. 데이터에 접근하기

* 특정 feature만 보자

In [9]:
crime_occurs = crime.columns[::2]
crime_occurs

Index(['살인 발생', '강도 발생', '강간 발생', '절도 발생', '폭력 발생'], dtype='object')

In [10]:
## "** 검거" feature name만 모아보자.
crime_arrest = crime.columns[1::2]
crime_arrest

Index(['살인 검거', '강도 검거', '강간 검거', '절도 검거', '폭력 검거'], dtype='object')

In [11]:
crime[crime_occurs]

Unnamed: 0_level_0,살인 발생,강도 발생,강간 발생,절도 발생,폭력 발생
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
중부서,2,3,105,1395,1355
종로서,3,6,115,1070,1278
남대문서,1,6,65,1153,869
서대문서,2,5,154,1812,2056
혜화서,3,5,96,1114,1015
용산서,5,14,194,1557,2050
성북서,2,2,86,953,1194
동대문서,5,13,173,1981,2548
마포서,8,14,294,2555,2983
영등포서,14,22,295,2964,3572


* 특정 sample만 보자

In [12]:
crime.iloc[0]["폭력 검거"]

1170

In [13]:
crime.loc["중부서"]["폭력 검거"]

1170

In [14]:
police_sample = ["강남서", "수서서", "강서서", "마포서"]

In [15]:
crime.loc[police_sample]

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
강남서,3,3,15,12,300,225,2411,984,2465,2146
수서서,10,7,6,6,149,124,1439,666,1819,1559
강서서,7,8,13,13,262,191,2096,1260,3207,2718
마포서,8,8,14,10,294,247,2555,813,2983,2519


In [16]:
## "동"이 들어 있는 관서명만 추출하시오.

police_dong = [i for i in crime.index if "동" in i]
police_dong

['동대문서', '성동서', '동작서', '강동서']

In [17]:
## police_dong에 속한 sample만 추출하시오.

crime.loc[police_dong]

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
동대문서,5,5,13,13,173,146,1981,814,2548,2227
성동서,4,4,9,8,126,119,1607,597,1612,1395
동작서,5,5,9,5,285,139,1865,661,1910,1587
강동서,4,3,6,8,156,123,2366,789,2712,2248


* 특정 조건을 만족하는 sample을 뽑자

In [18]:
crime["절도 발생"].mean()

1815.344827586207

In [19]:
crime["절도 발생"] > crime["절도 발생"].mean()

관서명
중부서     False
종로서     False
남대문서    False
서대문서    False
혜화서     False
용산서     False
성북서     False
동대문서     True
마포서      True
영등포서     True
성동서     False
동작서      True
광진서      True
서부서     False
강북서     False
중랑서      True
강남서      True
관악서      True
강서서      True
강동서      True
종암서     False
구로서      True
서초서      True
양천서      True
송파서      True
노원서      True
방배서     False
도봉서     False
수서서     False
Name: 절도 발생, dtype: bool

In [20]:
crime[crime["절도 발생"] > crime["절도 발생"].mean()]

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
동대문서,5,5,13,13,173,146,1981,814,2548,2227
마포서,8,8,14,10,294,247,2555,813,2983,2519
영등포서,14,12,22,20,295,183,2964,978,3572,2961
동작서,5,5,9,5,285,139,1865,661,1910,1587
광진서,4,4,14,26,240,220,3026,1277,2625,2180
중랑서,13,12,11,9,187,148,2135,829,2847,2407
강남서,3,3,15,12,300,225,2411,984,2465,2146
관악서,9,8,12,14,320,221,2706,827,3298,2642
강서서,7,8,13,13,262,191,2096,1260,3207,2718
강동서,4,3,6,8,156,123,2366,789,2712,2248


In [21]:
# "절도 발생"이 2000건 이상이고, "살인 발생"이 5건 미만인 데이터를 추출하자.

crime[(crime["절도 발생"] >= 2000) & (crime["살인 발생"] < 5)]

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
광진서,4,4,14,26,240,220,3026,1277,2625,2180
강남서,3,3,15,12,300,225,2411,984,2465,2146
강동서,4,3,6,8,156,123,2366,789,2712,2248


In [22]:
# "절도 검거"이 500건 이하이거나 "폭력 검거"이 1000건 미만인 데이터를 추출하자.

crime[(crime["절도 검거"] <= 500) | (crime["폭력 검거"] < 1000)]

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
중부서,2,2,3,2,105,65,1395,477,1355,1170
종로서,3,3,6,5,115,98,1070,413,1278,1070
남대문서,1,0,6,4,65,46,1153,382,869,794
혜화서,3,2,5,4,96,63,1114,424,1015,861
성북서,2,2,2,1,86,71,953,409,1194,1015
서부서,2,2,2,1,70,59,819,293,1192,1038
종암서,3,3,3,3,64,53,832,332,1015,840
방배서,1,2,1,1,59,56,653,186,547,491
도봉서,3,3,9,10,102,106,1063,478,1487,1303


In [23]:
## "강도 발생"보다 "강도 검거"가 많은 데이터를 추출하시오.
crime[crime["강도 발생"] < crime["강도 검거"]][["강도 발생", "강도 검거"]]

Unnamed: 0_level_0,강도 발생,강도 검거
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1
광진서,14,26
관악서,12,14
강동서,6,8
도봉서,9,10


# 4. feature 생성하기

In [24]:
crime.sum()

살인 발생      159
살인 검거      148
강도 발생      263
강도 검거      242
강간 발생     5202
강간 검거     3887
절도 발생    52645
절도 검거    20228
폭력 발생    61691
폭력 검거    52118
dtype: int64

In [25]:
crime.sum(axis = 0)

살인 발생      159
살인 검거      148
강도 발생      263
강도 검거      242
강간 발생     5202
강간 검거     3887
절도 발생    52645
절도 검거    20228
폭력 발생    61691
폭력 검거    52118
dtype: int64

In [26]:
crime.sum(axis = 1)

관서명
중부서      4576
종로서      4061
남대문서     3320
서대문서     6608
혜화서      3587
용산서      6303
성북서      3735
동대문서     7925
마포서      9451
영등포서    11021
성동서      5481
동작서      6471
광진서      9616
서부서      3478
강북서      7370
중랑서      8598
강남서      8564
관악서     10057
강서서      9775
강동서      8415
종암서      3148
구로서      9148
서초서      6897
양천서      7343
송파서     10891
노원서      8398
방배서      1997
도봉서      4564
수서서      5785
dtype: int64

In [27]:
crime["total"] = crime.sum(axis = 1)
crime

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
중부서,2,2,3,2,105,65,1395,477,1355,1170,4576
종로서,3,3,6,5,115,98,1070,413,1278,1070,4061
남대문서,1,0,6,4,65,46,1153,382,869,794,3320
서대문서,2,2,5,4,154,124,1812,738,2056,1711,6608
혜화서,3,2,5,4,96,63,1114,424,1015,861,3587
용산서,5,5,14,14,194,173,1557,587,2050,1704,6303
성북서,2,2,2,1,86,71,953,409,1194,1015,3735
동대문서,5,5,13,13,173,146,1981,814,2548,2227,7925
마포서,8,8,14,10,294,247,2555,813,2983,2519,9451
영등포서,14,12,22,20,295,183,2964,978,3572,2961,11021


In [28]:
## crime에 "occurs_total"과 "arrest_total" 열을 추가하시오
crime["occurs_total"] = crime[crime_occurs].sum(axis=1)
crime["arrest_total"] = crime[crime_arrest].sum(axis=1)
crime

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total,occurs_total,arrest_total
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
중부서,2,2,3,2,105,65,1395,477,1355,1170,4576,2860,1716
종로서,3,3,6,5,115,98,1070,413,1278,1070,4061,2472,1589
남대문서,1,0,6,4,65,46,1153,382,869,794,3320,2094,1226
서대문서,2,2,5,4,154,124,1812,738,2056,1711,6608,4029,2579
혜화서,3,2,5,4,96,63,1114,424,1015,861,3587,2233,1354
용산서,5,5,14,14,194,173,1557,587,2050,1704,6303,3820,2483
성북서,2,2,2,1,86,71,953,409,1194,1015,3735,2237,1498
동대문서,5,5,13,13,173,146,1981,814,2548,2227,7925,4720,3205
마포서,8,8,14,10,294,247,2555,813,2983,2519,9451,5854,3597
영등포서,14,12,22,20,295,183,2964,978,3572,2961,11021,6867,4154


# 5. json에서 필요한 정보 가져오기

In [29]:
with open('../data/police_station_info.json','r') as f:
    data = json.load(f)

In [30]:
data

[{'police_name': '서울종로경찰서',
  'address_components': [{'long_name': '41',
    'short_name': '41',
    'types': ['premise']},
   {'long_name': '인사동5길',
    'short_name': '인사동5길',
    'types': ['political', 'sublocality', 'sublocality_level_4']},
   {'long_name': '종로구',
    'short_name': '종로구',
    'types': ['political', 'sublocality', 'sublocality_level_1']},
   {'long_name': '서울특별시',
    'short_name': '서울특별시',
    'types': ['administrative_area_level_1', 'political']},
   {'long_name': '대한민국',
    'short_name': 'KR',
    'types': ['country', 'political']},
   {'long_name': '110-160',
    'short_name': '110-160',
    'types': ['postal_code']}],
  'formatted_address': '대한민국 서울특별시 종로구 인사동5길 41',
  'geometry': {'location': {'lat': 37.571824, 'lng': 126.9841533},
   'location_type': 'ROOFTOP',
   'viewport': {'northeast': {'lat': 37.5731729802915,
     'lng': 126.9855022802915},
    'southwest': {'lat': 37.5704750197085, 'lng': 126.9828043197085}}},
  'partial_match': True,
  'place_id': 'Ch

In [31]:
data[0]

{'police_name': '서울종로경찰서',
 'address_components': [{'long_name': '41',
   'short_name': '41',
   'types': ['premise']},
  {'long_name': '인사동5길',
   'short_name': '인사동5길',
   'types': ['political', 'sublocality', 'sublocality_level_4']},
  {'long_name': '종로구',
   'short_name': '종로구',
   'types': ['political', 'sublocality', 'sublocality_level_1']},
  {'long_name': '서울특별시',
   'short_name': '서울특별시',
   'types': ['administrative_area_level_1', 'political']},
  {'long_name': '대한민국', 'short_name': 'KR', 'types': ['country', 'political']},
  {'long_name': '110-160', 'short_name': '110-160', 'types': ['postal_code']}],
 'formatted_address': '대한민국 서울특별시 종로구 인사동5길 41',
 'geometry': {'location': {'lat': 37.571824, 'lng': 126.9841533},
  'location_type': 'ROOFTOP',
  'viewport': {'northeast': {'lat': 37.5731729802915,
    'lng': 126.9855022802915},
   'southwest': {'lat': 37.5704750197085, 'lng': 126.9828043197085}}},
 'partial_match': True,
 'place_id': 'ChIJRVgVHsOifDURFhKFchVo22I',
 'plus_code

In [32]:
data[0].keys()

dict_keys(['police_name', 'address_components', 'formatted_address', 'geometry', 'partial_match', 'place_id', 'plus_code', 'types'])

In [33]:
data[0]["address_components"]

[{'long_name': '41', 'short_name': '41', 'types': ['premise']},
 {'long_name': '인사동5길',
  'short_name': '인사동5길',
  'types': ['political', 'sublocality', 'sublocality_level_4']},
 {'long_name': '종로구',
  'short_name': '종로구',
  'types': ['political', 'sublocality', 'sublocality_level_1']},
 {'long_name': '서울특별시',
  'short_name': '서울특별시',
  'types': ['administrative_area_level_1', 'political']},
 {'long_name': '대한민국', 'short_name': 'KR', 'types': ['country', 'political']},
 {'long_name': '110-160', 'short_name': '110-160', 'types': ['postal_code']}]

In [34]:
# 경찰서 이름과 주소를 print해보자!

for i in data:
    print(i["police_name"], "-->", i["formatted_address"])

서울종로경찰서 --> 대한민국 서울특별시 종로구 인사동5길 41
서울용산경찰서 --> 대한민국 서울특별시 용산구 백범로 329
서울서대문경찰서 --> 대한민국 서울특별시 서대문구 충정로 13
서울중부경찰서 --> 대한민국 서울특별시 중구 수표로 27
서울혜화경찰서 --> 대한민국 서울특별시 종로구 창경궁로 112-16
서울성북경찰서 --> 대한민국 서울특별시 성북구 보문로 170
서울노원경찰서 --> 대한민국 서울특별시 노원경찰서
서울마포경찰서 --> 대한민국 서울특별시 마포구 마포대로 183
서울영등포경찰서 --> 대한민국 서울특별시 영등포구 국회대로 608
서울성동경찰서 --> 대한민국 서울특별시 성동구 왕십리광장로 9
서울동작경찰서 --> 대한민국 서울특별시 동작구 노량진로 148
서울광진경찰서 --> 대한민국 서울특별시 광진구 자양로 167
서울서부경찰서 --> 대한민국 서울특별시 은평구 진흥로 58
서울강북경찰서 --> 대한민국 서울특별시 강북구 오패산로 406
서울금천경찰서 --> 대한민국 서울특별시 금천구 시흥대로73길 50
서울남대문경찰서 --> 대한민국 서울특별시 중구 한강대로 410
서울중랑경찰서 --> 대한민국 서울특별시 중랑구 묵제2동 249-2
서울강남경찰서 --> 대한민국 서울특별시 강남구 테헤란로114길 11
서울강서경찰서 --> 대한민국 서울특별시 강서구 화곡로 308
서울강동경찰서 --> 대한민국 서울특별시 강동구 성내로 57
서울종암경찰서 --> 대한민국 서울특별시 성북구 화랑로7길 32
서울구로경찰서 --> 대한민국 서울특별시 구로구 새말로 97 신도림테크노마트 5층
서울서초경찰서 --> 대한민국 서울특별시 서초구 반포대로 179
서울양천경찰서 --> 대한민국 서울특별시 양천구 목동동로 99
서울관악경찰서 --> 대한민국 서울특별시 관악구 관악로5길 33
서울송파경찰서 --> 대한민국 서울특별시 송파구 중대로 221
서울방배경찰서 --> 대한민국 서울특별시 서초구 동작대로 204
서울은평경찰서 --> 대한민국 서울특별시 은평구

In [35]:
data[0]["geometry"]

{'location': {'lat': 37.571824, 'lng': 126.9841533},
 'location_type': 'ROOFTOP',
 'viewport': {'northeast': {'lat': 37.5731729802915, 'lng': 126.9855022802915},
  'southwest': {'lat': 37.5704750197085, 'lng': 126.9828043197085}}}

In [36]:
data[0]["geometry"]["location"]["lat"]

37.571824

In [37]:
# json의 정보를 dataframe으로 만들어 보자

police_info_list = []

for i in data:
    inner_dict = {}
    inner_dict["police_name"] = i["police_name"]
    inner_dict["address"] = i["formatted_address"]
    inner_dict["lat"] = i["geometry"]["location"]["lat"]
    inner_dict["lng"] = i["geometry"]["location"]["lng"]
    inner_dict["gu"] = i["formatted_address"].split(" ")[2]
    
    police_info_list.append(inner_dict)

In [38]:
police_info_list

[{'police_name': '서울종로경찰서',
  'address': '대한민국 서울특별시 종로구 인사동5길 41',
  'lat': 37.571824,
  'lng': 126.9841533,
  'gu': '종로구'},
 {'police_name': '서울용산경찰서',
  'address': '대한민국 서울특별시 용산구 백범로 329',
  'lat': 37.5387099,
  'lng': 126.9659183,
  'gu': '용산구'},
 {'police_name': '서울서대문경찰서',
  'address': '대한민국 서울특별시 서대문구 충정로 13',
  'lat': 37.560607,
  'lng': 126.9626106,
  'gu': '서대문구'},
 {'police_name': '서울중부경찰서',
  'address': '대한민국 서울특별시 중구 수표로 27',
  'lat': 37.56361709999999,
  'lng': 126.9896517,
  'gu': '중구'},
 {'police_name': '서울혜화경찰서',
  'address': '대한민국 서울특별시 종로구 창경궁로 112-16',
  'lat': 37.5719679,
  'lng': 126.9989574,
  'gu': '종로구'},
 {'police_name': '서울성북경찰서',
  'address': '대한민국 서울특별시 성북구 보문로 170',
  'lat': 37.5898228,
  'lng': 127.0163427,
  'gu': '성북구'},
 {'police_name': '서울노원경찰서',
  'address': '대한민국 서울특별시 노원경찰서',
  'lat': 37.641836,
  'lng': 127.072198,
  'gu': '노원경찰서'},
 {'police_name': '서울마포경찰서',
  'address': '대한민국 서울특별시 마포구 마포대로 183',
  'lat': 37.550814,
  'lng': 126.954028,
  'gu'

In [38]:
df_police = pd.DataFrame(data = police_info_list)
df_police.loc[5:10]

Unnamed: 0,police_name,address,lat,lng,gu
5,서울성북경찰서,대한민국 서울특별시 성북구 보문로 170,37.589823,127.016343,성북구
6,서울노원경찰서,대한민국 서울특별시 노원경찰서,37.641836,127.072198,노원경찰서
7,서울마포경찰서,대한민국 서울특별시 마포구 마포대로 183,37.550814,126.954028,마포구
8,서울영등포경찰서,대한민국 서울특별시 영등포구 국회대로 608,37.526044,126.900809,영등포구
9,서울성동경찰서,대한민국 서울특별시 성동구 왕십리광장로 9,37.561691,127.036301,성동구
10,서울동작경찰서,대한민국 서울특별시 동작구 노량진로 148,37.513087,126.94285,동작구


In [40]:
df_police.loc[6, "gu"] = "노원구"

# 6. 데이터 병합: merge

In [41]:
#crime에 관서명을 바꿔보자

station_name = []

for name in crime.index:
    station_name.append("서울" + str(name[:-1]) + "경찰서")

crime["police_name"] = station_name

In [42]:
crime

Unnamed: 0_level_0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total,occurs_total,arrest_total,police_name
관서명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
중부서,2,2,3,2,105,65,1395,477,1355,1170,4576,2860,1716,서울중부경찰서
종로서,3,3,6,5,115,98,1070,413,1278,1070,4061,2472,1589,서울종로경찰서
남대문서,1,0,6,4,65,46,1153,382,869,794,3320,2094,1226,서울남대문경찰서
서대문서,2,2,5,4,154,124,1812,738,2056,1711,6608,4029,2579,서울서대문경찰서
혜화서,3,2,5,4,96,63,1114,424,1015,861,3587,2233,1354,서울혜화경찰서
용산서,5,5,14,14,194,173,1557,587,2050,1704,6303,3820,2483,서울용산경찰서
성북서,2,2,2,1,86,71,953,409,1194,1015,3735,2237,1498,서울성북경찰서
동대문서,5,5,13,13,173,146,1981,814,2548,2227,7925,4720,3205,서울동대문경찰서
마포서,8,8,14,10,294,247,2555,813,2983,2519,9451,5854,3597,서울마포경찰서
영등포서,14,12,22,20,295,183,2964,978,3572,2961,11021,6867,4154,서울영등포경찰서


* `pd.merge(df_left, df_right, how='inner', on=None)`이 default
* `on=None`이면 `how='inner'` 이므로 두 데이터의 공통 feature namer을 기준으로 inner join
* `how='outer'`로 하고 `on="feature name"`으로 하면 feature namer을 기준으로 outer join. 빈 값은 `NaN`으로 채운다
* 공통의 feature name이 없는 경우 왼쪽(`left_on = "left feature name"`), 오른쪽(`right_on = "right feature name"`)에서 기준으로 할 feature name을 지정해 줄 수 있다.
* index를 기준으로 병합할 수도 있다.

In [43]:
crime_police_inner = pd.merge(left = crime, 
                        right = df_police,
                        how='inner', 
                        on=None)

In [44]:
crime_police_inner.shape

(29, 18)

In [45]:
crime_police_outer = pd.merge(left = crime, 
                        right = df_police,
                        how='outer', 
                        on="police_name")

In [46]:
crime_police_outer.shape

(31, 18)

In [47]:
crime_police_outer

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total,occurs_total,arrest_total,police_name,address,lat,lng,gu
0,2.0,2.0,3.0,2.0,105.0,65.0,1395.0,477.0,1355.0,1170.0,4576.0,2860.0,1716.0,서울중부경찰서,대한민국 서울특별시 중구 수표로 27,37.563617,126.989652,중구
1,3.0,3.0,6.0,5.0,115.0,98.0,1070.0,413.0,1278.0,1070.0,4061.0,2472.0,1589.0,서울종로경찰서,대한민국 서울특별시 종로구 인사동5길 41,37.571824,126.984153,종로구
2,1.0,0.0,6.0,4.0,65.0,46.0,1153.0,382.0,869.0,794.0,3320.0,2094.0,1226.0,서울남대문경찰서,대한민국 서울특별시 중구 한강대로 410,37.554758,126.973498,중구
3,2.0,2.0,5.0,4.0,154.0,124.0,1812.0,738.0,2056.0,1711.0,6608.0,4029.0,2579.0,서울서대문경찰서,대한민국 서울특별시 서대문구 충정로 13,37.560607,126.962611,서대문구
4,3.0,2.0,5.0,4.0,96.0,63.0,1114.0,424.0,1015.0,861.0,3587.0,2233.0,1354.0,서울혜화경찰서,대한민국 서울특별시 종로구 창경궁로 112-16,37.571968,126.998957,종로구
5,5.0,5.0,14.0,14.0,194.0,173.0,1557.0,587.0,2050.0,1704.0,6303.0,3820.0,2483.0,서울용산경찰서,대한민국 서울특별시 용산구 백범로 329,37.53871,126.965918,용산구
6,2.0,2.0,2.0,1.0,86.0,71.0,953.0,409.0,1194.0,1015.0,3735.0,2237.0,1498.0,서울성북경찰서,대한민국 서울특별시 성북구 보문로 170,37.589823,127.016343,성북구
7,5.0,5.0,13.0,13.0,173.0,146.0,1981.0,814.0,2548.0,2227.0,7925.0,4720.0,3205.0,서울동대문경찰서,대한민국 서울특별시 동대문구 약령시로21길 29,37.585061,127.045768,동대문구
8,8.0,8.0,14.0,10.0,294.0,247.0,2555.0,813.0,2983.0,2519.0,9451.0,5854.0,3597.0,서울마포경찰서,대한민국 서울특별시 마포구 마포대로 183,37.550814,126.954028,마포구
9,14.0,12.0,22.0,20.0,295.0,183.0,2964.0,978.0,3572.0,2961.0,11021.0,6867.0,4154.0,서울영등포경찰서,대한민국 서울특별시 영등포구 국회대로 608,37.526044,126.900809,영등포구


In [47]:
crime_police_outer = crime_police_outer.fillna(0.0)

# 7. 지도 시각화

In [48]:
## 서울 이 중심에 오도록 folium을 이용하여 지도를 그리시오.

map = folium.Map(location=[37.58, 127.0], zoom_start=11)
map

In [49]:
lat = crime_police_outer.loc[0]["lat"]
lng = crime_police_outer.loc[0]["lng"]
police_name = crime_police_outer.loc[0]["police_name"]
occurs_total = crime_police_outer.loc[0]["occurs_total"]

folium.Marker(location = [lat, lng],
              icon=folium.Icon(color='blue',icon='star'),
              popup=police_name).add_to(map)

folium.Circle(location = [lat, lng],
              radius = occurs_total/2,
              fill=True).add_to(map)
map

In [50]:
for i, j in crime_police_outer[:3].iterrows():
    print(i)
    print(j)
    print("===")

0
살인 발생                            2.0
살인 검거                            2.0
강도 발생                            3.0
강도 검거                            2.0
강간 발생                          105.0
강간 검거                           65.0
절도 발생                         1395.0
절도 검거                          477.0
폭력 발생                         1355.0
폭력 검거                         1170.0
total                         4576.0
occurs_total                  2860.0
arrest_total                  1716.0
police_name                  서울중부경찰서
address         대한민국 서울특별시 중구 수표로 27
lat                        37.563617
lng                       126.989652
gu                                중구
Name: 0, dtype: object
===
1
살인 발생                               3.0
살인 검거                               3.0
강도 발생                               6.0
강도 검거                               5.0
강간 발생                             115.0
강간 검거                              98.0
절도 발생                            1070.0
절도 검거                  

In [51]:
for i, j in crime_police_outer[:3].iterrows():
    print(i)
    print(j["lat"])
    print("===")

0
37.56361709999999
===
1
37.571824
===
2
37.5547584
===


In [52]:
crime_police_outer

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total,occurs_total,arrest_total,police_name,address,lat,lng,gu
0,2.0,2.0,3.0,2.0,105.0,65.0,1395.0,477.0,1355.0,1170.0,4576.0,2860.0,1716.0,서울중부경찰서,대한민국 서울특별시 중구 수표로 27,37.563617,126.989652,중구
1,3.0,3.0,6.0,5.0,115.0,98.0,1070.0,413.0,1278.0,1070.0,4061.0,2472.0,1589.0,서울종로경찰서,대한민국 서울특별시 종로구 인사동5길 41,37.571824,126.984153,종로구
2,1.0,0.0,6.0,4.0,65.0,46.0,1153.0,382.0,869.0,794.0,3320.0,2094.0,1226.0,서울남대문경찰서,대한민국 서울특별시 중구 한강대로 410,37.554758,126.973498,중구
3,2.0,2.0,5.0,4.0,154.0,124.0,1812.0,738.0,2056.0,1711.0,6608.0,4029.0,2579.0,서울서대문경찰서,대한민국 서울특별시 서대문구 충정로 13,37.560607,126.962611,서대문구
4,3.0,2.0,5.0,4.0,96.0,63.0,1114.0,424.0,1015.0,861.0,3587.0,2233.0,1354.0,서울혜화경찰서,대한민국 서울특별시 종로구 창경궁로 112-16,37.571968,126.998957,종로구
5,5.0,5.0,14.0,14.0,194.0,173.0,1557.0,587.0,2050.0,1704.0,6303.0,3820.0,2483.0,서울용산경찰서,대한민국 서울특별시 용산구 백범로 329,37.53871,126.965918,용산구
6,2.0,2.0,2.0,1.0,86.0,71.0,953.0,409.0,1194.0,1015.0,3735.0,2237.0,1498.0,서울성북경찰서,대한민국 서울특별시 성북구 보문로 170,37.589823,127.016343,성북구
7,5.0,5.0,13.0,13.0,173.0,146.0,1981.0,814.0,2548.0,2227.0,7925.0,4720.0,3205.0,서울동대문경찰서,대한민국 서울특별시 동대문구 약령시로21길 29,37.585061,127.045768,동대문구
8,8.0,8.0,14.0,10.0,294.0,247.0,2555.0,813.0,2983.0,2519.0,9451.0,5854.0,3597.0,서울마포경찰서,대한민국 서울특별시 마포구 마포대로 183,37.550814,126.954028,마포구
9,14.0,12.0,22.0,20.0,295.0,183.0,2964.0,978.0,3572.0,2961.0,11021.0,6867.0,4154.0,서울영등포경찰서,대한민국 서울특별시 영등포구 국회대로 608,37.526044,126.900809,영등포구


In [53]:
## iterrows()를 이용하여 31개 경찰서의 Marker를 표시하고, arrest_total을 반영한 Circle을 그리시오

map = folium.Map(location=[37.58, 127.0], zoom_start=11)

for i, j in crime_police_outer.iterrows():
    lat = j["lat"]
    lng = j["lng"]
    police_name = j["police_name"]
    arrest_total = j["arrest_total"]

    folium.Marker(location = [lat, lng],
                  icon=folium.Icon(color='red', icon='home'),
                  popup=police_name).add_to(map)

    folium.Circle(location = [lat, lng],
                  radius = arrest_total/2,
                  fill=True).add_to(map)
map

# 과제

1. 강력범죄 검거 건수와 발생 건수의 비율을 계산하여 "arrest_occurs_ratio" 열을 추가하시오. 만약 `NaN`이 있다면 0으로 채우시오.
2. "arrest_occurs_ratio"가 가장 큰 경찰서를 찾으시오.
3. "arrest_occurs_ratio"가 가장 작은 경찰서를 찾으시오.(단, 0은 제외한다.)
4. crime_police_outer에서 구의 개수를 세시오. 
5. 구별로 "occurs_total"과 "arrest_total"를 groupby를 이용하여 계산하시오.
6. "금천구"의 "occurs_total"과 "arrest_total"를 평균으로 채우시오.
7. "seoul_geo.json"을 이용하여 구별로 "arrest_total"을 반영한 Choropleth을 그리시오.

1. 강력범죄 검거 건수와 발생 건수의 비율을 계산하여 "arrest_occurs_ratio" 열을 추가하시오.

In [54]:
crime_police_outer["arrest_occurs_ratio"] = (crime_police_outer["arrest_total"]/
                                             crime_police_outer["occurs_total"]).fillna(0.0)

In [55]:
crime_police_outer

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total,occurs_total,arrest_total,police_name,address,lat,lng,gu,arrest_occurs_ratio
0,2.0,2.0,3.0,2.0,105.0,65.0,1395.0,477.0,1355.0,1170.0,4576.0,2860.0,1716.0,서울중부경찰서,대한민국 서울특별시 중구 수표로 27,37.563617,126.989652,중구,0.6
1,3.0,3.0,6.0,5.0,115.0,98.0,1070.0,413.0,1278.0,1070.0,4061.0,2472.0,1589.0,서울종로경찰서,대한민국 서울특별시 종로구 인사동5길 41,37.571824,126.984153,종로구,0.642799
2,1.0,0.0,6.0,4.0,65.0,46.0,1153.0,382.0,869.0,794.0,3320.0,2094.0,1226.0,서울남대문경찰서,대한민국 서울특별시 중구 한강대로 410,37.554758,126.973498,중구,0.585482
3,2.0,2.0,5.0,4.0,154.0,124.0,1812.0,738.0,2056.0,1711.0,6608.0,4029.0,2579.0,서울서대문경찰서,대한민국 서울특별시 서대문구 충정로 13,37.560607,126.962611,서대문구,0.640109
4,3.0,2.0,5.0,4.0,96.0,63.0,1114.0,424.0,1015.0,861.0,3587.0,2233.0,1354.0,서울혜화경찰서,대한민국 서울특별시 종로구 창경궁로 112-16,37.571968,126.998957,종로구,0.606359
5,5.0,5.0,14.0,14.0,194.0,173.0,1557.0,587.0,2050.0,1704.0,6303.0,3820.0,2483.0,서울용산경찰서,대한민국 서울특별시 용산구 백범로 329,37.53871,126.965918,용산구,0.65
6,2.0,2.0,2.0,1.0,86.0,71.0,953.0,409.0,1194.0,1015.0,3735.0,2237.0,1498.0,서울성북경찰서,대한민국 서울특별시 성북구 보문로 170,37.589823,127.016343,성북구,0.669647
7,5.0,5.0,13.0,13.0,173.0,146.0,1981.0,814.0,2548.0,2227.0,7925.0,4720.0,3205.0,서울동대문경찰서,대한민국 서울특별시 동대문구 약령시로21길 29,37.585061,127.045768,동대문구,0.679025
8,8.0,8.0,14.0,10.0,294.0,247.0,2555.0,813.0,2983.0,2519.0,9451.0,5854.0,3597.0,서울마포경찰서,대한민국 서울특별시 마포구 마포대로 183,37.550814,126.954028,마포구,0.614452
9,14.0,12.0,22.0,20.0,295.0,183.0,2964.0,978.0,3572.0,2961.0,11021.0,6867.0,4154.0,서울영등포경찰서,대한민국 서울특별시 영등포구 국회대로 608,37.526044,126.900809,영등포구,0.604922


2. "arrest_occurs_ratio"가 가장 큰 경찰서를 찾으시오.

In [57]:
ratio_max = crime_police_outer["arrest_occurs_ratio"].max()

In [58]:
crime_police_outer[crime_police_outer["arrest_occurs_ratio"] 
                   == ratio_max]

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total,occurs_total,arrest_total,police_name,address,lat,lng,gu,arrest_occurs_ratio
18,7.0,8.0,13.0,13.0,262.0,191.0,2096.0,1260.0,3207.0,2718.0,9775.0,5585.0,4190.0,서울강서경찰서,대한민국 서울특별시 강서구 화곡로 308,37.551362,126.85028,강서구,0.750224


3. "arrest_occurs_ratio"가 가장 작은 경찰서를 찾으시오.(단, 0은 제외한다.)

In [59]:
ratio_min = crime_police_outer[crime_police_outer["arrest_occurs_ratio"] != 0]["arrest_occurs_ratio"].min()
ratio_min

0.5836637589214909

In [62]:
crime_police_outer[crime_police_outer["arrest_occurs_ratio"] == ratio_min]

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,total,occurs_total,arrest_total,police_name,address,lat,lng,gu,arrest_occurs_ratio
26,1.0,2.0,1.0,1.0,59.0,56.0,653.0,186.0,547.0,491.0,1997.0,1261.0,736.0,서울방배경찰서,대한민국 서울특별시 서초구 동작대로 204,37.494596,126.983128,서초구,0.583664


4. crime_police_outer에서 구의 개수를 세시오. 

In [63]:
crime_police_outer["gu"].unique()

array(['중구', '종로구', '서대문구', '용산구', '성북구', '동대문구', '마포구', '영등포구', '성동구',
       '동작구', '광진구', '은평구', '강북구', '중랑구', '강남구', '관악구', '강서구', '강동구',
       '구로구', '서초구', '양천구', '송파구', '노원구', '도봉구', '금천구'], dtype=object)

In [64]:
len(crime_police_outer["gu"].unique())

25

In [65]:
crime_police_outer["gu"].value_counts()

중구      2
강남구     2
성북구     2
서초구     2
은평구     2
종로구     2
도봉구     1
노원구     1
송파구     1
양천구     1
구로구     1
강동구     1
강서구     1
관악구     1
강북구     1
중랑구     1
광진구     1
동작구     1
성동구     1
영등포구    1
마포구     1
동대문구    1
용산구     1
서대문구    1
금천구     1
Name: gu, dtype: int64

In [67]:
print("서울시 경찰서 수: ", len(crime_police_outer))
print("서울시 구의 수: ", len(crime_police_outer["gu"].unique()))

서울시 경찰서 수:  31
서울시 구의 수:  25


5. 구별로 "occurs_total"과 "arrest_total"를 groupby를 이용하여 계산하시오.

In [74]:
df_groupby = crime_police_outer[["gu", "occurs_total", "arrest_total"]].groupby(["gu"]).agg("sum")

In [75]:
df_groupby

Unnamed: 0_level_0,occurs_total,arrest_total
gu,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,8617.0,5732.0
강동구,5244.0,3171.0
강북구,4257.0,3113.0
강서구,5585.0,4190.0
관악구,6345.0,3712.0
광진구,5909.0,3707.0
구로구,5646.0,3502.0
금천구,0.0,0.0
노원구,5130.0,3268.0
도봉구,2664.0,1900.0


6. "금천구"의 "occurs_total"과 "arrest_total"를 평균으로 채우시오.

In [76]:
df_groupby.loc["금천구"] = [df_groupby["occurs_total"].mean(), 
                            df_groupby["arrest_total"].mean()]

In [77]:
df_groupby

Unnamed: 0_level_0,occurs_total,arrest_total
gu,Unnamed: 1_level_1,Unnamed: 2_level_1
강남구,8617.0,5732.0
강동구,5244.0,3171.0
강북구,4257.0,3113.0
강서구,5585.0,4190.0
관악구,6345.0,3712.0
광진구,5909.0,3707.0
구로구,5646.0,3502.0
금천구,4798.4,3064.92
노원구,5130.0,3268.0
도봉구,2664.0,1900.0


7. "seoul_geo.json"을 이용하여 구별로 "arrest_total"을 반영한 Choropleth을 그리시오.

In [78]:
seoul_geo_path = "../data/seoul_geo.json"
seoul_geo_str = json.load(open(seoul_geo_path, encoding='utf-8'))

In [79]:
seoul_geo_str

{'type': 'FeatureCollection',
 'features': [{'type': 'Feature',
   'id': '강동구',
   'properties': {'code': '11250',
    'name': '강동구',
    'name_eng': 'Gangdong-gu',
    'base_year': '2013'},
   'geometry': {'type': 'Polygon',
    'coordinates': [[[127.11519584981606, 37.557533180704915],
      [127.16683184366129, 37.57672487388627],
      [127.18408792330152, 37.55814280369575],
      [127.16530984307447, 37.54221851258693],
      [127.14672806823502, 37.51415680680291],
      [127.12123165719615, 37.52528270089],
      [127.1116764203608, 37.540669955324965],
      [127.11519584981606, 37.557533180704915]]]}},
  {'type': 'Feature',
   'id': '송파구',
   'properties': {'code': '11240',
    'name': '송파구',
    'name_eng': 'Songpa-gu',
    'base_year': '2013'},
   'geometry': {'type': 'Polygon',
    'coordinates': [[[127.0690698130372, 37.522279423505026],
      [127.10087519791962, 37.524841220167055],
      [127.1116764203608, 37.540669955324965],
      [127.12123165719615, 37.52528270089

In [80]:
map = folium.Map(location=[37.58, 127.0], zoom_start=10)
map

In [81]:
folium.Choropleth(geo_data = seoul_geo_str, 
               data = df_groupby["arrest_total"],
               fill_color = "PuRd",
               key_on = "feature.id",
               legend_name = "서울 강력 범죄 검거 건수").add_to(map)

map