# 0. 목표

* 로컬이나 코랩에서 데이터를 불러올 수 있다.
* 데이터에서 새로운 feature를 생성할 수 있다. 
* 데이터를 지도 시각화 할 수 있다.
* json 데이터를 다룰 수 있다. 

In [1]:
import numpy as np
import pandas as pd
import folium       
import json

In [2]:
print("numpy: ", np.__version__)
print("pandas: ", pd.__version__)
print("folium: ", folium.__version__)
print("json: ", json.__version__)

numpy:  1.23.5
pandas:  1.5.1
folium:  0.16.0
json:  2.0.9
numpy:  1.23.5
pandas:  1.5.1
folium:  0.16.0
json:  2.0.9


# 1. 데이터 불러오기

* 로컬: 경로 입력
* 코랩
    * upload
    * mount



* [부산 집값 데이터](https://mwna40000.tistory.com/34)
    * 2018년 데이터
    * 부산 구별로
        * price(단위: 만원): 집 값 평균
        * population(단위: 명): 인구
        * area(단위: $\text{km}^2$): 면적

In [3]:
df = pd.read_csv("../data/busan.csv", 
                 encoding="cp949", 
                 index_col=0)
df

Unnamed: 0_level_0,price,population,area
gu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
중구,15515,44852,2.83
서구,28665,112621,13.98
동구,20729,89144,9.74
영도구,17024,121934,14.2
부산진구,28781,365337,29.67
동래구,35607,267735,16.63
남구,29597,286093,26.81
북구,23090,299547,39.37
해운대구,34649,414611,51.47
사하구,17942,332765,41.77


Unnamed: 0_level_0,price,population,area
gu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
중구,15515,44852,2.83
서구,28665,112621,13.98
동구,20729,89144,9.74
영도구,17024,121934,14.2
부산진구,28781,365337,29.67
동래구,35607,267735,16.63
남구,29597,286093,26.81
북구,23090,299547,39.37
해운대구,34649,414611,51.47
사하구,17942,332765,41.77


In [4]:
geo_path = "../data/busan_gu.json"
geo_str = json.load(open(geo_path, encoding='utf-8'))

In [5]:
geo_str.keys()

dict_keys(['type', 'features'])

dict_keys(['type', 'features'])

In [6]:
geo_str["features"]

[{'type': 'Feature',
  'id': '중구',
  'properties': {'code': '21010',
   'name': '중구',
   'name_eng': 'Jung-gu',
   'base_year': '2013'},
  'geometry': {'type': 'Polygon',
   'coordinates': [[[129.032, 35.116],
     [129.038, 35.112],
     [129.042, 35.111],
     [129.041, 35.108],
     [129.038, 35.104],
     [129.038, 35.098],
     [129.037, 35.097],
     [129.029, 35.096],
     [129.026, 35.096],
     [129.024, 35.1],
     [129.022, 35.102],
     [129.021, 35.106],
     [129.023, 35.109],
     [129.024, 35.109],
     [129.026, 35.111],
     [129.028, 35.11],
     [129.028, 35.115],
     [129.032, 35.116]]]}},
 {'type': 'Feature',
  'id': '서구',
  'properties': {'code': '21020',
   'name': '서구',
   'name_eng': 'Seo-gu',
   'base_year': '2013'},
  'geometry': {'type': 'Polygon',
   'coordinates': [[[129.023, 35.076],
     [129.021, 35.078],
     [129.018, 35.077],
     [129.017, 35.074],
     [129.019, 35.07],
     [129.021, 35.07],
     [129.021, 35.066],
     [129.02, 35.065],
     [1

[{'type': 'Feature',
  'id': '중구',
  'properties': {'code': '21010',
   'name': '중구',
   'name_eng': 'Jung-gu',
   'base_year': '2013'},
  'geometry': {'type': 'Polygon',
   'coordinates': [[[129.032, 35.116],
     [129.038, 35.112],
     [129.042, 35.111],
     [129.041, 35.108],
     [129.038, 35.104],
     [129.038, 35.098],
     [129.037, 35.097],
     [129.029, 35.096],
     [129.026, 35.096],
     [129.024, 35.1],
     [129.022, 35.102],
     [129.021, 35.106],
     [129.023, 35.109],
     [129.024, 35.109],
     [129.026, 35.111],
     [129.028, 35.11],
     [129.028, 35.115],
     [129.032, 35.116]]]}},
 {'type': 'Feature',
  'id': '서구',
  'properties': {'code': '21020',
   'name': '서구',
   'name_eng': 'Seo-gu',
   'base_year': '2013'},
  'geometry': {'type': 'Polygon',
   'coordinates': [[[129.023, 35.076],
     [129.021, 35.078],
     [129.018, 35.077],
     [129.017, 35.074],
     [129.019, 35.07],
     [129.021, 35.07],
     [129.021, 35.066],
     [129.02, 35.065],
     [1

In [7]:
geo_str["features"][-1]

{'type': 'Feature',
 'id': '기장군',
 'properties': {'code': '21310',
  'name': '기장군',
  'name_eng': 'Gijang-gun',
  'base_year': '2013'},
 'geometry': {'type': 'Polygon',
  'coordinates': [[[129.288, 35.321],
    [129.288, 35.323],
    [129.285, 35.324],
    [129.285, 35.326],
    [129.282, 35.327],
    [129.278, 35.326],
    [129.274, 35.323],
    [129.268, 35.322],
    [129.264, 35.319],
    [129.262, 35.315],
    [129.262, 35.314],
    [129.261, 35.31],
    [129.258, 35.306],
    [129.261, 35.297],
    [129.261, 35.294],
    [129.26, 35.291],
    [129.257, 35.289],
    [129.259, 35.287],
    [129.26, 35.283],
    [129.257, 35.282],
    [129.256, 35.281],
    [129.255, 35.275],
    [129.253, 35.272],
    [129.247, 35.272],
    [129.246, 35.272],
    [129.244, 35.27],
    [129.244, 35.268],
    [129.243, 35.266],
    [129.24, 35.265],
    [129.236, 35.265],
    [129.234, 35.263],
    [129.234, 35.261],
    [129.235, 35.258],
    [129.239, 35.257],
    [129.242, 35.259],
    [129.245, 35

{'type': 'Feature',
 'id': '기장군',
 'properties': {'code': '21310',
  'name': '기장군',
  'name_eng': 'Gijang-gun',
  'base_year': '2013'},
 'geometry': {'type': 'Polygon',
  'coordinates': [[[129.288, 35.321],
    [129.288, 35.323],
    [129.285, 35.324],
    [129.285, 35.326],
    [129.282, 35.327],
    [129.278, 35.326],
    [129.274, 35.323],
    [129.268, 35.322],
    [129.264, 35.319],
    [129.262, 35.315],
    [129.262, 35.314],
    [129.261, 35.31],
    [129.258, 35.306],
    [129.261, 35.297],
    [129.261, 35.294],
    [129.26, 35.291],
    [129.257, 35.289],
    [129.259, 35.287],
    [129.26, 35.283],
    [129.257, 35.282],
    [129.256, 35.281],
    [129.255, 35.275],
    [129.253, 35.272],
    [129.247, 35.272],
    [129.246, 35.272],
    [129.244, 35.27],
    [129.244, 35.268],
    [129.243, 35.266],
    [129.24, 35.265],
    [129.236, 35.265],
    [129.234, 35.263],
    [129.234, 35.261],
    [129.235, 35.258],
    [129.239, 35.257],
    [129.242, 35.259],
    [129.245, 35

In [8]:
## geo_str에서 구의 의름을 출력하시오. 

for info in geo_str["features"]:
    print(info["id"])

# [info["id"] for info in geo_str["features"]]

중구
서구
동구
영도구
부산진구
동래구
남구
북구
해운대구
사하구
금정구
강서구
연제구
수영구
사상구
기장군
중구
서구
동구
영도구
부산진구
동래구
남구
북구
해운대구
사하구
금정구
강서구
연제구
수영구
사상구
기장군


## 2. 지도 시각화

* folium: 파이썬에서 사용할 수 있는 지도 시각화 라이브러리

* [folium](https://python-visualization.github.io/folium/latest/)

In [9]:
map = folium.Map(location = [35.1856505, 129.1], zoom_start=10)

map

* choropleth(단계구분도): 색상이나 패턴을 사용하여 특정 통계에 대한 데이터를 사전 정의된 영역과 관련시켜 시각화 한 지도 유형

* geo_data: 지리정보
* data: 실제로 시각화하고 싶은 데이터
* fill_color: 색상정보
* key_on: 지리정보와 시각화정보의 공통변수로서 'feature.id'를 설정
* legend_name: colorbar아래 적어줄 문구

In [10]:
folium.Choropleth(geo_data = geo_str, 
               data = df["population"],
               fill_color = "PuRd",
               key_on = "feature.id",
               legend_name = "부산 인구 수(단위: 명)").add_to(map)

map

In [11]:
## 집값 평균을 시각화 하시오

map = folium.Map(location = [35.1856505, 129.1], zoom_start=10)

folium.Choropleth(geo_data = geo_str, 
               data = df["price"],
               fill_color = "PuBu",
               key_on = "feature.id",
               legend_name = "부산 집값 평균(단위: 만원)").add_to(map)

map

# 과제

1. geo_str에서 name_eng를 수집하여 df에 "gu_eng"의 열을 만드시오.
2. 부산 구별 인구밀도를 계산하여 df에 "density" 열을 추가하고, 인구밀도 값을 추가하시오.
3. 인구 밀도에 따른 구별 choropleth를 그리시오.

1. geo_str에서 name_eng를 수집하여 df에 "gu_eng"의 열을 만드시오.

In [13]:
gu_eng_dict = {}
for info in geo_str["features"]:
    gu_eng_dict[info["properties"]["name"]] = info["properties"]["name_eng"] 
gu_eng_dict

{'중구': 'Jung-gu',
 '서구': 'Seo-gu',
 '동구': 'Dong-gu',
 '영도구': 'Youngdo-gu',
 '부산진구': 'Busanjin-gu',
 '동래구': 'Dongnae-gu',
 '남구': 'Nam-gu',
 '북구': 'Buk-gu',
 '해운대구': 'Haeundae-gu',
 '사하구': 'Saha-gu',
 '금정구': 'Geumjeong-gu',
 '강서구': 'Gangseo-gu',
 '연제구': 'Yoenje-gu',
 '수영구': 'Suyeong-gu',
 '사상구': 'Sasang-gu',
 '기장군': 'Gijang-gun'}

{'중구': 'Jung-gu',
 '서구': 'Seo-gu',
 '동구': 'Dong-gu',
 '영도구': 'Youngdo-gu',
 '부산진구': 'Busanjin-gu',
 '동래구': 'Dongnae-gu',
 '남구': 'Nam-gu',
 '북구': 'Buk-gu',
 '해운대구': 'Haeundae-gu',
 '사하구': 'Saha-gu',
 '금정구': 'Geumjeong-gu',
 '강서구': 'Gangseo-gu',
 '연제구': 'Yoenje-gu',
 '수영구': 'Suyeong-gu',
 '사상구': 'Sasang-gu',
 '기장군': 'Gijang-gun'}

In [15]:
gu_eng_df = pd.DataFrame(data = gu_eng_dict.values(), 
                         index = gu_eng_dict.keys(), 
                         columns = ["gu_eng"])
gu_eng_df 

Unnamed: 0,gu_eng
중구,Jung-gu
서구,Seo-gu
동구,Dong-gu
영도구,Youngdo-gu
부산진구,Busanjin-gu
동래구,Dongnae-gu
남구,Nam-gu
북구,Buk-gu
해운대구,Haeundae-gu
사하구,Saha-gu


Unnamed: 0,gu_eng
중구,Jung-gu
서구,Seo-gu
동구,Dong-gu
영도구,Youngdo-gu
부산진구,Busanjin-gu
동래구,Dongnae-gu
남구,Nam-gu
북구,Buk-gu
해운대구,Haeundae-gu
사하구,Saha-gu


In [16]:
df = pd.merge(df, gu_eng_df, left_index = True, right_index=True)
df

Unnamed: 0,price,population,area,gu_eng
중구,15515,44852,2.83,Jung-gu
서구,28665,112621,13.98,Seo-gu
동구,20729,89144,9.74,Dong-gu
영도구,17024,121934,14.2,Youngdo-gu
부산진구,28781,365337,29.67,Busanjin-gu
동래구,35607,267735,16.63,Dongnae-gu
남구,29597,286093,26.81,Nam-gu
북구,23090,299547,39.37,Buk-gu
해운대구,34649,414611,51.47,Haeundae-gu
사하구,17942,332765,41.77,Saha-gu


Unnamed: 0,price,population,area,gu_eng
중구,15515,44852,2.83,Jung-gu
서구,28665,112621,13.98,Seo-gu
동구,20729,89144,9.74,Dong-gu
영도구,17024,121934,14.2,Youngdo-gu
부산진구,28781,365337,29.67,Busanjin-gu
동래구,35607,267735,16.63,Dongnae-gu
남구,29597,286093,26.81,Nam-gu
북구,23090,299547,39.37,Buk-gu
해운대구,34649,414611,51.47,Haeundae-gu
사하구,17942,332765,41.77,Saha-gu


2. 부산 구별 인구밀도를 계산하여 df에 "density" 열을 추가하고, 인구밀도 값을 추가하시오.

In [17]:
df

Unnamed: 0,price,population,area,gu_eng
중구,15515,44852,2.83,Jung-gu
서구,28665,112621,13.98,Seo-gu
동구,20729,89144,9.74,Dong-gu
영도구,17024,121934,14.2,Youngdo-gu
부산진구,28781,365337,29.67,Busanjin-gu
동래구,35607,267735,16.63,Dongnae-gu
남구,29597,286093,26.81,Nam-gu
북구,23090,299547,39.37,Buk-gu
해운대구,34649,414611,51.47,Haeundae-gu
사하구,17942,332765,41.77,Saha-gu


Unnamed: 0,price,population,area,gu_eng
중구,15515,44852,2.83,Jung-gu
서구,28665,112621,13.98,Seo-gu
동구,20729,89144,9.74,Dong-gu
영도구,17024,121934,14.2,Youngdo-gu
부산진구,28781,365337,29.67,Busanjin-gu
동래구,35607,267735,16.63,Dongnae-gu
남구,29597,286093,26.81,Nam-gu
북구,23090,299547,39.37,Buk-gu
해운대구,34649,414611,51.47,Haeundae-gu
사하구,17942,332765,41.77,Saha-gu


In [18]:
df["density"] = (df["population"]/df["area"]).astype(int)

In [19]:
df

Unnamed: 0,price,population,area,gu_eng,density
중구,15515,44852,2.83,Jung-gu,15848
서구,28665,112621,13.98,Seo-gu,8055
동구,20729,89144,9.74,Dong-gu,9152
영도구,17024,121934,14.2,Youngdo-gu,8586
부산진구,28781,365337,29.67,Busanjin-gu,12313
동래구,35607,267735,16.63,Dongnae-gu,16099
남구,29597,286093,26.81,Nam-gu,10671
북구,23090,299547,39.37,Buk-gu,7608
해운대구,34649,414611,51.47,Haeundae-gu,8055
사하구,17942,332765,41.77,Saha-gu,7966


Unnamed: 0,price,population,area,gu_eng,density
중구,15515,44852,2.83,Jung-gu,15848
서구,28665,112621,13.98,Seo-gu,8055
동구,20729,89144,9.74,Dong-gu,9152
영도구,17024,121934,14.2,Youngdo-gu,8586
부산진구,28781,365337,29.67,Busanjin-gu,12313
동래구,35607,267735,16.63,Dongnae-gu,16099
남구,29597,286093,26.81,Nam-gu,10671
북구,23090,299547,39.37,Buk-gu,7608
해운대구,34649,414611,51.47,Haeundae-gu,8055
사하구,17942,332765,41.77,Saha-gu,7966


3. 인구 밀도에 따른 구별 choropleth를 그리시오.

In [20]:
map = folium.Map(location = [35.1856505, 129.1], zoom_start=10)

folium.Choropleth(geo_data = geo_str, 
               data = df["density"],
               fill_color = "PuBu",
               key_on = "feature.id",
               legend_name = "부산 인구밀도").add_to(map)

map