# 모듈, 데이터 불러오기

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
!pip install folium matplotlib mapclassify

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting mapclassify
  Downloading mapclassify-2.4.3-py3-none-any.whl (38 kB)
Installing collected packages: mapclassify
Successfully installed mapclassify-2.4.3


In [None]:
!pip install geopandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting geopandas
  Downloading geopandas-0.12.2-py3-none-any.whl (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m37.7 MB/s[0m eta [36m0:00:00[0m
Collecting pyproj>=2.6.1.post1
  Downloading pyproj-3.4.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m110.3 MB/s[0m eta [36m0:00:00[0m
Collecting fiona>=1.8
  Downloading Fiona-1.8.22-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.6/16.6 MB[0m [31m92.7 MB/s[0m eta [36m0:00:00[0m
Collecting munch
  Downloading munch-2.5.0-py2.py3-none-any.whl (10 kB)
Collecting click-plugins>=1.0
  Downloading click_plugins-1.1.1-py2.py3-none-any.whl (7.5 kB)
Collecting cligj>=0.5
  Downloading cligj-0.7.2-py3-none-

In [None]:
import pandas as pd
import geopandas as gpd

In [None]:
df_grid = pd.read_csv('/content/drive/MyDrive/프로젝트1/데이터/unique_grid.csv')
df_grid.head(2)

Unnamed: 0,gid,lbl,val,geometry,gu
0,다사58a48a,6085.0,6085.0,"POLYGON ((958000 1948000, 958000 1948500, 9585...",강남구
1,다사58b48a,3446.0,3446.0,"POLYGON ((958500 1948000, 958500 1948500, 9590...",강남구


In [None]:
pedestrian = pd.read_csv('/content/drive/MyDrive/프로젝트1/데이터/도로시설물/서울시 보행자작동신호기 관련 정보.csv', encoding = 'cp949')
pedestrian.head(2)

Unnamed: 0,보행자작동신호기 관리번호,지주관리번호,방향 (공통),설치일,교체일,X좌표,Y좌표,제조업체,작업구분 (공통),표출구분 (공통),종류,신규정규화ID,상태 (공통),공사관리번호,보행자작동신호기 관리번호.1,이력ID,위치정보,공사형태 (공통)
0,29-0000000399,02-0000074701,90.0,,,200085.99351,554855.27478,,1,2,0.0,4306821.0,1,2000-0000-000,29-000399,475,1,
1,29-0000000584,02-0000081242,90.0,,,208627.53247,556488.58557,,1,2,0.0,5379942.0,1,2000-0000-000,29-000584,516,1,


# 데이터 정제
- 컬럼중에서 	보행자작동신호기 관리번호, X좌표, Y좌표 컬럼만 추출
- 널값 제외하고 값이 존재하는 데이터만 추출

In [None]:
pedestrian.info()

In [None]:
pedestrian = pedestrian.loc[ :, ['보행자작동신호기 관리번호', 'X좌표' , 'Y좌표']]
clean_pedestrian = pedestrian[pedestrian.X좌표.isnull() == False ]

In [None]:
clean_pedestrian.info()
clean_pedestrian.head()

# pandas ⟶ geopandas

## 격자지도 데이터 프레임
```
기존에 .shp을 로드해서 csv로 저장했기 때문에 'geometry'열이 존재한다.

그러나 csv로 저장하면서 기존에 'geometry'열의 데이터 타입이 문자열로 변경되었다.

따라서 wkt.loads를 이용해서 문자열 타입을 폴리곤 타입으로 바꾸고, geodataframe을 구성할 때 좌표계 정보(epsg:5179)를 주었다.

```

In [None]:
from shapely import wkt

df_grid['geometry'] = df_grid['geometry'].apply(wkt.loads)
geo_grids = gpd.GeoDataFrame(df_grid, crs='epsg:5179')

# 보행자작동신호기 데이터 프레임
```
기존에 .csv 파일이었기 때문에 'geometry'열이 존재하지 않는다.

따라서 geodataframe을 구성할 때 x좌표와 y좌표를 이용하여 'geometry' 컬럼을 만들어준다. 

그 후 to_crs() 함수를 이용해 좌표계를 5179 좌표계로 변경한다.

좌표계 설정 이유 : 좌표계의 종류가 많기 때문에 어떤 종류의 좌표계인지 명시해주어야 함

```

## geopandas 의 sjoin을 사용

- 정확히는 모르지만 공간에 따라 데이터를 join 하는 것 같음
- pandas.join과 유사 ( 다른 점: pandas의 join은 데이터가 같은 것끼리 엮지만 geopandas의 sjoin은 공간이 겹치면 엮는다 )

In [None]:
geo_pedestrian = gpd.GeoDataFrame(
    clean_pedestrian, geometry=gpd.points_from_xy(clean_pedestrian['X좌표'], clean_pedestrian['Y좌표'])
)
geo_pedestrian.set_crs(epsg = 5186, inplace = True)
geo_pedestrian = geo_pedestrian.to_crs(epsg=5179)

In [None]:
geo_pedestrian.explore(tiles='http://mt0.google.com/vt/lyrs=m&hl=ko&x={x}&y={y}&z={z}', attr='Google')

In [None]:
join_geo_df = gpd.sjoin(geo_pedestrian, geo_grids, how='left')
join_geo_df.shape

(2195, 9)

In [None]:
# 피벗테이블 이용해서 격자지도별로 보행자작동신호기 카운트
pedestrian_by_grid = join_geo_df.pivot_table(index='gid', values='보행자작동신호기 관리번호', aggfunc='count')
pedestrian_by_grid.head(5)

Unnamed: 0_level_0,보행자작동신호기 관리번호
gid,Unnamed: 1_level_1
다사38a53a,1
다사39a51b,2
다사39a52b,4
다사39a53a,2
다사39b51b,6


In [None]:
pedestrian_by_grid.sort_values(by='보행자작동신호기 관리번호', ascending=False).head(5)

Unnamed: 0_level_0,보행자작동신호기 관리번호
gid,Unnamed: 1_level_1
다사57a53a,28
다사44b47b,20
다사57a62a,19
다사53a50b,18
다사62b52b,17


In [None]:
pedestrian_by_grid.to_csv('pedestrian_by_grid')