# 속성조인과 공간조인
속성조인과 공간조인 방법을 알아봅시다

### 패키지 불러오기

In [1]:
import pandas as pd 
import geopandas as gpd



### 데이터 로딩

In [2]:
df = pd.read_csv('data/csv/전국도시공원정보표준데이터.csv', encoding='cp949')
df.head(2)

Unnamed: 0,관리번호,공원명,공원구분,소재지도로명주소,소재지지번주소,위도,경도,공원면적,공원보유시설(운동시설),공원보유시설(유희시설),공원보유시설(편익시설),공원보유시설(교양시설),공원보유시설(기타시설),지정고시일,관리기관명,전화번호,데이터기준일자,제공기관코드,제공기관명
0,29200-00068,다모아,어린이공원,,광주광역시 광산구 월곡동 520-1,35.170911,126.806951,2231.0,,,,,,1990-06-30,광주광역시 광산구,062-960-8712,2020-07-08,6290000,광주광역시
1,29200-00069,햇살,어린이공원,,광주광역시 광산구 월곡동 503,35.174005,126.806878,1689.4,,,,,,1990-06-30,광주광역시 광산구,062-960-8712,2020-07-08,6290000,광주광역시


In [3]:
gdf_gu = gpd.read_file('data/shp/LARD_ADM_SECT_SGG_11.shp', encoding='cp949')
gdf_gu.head(3)

Unnamed: 0,ADM_SECT_C,SGG_NM,SGG_OID,COL_ADM_SE,GID,geometry
0,11740,강동구,337,11740,127,"POLYGON ((969713.132 1948846.288, 969692.451 1..."
1,11710,송파구,1969,11710,128,"POLYGON ((968640.372 1944982.492, 968640.957 1..."
2,11680,강남구,33,11680,129,"POLYGON ((958696.114 1948605.678, 959195.920 1..."


In [4]:
gdf_gu.crs

<Projected CRS: EPSG:5179>
Name: Korea 2000 / Unified CS
Axis Info [cartesian]:
- X[north]: Northing (metre)
- Y[east]: Easting (metre)
Area of Use:
- name: Republic of Korea (South Korea) - onshore and offshore.
- bounds: (122.71, 28.6, 134.28, 40.27)
Coordinate Operation:
- name: Korea Unified Belt
- method: Transverse Mercator
Datum: Geocentric datum of Korea
- Ellipsoid: GRS 1980
- Prime Meridian: Greenwich

In [5]:
gdf_festival_pt = gpd.read_file('data/shp/festival_pt4326.shp', encoding='cp949')
gdf_festival_pt.head(3)

Unnamed: 0,name,organizati,geometry
0,울산옹기축제,한국관광공사,POINT (129.27845 35.43299)
1,금산인삼축제,한국관광공사,POINT (127.50073 36.10003)
2,횡성한우축제,한국관광공사,POINT (127.98915 37.49609)


In [6]:
gdf_festival_pt.crs

<Geographic 2D CRS: EPSG:4326>
Name: WGS 84
Axis Info [ellipsoidal]:
- Lat[north]: Geodetic latitude (degree)
- Lon[east]: Geodetic longitude (degree)
Area of Use:
- name: World.
- bounds: (-180.0, -90.0, 180.0, 90.0)
Datum: World Geodetic System 1984 ensemble
- Ellipsoid: WGS 84
- Prime Meridian: Greenwich

In [7]:
gdf_festival_pt5179 = gdf_festival_pt.to_crs(5179)

## 속성조인
공간데이터와 공간데이터 또는 공간데이터와 속성데이터간에 공통 컬럼(일련번호, 카테고리 코드 등)이 있을 때, 이 공통 컬럼을 가지고 합치는 방법입니다.     

![속성조인](ref/attribute_join.gif)  
https://pro.arcgis.com/en/pro-app/2.9/tool-reference/data-management/add-join.htm 

In [8]:
# 도시공원 데이터에서 도시공원관리번호 앞 5자리가 시군구 코드입니다. 이 코드와 gdf_gu의 COL_ADM_SE를 속성조인해보겠습니다. 
# 먼저 도시공원 데이터이 도시공원관리번호 앞 5자리만 추출한 컬럼을 만들어 보겠습니다. 
df['sgg_cd'] = df['관리번호'].str.slice(start=0, stop=5)
df.head(3)

Unnamed: 0,관리번호,공원명,공원구분,소재지도로명주소,소재지지번주소,위도,경도,공원면적,공원보유시설(운동시설),공원보유시설(유희시설),공원보유시설(편익시설),공원보유시설(교양시설),공원보유시설(기타시설),지정고시일,관리기관명,전화번호,데이터기준일자,제공기관코드,제공기관명,sgg_cd
0,29200-00068,다모아,어린이공원,,광주광역시 광산구 월곡동 520-1,35.170911,126.806951,2231.0,,,,,,1990-06-30,광주광역시 광산구,062-960-8712,2020-07-08,6290000,광주광역시,29200
1,29200-00069,햇살,어린이공원,,광주광역시 광산구 월곡동 503,35.174005,126.806878,1689.4,,,,,,1990-06-30,광주광역시 광산구,062-960-8712,2020-07-08,6290000,광주광역시,29200
2,29200-00070,월곡하늘,어린이공원,,광주광역시 광산구 월곡동 608-1,35.167242,126.810187,1815.0,,,,,,1990-06-30,광주광역시 광산구,062-960-8712,2020-07-08,6290000,광주광역시,29200


In [9]:
# 속성조인을 합니다. 
#gdf_gu2 = pd.merge(gdf_gu, df, on='COL_ADM_SE', how='left')   #두 데이터의 컬럼명이 동일한 경우 
gdf_gu2 = pd.merge(gdf_gu, df, left_on='COL_ADM_SE', right_on='sgg_cd', how='left')
gdf_gu2.head(3)

Unnamed: 0,ADM_SECT_C,SGG_NM,SGG_OID,COL_ADM_SE,GID,geometry,관리번호,공원명,공원구분,소재지도로명주소,...,공원보유시설(편익시설),공원보유시설(교양시설),공원보유시설(기타시설),지정고시일,관리기관명,전화번호,데이터기준일자,제공기관코드,제공기관명,sgg_cd
0,11740,강동구,337,11740,127,"POLYGON ((969713.132 1948846.288, 969692.451 1...",11740-00003,명일공원,근린공원,서울특별시 강동구 구천면로587(상일동),...,"간이화장실, 음수대, 먹는물공동시설",문화회관,,1971-08-06,서울특별시 강동구청,02-3425-6440,2020-09-11,3240000,서울특별시 강동구,11740
1,11740,강동구,337,11740,127,"POLYGON ((969713.132 1948846.288, 969692.451 1...",11740-00004,명우공원,어린이공원,,...,,,,1971-12-04,서울특별시 강동구청,02-3425-6440,2020-09-11,3240000,서울특별시 강동구,11740
2,11740,강동구,337,11740,127,"POLYGON ((969713.132 1948846.288, 969692.451 1...",11740-00005,혜림공원,어린이공원,서울특별시 강동구 천중로39길77(천호동),...,음수대,,,1972-11-06,서울특별시 강동구청,02-3425-6440,2020-09-11,3240000,서울특별시 강동구,11740


속성조인은 Pandas의 Merge를 이용하여 할 수 있습니다.    
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html 

구별 도시공원 수를 구한다음 구별 단계구분도 시각화를 하거나 할 때 속성조인을 활용할 수 있겠습니다. 

## 공간조인  
속성조인이 어려울 때 두 공간데이터의 공간적인 관계를 가지고 조인(Join)하는 기법입니다.  
공간데이터의 품질(주소 등의 위치 정확도)에 따라 잘못 조인될 수 있으니, 속성조인을 우선적으로 검토하는 것을 권장합니다.   

![공간조인](ref/Spatial-Join2.png)  
https://gisgeography.com/spatial-join/ 

In [10]:
# gdf_gu(서울시 구별 폴리곤)와 축제행사 위치(gdf_festival_pt)를 공간조인해보겠습니다. 
gdf_gu3 = gpd.sjoin(gdf_gu, gdf_festival_pt5179, how='inner', predicate='intersects')
# how : inner(교집합, default 파라미터), left(왼쪽 공간데이터 기준), right(오른쪽 공간데이터 기준), outer(합집합)
# predicate : intersects(서로 조금이라도 닿으면(교차), default), within/ contains(내부에 완전히 포함되는지) 
# 위 코드에서 에러가 날 경우 pip install --user rtree, pip install --user pygeos를 추가 설치하고, 노트북을 재실행  

공간 관계(Spatial Relationship) 참조 사이트    
https://postgis.net/workshops/postgis-intro/spatial_relationships.html 

In [11]:
gdf_gu3.head()

Unnamed: 0,ADM_SECT_C,SGG_NM,SGG_OID,COL_ADM_SE,GID,geometry,index_right,name,organizati
0,11740,강동구,337,11740,127,"POLYGON ((969713.132 1948846.288, 969692.451 1...",815,강동선사문화축제,서울특별시 강동구
1,11710,송파구,1969,11710,128,"POLYGON ((968640.372 1944982.492, 968640.957 1...",350,석촌호수벚꽃축제,서울특별시 송파구
1,11710,송파구,1969,11710,128,"POLYGON ((968640.372 1944982.492, 968640.957 1...",351,한성백제문화제,서울특별시 송파구
1,11710,송파구,1969,11710,128,"POLYGON ((968640.372 1944982.492, 968640.957 1...",158,한성백제문화제,한국관광공사
4,11620,관악구,33,11620,131,"POLYGON ((949321.250 1944035.054, 949323.256 1...",92,2023 어린이동화페스티벌,서울특별시 관악구


In [12]:
gdf_gu3.explore()

위 결과에서 서울의 일부 구가 사라지고, 일부 구는 중복되는 이유/원인을 알 수 있는지요?

In [13]:
# 필요하면 shp으로 저장해서 QGIS 등에서 확인해보십시오
gdf_gu3.to_file('data/shp/gdf_gu3.shp', encoding='cp949')

  gdf_gu3.to_file('data/shp/gdf_gu3.shp', encoding='cp949')


무슨 옵션(파라미터)을 바꾸면 서울의 모든 구가 존재하게 될까요?

In [14]:
gdf_gu4 = gpd.sjoin(gdf_gu, gdf_festival_pt5179, how='left', predicate='intersects')
gdf_gu4.explore()

이제 구별 축제 건수를 집계해보겠습니다. 

In [15]:
df_size = gdf_gu4.groupby(['COL_ADM_SE'], as_index=False).size() 
df_size.head()

Unnamed: 0,COL_ADM_SE,size
0,11110,3
1,11140,1
2,11170,1
3,11200,1
4,11215,1


In [17]:
# 서울시 구 GeoDataFrame에 구별 축제 건수를 속성조인 해보겠습니다. 
gdf_gu5 = pd.merge(gdf_gu, df_size, on='COL_ADM_SE', how='left')
gdf_gu5.head()

Unnamed: 0,ADM_SECT_C,SGG_NM,SGG_OID,COL_ADM_SE,GID,geometry,size
0,11740,강동구,337,11740,127,"POLYGON ((969713.132 1948846.288, 969692.451 1...",1
1,11710,송파구,1969,11710,128,"POLYGON ((968640.372 1944982.492, 968640.957 1...",3
2,11680,강남구,33,11680,129,"POLYGON ((958696.114 1948605.678, 959195.920 1...",1
3,11650,서초구,33,11650,130,"POLYGON ((958117.753 1940073.855, 958118.398 1...",1
4,11620,관악구,33,11620,131,"POLYGON ((949321.250 1944035.054, 949323.256 1...",4


In [18]:
gdf_gu5.explore()

## 수고 많으셨습니다!!! 