In [127]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings 
warnings.filterwarnings('ignore')
%matplotlib inline

plt.rc("font", family = "Malgun Gothic")
sns.set(font="Malgun Gothic", 
rc={"axes.unicode_minus":False}, style='white')

In [128]:
park_df = pd.read_csv('C:/000_SHCHOI/001_아이팰_9기(코어)/DATAthon/AIFFEL_DATAthon/dataset/park.csv')
park_df.head()

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facitiy,park_facility_other,park_open_year,reference_date
0,부산광역시,남구,대연동,대연공원,근린공원,55227.0,,,,,,1944.0,2018-08-14
1,부산광역시,남구,대연동,당곡공원,역사공원,75465.0,,,,,,1944.0,2018-08-14
2,부산광역시,남구,대연동,대일어린이공원,어린이공원,422.1,,,,,,1965.0,2018-08-14
3,부산광역시,남구,대연동,못골어린이공원,어린이공원,499.8,,,,,,1968.0,2018-08-14
4,부산광역시,남구,용호동,솔밭어린이공원,어린이공원,1500.2,,,,,,1970.0,2018-08-14


In [129]:
park_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1359 entries, 0 to 1358
Data columns (total 13 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   city                         1359 non-null   object 
 1   gu                           1356 non-null   object 
 2   dong                         1359 non-null   object 
 3   park_name                    1359 non-null   object 
 4   park_type                    1359 non-null   object 
 5   park_area                    1359 non-null   float64
 6   park_exercise_facility       277 non-null    object 
 7   park_entertainment_facility  435 non-null    object 
 8   park_benefit_facility        266 non-null    object 
 9   park_cultural_facitiy        72 non-null     object 
 10  park_facility_other          175 non-null    object 
 11  park_open_year               937 non-null    float64
 12  reference_date               1359 non-null   object 
dtypes: float64(2), obj

* city = 도시 이름
* gu = 구(강동구, 송파구 등)
* dong = 동(잠실동, 역삼동 등)
* park_name = 공원 이름
* park_type = 공원 유형(근린공원, 어린이공원 등)
* park_area = 공원 면적(단위: 제곱미터)
* park_exercise_facility = 공원 내 운동시설(풋살장, 체력단련장, 배드민턴장 등)
* park_entertainment_facility = 공원 내 여가시설
* park_cultural_facility = 공원 내 문화시설
* park_facility_other = 공원 내 기타 시설
* park_open_year = 공원 개장 연도
* reference_data = 관련 일자(수정일자?)

In [130]:
park_df.isnull().sum()

city                              0
gu                                3
dong                              0
park_name                         0
park_type                         0
park_area                         0
park_exercise_facility         1082
park_entertainment_facility     924
park_benefit_facility          1093
park_cultural_facitiy          1287
park_facility_other            1184
park_open_year                  422
reference_date                    0
dtype: int64

In [131]:
# Check null rate

for i in park_df.columns:
    null_rate = park_df[i].isna().sum() / len(park_df) * 100
    if null_rate > 0:
        print("{}'s null rate :{}%".format(i, round(null_rate, 2)))

gu's null rate :0.22%
park_exercise_facility's null rate :79.62%
park_entertainment_facility's null rate :67.99%
park_benefit_facility's null rate :80.43%
park_cultural_facitiy's null rate :94.7%
park_facility_other's null rate :87.12%
park_open_year's null rate :31.05%


In [132]:
# 중복되지 않는 고유한 값 확인.

park_df.nunique()

city                              2
gu                               36
dong                            237
park_name                      1221
park_type                        10
park_area                      1242
park_exercise_facility          124
park_entertainment_facility     201
park_benefit_facility            72
park_cultural_facitiy            33
park_facility_other             100
park_open_year                   62
reference_date                   31
dtype: int64

In [133]:
# 데이터셋을 '서울특별시'와 '부산광역시'로 분류하기.

seoul_data = park_df[park_df['city'] == '서울특별시']
busan_data = park_df[park_df['city'] == '부산광역시']

# 서울시를 기준으로 제대로 적용되었는지 확인.
seoul_data.head(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facitiy,park_facility_other,park_open_year,reference_date
58,서울특별시,서초구,반포동,반 포,근린공원,26092.2,,,,,,1981.0,2018-06-30
59,서울특별시,서초구,양재동,방아다리1,근린공원,2870.8,,,,,,1988.0,2018-06-30
60,서울특별시,서초구,양재동,방아다리2,근린공원,2934.3,,,,,,1988.0,2018-06-30
61,서울특별시,서초구,양재동,양재천,근린공원,19258.0,,,,,,1988.0,2018-06-30
62,서울특별시,서초구,양재동,마 방,근린공원,6546.6,,,,,,1983.0,2018-06-30
63,서울특별시,서초구,양재동,양 재,근린공원,32523.4,,,,,,1983.0,2018-06-30
64,서울특별시,서초구,서초동,용허리,근린공원,4641.9,,,,,,1989.0,2018-06-30
65,서울특별시,서초구,서초동,명 달,근린공원,5466.4,,,,,,1989.0,2018-06-30
66,서울특별시,서초구,잠원동,사평리,근린공원,1913.7,,,,,,1989.0,2018-06-30
67,서울특별시,서초구,잠원동,잠 원,근린공원,2373.5,,,,,,1989.0,2018-06-30


In [134]:
# 서울과 부산의 각 열을 기준으로 결측치 총 개수 및 비율 확인.
missing_values_seoul = seoul_data.isnull().sum()
total_data_seoul = len(seoul_data)
missing_percent_seoul = (missing_values_seoul / total_data_seoul) * 100

missing_values_busan = busan_data.isnull().sum()
total_data_busan = len(busan_data)
missing_percent_busan = (missing_values_busan / total_data_busan) * 100

# 서울의 각 열별 결측치 개수 및 비율 확인.
print(missing_values_seoul, '\n' * 3, missing_percent_seoul)

city                             0
gu                               0
dong                             0
park_name                        0
park_type                        0
park_area                        0
park_exercise_facility         778
park_entertainment_facility    680
park_benefit_facility          770
park_cultural_facitiy          876
park_facility_other            871
park_open_year                 420
reference_date                   0
dtype: int64 


 city                            0.000000
gu                              0.000000
dong                            0.000000
park_name                       0.000000
park_type                       0.000000
park_area                       0.000000
park_exercise_facility         83.655914
park_entertainment_facility    73.118280
park_benefit_facility          82.795699
park_cultural_facitiy          94.193548
park_facility_other            93.655914
park_open_year                 45.161290
reference_date                  0.00

In [135]:
# 부산의 각 열별 결측치 개수 및 비율 확인.
print(missing_values_busan, '\n' * 3, missing_percent_busan)

city                             0
gu                               3
dong                             0
park_name                        0
park_type                        0
park_area                        0
park_exercise_facility         304
park_entertainment_facility    244
park_benefit_facility          323
park_cultural_facitiy          411
park_facility_other            313
park_open_year                   2
reference_date                   0
dtype: int64 


 city                            0.000000
gu                              0.699301
dong                            0.000000
park_name                       0.000000
park_type                       0.000000
park_area                       0.000000
park_exercise_facility         70.862471
park_entertainment_facility    56.876457
park_benefit_facility          75.291375
park_cultural_facitiy          95.804196
park_facility_other            72.960373
park_open_year                  0.466200
reference_date                  0.00

In [136]:
# 'gu' 결측치가 있는 행 확인. (부산만 해당)

busan_data[busan_data['gu'].isnull()]

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facitiy,park_facility_other,park_open_year,reference_date
565,부산광역시,,영주동,중앙공원,근린공원,5020657.0,"""운동광장, 게이트볼, 궁도장, 구민운동장, 풋살경기장, 다목적 마당, 인라인스케이...","""어린이놀이터, 발물놀이터""","""주차장,화장실, 대중음식점,매점,전망대,다과점,치유센터,숲속요가장및 풍욕장, 낙상...","""도서관, 기념비, 충혼탑, 장건상동상, 대한해협전승비, 자연보호헌장, 시민헌장, ...","""도로, 광장, 파고라, 못, 생태연못, 야영장, 음수대, 휴게소, 야유회장, 전망...",1986.0,2018-08-01
566,부산광역시,,초읍동,어린이대공원,근린공원,4947290.0,"""골프연습장, 배드민턴장""","""케이블카, 어린이유희시설, 가족유희시설, 짚라인""","""제1주차장, 전망대, 매점, 매점(기념품), 휴게음식점, 간이화장실, 공중화장실...","""동물원시설, 어린이회관, 학생수련회야영장, 반공전시관, 전시관, 위인탑, 교육문화...","""경로당, 야영장, 힐링데크, 트리하우스, 스카이워크, 산림욕장, 관리사무소, 안내...",1978.0,2018-08-01
567,부산광역시,,온천동,금강공원,근린공원,3096579.0,"""배트민턴, 궁도장""","""유희시설, 삭도, 어드벤처, 숲속어드벤처""","""공중화장실, 유스호스텔, 전망대, 주차장""","""해양자연사박물관, 도서관, 민속예술관, 고분, 기념비및사적, 소방안전체험관, 박물...","""도로, 광장, 못, 케스케이드, 미로공원, 녹차체험장, 암석원, 야영장, 힐링캠프...",1965.0,2018-08-01


In [137]:
# 영주동 = 부산광역시 중구 영주동
# 초읍동 = 부산광역시 부산진구 초읍동
# 온천동 = 부산광역시 동래구 온천동
# 위의 결측치 3개에 각 구 삽입해서 결측치 제거하기.

busan_data.loc[(busan_data['gu'].isnull()) & (busan_data['dong'] == '영주동'), 'gu'] = '중구'
busan_data.loc[(busan_data['gu'].isnull()) & (busan_data['dong'] == '초읍동'), 'gu'] = '부산진구'
busan_data.loc[(busan_data['gu'].isnull()) & (busan_data['dong'] == '온천동'), 'gu'] = '동래구'

In [138]:
# 부산광역시의 'gu'열 결측치 재확인.
busan_data[busan_data['gu'].isnull()]

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facitiy,park_facility_other,park_open_year,reference_date


In [139]:
# 서울과 부산의 불필요한 열 제거하기.
# 'dong', 'park_open_year', 'reference_date'열 삭제.

seoul_data = seoul_data.drop(columns = ['park_open_year', 'reference_date'])
busan_data = busan_data.drop(columns = ['park_open_year', 'reference_date'])

In [140]:
# 불필요한 열이 제대로 삭제되었는지 확인.

seoul_data.head(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facitiy,park_facility_other
58,서울특별시,서초구,반포동,반 포,근린공원,26092.2,,,,,
59,서울특별시,서초구,양재동,방아다리1,근린공원,2870.8,,,,,
60,서울특별시,서초구,양재동,방아다리2,근린공원,2934.3,,,,,
61,서울특별시,서초구,양재동,양재천,근린공원,19258.0,,,,,
62,서울특별시,서초구,양재동,마 방,근린공원,6546.6,,,,,
63,서울특별시,서초구,양재동,양 재,근린공원,32523.4,,,,,
64,서울특별시,서초구,서초동,용허리,근린공원,4641.9,,,,,
65,서울특별시,서초구,서초동,명 달,근린공원,5466.4,,,,,
66,서울특별시,서초구,잠원동,사평리,근린공원,1913.7,,,,,
67,서울특별시,서초구,잠원동,잠 원,근린공원,2373.5,,,,,


In [141]:
# 부산의 불필요한 열이 제대로 삭제되었는지 확인.

busan_data.head(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facitiy,park_facility_other
0,부산광역시,남구,대연동,대연공원,근린공원,55227.0,,,,,
1,부산광역시,남구,대연동,당곡공원,역사공원,75465.0,,,,,
2,부산광역시,남구,대연동,대일어린이공원,어린이공원,422.1,,,,,
3,부산광역시,남구,대연동,못골어린이공원,어린이공원,499.8,,,,,
4,부산광역시,남구,용호동,솔밭어린이공원,어린이공원,1500.2,,,,,
5,부산광역시,남구,대연동,UN공원,묘지공원,176486.0,,,,,
6,부산광역시,남구,문현동,지게골어린이공원,어린이공원,1654.0,,,,,
7,부산광역시,남구,문현동,문현어린이공원,어린이공원,364.0,,,,,
8,부산광역시,남구,문현동,개나리어린이공원,어린이공원,370.0,,,,,
9,부산광역시,남구,문현동,통일동산어린이공원,어린이공원,479.0,,,,,


In [142]:
# 'park_cultural_facitiy'의 오타 수정하기.
# 'park_cultural_facitiy' → 'park_cultural_facility'

busan_data.rename(columns={'park_cultural_facitiy': 'park_cultural_facility'}, inplace=True)
seoul_data.rename(columns={'park_cultural_facitiy': 'park_cultural_facility'}, inplace=True)

In [143]:
# 'park_cultural_facility'로 제대로 수정되었는지 확인하기. (서울)
seoul_data.head(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
58,서울특별시,서초구,반포동,반 포,근린공원,26092.2,,,,,
59,서울특별시,서초구,양재동,방아다리1,근린공원,2870.8,,,,,
60,서울특별시,서초구,양재동,방아다리2,근린공원,2934.3,,,,,
61,서울특별시,서초구,양재동,양재천,근린공원,19258.0,,,,,
62,서울특별시,서초구,양재동,마 방,근린공원,6546.6,,,,,
63,서울특별시,서초구,양재동,양 재,근린공원,32523.4,,,,,
64,서울특별시,서초구,서초동,용허리,근린공원,4641.9,,,,,
65,서울특별시,서초구,서초동,명 달,근린공원,5466.4,,,,,
66,서울특별시,서초구,잠원동,사평리,근린공원,1913.7,,,,,
67,서울특별시,서초구,잠원동,잠 원,근린공원,2373.5,,,,,


In [144]:
# park_cultural_facility로 제대로 수정되었는지 확인. (부산)
busan_data.head(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
0,부산광역시,남구,대연동,대연공원,근린공원,55227.0,,,,,
1,부산광역시,남구,대연동,당곡공원,역사공원,75465.0,,,,,
2,부산광역시,남구,대연동,대일어린이공원,어린이공원,422.1,,,,,
3,부산광역시,남구,대연동,못골어린이공원,어린이공원,499.8,,,,,
4,부산광역시,남구,용호동,솔밭어린이공원,어린이공원,1500.2,,,,,
5,부산광역시,남구,대연동,UN공원,묘지공원,176486.0,,,,,
6,부산광역시,남구,문현동,지게골어린이공원,어린이공원,1654.0,,,,,
7,부산광역시,남구,문현동,문현어린이공원,어린이공원,364.0,,,,,
8,부산광역시,남구,문현동,개나리어린이공원,어린이공원,370.0,,,,,
9,부산광역시,남구,문현동,통일동산어린이공원,어린이공원,479.0,,,,,


In [145]:
# 'park_exercise_facility', 'park_entertainment_facility', 'park_benefit_facility', 'park_cultural_facility', 'park_facility_other' 열 정제.

# 각 열에서 '없음' 값 및 결측치를 전부 0으로 수정.
columns_to_clean = ['park_exercise_facility', 'park_entertainment_facility', 'park_benefit_facility', 
                    'park_cultural_facility', 'park_facility_other']

for col in columns_to_clean:
    busan_data[col] = busan_data[col].replace(['없음', None], 0)
    seoul_data[col] = seoul_data[col].replace(['없음', None], 0)

# 각 열에서 '+'를 ','로 수정하기.
for col in ['park_exercise_facility', 'park_entertainment_facility', 'park_benefit_facility', 
            'park_cultural_facility', 'park_facility_other']:
    busan_data[col] = busan_data[col].astype(str).str.replace('+', ',', regex=False)
    seoul_data[col] = seoul_data[col].astype(str).str.replace('+', ',', regex=False)

# ',' 개수를 파악하기.
# ',' 개수에 +1을 해서 모든 시설들을 이름이 아닌 숫자로 개수로 교체하기.
for col in ['park_exercise_facility', 'park_entertainment_facility', 'park_benefit_facility', 
            'park_cultural_facility', 'park_facility_other']:
    busan_data[col] = busan_data[col].apply(lambda x: len(str(x).split(',')) if str(x) != '0' else 0)
    seoul_data[col] = seoul_data[col].apply(lambda x: len(str(x).split(',')) if str(x) != '0' else 0)



In [146]:
# 제대로 수정되었는지 확인. (서울)
seoul_data.tail(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
1265,서울특별시,강서구,마곡동,푸르미,어린이공원,1494.0,0,0,0,0,0
1266,서울특별시,강서구,마곡동,예솔,어린이공원,864.0,0,0,0,0,0
1267,서울특별시,강서구,내발산동,햇빛,어린이공원,2066.0,0,0,0,0,0
1312,서울특별시,구로구,신도림동,미래사랑어린이공원,어린이공원,5870.0,1,1,0,0,0
1313,서울특별시,구로구,신도림동,신도림역문화공원,문화공원,3322.0,0,0,0,0,0
1314,서울특별시,구로구,신도림동,신도림어린이공원,어린이공원,2292.0,1,1,0,0,0
1315,서울특별시,구로구,구로동,희망어린이공원,어린이공원,911.0,1,2,0,0,0
1316,서울특별시,구로구,구로동,꿈마을어린이공원,어린이공원,1609.0,1,3,0,0,0
1317,서울특별시,구로구,구로동,구로리어린이공원,어린이공원,7782.0,1,4,0,0,0
1318,서울특별시,구로구,구로동,솔길어린이공원,어린이공원,1999.0,1,3,0,0,0


In [147]:
# 제대로 수정되었는지 확인. (부산)
busan_data.tail(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
1021,부산광역시,사하구,괴정동,소공원,소공원,1060.0,0,0,0,0,0
1022,부산광역시,사하구,감천동,느티나무공원,소공원,1400.0,0,0,0,0,0
1023,부산광역시,사하구,괴정동,어린이공원,어린이공원,2735.0,0,0,0,0,0
1024,부산광역시,사하구,신평동,어린이공원,어린이공원,2768.0,0,0,0,0,0
1025,부산광역시,사하구,구평동,구평 근린공원,근린공원,12291.8,0,0,0,0,0
1026,부산광역시,사하구,감천동,도시농업공원,도시농업공원,50417.0,0,0,0,0,0
1268,부산광역시,수영구,망미동,강변공원,어린이공원,1316.0,0,0,0,0,0
1269,부산광역시,수영구,망미동,과정공원,어린이공원,631.0,0,0,0,0,0
1270,부산광역시,수영구,광안동,파랑새공원,어린이공원,827.7,0,0,0,0,0
1271,부산광역시,수영구,수영동,수영공원,근린공원,23284.0,0,0,0,0,0


In [148]:
# 서울과 부산의 각 인덱스를 1부터 오름차순으로 정렬하기.
seoul_data = seoul_data.reset_index(drop = True).reset_index()
seoul_data.index = seoul_data.index + 1

busan_data = busan_data.reset_index(drop = True).reset_index()
busan_data.index = busan_data.index + 1


In [149]:
# 제대로 정렬되었는지 확인. (서울)
seoul_data.head(50)

Unnamed: 0,index,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
1,0,서울특별시,서초구,반포동,반 포,근린공원,26092.2,0,0,0,0,0
2,1,서울특별시,서초구,양재동,방아다리1,근린공원,2870.8,0,0,0,0,0
3,2,서울특별시,서초구,양재동,방아다리2,근린공원,2934.3,0,0,0,0,0
4,3,서울특별시,서초구,양재동,양재천,근린공원,19258.0,0,0,0,0,0
5,4,서울특별시,서초구,양재동,마 방,근린공원,6546.6,0,0,0,0,0
6,5,서울특별시,서초구,양재동,양 재,근린공원,32523.4,0,0,0,0,0
7,6,서울특별시,서초구,서초동,용허리,근린공원,4641.9,0,0,0,0,0
8,7,서울특별시,서초구,서초동,명 달,근린공원,5466.4,0,0,0,0,0
9,8,서울특별시,서초구,잠원동,사평리,근린공원,1913.7,0,0,0,0,0
10,9,서울특별시,서초구,잠원동,잠 원,근린공원,2373.5,0,0,0,0,0


In [150]:
# 제대로 잘 정렬되었는지 확인. (부산)
busan_data.head(50)

Unnamed: 0,index,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
1,0,부산광역시,남구,대연동,대연공원,근린공원,55227.0,0,0,0,0,0
2,1,부산광역시,남구,대연동,당곡공원,역사공원,75465.0,0,0,0,0,0
3,2,부산광역시,남구,대연동,대일어린이공원,어린이공원,422.1,0,0,0,0,0
4,3,부산광역시,남구,대연동,못골어린이공원,어린이공원,499.8,0,0,0,0,0
5,4,부산광역시,남구,용호동,솔밭어린이공원,어린이공원,1500.2,0,0,0,0,0
6,5,부산광역시,남구,대연동,UN공원,묘지공원,176486.0,0,0,0,0,0
7,6,부산광역시,남구,문현동,지게골어린이공원,어린이공원,1654.0,0,0,0,0,0
8,7,부산광역시,남구,문현동,문현어린이공원,어린이공원,364.0,0,0,0,0,0
9,8,부산광역시,남구,문현동,개나리어린이공원,어린이공원,370.0,0,0,0,0,0
10,9,부산광역시,남구,문현동,통일동산어린이공원,어린이공원,479.0,0,0,0,0,0


In [151]:
# 서울과 부산의 새로 생긴 index 열 삭제하기.

seoul_data = seoul_data.drop(columns = ['index'])
busan_data = busan_data.drop(columns = ['index'])

In [152]:
# 잘 정렬되었는지 확인. (서울)
seoul_data.head(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
1,서울특별시,서초구,반포동,반 포,근린공원,26092.2,0,0,0,0,0
2,서울특별시,서초구,양재동,방아다리1,근린공원,2870.8,0,0,0,0,0
3,서울특별시,서초구,양재동,방아다리2,근린공원,2934.3,0,0,0,0,0
4,서울특별시,서초구,양재동,양재천,근린공원,19258.0,0,0,0,0,0
5,서울특별시,서초구,양재동,마 방,근린공원,6546.6,0,0,0,0,0
6,서울특별시,서초구,양재동,양 재,근린공원,32523.4,0,0,0,0,0
7,서울특별시,서초구,서초동,용허리,근린공원,4641.9,0,0,0,0,0
8,서울특별시,서초구,서초동,명 달,근린공원,5466.4,0,0,0,0,0
9,서울특별시,서초구,잠원동,사평리,근린공원,1913.7,0,0,0,0,0
10,서울특별시,서초구,잠원동,잠 원,근린공원,2373.5,0,0,0,0,0


In [153]:
# 잘 정렬되었는지 확인. (부산)
busan_data.head(50)

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
1,부산광역시,남구,대연동,대연공원,근린공원,55227.0,0,0,0,0,0
2,부산광역시,남구,대연동,당곡공원,역사공원,75465.0,0,0,0,0,0
3,부산광역시,남구,대연동,대일어린이공원,어린이공원,422.1,0,0,0,0,0
4,부산광역시,남구,대연동,못골어린이공원,어린이공원,499.8,0,0,0,0,0
5,부산광역시,남구,용호동,솔밭어린이공원,어린이공원,1500.2,0,0,0,0,0
6,부산광역시,남구,대연동,UN공원,묘지공원,176486.0,0,0,0,0,0
7,부산광역시,남구,문현동,지게골어린이공원,어린이공원,1654.0,0,0,0,0,0
8,부산광역시,남구,문현동,문현어린이공원,어린이공원,364.0,0,0,0,0,0
9,부산광역시,남구,문현동,개나리어린이공원,어린이공원,370.0,0,0,0,0,0
10,부산광역시,남구,문현동,통일동산어린이공원,어린이공원,479.0,0,0,0,0,0


In [154]:
# 'park_name' column의 공백 제거.
seoul_data['park_name'] = seoul_data['park_name'].str.replace(' ', '', regex = False)
busan_data['park_name'] = busan_data['park_name'].str.replace(' ', '', regex = False)

In [155]:
# 공원 2곳이 행이 중복되어서 중복된 행 삭제하기.
duplicate_rows = busan_data[busan_data.duplicated(subset=['park_name', 'park_type', 'park_area'], keep=False)]

duplicate_rows

Unnamed: 0,city,gu,dong,park_name,park_type,park_area,park_exercise_facility,park_entertainment_facility,park_benefit_facility,park_cultural_facility,park_facility_other
61,부산광역시,부산진구,초읍동,어린이대공원,근린공원,4947290.0,0,0,0,0,0
257,부산광역시,부산진구,초읍동,어린이대공원,근린공원,4947290.0,2,4,8,21,9
258,부산광역시,동래구,온천동,금강공원,근린공원,3096579.0,2,4,4,8,11
305,부산광역시,동래구,온천동,금강공원,근린공원,3096579.0,0,0,0,0,0


In [156]:
# facility가 없는 중복되는 행 삭제하기.
busan_data = busan_data.drop([61, 305])

In [157]:
# seoul_data와 busan_data를 합쳐서 'park_final.csv' 파일을 생성.

# 두 데이터를 하나로 합쳐 csv 파일로 만들기.
park_final = pd.concat([seoul_data, busan_data])

# 파일 경로 설정해 저장하기.
file_path = "C:/Users/USER/Desktop/Real_park_final.csv"
park_final.to_csv(file_path, index = False)

file_path

'C:/Users/USER/Desktop/Real_park_final.csv'