# 2-2_면적추출 

### 순서
1. 데이터 불러오기
    - excel파일을 데이터프레임 형식으로 불러오기
    
    
2. 각 지역별 면적 추출
    - 필요한 데이터만 추출
    - fillna()를 이용해 null값을 대체 
    
    
3. 시군구명 오류 처리
    - 띄어쓰기가 제대로 되지 않은 시군구명 처리

### 필요한 모듈 import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## 1. 데이터 불러오기

### 엑셀파일 불러오기 

In [2]:
df = pd.read_excel('data/2-2/2-2_행정구역별_지목구분별_국토이용현황_2019.xlsx')
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,면적,필지
0,2019,충청북도,괴산군,8.421890e+08,198277
1,,,단양군,7.801587e+08,134664
2,,,보은군,5.842075e+08,164135
3,,,영동군,8.460162e+08,223765
4,,,옥천군,5.372212e+08,179611
...,...,...,...,...,...
264,,,화천군,9.089319e+08,86886
265,,,횡성군,9.980666e+08,204361
266,,강원도 합계,,1.682828e+10,2641240
267,2019 합계,,,1.004013e+11,38993543


## 2. 각 지역별 면적 추출

 - 불필요한 열 삭제

In [3]:
# 불필요한 열 삭제
df = df.drop(['Unnamed: 0','필지'], axis=1)
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,면적
0,충청북도,괴산군,8.421890e+08
1,,단양군,7.801587e+08
2,,보은군,5.842075e+08
3,,영동군,8.460162e+08
4,,옥천군,5.372212e+08
...,...,...,...
264,,화천군,9.089319e+08
265,,횡성군,9.980666e+08
266,강원도 합계,,1.682828e+10
267,,,1.004013e+11


 - fillna()를 이용한 null값  변경

In [4]:
# 셀 병합되어있어 null값으로 나타난 Unnamed: 1컬럼은 fillna를 이용해 앞의 값으로 변경시켜줌
df['Unnamed: 1'] = df['Unnamed: 1'].fillna(method='ffill')
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,면적
0,충청북도,괴산군,8.421890e+08
1,충청북도,단양군,7.801587e+08
2,충청북도,보은군,5.842075e+08
3,충청북도,영동군,8.460162e+08
4,충청북도,옥천군,5.372212e+08
...,...,...,...
264,강원도,화천군,9.089319e+08
265,강원도,횡성군,9.980666e+08
266,강원도 합계,,1.682828e+10
267,강원도 합계,,1.004013e+11


 - 불필요한 행 삭제

In [5]:
# Unnamed: 2는 시/군 컬럼
# null값은 시군구 당 합계 행으로 해당 행 제거 
df.isnull()
df = df.dropna(axis=0)
df

Unnamed: 0,Unnamed: 1,Unnamed: 2,면적
0,충청북도,괴산군,8.421890e+08
1,충청북도,단양군,7.801587e+08
2,충청북도,보은군,5.842075e+08
3,충청북도,영동군,8.460162e+08
4,충청북도,옥천군,5.372212e+08
...,...,...,...
261,강원도,태백시,3.035212e+08
262,강원도,평창군,1.463928e+09
263,강원도,홍천군,1.820310e+09
264,강원도,화천군,9.089319e+08


- 컬럼명 변경

In [6]:
df = df.rename(columns={'Unnamed: 1':'도','Unnamed: 2':'시/군/구'})
df

Unnamed: 0,도,시/군/구,면적
0,충청북도,괴산군,8.421890e+08
1,충청북도,단양군,7.801587e+08
2,충청북도,보은군,5.842075e+08
3,충청북도,영동군,8.460162e+08
4,충청북도,옥천군,5.372212e+08
...,...,...,...
261,강원도,태백시,3.035212e+08
262,강원도,평창군,1.463928e+09
263,강원도,홍천군,1.820310e+09
264,강원도,화천군,9.089319e+08


## 3. 시군구명 오류 처리
- 띄어쓰기 처리가 제대로 되지 않은 시군구명이 있음

In [7]:
df['시/군/구'].unique()

array(['괴산군', '단양군', '보은군', '영동군', '옥천군', '음성군', '제천시', '증평군', '진천군',
       '청주시 상당구', '청주시 서원구', '청주시 청원구', '청주시 흥덕구', '충주시', '계룡시', '공주시',
       '금산군', '논산시', '당진시', '보령시', '부여군', '서산시', '서천군', '아산시', '예산군',
       '천안시동남구', '천안시서북구', '청양군', '태안군', '홍성군', '서귀포시', '제주시', '고창군',
       '군산시', '김제시', '남원시', '무주군', '부안군', '순창군', '완주군', '익산시', '임실군',
       '장수군', '전주시덕진구', '전주시완산구', '정읍시', '진안군', '강진군', '고흥군', '곡성군',
       '광양시', '구례군', '나주시', '담양군', '목포시', '무안군', '보성군', '순천시', '신안군',
       '여수시', '영광군', '영암군', '완도군', '장성군', '장흥군', '진도군', '함평군', '해남군',
       '화순군', '강화군', '계양구', '남동구', '동구', '미추홀구', '부평구', '서구', '연수구',
       '옹진군', '중구', '남구', '북구', '울주군', '세종특별자치시', '강남구', '강동구', '강북구',
       '강서구', '관악구', '광진구', '구로구', '금천구', '노원구', '도봉구', '동대문구', '동작구',
       '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구', '양천구', '영등포구', '용산구',
       '은평구', '종로구', '중랑구', '금정구', '기장군', '동래구', '부산진구', '사상구', '사하구',
       '수영구', '연제구', '영도구', '해운대구', '대덕구', '유성구', '달서구', '달성군', '수성구',
       '광산구', 

In [8]:
# 원본 데이터 상의 오류로 시와 군/구가 띄어쓰기로 구분되어 있지 않은 데이터가 있음
mask = df['시/군/구'].str.contains('시')  # '시'라는 글자를 포함한 데이터만 찾음

for i in mask[mask == True].index:
    # 우선 모든 공백을 제거한 뒤 '시'라는 글자 뒤에 띄어쓰기를 한칸 추가
    # 군/구명 없이 시로만 끝나는 지역도 있기 때문에 strip()을 통해 맨 뒤의 공백 제거
    df.loc[i, '시/군/구'] = df.loc[i, '시/군/구'].replace(' ', '').replace('시', '시 ').strip()
    
    # 시흥시의 경우 지역명 자체에 '시'라는 글자가 들어가서 잘못 생긴 띄어쓰기를 따로 처리
    df.loc[i, '시/군/구'] = df.loc[i, '시/군/구'].replace('시 흥시', '시흥시')
    
    print(i, df.loc[i, '시/군/구'])

6 제천시
9 청주시 상당구
10 청주시 서원구
11 청주시 청원구
12 청주시 흥덕구
13 충주시
15 계룡시
16 공주시
18 논산시
19 당진시
20 보령시
22 서산시
24 아산시
26 천안시 동남구
27 천안시 서북구
32 서귀포시
33 제주시
36 군산시
37 김제시
38 남원시
43 익산시
46 전주시 덕진구
47 전주시 완산구
48 정읍시
54 광양시
56 나주시
58 목포시
61 순천시
63 여수시
91 세종특별자치시
157 경산시
158 경주시
160 구미시
162 김천시
163 문경시
165 상주시
167 안동시
170 영주시
171 영천시
179 포항시 남구
180 포항시 북구
182 거제시
185 김해시
187 밀양시
188 사천시
190 양산시
192 진주시
194 창원시 마산합포구
195 창원시 마산회원구
196 창원시 성산구
197 창원시 의창구
198 창원시 진해구
199 통영시
206 고양시 덕양구
207 고양시 일산동구
208 고양시 일산서구
209 과천시
210 광명시
211 광주시
212 구리시
213 군포시
214 김포시
215 남양주시
216 동두천시
217 부천시
218 성남시 분당구
219 성남시 수정구
220 성남시 중원구
221 수원시 권선구
222 수원시 영통구
223 수원시 장안구
224 수원시 팔달구
225 시흥시
226 안산시 단원구
227 안산시 상록구
228 안성시
229 안양시 동안구
230 안양시 만안구
231 양주시
233 여주시
235 오산시
236 용인시 기흥구
237 용인시 수지구
238 용인시 처인구
239 의왕시
240 의정부시
241 이천시
242 파주시
243 평택시
244 포천시
245 하남시
246 화성시
248 강릉시
250 동해시
251 삼척시
252 속초시
256 원주시
260 춘천시
261 태백시


In [9]:
# 잘 처리되었는지 확인
df['시/군/구'].unique()

array(['괴산군', '단양군', '보은군', '영동군', '옥천군', '음성군', '제천시', '증평군', '진천군',
       '청주시 상당구', '청주시 서원구', '청주시 청원구', '청주시 흥덕구', '충주시', '계룡시', '공주시',
       '금산군', '논산시', '당진시', '보령시', '부여군', '서산시', '서천군', '아산시', '예산군',
       '천안시 동남구', '천안시 서북구', '청양군', '태안군', '홍성군', '서귀포시', '제주시', '고창군',
       '군산시', '김제시', '남원시', '무주군', '부안군', '순창군', '완주군', '익산시', '임실군',
       '장수군', '전주시 덕진구', '전주시 완산구', '정읍시', '진안군', '강진군', '고흥군', '곡성군',
       '광양시', '구례군', '나주시', '담양군', '목포시', '무안군', '보성군', '순천시', '신안군',
       '여수시', '영광군', '영암군', '완도군', '장성군', '장흥군', '진도군', '함평군', '해남군',
       '화순군', '강화군', '계양구', '남동구', '동구', '미추홀구', '부평구', '서구', '연수구',
       '옹진군', '중구', '남구', '북구', '울주군', '세종특별자치시', '강남구', '강동구', '강북구',
       '강서구', '관악구', '광진구', '구로구', '금천구', '노원구', '도봉구', '동대문구', '동작구',
       '마포구', '서대문구', '서초구', '성동구', '성북구', '송파구', '양천구', '영등포구', '용산구',
       '은평구', '종로구', '중랑구', '금정구', '기장군', '동래구', '부산진구', '사상구', '사하구',
       '수영구', '연제구', '영도구', '해운대구', '대덕구', '유성구', '달서구', '달성군', '수성구',
       '광산

- csv파일로 추출한 데이터 저장

In [10]:
df.to_csv('./data/2-2/면적추출.csv', sep=',', na_rep='NaN')

-----------------------