# **1. 면적 데이터 전처리**
### **1. 데이터 불러오기**
##### 1. 면적데이터 파일

In [30]:
import pandas as pd
import matplotlib.pyplot as plt

df_area = pd.read_csv('./dataset/pop_density/Daegu_area.csv')

df_area

Unnamed: 0,행정구역,면적(km²)
0,고성동,0.53
1,칠성동,1.36
2,침산1동,1.21
3,침산2동,0.99
4,침산3동,1.07
...,...,...
138,옥포읍,48.94
139,현풍읍,24.47
140,가창면,111.17
141,하빈면,36.70


### **2. 인구수 데이터와 면적 데이터 JOIN**
##### 1. 인구수 데이터 불러오기

In [31]:
df_pop = pd.read_csv('./dataset/pop_density/Daegu_population.csv', index_col=0)

df_pop

Unnamed: 0,행정구역,year,month,count
0,동인1.2.4가동,2010,10,6091
1,동인3가동,2010,10,4649
2,삼덕동,2010,10,4523
3,성내1동,2010,10,4525
4,성내2동,2010,10,5097
...,...,...,...,...
19822,범물1동,2022,4,11205
19823,범물2동,2022,4,16932
19824,고산1동,2022,4,31014
19825,고산2동,2022,4,28518


##### 2. 면적 데이터와 join

In [32]:
df_JOIN = pd.merge(df_pop, df_area, left_on='행정구역', right_on='행정구역', how='outer')

df_JOIN

Unnamed: 0,행정구역,year,month,count,면적(km²)
0,동인1.2.4가동,2010,10,6091,
1,동인1.2.4가동,2010,11,6083,
2,동인1.2.4가동,2010,12,6120,
3,동인1.2.4가동,2011,1,6112,
4,동인1.2.4가동,2011,2,6112,
...,...,...,...,...,...
19822,고산3동,2021,12,33191,5.01
19823,고산3동,2022,1,33164,5.01
19824,고산3동,2022,2,33029,5.01
19825,고산3동,2022,3,32947,5.01


### **3. JOIN한 데이터 확인**

##### 1. JOIN한 데이터의 null 값 확인 및 처리

In [34]:
# null 값 확인

df_JOIN['면적(km²)'].isnull().sum()

695

In [35]:
# null 값이 있는 행 확인

df_JOIN[df_JOIN['면적(km²)'].isnull()]

Unnamed: 0,행정구역,year,month,count,면적(km²)
0,동인1.2.4가동,2010,10,6091,
1,동인1.2.4가동,2010,11,6083,
2,동인1.2.4가동,2010,12,6120,
3,동인1.2.4가동,2011,1,6112,
4,동인1.2.4가동,2011,2,6112,
...,...,...,...,...,...
16330,유가면,2018,8,0,
16331,유가면,2018,9,0,
16332,유가면,2018,10,0,
16333,유가면,2018,11,0,


##### 2. 행정구역 목록 확인

In [37]:
# null 값이 들어있는 행정구역 목록 (겹치지 않는 행정구역)

df_JOIN[df_JOIN['면적(km²)'].isnull()].groupby('행정구역').sum().index

Index(['논공읍공단출장소', '다사읍서재출장소', '대현1동', '대현2동', '동인1.2.4가동', '동인3가동', '두류1동',
       '두류2동', '성당1동', '성당2동', '옥포면', '유가면', '현풍면'],
      dtype='object', name='행정구역')

In [38]:
# area 파일의 행정구역 이름을 확인

df_area['행정구역'].values

array(['고성동', '칠성동', '침산1동', '침산2동', '침산3동', '산격1동', '산격2동', '산격3동',
       '산격4동', '대현동', '복현1동', '복현2동', '검단동', '노원동', '무태조야동', '관문동',
       '태전1동', '태전2동', '구암동', '관음동', '읍내동', '동천동', '국우동', '동인동', '삼덕동',
       '성내1동', '성내2동', '성내3동', '대신동', '남산1동', '남산2동', '남산3동', '남산4동',
       '대봉1동', '대봉2동', '내당1동', '내당2.3동', '내당4동', '비산1동', '비산2.3동', '비산4동',
       '비산5동', '비산6동', '비산7동', '평리1동', '평리2동', '평리3동', '평리4동', '평리5동',
       '평리6동', '상중이동', '원대동', '성당동', '두류1.2동', '두류3동', '본리동', '감삼동',
       '죽전동', '장기동', '용산1동', '용산2동', '이곡1동', '이곡2동', '신당동', '월성1동',
       '월성2동', '진천동', '유천동', '상인1동', '상인2동', '상인3동', '도원동', '송현1동',
       '송현2동', '본동', '이천동', '봉덕1동', '봉덕2동', '봉덕3동', '대명1동', '대명2동',
       '대명3동', '대명4동', '대명5동', '대명6동', '대명9동', '대명10동', '대명11동', '신암1동',
       '신암2동', '신암3동', '신암4동', '신암5동', '신천1.2동', '신천3동', '신천4동', '효목1동',
       '효목2동', '도평동', '불로.봉무동', '지저동', '동촌동', '방촌동', '해안동', '안심1동',
       '안심2동', '안심3동', '안심4동', '혁신동', '안심3.4동', '공산동', '범어1동', '범어2동',
       '범어3동', '범

In [39]:
# pop 파일의 행정구역 이름을 확인

df_pop['행정구역'].unique()

array(['동인1.2.4가동', '동인3가동', '삼덕동', '성내1동', '성내2동', '성내3동', '대신동', '남산1동',
       '남산2동', '남산3동', '남산4동', '대봉1동', '대봉2동', '동인동', '신암1동', '신암2동',
       '신암3동', '신암4동', '신암5동', '신천1.2동', '신천3동', '신천4동', '효목1동', '효목2동',
       '도평동', '불로.봉무동', '지저동', '동촌동', '방촌동', '해안동', '안심1동', '안심2동',
       '안심3.4동', '공산동', '안심3동', '안심4동', '혁신동', '내당1동', '내당2.3동', '내당4동',
       '비산1동', '비산2.3동', '비산4동', '비산5동', '비산6동', '비산7동', '평리1동', '평리2동',
       '평리3동', '평리4동', '평리5동', '평리6동', '상중이동', '원대동', '이천동', '봉덕1동',
       '봉덕2동', '봉덕3동', '대명1동', '대명2동', '대명3동', '대명4동', '대명5동', '대명6동',
       '대명9동', '대명10동', '대명11동', '고성동', '칠성동', '침산1동', '침산2동', '침산3동',
       '산격1동', '산격2동', '산격3동', '산격4동', '대현1동', '대현2동', '복현1동', '복현2동',
       '검단동', '무태조야동', '관문동', '태전1동', '태전2동', '구암동', '관음동', '읍내동', '동천동',
       '노원동', '국우동', '대현동', '성당1동', '성당2동', '두류1동', '두류2동', '두류3동', '감삼동',
       '죽전동', '장기동', '용산1동', '용산2동', '이곡1동', '이곡2동', '신당동', '본리동', '월성1동',
       '월성2동', '진천동', '상인1동', '상인2동', '상인3동', '도원동', '송현1동', '

In [40]:
# 파일명 체크용 코드

'다사읍' in list(df_area['행정구역'].values)

True

# **2. 결측값 없이 JOIN을 위해 전처리**
### **1. 데이터 불러오기**

##### 1. 인구수 데이터 불러오기

In [41]:
# 인구수 데이터 불러오기
df_pop = pd.read_csv('./dataset/pop_density/Daegu_population.csv', index_col=0, thousands = ',')

df_pop

Unnamed: 0,행정구역,year,month,count
0,동인1.2.4가동,2010,10,6091
1,동인3가동,2010,10,4649
2,삼덕동,2010,10,4523
3,성내1동,2010,10,4525
4,성내2동,2010,10,5097
...,...,...,...,...
19822,범물1동,2022,4,11205
19823,범물2동,2022,4,16932
19824,고산1동,2022,4,31014
19825,고산2동,2022,4,28518


##### 2. 면적 데이터 불러오기

In [42]:
# 면적 데이터 불러오기
df_area = pd.read_csv('./dataset/pop_density/Daegu_area.csv')

df_area

Unnamed: 0,행정구역,면적(km²)
0,고성동,0.53
1,칠성동,1.36
2,침산1동,1.21
3,침산2동,0.99
4,침산3동,1.07
...,...,...
138,옥포읍,48.94
139,현풍읍,24.47
140,가창면,111.17
141,하빈면,36.70


### 2. 전처리

참고

* 2018년 3월 1일 : 유가면이 유가읍으로 승격하였다.[17] (4읍 5면)
* 2018년 11월 1일 : 옥포면, 현풍면이 옥포읍, 현풍읍으로 각각 승격하였다. (6읍 3면)  
출처 : https://ko.wikipedia.org/wiki/%EB%8B%AC%EC%84%B1%EA%B5%B0

In [43]:
# '논공읍공단출장소'를 '논공읍'으로 표기
df_pop.loc[df_pop['행정구역'] == '논공읍공단출장소', ['행정구역']] = '논공읍'

# '다사읍서재출장소'를 '다사읍'으로 표기
df_pop.loc[df_pop['행정구역'] == '다사읍서재출장소', ['행정구역']] = '다사읍'

# '대현1동'과 '대현2동'을 '대현동'으로 결합
df_pop.loc[(df_pop['행정구역'] == '대현1동') | (df_pop['행정구역'] == '대현2동'), ['행정구역']] = '대현동'

# '동인1.2.4가동'과 '동인3가동'을 '동인동'으로 결합
df_pop.loc[(df_pop['행정구역'] == '동인1.2.4가동') | (df_pop['행정구역'] == '동인3가동'), ['행정구역']] = '동인동'

# '두류1동'과 '두류2동'을 '두류1.2동'으로 결합
df_pop.loc[(df_pop['행정구역'] == '두류1동') | (df_pop['행정구역'] == '두류2동'), ['행정구역']] = '두류1.2동'

# '성당1동'과 '성당2동'을 '성당동'으로 결합
df_pop.loc[(df_pop['행정구역'] == '성당1동') | (df_pop['행정구역'] == '성당2동'), ['행정구역']] = '성당동'

# '옥표면', '유가면', '현풍면'을 각각 읍으로 변경
df_pop.loc[df_pop['행정구역'] == '옥포면', ['행정구역']] = '옥포읍'
df_pop.loc[df_pop['행정구역'] == '유가면', ['행정구역']] = '유가읍'
df_pop.loc[df_pop['행정구역'] == '현풍면', ['행정구역']] = '현풍읍'

In [44]:
df_pop

Unnamed: 0,행정구역,year,month,count
0,동인동,2010,10,6091
1,동인동,2010,10,4649
2,삼덕동,2010,10,4523
3,성내1동,2010,10,4525
4,성내2동,2010,10,5097
...,...,...,...,...
19822,범물1동,2022,4,11205
19823,범물2동,2022,4,16932
19824,고산1동,2022,4,31014
19825,고산2동,2022,4,28518


* 교체하면서 중복이 생긴 행정구역 명별로 count를 합치기

In [45]:
df_pop = df_pop.groupby(['행정구역','year','month']).sum().reset_index()

* 합친 파일 확인

In [46]:
len(df_pop['행정구역'].unique())

143

In [47]:
df_pop

Unnamed: 0,행정구역,year,month,count
0,가창면,2010,10,9002
1,가창면,2010,11,8969
2,가창면,2010,12,8936
3,가창면,2011,1,8892
4,가창면,2011,2,8731
...,...,...,...,...
19400,효목2동,2021,12,13167
19401,효목2동,2022,1,13121
19402,효목2동,2022,2,13098
19403,효목2동,2022,3,13070


# **3. 전처리한 데이터로 다시 JOIN**

In [48]:
# 면적 데이터와 join

df_join = pd.merge(df_pop, df_area, left_on='행정구역', right_on='행정구역', how='outer')

df_join

Unnamed: 0,행정구역,year,month,count,면적(km²)
0,가창면,2010,10,9002,111.17
1,가창면,2010,11,8969,111.17
2,가창면,2010,12,8936,111.17
3,가창면,2011,1,8892,111.17
4,가창면,2011,2,8731,111.17
...,...,...,...,...,...
19400,효목2동,2021,12,13167,0.72
19401,효목2동,2022,1,13121,0.72
19402,효목2동,2022,2,13098,0.72
19403,효목2동,2022,3,13070,0.72


In [49]:
df_join[df_join['면적(km²)'].isnull()].groupby('행정구역').sum() # 인구수 null 값

Unnamed: 0_level_0,year,month,count,면적(km²)
행정구역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [50]:
df_join[df_join['면적(km²)'].isnull()].groupby('행정구역').sum() # 면적 null 값

Unnamed: 0_level_0,year,month,count,면적(km²)
행정구역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [51]:
# 행정구역 개수 확인

len(df_join['행정구역'].unique())

143

In [52]:
# 인구수를 면적으로 나눈 인구밀도 column 생성

df_join['인구밀도'] = df_join['count'] / df_join['면적(km²)']

df_join = df_join.astype({'인구밀도' : 'int64'})

df_join = df_join.sort_index(ascending=True)

df_join

Unnamed: 0,행정구역,year,month,count,면적(km²),인구밀도
0,가창면,2010,10,9002,111.17,80
1,가창면,2010,11,8969,111.17,80
2,가창면,2010,12,8936,111.17,80
3,가창면,2011,1,8892,111.17,79
4,가창면,2011,2,8731,111.17,78
...,...,...,...,...,...,...
19400,효목2동,2021,12,13167,0.72,18287
19401,효목2동,2022,1,13121,0.72,18223
19402,효목2동,2022,2,13098,0.72,18191
19403,효목2동,2022,3,13070,0.72,18152


In [None]:
# 저장

df_join.to_csv('./dataset/pop_density/Daegu_density.csv', mode='w')