# 데이터 준비하기

## 라이브러리 임포트

In [1]:
import numpy as np
import pandas as pd
import folium
import plotly.express as px
import plotly.graph_objects as go

## 데이터 불러오기

### 행정안전부

주민등록 인구 및 세대현황 : https://jumin.mois.go.kr

그런데, 년간은 **최대 10년**에 한해서 다운로드를 제공하기에 끊어서 다운로드

+ `./data/주민등록인구및세대현황_연간/2012-2021.csv`
+ `./data/주민등록인구및세대현황_연간/2022-2024.csv`

월간은 **최대 5년** 기간에 대해서만 

+ `./data/주민등록 인구 통계 월간/201212-201711.csv`
+ `./data/주민등록 인구 통계 월간/201712-202211.csv`
+ `./data/주민등록 인구 통계 월간/202212-202509.csv`

In [2]:
csv_path = "./data/주민등록인구및세대현황_연간/2012-2021.csv"

In [3]:
# 아래 코드를 수행했을 때 UnicodeDecodeError가 발생하는 지 확인
# df = pd.read_csv(csv_path)
# df.head()

위 코드에서 `UnicodeDecodeError`가 발생한다면,
`Pandas` 에서는 `UTF8` 인코딩으로 디코딩을 수행하는 데,
CSV 파일의 인코딩이 `CP949`라서 서로 맞지 않아 `UnicodeDecodeError`가 발생하는 것입니다.

In [4]:
# 아래와 같이 수행해보세요.
df = pd.read_csv(csv_path, encoding="cp949")
print(df.shape)
df.head()

(18, 61)


Unnamed: 0,행정구역,2012년_총인구수,2012년_세대수,2012년_세대당 인구,2012년_남자 인구수,2012년_여자 인구수,2012년_남여 비율,2013년_총인구수,2013년_세대수,2013년_세대당 인구,...,2020년_세대당 인구,2020년_남자 인구수,2020년_여자 인구수,2020년_남여 비율,2021년_총인구수,2021년_세대수,2021년_세대당 인구,2021년_남자 인구수,2021년_여자 인구수,2021년_남여 비율
0,전국 (1000000000),50948272,20211770,2.52,25504060,25444212,1.0,51141463,20456588,2.5,...,2.24,25841029,25987994,0.99,51638809,23472895,2.2,25746684,25892125,0.99
1,서울특별시 (1100000000),10195318,4177970,2.44,5041336,5153982,0.98,10143645,4182351,2.43,...,2.19,4701723,4966742,0.95,9509458,4426007,2.15,4618040,4891418,0.94
2,부산광역시 (2600000000),3538484,1389526,2.55,1754479,1784005,0.98,3527635,1404663,2.51,...,2.22,1661000,1730946,0.96,3350380,1544663,2.17,1639044,1711336,0.96
3,대구광역시 (2700000000),2505644,948652,2.64,1249320,1256324,0.99,2501588,960265,2.61,...,2.29,1193109,1225237,0.97,2385412,1063893,2.24,1175632,1209780,0.97
4,인천광역시 (2800000000),2843981,1097491,2.59,1431593,1412388,1.01,2879782,1118988,2.57,...,2.32,1473943,1468885,1.0,2948375,1298647,2.27,1476373,1472002,1.0


In [5]:
csv_path = "./data/주민등록인구및세대현황_연간/2022-2024.csv"
df = pd.read_csv(csv_path, encoding="cp949")
print(df.shape)
df.head()

(20, 19)


Unnamed: 0,행정구역,2022년_총인구수,2022년_세대수,2022년_세대당 인구,2022년_남자 인구수,2022년_여자 인구수,2022년_남여 비율,2023년_총인구수,2023년_세대수,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
0,전국 (1000000000),51439038,23705814,2.17,25636951,25802087,0.99,51325329,23914851,2.15,25565736,25759593,0.99,51217221,24118928,2.12,25498324,25718897,0.99
1,서울특별시 (1100000000),9428372,4446296,2.12,4570048,4858324,0.94,9386034,4469417,2.1,4540031,4846003,0.94,9331828,4482063,2.08,4505355,4826473,0.93
2,부산광역시 (2600000000),3317812,1555867,2.13,1619915,1697897,0.95,3293362,1564588,2.1,1605431,1687931,0.95,3266598,1570403,2.08,1589912,1676686,0.95
3,대구광역시 (2700000000),2363691,1070873,2.21,1162865,1200826,0.97,2374960,1094148,2.17,1166803,1208157,0.97,2363629,1104130,2.14,1159601,1204028,0.96
4,인천광역시 (2800000000),2967314,1322632,2.24,1485175,1482139,1.0,2997410,1350912,2.22,1499016,1498394,1.0,3021010,1373827,2.2,1509243,1511767,1.0


## 3개의 DataFrame 합치기

In [6]:
df_list = [
    pd.read_csv("./data/주민등록인구및세대현황_연간/2012-2021.csv", encoding="cp949"),
    pd.read_csv("./data/주민등록인구및세대현황_연간/2022-2024.csv", encoding="cp949"),
]

In [7]:
df = pd.concat(df_list, axis=1)  # axis=0 (아래에 붙이기), axis=1 (오른쪽에 붙이기)
print(df.shape)
df.head()

(20, 80)


Unnamed: 0,행정구역,2012년_총인구수,2012년_세대수,2012년_세대당 인구,2012년_남자 인구수,2012년_여자 인구수,2012년_남여 비율,2013년_총인구수,2013년_세대수,2013년_세대당 인구,...,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
0,전국 (1000000000),50948272,20211770,2.52,25504060,25444212,1.0,51141463,20456588,2.5,...,2.15,25565736,25759593,0.99,51217221,24118928,2.12,25498324,25718897,0.99
1,서울특별시 (1100000000),10195318,4177970,2.44,5041336,5153982,0.98,10143645,4182351,2.43,...,2.1,4540031,4846003,0.94,9331828,4482063,2.08,4505355,4826473,0.93
2,부산광역시 (2600000000),3538484,1389526,2.55,1754479,1784005,0.98,3527635,1404663,2.51,...,2.1,1605431,1687931,0.95,3266598,1570403,2.08,1589912,1676686,0.95
3,대구광역시 (2700000000),2505644,948652,2.64,1249320,1256324,0.99,2501588,960265,2.61,...,2.17,1166803,1208157,0.97,2363629,1104130,2.14,1159601,1204028,0.96
4,인천광역시 (2800000000),2843981,1097491,2.59,1431593,1412388,1.01,2879782,1118988,2.57,...,2.22,1499016,1498394,1.0,3021010,1373827,2.2,1509243,1511767,1.0


## 원하는 컬럼만 가져와서 또 다른 데이터프레임 만들기

In [8]:
print(f"{len(df.columns)}개의 컬럼이 있습니다.")

80개의 컬럼이 있습니다.


In [9]:
df.columns

Index(['행정구역', '2012년_총인구수', '2012년_세대수', '2012년_세대당 인구', '2012년_남자 인구수',
       '2012년_여자 인구수', '2012년_남여 비율', '2013년_총인구수', '2013년_세대수',
       '2013년_세대당 인구', '2013년_남자 인구수', '2013년_여자 인구수', '2013년_남여 비율',
       '2014년_총인구수', '2014년_세대수', '2014년_세대당 인구', '2014년_남자 인구수',
       '2014년_여자 인구수', '2014년_남여 비율', '2015년_총인구수', '2015년_세대수',
       '2015년_세대당 인구', '2015년_남자 인구수', '2015년_여자 인구수', '2015년_남여 비율',
       '2016년_총인구수', '2016년_세대수', '2016년_세대당 인구', '2016년_남자 인구수',
       '2016년_여자 인구수', '2016년_남여 비율', '2017년_총인구수', '2017년_세대수',
       '2017년_세대당 인구', '2017년_남자 인구수', '2017년_여자 인구수', '2017년_남여 비율',
       '2018년_총인구수', '2018년_세대수', '2018년_세대당 인구', '2018년_남자 인구수',
       '2018년_여자 인구수', '2018년_남여 비율', '2019년_총인구수', '2019년_세대수',
       '2019년_세대당 인구', '2019년_남자 인구수', '2019년_여자 인구수', '2019년_남여 비율',
       '2020년_총인구수', '2020년_세대수', '2020년_세대당 인구', '2020년_남자 인구수',
       '2020년_여자 인구수', '2020년_남여 비율', '2021년_총인구수', '2021년_세대수',
       '2021년_세대당 인구', '2021년_남자 인구수', '2021년_여자 인구수', '2

In [10]:
# 데이터 간에 행정구역이 매칭되지 않는 문제 발생
#  - 행정구역 데이터로 매칭되는 것이 아니라, 단순히 오른쪽에 데이터를 추가했기 때문.
#  - 그리고, 행정구역 변경이 있었습니다. (전라북도 → 전북특별자치도, 강원도 → 강원특별자치도)
column_names = ["행정구역", "2012년_총인구수", "2013년_총인구수"]
df.loc[:, column_names]

Unnamed: 0,행정구역,행정구역.1,2012년_총인구수,2013년_총인구수
0,전국 (1000000000),전국 (1000000000),50948272.0,51141463.0
1,서울특별시 (1100000000),서울특별시 (1100000000),10195318.0,10143645.0
2,부산광역시 (2600000000),부산광역시 (2600000000),3538484.0,3527635.0
3,대구광역시 (2700000000),대구광역시 (2700000000),2505644.0,2501588.0
4,인천광역시 (2800000000),인천광역시 (2800000000),2843981.0,2879782.0
5,광주광역시 (2900000000),광주광역시 (2900000000),1469216.0,1472910.0
6,대전광역시 (3000000000),대전광역시 (3000000000),1524583.0,1532811.0
7,울산광역시 (3100000000),울산광역시 (3100000000),1147256.0,1156480.0
8,세종특별자치시 (3600000000),세종특별자치시 (3600000000),113117.0,122153.0
9,경기도 (4100000000),경기도 (4100000000),12093299.0,12234630.0


## outer merge로 모든 행정구역 매칭

In [11]:
df = pd.merge(*df_list, on="행정구역", how="outer")
print(df.shape)
df.head()

(20, 79)


Unnamed: 0,행정구역,2012년_총인구수,2012년_세대수,2012년_세대당 인구,2012년_남자 인구수,2012년_여자 인구수,2012년_남여 비율,2013년_총인구수,2013년_세대수,2013년_세대당 인구,...,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
0,강원도 (4200000000),1538630.0,655301.0,2.35,774273.0,764357.0,1.01,1542263.0,664913.0,2.32,...,,,,,,,,,,
1,강원특별자치도 (5100000000),,,,,,,,,,...,2.01,768449.0,759358.0,1.01,1517766.0,764834.0,1.98,763025.0,754741.0,1.01
2,경기도 (4100000000),12093299.0,4639665.0,2.61,6091035.0,6002264.0,1.01,12234630.0,4712324.0,2.6,...,2.28,6855895.0,6774926.0,1.01,13694685.0,6058202.0,2.26,6882186.0,6812499.0,1.01
3,경상남도 (4800000000),3319314.0,1301439.0,2.55,1670545.0,1648769.0,1.01,3333820.0,1320887.0,2.52,...,2.13,1636987.0,1614171.0,1.01,3228380.0,1537492.0,2.1,1626926.0,1601454.0,1.02
4,경상북도 (4700000000),2698353.0,1125195.0,2.4,1355294.0,1343059.0,1.01,2699440.0,1139387.0,2.37,...,1.99,1290298.0,1264026.0,1.02,2531384.0,1291568.0,1.96,1280547.0,1250837.0,1.02


행정구역 컬럼에서 한글만 추출하고, 코드를 제거합시다.

In [12]:
df["행정구역"] = df["행정구역"].str.extract(r"([ㄱ-힣]+)")
print(df.shape)
df.head()

(20, 79)


Unnamed: 0,행정구역,2012년_총인구수,2012년_세대수,2012년_세대당 인구,2012년_남자 인구수,2012년_여자 인구수,2012년_남여 비율,2013년_총인구수,2013년_세대수,2013년_세대당 인구,...,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
0,강원도,1538630.0,655301.0,2.35,774273.0,764357.0,1.01,1542263.0,664913.0,2.32,...,,,,,,,,,,
1,강원특별자치도,,,,,,,,,,...,2.01,768449.0,759358.0,1.01,1517766.0,764834.0,1.98,763025.0,754741.0,1.01
2,경기도,12093299.0,4639665.0,2.61,6091035.0,6002264.0,1.01,12234630.0,4712324.0,2.6,...,2.28,6855895.0,6774926.0,1.01,13694685.0,6058202.0,2.26,6882186.0,6812499.0,1.01
3,경상남도,3319314.0,1301439.0,2.55,1670545.0,1648769.0,1.01,3333820.0,1320887.0,2.52,...,2.13,1636987.0,1614171.0,1.01,3228380.0,1537492.0,2.1,1626926.0,1601454.0,1.02
4,경상북도,2698353.0,1125195.0,2.4,1355294.0,1343059.0,1.01,2699440.0,1139387.0,2.37,...,1.99,1290298.0,1264026.0,1.02,2531384.0,1291568.0,1.96,1280547.0,1250837.0,1.02


# 원하는 컬럼만 가져와서 또 다른 데이터프레임 만들기

In [13]:
column_names = [
    "행정구역", "2012년_총인구수", "2013년_총인구수", "2014년_총인구수", "2015년_총인구수",
    "2016년_총인구수", "2017년_총인구수", "2018년_총인구수", "2019년_총인구수", "2020년_총인구수",
    "2021년_총인구수", "2022년_총인구수", "2023년_총인구수", "2024년_총인구수",
]

In [14]:
population = df.loc[:, column_names]
print(population.shape)
population.head()

(20, 14)


Unnamed: 0,행정구역,2012년_총인구수,2013년_총인구수,2014년_총인구수,2015년_총인구수,2016년_총인구수,2017년_총인구수,2018년_총인구수,2019년_총인구수,2020년_총인구수,2021년_총인구수,2022년_총인구수,2023년_총인구수,2024년_총인구수
0,강원도,1538630.0,1542263.0,1544442.0,1549507.0,1550806.0,1550142.0,1543052.0,1541502.0,1542840.0,1538492.0,1536498,,
1,강원특별자치도,,,,,,,,,,,0,1527807.0,1517766.0
2,경기도,12093299.0,12234630.0,12357830.0,12522606.0,12716780.0,12873895.0,13077153.0,13239666.0,13427014.0,13565450.0,13589432,13630821.0,13694685.0
3,경상남도,3319314.0,3333820.0,3350257.0,3364702.0,3373871.0,3380404.0,3373988.0,3362553.0,3340216.0,3314183.0,3280493,3251158.0,3228380.0
4,경상북도,2698353.0,2699440.0,2700794.0,2702826.0,2700398.0,2691706.0,2676831.0,2665836.0,2639422.0,2626609.0,2600492,2554324.0,2531384.0


# 행과 열을 바꾸기

In [15]:
population.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
행정구역,강원도,강원특별자치도,경기도,경상남도,경상북도,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,세종특별자치시,울산광역시,인천광역시,전국,전라남도,전라북도,전북특별자치도,제주특별자치도,충청남도,충청북도
2012년_총인구수,1538630,,12093299,3319314,2698353,1469216,2505644,1524583,3538484,10195318,113117,1147256,2843981,50948272,1909618,1873341,,583713,2028777,1565628
2013년_총인구수,1542263,,12234630,3333820,2699440,1472910,2501588,1532811,3527635,10143645,122153,1156480,2879782,51141463,1907172,1872965,,593806,2047631,1572732
2014년_총인구수,1544442,,12357830,3350257,2700794,1475884,2493264,1531809,3519401,10103233,156125,1166377,2902608,51327916,1905780,1871560,,607346,2062273,1578933
2015년_총인구수,1549507,,12522606,3364702,2702826,1472199,2487829,1518775,3513777,10022181,210884,1173534,2925815,51529338,1908996,1869711,,624395,2077649,1583952
2016년_총인구수,1550806,,12716780,3373871,2700398,1469214,2484557,1514370,3498529,9930616,243048,1172304,2943069,51696216,1903914,1864791,,641597,2096727,1591625
2017년_총인구수,1550142,,12873895,3380404,2691706,1463770,2475231,1502227,3470653,9857426,280100,1165132,2948542,51778544,1896424,1854607,,657083,2116770,1594432
2018년_총인구수,1543052,,13077153,3373988,2676831,1459336,2461769,1489936,3441453,9765623,314126,1155623,2954642,51826059,1882970,1836832,,667191,2126282,1599252
2019년_총인구수,1541502,,13239666,3362553,2665836,1456468,2438031,1474870,3413841,9729107,340575,1148019,2957026,51849861,1868745,1818917,,670989,2123709,1600007
2020년_총인구수,1542840,,13427014,3340216,2639422,1450062,2418346,1463882,3391946,9668465,355831,1136017,2942828,51829023,1851549,1804104,,674635,2121029,1600837


"행정구역" 컬럼을 인덱스로 만들고, 역행렬

In [16]:
df = population.set_index("행정구역").T
print(df.shape)
df.head()

(13, 20)


행정구역,강원도,강원특별자치도,경기도,경상남도,경상북도,광주광역시,대구광역시,대전광역시,부산광역시,서울특별시,세종특별자치시,울산광역시,인천광역시,전국,전라남도,전라북도,전북특별자치도,제주특별자치도,충청남도,충청북도
2012년_총인구수,1538630,,12093299,3319314,2698353,1469216,2505644,1524583,3538484,10195318,113117,1147256,2843981,50948272,1909618,1873341,,583713,2028777,1565628
2013년_총인구수,1542263,,12234630,3333820,2699440,1472910,2501588,1532811,3527635,10143645,122153,1156480,2879782,51141463,1907172,1872965,,593806,2047631,1572732
2014년_총인구수,1544442,,12357830,3350257,2700794,1475884,2493264,1531809,3519401,10103233,156125,1166377,2902608,51327916,1905780,1871560,,607346,2062273,1578933
2015년_총인구수,1549507,,12522606,3364702,2702826,1472199,2487829,1518775,3513777,10022181,210884,1173534,2925815,51529338,1908996,1869711,,624395,2077649,1583952
2016년_총인구수,1550806,,12716780,3373871,2700398,1469214,2484557,1514370,3498529,9930616,243048,1172304,2943069,51696216,1903914,1864791,,641597,2096727,1591625


## 컬럼명 확인하기

In [17]:
df.columns

Index(['강원도', '강원특별자치도', '경기도', '경상남도', '경상북도', '광주광역시', '대구광역시', '대전광역시',
       '부산광역시', '서울특별시', '세종특별자치시', '울산광역시', '인천광역시', '전국', '전라남도', '전라북도',
       '전북특별자치도', '제주특별자치도', '충청남도', '충청북도'],
      dtype='object', name='행정구역')

# 데이터 타입 확인하기

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13 entries, 2012년_총인구수 to 2024년_총인구수
Data columns (total 20 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   강원도      11 non-null     object
 1   강원특별자치도  3 non-null      object
 2   경기도      13 non-null     object
 3   경상남도     13 non-null     object
 4   경상북도     13 non-null     object
 5   광주광역시    13 non-null     object
 6   대구광역시    13 non-null     object
 7   대전광역시    13 non-null     object
 8   부산광역시    13 non-null     object
 9   서울특별시    13 non-null     object
 10  세종특별자치시  13 non-null     object
 11  울산광역시    13 non-null     object
 12  인천광역시    13 non-null     object
 13  전국       13 non-null     object
 14  전라남도     13 non-null     object
 15  전라북도     12 non-null     object
 16  전북특별자치도  2 non-null      object
 17  제주특별자치도  13 non-null     object
 18  충청남도     13 non-null     object
 19  충청북도     13 non-null     object
dtypes: object(20)
memory usage: 2.1+ KB


In [27]:
# 문자열에서 콤마를 제거하고, 숫자로 변환
df = df.apply(lambda col: col.str.replace(",", "")).apply(pd.to_numeric)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 13 entries, 2012년_총인구수 to 2024년_총인구수
Data columns (total 20 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   강원도      11 non-null     float64
 1   강원특별자치도  3 non-null      float64
 2   경기도      13 non-null     int64  
 3   경상남도     13 non-null     int64  
 4   경상북도     13 non-null     int64  
 5   광주광역시    13 non-null     int64  
 6   대구광역시    13 non-null     int64  
 7   대전광역시    13 non-null     int64  
 8   부산광역시    13 non-null     int64  
 9   서울특별시    13 non-null     int64  
 10  세종특별자치시  13 non-null     int64  
 11  울산광역시    13 non-null     int64  
 12  인천광역시    13 non-null     int64  
 13  전국       13 non-null     int64  
 14  전라남도     13 non-null     int64  
 15  전라북도     12 non-null     float64
 16  전북특별자치도  2 non-null      float64
 17  제주특별자치도  13 non-null     int64  
 18  충청남도     13 non-null     int64  
 19  충청북도     13 non-null     int64  
dtypes: float64(4), int64(16)
memory usage: 2.1+ 

## 전처리한 데이터를 저장하기

In [28]:
# 디폴트로 utf8 로 저장합시다. utf8 인코딩이 전세계 표준입니다.
df.to_csv("./data/전처리한_인구데이터.csv")