# 행정안전부 인구데이터

In [1]:
import pandas as pd

In [2]:
# pd.DataFrame  # 2차원 데이터를 담을 수 있어요. (표, 엑셀 시트)
# pd.Series     # 1차원 데이터를 담을 수 있어요. (한 컬럼, 한 행)

In [3]:
pd.Series()  # 빈 시리즈

Series([], dtype: object)

In [4]:
pd.Series([1, 2, 3, 4, 5])  # list to Series 변환

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [5]:
pd.Series([1, 2, 3, 4, 5]) * 10

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [6]:
numbers = [1, 2, 3, 4, 5]
[n * 10 for n in numbers]

[10, 20, 30, 40, 50]

## 인구 데이터 읽어오기

만약 아래에서 UnicodeDecodeError가 발생한다면 그 이유는 ...

+ csv 파일을 만든 사람이 지정한 파일의 인코딩과
+ pd.read_csv 에서 수행하는 인코딩이 서로 달라서 에러가 발생하는 것입니다.

In [9]:
# pd.read_csv 는 디폴트로 utf8 로 디코딩을 합니다. encoding 인자로 다른 인코딩을 지정할 수 있어요.

df = pd.read_csv("data/행정안전부_인구데이터/200812_201412_주민등록인구및세대현황_연간.csv",
                 encoding="cp949")  # 다양한 데이터소스로부터 데이터를 읽어, DataFrame 생성을 도와주는 함수
# 데이터프레임의 행의 수와 열의 수를 출력 (로딩한 데이터 크기 확인)
# 엉뚱한 데이터를 로딩했을 수도 있으니, 1차적으로 크기 부터 확인
print(df.shape)
df.head()  # 첫 5개행 출력

(18, 43)


Unnamed: 0,행정구역,2008년_총인구수,2008년_세대수,2008년_세대당 인구,2008년_남자 인구수,2008년_여자 인구수,2008년_남여 비율,2009년_총인구수,2009년_세대수,2009년_세대당 인구,...,2013년_세대당 인구,2013년_남자 인구수,2013년_여자 인구수,2013년_남여 비율,2014년_총인구수,2014년_세대수,2014년_세대당 인구,2014년_남자 인구수,2014년_여자 인구수,2014년_남여 비율
0,전국 (1000000000),49540367,19005339,2.61,24822897,24717470,1.0,49773145,19261292,2.58,...,2.5,25588336,25553127,1.0,51327916,20724094,2.48,25669296,25658620,1.0
1,서울특별시 (1100000000),10200827,4097562,2.49,5061809,5139018,0.98,10208302,4116660,2.48,...,2.43,5007869,5135776,0.98,10103233,4194176,2.41,4979768,5123465,0.97
2,부산광역시 (2600000000),3564577,1311724,2.72,1773154,1791423,0.99,3543030,1323771,2.68,...,2.51,1747000,1780635,0.98,3519401,1421648,2.48,1740417,1778984,0.98
3,대구광역시 (2700000000),2492724,894969,2.79,1246873,1245851,1.0,2489781,906470,2.75,...,2.61,1246071,1255517,0.99,2493264,970618,2.57,1241119,1252145,0.99
4,인천광역시 (2800000000),2692696,1014755,2.65,1356473,1336223,1.02,2710579,1026936,2.64,...,2.57,1448835,1430947,1.01,2902608,1136280,2.55,1459074,1443534,1.01


In [10]:
df.columns

Index(['행정구역', '2008년_총인구수', '2008년_세대수', '2008년_세대당 인구', '2008년_남자 인구수',
       '2008년_여자 인구수', '2008년_남여 비율', '2009년_총인구수', '2009년_세대수',
       '2009년_세대당 인구', '2009년_남자 인구수', '2009년_여자 인구수', '2009년_남여 비율',
       '2010년_총인구수', '2010년_세대수', '2010년_세대당 인구', '2010년_남자 인구수',
       '2010년_여자 인구수', '2010년_남여 비율', '2011년_총인구수', '2011년_세대수',
       '2011년_세대당 인구', '2011년_남자 인구수', '2011년_여자 인구수', '2011년_남여 비율',
       '2012년_총인구수', '2012년_세대수', '2012년_세대당 인구', '2012년_남자 인구수',
       '2012년_여자 인구수', '2012년_남여 비율', '2013년_총인구수', '2013년_세대수',
       '2013년_세대당 인구', '2013년_남자 인구수', '2013년_여자 인구수', '2013년_남여 비율',
       '2014년_총인구수', '2014년_세대수', '2014년_세대당 인구', '2014년_남자 인구수',
       '2014년_여자 인구수', '2014년_남여 비율'],
      dtype='object')

In [11]:
# "행정구역" 컬럼만 조회
df["행정구역"]  # 1차원 데이터 (Series)

0          전국  (1000000000)
1       서울특별시  (1100000000)
2       부산광역시  (2600000000)
3       대구광역시  (2700000000)
4       인천광역시  (2800000000)
5       광주광역시  (2900000000)
6       대전광역시  (3000000000)
7       울산광역시  (3100000000)
8     세종특별자치시  (3600000000)
9         경기도  (4100000000)
10        강원도  (4200000000)
11       충청북도  (4300000000)
12       충청남도  (4400000000)
13       전라북도  (4500000000)
14       전라남도  (4600000000)
15       경상북도  (4700000000)
16       경상남도  (4800000000)
17    제주특별자치도  (5000000000)
Name: 행정구역, dtype: object

In [13]:
# "행정구역", "2008년_총인구수" 컬럼만 조회
column_names = ["행정구역", "2008년_총인구수"]
df[column_names]  # 2차원 데이터 (DataFrame)

Unnamed: 0,행정구역,2008년_총인구수
0,전국 (1000000000),49540367
1,서울특별시 (1100000000),10200827
2,부산광역시 (2600000000),3564577
3,대구광역시 (2700000000),2492724
4,인천광역시 (2800000000),2692696
5,광주광역시 (2900000000),1422702
6,대전광역시 (3000000000),1480895
7,울산광역시 (3100000000),1112407
8,세종특별자치시 (3600000000),0
9,경기도 (4100000000),11292264


In [14]:
# "행정구역", 각 해의 총인구수 컬럼만 조회
column_names = ["행정구역", "2008년_총인구수", "2009년_총인구수", "2010년_총인구수", "2011년_총인구수",
                "2012년_총인구수", "2013년_총인구수", "2014년_총인구수"]
df[column_names]  # 2차원 데이터 (DataFrame)

Unnamed: 0,행정구역,2008년_총인구수,2009년_총인구수,2010년_총인구수,2011년_총인구수,2012년_총인구수,2013년_총인구수,2014년_총인구수
0,전국 (1000000000),49540367,49773145.0,50515666.0,50734284.0,50948272,51141463,51327916
1,서울특별시 (1100000000),10200827,10208302.0,10312545.0,10249679.0,10195318,10143645,10103233
2,부산광역시 (2600000000),3564577,3543030.0,3567910.0,3550963.0,3538484,3527635,3519401
3,대구광역시 (2700000000),2492724,2489781.0,2511676.0,2507271.0,2505644,2501588,2493264
4,인천광역시 (2800000000),2692696,2710579.0,2758296.0,2801274.0,2843981,2879782,2902608
5,광주광역시 (2900000000),1422702,1433640.0,1454636.0,1463464.0,1469216,1472910,1475884
6,대전광역시 (3000000000),1480895,1484180.0,1503664.0,1515603.0,1524583,1532811,1531809
7,울산광역시 (3100000000),1112407,1114866.0,1126298.0,1135494.0,1147256,1156480,1166377
8,세종특별자치시 (3600000000),0,,,,113117,122153,156125
9,경기도 (4100000000),11292264,11460610.0,11786622.0,11937415.0,12093299,12234630,12357830


In [96]:
# 컬럼명이나 인덱스명들의 수가 많고, 패턴이 보이면, 이렇게 일일이 타이핑치지 않고
# 코드를 통해 컬럼명/인덱스명 리스트를 만들어서 활용하셔도 좋습니다.

column_names = ["행정구역"]
for year in range(2008, 2015):
    column_names.append(f"{year}년_총인구수")
df[column_names]

Unnamed: 0,행정구역,2008년_총인구수,2009년_총인구수,2010년_총인구수,2011년_총인구수,2012년_총인구수,2013년_총인구수,2014년_총인구수
0,전국 (1000000000),49540367,49773145.0,50515666.0,50734284.0,50948272,51141463,51327916
1,서울특별시 (1100000000),10200827,10208302.0,10312545.0,10249679.0,10195318,10143645,10103233
2,부산광역시 (2600000000),3564577,3543030.0,3567910.0,3550963.0,3538484,3527635,3519401
3,대구광역시 (2700000000),2492724,2489781.0,2511676.0,2507271.0,2505644,2501588,2493264
4,인천광역시 (2800000000),2692696,2710579.0,2758296.0,2801274.0,2843981,2879782,2902608
5,광주광역시 (2900000000),1422702,1433640.0,1454636.0,1463464.0,1469216,1472910,1475884
6,대전광역시 (3000000000),1480895,1484180.0,1503664.0,1515603.0,1524583,1532811,1531809
7,울산광역시 (3100000000),1112407,1114866.0,1126298.0,1135494.0,1147256,1156480,1166377
8,세종특별자치시 (3600000000),0,,,,113117,122153,156125
9,경기도 (4100000000),11292264,11460610.0,11786622.0,11937415.0,12093299,12234630,12357830


## 인덱스를 살펴봅시다.

In [20]:
df.index

RangeIndex(start=0, stop=18, step=1)

In [22]:
# df[0]  # 컬럼명을 지정할 때 쓰는 문법입니다. 컬럼명 중에서 컬럼명 0 이 없기에 KeyError

In [25]:
df.loc[0]  # 인덱스 지정할 때 쓰는 문법

행정구역            전국  (1000000000)
2008년_총인구수            49,540,367
2008년_세대수             19,005,339
2008년_세대당 인구                2.61
2008년_남자 인구수          24,822,897
2008년_여자 인구수          24,717,470
2008년_남여 비율                  1.0
2009년_총인구수            49,773,145
2009년_세대수             19,261,292
2009년_세대당 인구                2.58
2009년_남자 인구수          24,929,939
2009년_여자 인구수          24,843,206
2009년_남여 비율                  1.0
2010년_총인구수            50,515,666
2010년_세대수             19,865,179
2010년_세대당 인구                2.54
2010년_남자 인구수          25,310,385
2010년_여자 인구수          25,205,281
2010년_남여 비율                  1.0
2011년_총인구수            50,734,284
2011년_세대수             20,033,142
2011년_세대당 인구                2.53
2011년_남자 인구수          25,406,934
2011년_여자 인구수          25,327,350
2011년_남여 비율                  1.0
2012년_총인구수            50,948,272
2012년_세대수             20,211,770
2012년_세대당 인구                2.52
2012년_남자 인구수          25,504,060
2012년_여자 인구수          25,444,212
2012년_남여 비

In [32]:
df.loc[0, "행정구역"]  # loc[인덱스명, 컬럼명] 문법으로 특정 Cell 값 조회

'전국  (1000000000)'

In [33]:
df.loc[[0, 1], ["2008년_총인구수", "2009년_총인구수"]]

Unnamed: 0,2008년_총인구수,2009년_총인구수
0,49540367,49773145
1,10200827,10208302


In [36]:
# 행정구역 컬럼을 인덱스로 쓰고 싶어.
행정구역_인덱스_df = df.set_index("행정구역")  # 원본 df는 변경되지 않고, 새로운 df 반환
print(행정구역_인덱스_df.shape)
행정구역_인덱스_df.head()

(18, 42)


Unnamed: 0_level_0,2008년_총인구수,2008년_세대수,2008년_세대당 인구,2008년_남자 인구수,2008년_여자 인구수,2008년_남여 비율,2009년_총인구수,2009년_세대수,2009년_세대당 인구,2009년_남자 인구수,...,2013년_세대당 인구,2013년_남자 인구수,2013년_여자 인구수,2013년_남여 비율,2014년_총인구수,2014년_세대수,2014년_세대당 인구,2014년_남자 인구수,2014년_여자 인구수,2014년_남여 비율
행정구역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
전국 (1000000000),49540367,19005339,2.61,24822897,24717470,1.0,49773145,19261292,2.58,24929939,...,2.5,25588336,25553127,1.0,51327916,20724094,2.48,25669296,25658620,1.0
서울특별시 (1100000000),10200827,4097562,2.49,5061809,5139018,0.98,10208302,4116660,2.48,5059269,...,2.43,5007869,5135776,0.98,10103233,4194176,2.41,4979768,5123465,0.97
부산광역시 (2600000000),3564577,1311724,2.72,1773154,1791423,0.99,3543030,1323771,2.68,1761202,...,2.51,1747000,1780635,0.98,3519401,1421648,2.48,1740417,1778984,0.98
대구광역시 (2700000000),2492724,894969,2.79,1246873,1245851,1.0,2489781,906470,2.75,1243878,...,2.61,1246071,1255517,0.99,2493264,970618,2.57,1241119,1252145,0.99
인천광역시 (2800000000),2692696,1014755,2.65,1356473,1336223,1.02,2710579,1026936,2.64,1364809,...,2.57,1448835,1430947,1.01,2902608,1136280,2.55,1459074,1443534,1.01


In [37]:
행정구역_인덱스_df.index

Index(['전국  (1000000000)', '서울특별시  (1100000000)', '부산광역시  (2600000000)',
       '대구광역시  (2700000000)', '인천광역시  (2800000000)', '광주광역시  (2900000000)',
       '대전광역시  (3000000000)', '울산광역시  (3100000000)', '세종특별자치시  (3600000000)',
       '경기도  (4100000000)', '강원도  (4200000000)', '충청북도  (4300000000)',
       '충청남도  (4400000000)', '전라북도  (4500000000)', '전라남도  (4600000000)',
       '경상북도  (4700000000)', '경상남도  (4800000000)', '제주특별자치도  (5000000000)'],
      dtype='object', name='행정구역')

In [40]:
행정구역_인덱스_df.loc["대전광역시  (3000000000)", "2008년_총인구수"]

'1,480,895'

In [39]:
# TODO: 대전광역시 2008년 데이터 중에, 총 인구수 외에 다른 데이터도 함께 출력해보세요.

In [41]:
df.columns

Index(['행정구역', '2008년_총인구수', '2008년_세대수', '2008년_세대당 인구', '2008년_남자 인구수',
       '2008년_여자 인구수', '2008년_남여 비율', '2009년_총인구수', '2009년_세대수',
       '2009년_세대당 인구', '2009년_남자 인구수', '2009년_여자 인구수', '2009년_남여 비율',
       '2010년_총인구수', '2010년_세대수', '2010년_세대당 인구', '2010년_남자 인구수',
       '2010년_여자 인구수', '2010년_남여 비율', '2011년_총인구수', '2011년_세대수',
       '2011년_세대당 인구', '2011년_남자 인구수', '2011년_여자 인구수', '2011년_남여 비율',
       '2012년_총인구수', '2012년_세대수', '2012년_세대당 인구', '2012년_남자 인구수',
       '2012년_여자 인구수', '2012년_남여 비율', '2013년_총인구수', '2013년_세대수',
       '2013년_세대당 인구', '2013년_남자 인구수', '2013년_여자 인구수', '2013년_남여 비율',
       '2014년_총인구수', '2014년_세대수', '2014년_세대당 인구', '2014년_남자 인구수',
       '2014년_여자 인구수', '2014년_남여 비율'],
      dtype='object')

In [42]:
column_names = [
    '2008년_총인구수', '2008년_세대수', '2008년_세대당 인구', '2008년_남자 인구수',
   '2008년_여자 인구수', '2008년_남여 비율',
]
행정구역_인덱스_df.loc["대전광역시  (3000000000)", column_names]

2008년_총인구수      1,480,895
2008년_세대수         531,682
2008년_세대당 인구         2.79
2008년_남자 인구수      741,611
2008년_여자 인구수      739,284
2008년_남여 비율           1.0
Name: 대전광역시  (3000000000), dtype: object

## 일련번호로 데이터 접근

In [44]:
행정구역_인덱스_df.iloc[0]  # 0번째 Row

2008년_총인구수      49,540,367
2008년_세대수       19,005,339
2008년_세대당 인구          2.61
2008년_남자 인구수    24,822,897
2008년_여자 인구수    24,717,470
2008년_남여 비율            1.0
2009년_총인구수      49,773,145
2009년_세대수       19,261,292
2009년_세대당 인구          2.58
2009년_남자 인구수    24,929,939
2009년_여자 인구수    24,843,206
2009년_남여 비율            1.0
2010년_총인구수      50,515,666
2010년_세대수       19,865,179
2010년_세대당 인구          2.54
2010년_남자 인구수    25,310,385
2010년_여자 인구수    25,205,281
2010년_남여 비율            1.0
2011년_총인구수      50,734,284
2011년_세대수       20,033,142
2011년_세대당 인구          2.53
2011년_남자 인구수    25,406,934
2011년_여자 인구수    25,327,350
2011년_남여 비율            1.0
2012년_총인구수      50,948,272
2012년_세대수       20,211,770
2012년_세대당 인구          2.52
2012년_남자 인구수    25,504,060
2012년_여자 인구수    25,444,212
2012년_남여 비율            1.0
2013년_총인구수      51,141,463
2013년_세대수       20,456,588
2013년_세대당 인구           2.5
2013년_남자 인구수    25,588,336
2013년_여자 인구수    25,553,127
2013년_남여 비율            1.0
2014년_총인구수      51,327,916
2

In [46]:
# 행정구역_인덱스_df.iloc[0]  # 0부터 1씩 자동 증가하는 일련번호를 지정하여, 0번째 Row
df.loc[0]  # DataFrame의 인덱스인 0을 지정하여, 인덱스 0을 가지는 Row

행정구역            전국  (1000000000)
2008년_총인구수            49,540,367
2008년_세대수             19,005,339
2008년_세대당 인구                2.61
2008년_남자 인구수          24,822,897
2008년_여자 인구수          24,717,470
2008년_남여 비율                  1.0
2009년_총인구수            49,773,145
2009년_세대수             19,261,292
2009년_세대당 인구                2.58
2009년_남자 인구수          24,929,939
2009년_여자 인구수          24,843,206
2009년_남여 비율                  1.0
2010년_총인구수            50,515,666
2010년_세대수             19,865,179
2010년_세대당 인구                2.54
2010년_남자 인구수          25,310,385
2010년_여자 인구수          25,205,281
2010년_남여 비율                  1.0
2011년_총인구수            50,734,284
2011년_세대수             20,033,142
2011년_세대당 인구                2.53
2011년_남자 인구수          25,406,934
2011년_여자 인구수          25,327,350
2011년_남여 비율                  1.0
2012년_총인구수            50,948,272
2012년_세대수             20,211,770
2012년_세대당 인구                2.52
2012년_남자 인구수          25,504,060
2012년_여자 인구수          25,444,212
2012년_남여 비

In [48]:
행정구역_인덱스_df.iloc[0:3]  # 일련번호 0 Row 부터 일련번호 3 Row 미만까지.

Unnamed: 0_level_0,2008년_총인구수,2008년_세대수,2008년_세대당 인구,2008년_남자 인구수,2008년_여자 인구수,2008년_남여 비율,2009년_총인구수,2009년_세대수,2009년_세대당 인구,2009년_남자 인구수,...,2013년_세대당 인구,2013년_남자 인구수,2013년_여자 인구수,2013년_남여 비율,2014년_총인구수,2014년_세대수,2014년_세대당 인구,2014년_남자 인구수,2014년_여자 인구수,2014년_남여 비율
행정구역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
전국 (1000000000),49540367,19005339,2.61,24822897,24717470,1.0,49773145,19261292,2.58,24929939,...,2.5,25588336,25553127,1.0,51327916,20724094,2.48,25669296,25658620,1.0
서울특별시 (1100000000),10200827,4097562,2.49,5061809,5139018,0.98,10208302,4116660,2.48,5059269,...,2.43,5007869,5135776,0.98,10103233,4194176,2.41,4979768,5123465,0.97
부산광역시 (2600000000),3564577,1311724,2.72,1773154,1791423,0.99,3543030,1323771,2.68,1761202,...,2.51,1747000,1780635,0.98,3519401,1421648,2.48,1740417,1778984,0.98


In [52]:
행정구역_인덱스_df.iloc[0:3]["2008년_총인구수"]

행정구역
전국  (1000000000)       49,540,367
서울특별시  (1100000000)    10,200,827
부산광역시  (2600000000)     3,564,577
Name: 2008년_총인구수, dtype: object

## 데이터 연결하기

앞선 행안부 데이터는 10년치 데이터 단위로 다운로드 가능하죠. 2008년~2024년 데이터는 2개의 CSV로 나눠져있습니다.

그러니까, 따로 데이터프레임으로 읽어들이고, 이를 하나의 DataFrame으로 변환해봅시다.

In [60]:
# data 파일이 몇 개 되지 않을 때, 이렇게 직접 경로를 지정해서 DataFrame을 생성
#  - 윈도우에서는 경로구분자가 역슬래시(\)이지만, 파이썬 코드 내에서는 편히 슬래시(/)로 쓰셔도 알아서 처리됩니다.
#  - 경로구분자 역슬래시는 파워쉘에서 경로 지정 시에만 사용하시면 되요.
#  - 대한민국 공공기관에서 받은 csv 파일 로딩 시에 UnicodeDecodeError 가 발생하시면 encoding="cp949"를 붙여보세요.
df1 = pd.read_csv("./data/행정안전부_인구데이터/200812_201412_주민등록인구및세대현황_연간.csv", encoding="cp949")
df2 = pd.read_csv("./data/행정안전부_인구데이터/201512_202412_주민등록인구및세대현황_연간.csv", encoding="cp949")

In [63]:
print(df1.shape)
df1.head()

(18, 43)


Unnamed: 0,행정구역,2008년_총인구수,2008년_세대수,2008년_세대당 인구,2008년_남자 인구수,2008년_여자 인구수,2008년_남여 비율,2009년_총인구수,2009년_세대수,2009년_세대당 인구,...,2013년_세대당 인구,2013년_남자 인구수,2013년_여자 인구수,2013년_남여 비율,2014년_총인구수,2014년_세대수,2014년_세대당 인구,2014년_남자 인구수,2014년_여자 인구수,2014년_남여 비율
0,전국 (1000000000),49540367,19005339,2.61,24822897,24717470,1.0,49773145,19261292,2.58,...,2.5,25588336,25553127,1.0,51327916,20724094,2.48,25669296,25658620,1.0
1,서울특별시 (1100000000),10200827,4097562,2.49,5061809,5139018,0.98,10208302,4116660,2.48,...,2.43,5007869,5135776,0.98,10103233,4194176,2.41,4979768,5123465,0.97
2,부산광역시 (2600000000),3564577,1311724,2.72,1773154,1791423,0.99,3543030,1323771,2.68,...,2.51,1747000,1780635,0.98,3519401,1421648,2.48,1740417,1778984,0.98
3,대구광역시 (2700000000),2492724,894969,2.79,1246873,1245851,1.0,2489781,906470,2.75,...,2.61,1246071,1255517,0.99,2493264,970618,2.57,1241119,1252145,0.99
4,인천광역시 (2800000000),2692696,1014755,2.65,1356473,1336223,1.02,2710579,1026936,2.64,...,2.57,1448835,1430947,1.01,2902608,1136280,2.55,1459074,1443534,1.01


In [64]:
print(df2.shape)
df2.head()

(20, 61)


Unnamed: 0,행정구역,2015년_총인구수,2015년_세대수,2015년_세대당 인구,2015년_남자 인구수,2015년_여자 인구수,2015년_남여 비율,2016년_총인구수,2016년_세대수,2016년_세대당 인구,...,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
0,전국 (1000000000),51529338,21011152,2.45,25758186,25771152,1.0,51696216,21294009,2.43,...,2.15,25565736,25759593,0.99,51217221,24118928,2.12,25498324,25718897,0.99
1,서울특별시 (1100000000),10022181,4189948,2.39,4930943,5091238,0.97,9930616,4189839,2.37,...,2.1,4540031,4846003,0.94,9331828,4482063,2.08,4505355,4826473,0.93
2,부산광역시 (2600000000),3513777,1437818,2.44,1735570,1778207,0.98,3498529,1451270,2.41,...,2.1,1605431,1687931,0.95,3266598,1570403,2.08,1589912,1676686,0.95
3,대구광역시 (2700000000),2487829,982360,2.53,1237291,1250538,0.99,2484557,994220,2.5,...,2.17,1166803,1208157,0.97,2363629,1104130,2.14,1159601,1204028,0.96
4,인천광역시 (2800000000),2925815,1154004,2.54,1469869,1455946,1.01,2943069,1171399,2.51,...,2.22,1499016,1498394,1.0,3021010,1373827,2.2,1509243,1511767,1.0


In [68]:
pd.concat([df1, df2], axis=1)  # 0 : 아래로 확장, 1 : 오른쪽으로 확장 

Unnamed: 0,행정구역,2008년_총인구수,2008년_세대수,2008년_세대당 인구,2008년_남자 인구수,2008년_여자 인구수,2008년_남여 비율,2009년_총인구수,2009년_세대수,2009년_세대당 인구,...,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
0,전국 (1000000000),49540367.0,19005339.0,2.61,24822897.0,24717470.0,1.0,49773145.0,19261292.0,2.58,...,2.15,25565736.0,25759593.0,0.99,51217221.0,24118928.0,2.12,25498324.0,25718897.0,0.99
1,서울특별시 (1100000000),10200827.0,4097562.0,2.49,5061809.0,5139018.0,0.98,10208302.0,4116660.0,2.48,...,2.1,4540031.0,4846003.0,0.94,9331828.0,4482063.0,2.08,4505355.0,4826473.0,0.93
2,부산광역시 (2600000000),3564577.0,1311724.0,2.72,1773154.0,1791423.0,0.99,3543030.0,1323771.0,2.68,...,2.1,1605431.0,1687931.0,0.95,3266598.0,1570403.0,2.08,1589912.0,1676686.0,0.95
3,대구광역시 (2700000000),2492724.0,894969.0,2.79,1246873.0,1245851.0,1.0,2489781.0,906470.0,2.75,...,2.17,1166803.0,1208157.0,0.97,2363629.0,1104130.0,2.14,1159601.0,1204028.0,0.96
4,인천광역시 (2800000000),2692696.0,1014755.0,2.65,1356473.0,1336223.0,1.02,2710579.0,1026936.0,2.64,...,2.22,1499016.0,1498394.0,1.0,3021010.0,1373827.0,2.2,1509243.0,1511767.0,1.0
5,광주광역시 (2900000000),1422702.0,513021.0,2.77,705817.0,716885.0,0.98,1433640.0,524093.0,2.74,...,2.17,700896.0,718341.0,0.98,1408422.0,658075.0,2.14,695224.0,713198.0,0.97
6,대전광역시 (3000000000),1480895.0,531682.0,2.79,741611.0,739284.0,1.0,1484180.0,538100.0,2.76,...,2.12,719292.0,722924.0,0.99,1439157.0,687757.0,2.09,717291.0,721866.0,0.99
7,울산광역시 (3100000000),1112407.0,389735.0,2.85,572815.0,539592.0,1.06,1114866.0,394364.0,2.83,...,2.25,567153.0,536508.0,1.06,1098049.0,495378.0,2.22,564888.0,533161.0,1.06
8,세종특별자치시 (3600000000),0.0,0.0,0.0,0.0,0.0,0.0,,,,...,2.4,192524.0,194001.0,0.99,390685.0,163432.0,2.39,194413.0,196272.0,0.99
9,경기도 (4100000000),11292264.0,4284475.0,2.64,5690673.0,5601591.0,1.02,11460610.0,4359467.0,2.63,...,2.28,6855895.0,6774926.0,1.01,13694685.0,6058202.0,2.26,6882186.0,6812499.0,1.01


In [70]:
df1.index

RangeIndex(start=0, stop=18, step=1)

In [71]:
df2.index

RangeIndex(start=0, stop=20, step=1)

In [72]:
df1["행정구역"]

0          전국  (1000000000)
1       서울특별시  (1100000000)
2       부산광역시  (2600000000)
3       대구광역시  (2700000000)
4       인천광역시  (2800000000)
5       광주광역시  (2900000000)
6       대전광역시  (3000000000)
7       울산광역시  (3100000000)
8     세종특별자치시  (3600000000)
9         경기도  (4100000000)
10        강원도  (4200000000)
11       충청북도  (4300000000)
12       충청남도  (4400000000)
13       전라북도  (4500000000)
14       전라남도  (4600000000)
15       경상북도  (4700000000)
16       경상남도  (4800000000)
17    제주특별자치도  (5000000000)
Name: 행정구역, dtype: object

In [73]:
df2["행정구역"]

0          전국  (1000000000)
1       서울특별시  (1100000000)
2       부산광역시  (2600000000)
3       대구광역시  (2700000000)
4       인천광역시  (2800000000)
5       광주광역시  (2900000000)
6       대전광역시  (3000000000)
7       울산광역시  (3100000000)
8     세종특별자치시  (3600000000)
9         경기도  (4100000000)
10        강원도  (4200000000)
11    강원특별자치도  (5100000000)
12       충청북도  (4300000000)
13       충청남도  (4400000000)
14       전라북도  (4500000000)
15    전북특별자치도  (5200000000)
16       전라남도  (4600000000)
17       경상북도  (4700000000)
18       경상남도  (4800000000)
19    제주특별자치도  (5000000000)
Name: 행정구역, dtype: object

이렇게 서로 인덱스와 순서를 가진 DataFrame을 이을 때에는 `pd.merge` 활용하고,
같은 인덱스와 순서를 가진 DataFrame을 이을 때에는 `pd.concat` 을 활용합니다.

`pd.merge` 를 사용할려면, 어떤 컬럼의 값끼리 매칭해서 연결할지를 지정해줘야만 합니다.
지정하지 않으면 같은 인덱스의 행끼리 매칭되어 연결됩니다.

In [79]:
# 같은 행정구역을 가진 행끼리 한 Row로 연결합니다.
# left 는 18개행, right 는 20개 행 => 수행하면 18개 행의 DataFrame (how="inner"일때)
# how (디폴트: "inner")
#  - inner => 두 데이터에 값이 모두 있어야만 그 데이터를 살려요.
#  - outer => 모두 살려요.
full_df = pd.merge(df1, df2, on="행정구역", how="outer")
print(full_df.shape)
full_df

(20, 103)


Unnamed: 0,행정구역,2008년_총인구수,2008년_세대수,2008년_세대당 인구,2008년_남자 인구수,2008년_여자 인구수,2008년_남여 비율,2009년_총인구수,2009년_세대수,2009년_세대당 인구,...,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
0,강원도 (4200000000),1508575.0,606950.0,2.49,759282.0,749293.0,1.01,1512870.0,617693.0,2.45,...,,,,,,,,,,
1,강원특별자치도 (5100000000),,,,,,,,,,...,2.01,768449.0,759358.0,1.01,1517766.0,764834.0,1.98,763025.0,754741.0,1.01
2,경기도 (4100000000),11292264.0,4284475.0,2.64,5690673.0,5601591.0,1.02,11460610.0,4359467.0,2.63,...,2.28,6855895.0,6774926.0,1.01,13694685.0,6058202.0,2.26,6882186.0,6812499.0,1.01
3,경상남도 (4800000000),3225255.0,1203767.0,2.68,1622127.0,1603128.0,1.01,3250176.0,1231461.0,2.64,...,2.13,1636987.0,1614171.0,1.01,3228380.0,1537492.0,2.1,1626926.0,1601454.0,1.02
4,경상북도 (4700000000),2673931.0,1058099.0,2.53,1343199.0,1330732.0,1.01,2669876.0,1073367.0,2.49,...,1.99,1290298.0,1264026.0,1.02,2531384.0,1291568.0,1.96,1280547.0,1250837.0,1.02
5,광주광역시 (2900000000),1422702.0,513021.0,2.77,705817.0,716885.0,0.98,1433640.0,524093.0,2.74,...,2.17,700896.0,718341.0,0.98,1408422.0,658075.0,2.14,695224.0,713198.0,0.97
6,대구광역시 (2700000000),2492724.0,894969.0,2.79,1246873.0,1245851.0,1.0,2489781.0,906470.0,2.75,...,2.17,1166803.0,1208157.0,0.97,2363629.0,1104130.0,2.14,1159601.0,1204028.0,0.96
7,대전광역시 (3000000000),1480895.0,531682.0,2.79,741611.0,739284.0,1.0,1484180.0,538100.0,2.76,...,2.12,719292.0,722924.0,0.99,1439157.0,687757.0,2.09,717291.0,721866.0,0.99
8,부산광역시 (2600000000),3564577.0,1311724.0,2.72,1773154.0,1791423.0,0.99,3543030.0,1323771.0,2.68,...,2.1,1605431.0,1687931.0,0.95,3266598.0,1570403.0,2.08,1589912.0,1676686.0,0.95
9,서울특별시 (1100000000),10200827.0,4097562.0,2.49,5061809.0,5139018.0,0.98,10208302.0,4116660.0,2.48,...,2.1,4540031.0,4846003.0,0.94,9331828.0,4482063.0,2.08,4505355.0,4826473.0,0.93


In [82]:
# full_df.sort_values("행정구역", ascending=False)  # 지정 기준으로 정렬을 수행한 새로운 DataFrame 반환

In [100]:
full_df.sort_values("2008년_총인구수") 

Unnamed: 0,행정구역,2008년_총인구수,2008년_세대수,2008년_세대당 인구,2008년_남자 인구수,2008년_여자 인구수,2008년_남여 비율,2009년_총인구수,2009년_세대수,2009년_세대당 인구,...,2023년_세대당 인구,2023년_남자 인구수,2023년_여자 인구수,2023년_남여 비율,2024년_총인구수,2024년_세대수,2024년_세대당 인구,2024년_남자 인구수,2024년_여자 인구수,2024년_남여 비율
10,세종특별자치시 (3600000000),0.0,0.0,0.0,0.0,0.0,0.0,,,,...,2.4,192524.0,194001.0,0.99,390685.0,163432.0,2.39,194413.0,196272.0,0.99
11,울산광역시 (3100000000),1112407.0,389735.0,2.85,572815.0,539592.0,1.06,1114866.0,394364.0,2.83,...,2.25,567153.0,536508.0,1.06,1098049.0,495378.0,2.22,564888.0,533161.0,1.06
5,광주광역시 (2900000000),1422702.0,513021.0,2.77,705817.0,716885.0,0.98,1433640.0,524093.0,2.74,...,2.17,700896.0,718341.0,0.98,1408422.0,658075.0,2.14,695224.0,713198.0,0.97
7,대전광역시 (3000000000),1480895.0,531682.0,2.79,741611.0,739284.0,1.0,1484180.0,538100.0,2.76,...,2.12,719292.0,722924.0,0.99,1439157.0,687757.0,2.09,717291.0,721866.0,0.99
0,강원도 (4200000000),1508575.0,606950.0,2.49,759282.0,749293.0,1.01,1512870.0,617693.0,2.45,...,,,,,,,,,,
19,충청북도 (4300000000),1519587.0,587411.0,2.59,765398.0,754189.0,1.01,1527478.0,599204.0,2.55,...,2.04,810448.0,783021.0,1.04,1591177.0,787756.0,2.02,809920.0,781257.0,1.04
15,전라북도 (4500000000),1855772.0,710550.0,2.61,924770.0,931002.0,0.99,1854508.0,720993.0,2.57,...,2.04,873419.0,881338.0,0.99,,,,,,
14,전라남도 (4600000000),1919000.0,773087.0,2.48,958491.0,960509.0,1.0,1913004.0,783156.0,2.44,...,1.98,909548.0,894669.0,1.02,1788819.0,912412.0,1.96,902380.0,886439.0,1.02
9,서울특별시 (1100000000),10200827.0,4097562.0,2.49,5061809.0,5139018.0,0.98,10208302.0,4116660.0,2.48,...,2.1,4540031.0,4846003.0,0.94,9331828.0,4482063.0,2.08,4505355.0,4826473.0,0.93
2,경기도 (4100000000),11292264.0,4284475.0,2.64,5690673.0,5601591.0,1.02,11460610.0,4359467.0,2.63,...,2.28,6855895.0,6774926.0,1.01,13694685.0,6058202.0,2.26,6882186.0,6812499.0,1.01


## 다양한 타입의 대소비교

In [84]:
0 < 1

True

In [85]:
10 < 1  

False

In [87]:
"10" < "9"

True

In [95]:
# 우리는 숫자에 대한 대소비교는 알고 있어요.
# 문자열의 대소비교에 대해서는 아직 정확히는 몰라요.
# 그런데, 모든 문자열은 숫자가 매핑되어있어요. <= 컴퓨터는 계산기. 모든 데이터는 숫자 계산으로 이뤄져요.
ord("0"), ord("1")  # 문자열 "1"에 매핑된 숫자는? 49

(48, 49)

In [93]:
ord("2"), ord("3"), ord("4"), ord("5"), ord("6"), ord("7"), ord("8"), ord("9")

(50, 51, 52, 53, 54, 55, 56, 57)

In [94]:
"1" < "9"
# 49 < 57

True

In [97]:
"10" < "9"
# (48, 49) < (57,)

True

In [99]:
full_df.info()  # Pandas에서 dtype=object 는 그 값이 문자열 이라는 의미.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Columns: 103 entries, 행정구역 to 2024년_남여 비율
dtypes: float64(34), object(69)
memory usage: 16.2+ KB


In [102]:
"49,540,367	" < "560,618	"

True

In [103]:
49540367 < 560618

False

`pd.read_csv` 를 하시면, 숫자가 문자열 타입으로 읽혀지는 경우가 아주 아주 많습니다.

문자열로 된 숫자를 숫자 타입으로 변환해주셔야, 올바르게 대소비교나 통계 차트를 그릴 수 있게 됩니다.

CSV 데이터를 읽자마자, 우리는 **데이터 전처리**가 필요합니다. => 깔끔한 하나의 DataFrame으로 정리.

1. 2개의 데이터 파일이니, merge 를 했었고,
2. 엉뚱한 타입이나 엉뚱한 포맷의 값들을 살펴보고, 이를 변환
3. 결측치 (missing values) 가 있으면, 그 부분의 값도 채워주거나 제거를 해줍니다.

대개의 데이터들은 제대로 정리가 안 되어있어요. 공공 데이터든, 회사의 각종 데이터든. => 쓰레기.

In [109]:
# # apply 함수 인자로, 각 Cell 값에 대한 변환 함수를 지정할 수 있어요.

# def cell_변환함수(value):
#     if isinstance(value, str):
#         return value.replace(",", "")
#     return value

# full_df.applymap(str).apply(cell_변환함수)