In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

In [2]:
plt.rcParams['font.family']='AppleGothic'
plt.rcParams['axes.unicode_minus']=False

# 데이터 수집 및 전처리
- 행정안전부<br>
    https://www.mois.go.kr/<br>
    정책자료>주민등록인구통계<br>
    전체읍명동 현황
<br><br> 
- 바로가기<br>
    https://jumin.mois.go.kr/index.jsp
    
## 데이터프레임 생성 및 전처리
### 데이터프레임 생성

In [3]:
df = pd.read_csv('../data/202110_202110_주민등록인구및세대현황_월간.csv', encoding='cp949')
df

Unnamed: 0,행정구역,2021년10월_총인구수,2021년10월_세대수,2021년10월_세대당 인구,2021년10월_남자 인구수,2021년10월_여자 인구수,2021년10월_남여 비율
0,서울특별시 (1100000000),9532428,4422587,2.16,4630630,4901798,0.94
1,서울특별시 종로구 (1111000000),145346,73613,1.97,70552,74794,0.94
2,서울특별시 종로구 청운효자동(1111051500),12011,5252,2.29,5553,6458,0.86
3,서울특별시 종로구 사직동(1111053000),9367,4686,2.00,4206,5161,0.81
4,서울특별시 종로구 삼청동(1111054000),2478,1251,1.98,1178,1300,0.91
...,...,...,...,...,...,...,...
3847,제주특별자치도 서귀포시 서홍동(5013058000),10999,4517,2.44,5435,5564,0.98
3848,제주특별자치도 서귀포시 대륜동(5013059000),15216,6760,2.25,7691,7525,1.02
3849,제주특별자치도 서귀포시 대천동(5013060000),13900,6474,2.15,7048,6852,1.03
3850,제주특별자치도 서귀포시 중문동(5013061000),11886,5731,2.07,6057,5829,1.04


### 컬럼명 변경

In [4]:
df.columns=['행정구역','총인구수','세대수','세대당 인구','남자 인구수','여자 인구수','남여 비율']

In [5]:
df.head(1)

Unnamed: 0,행정구역,총인구수,세대수,세대당 인구,남자 인구수,여자 인구수,남여 비율
0,서울특별시 (1100000000),9532428,4422587,2.16,4630630,4901798,0.94


### 자료형 확인,변환

In [6]:
# 자료형 확인
df.dtypes

행정구역       object
총인구수       object
세대수        object
세대당 인구    float64
남자 인구수     object
여자 인구수     object
남여 비율     float64
dtype: object

In [7]:
# 숫자형으로 변환
df['총인구수']=df['총인구수'].str.replace(',','').astype('int64')

In [8]:
df['세대수']=df['세대수'].str.replace(',','').astype('int64')

In [10]:
df['남자 인구수']=df['남자 인구수'].str.replace(',','').astype('int64')

In [11]:
df['여자 인구수']=df['여자 인구수'].str.replace(',','').astype('int64')

In [12]:
df.dtypes

행정구역       object
총인구수        int64
세대수         int64
세대당 인구    float64
남자 인구수      int64
여자 인구수      int64
남여 비율     float64
dtype: object

## 시도별 서브셋 생성
- `컬럼.str.contains(문자열)` : 문자열이 포함된 데이터 추출

In [17]:
df_sido = df[df['행정구역'].str.contains('00000000')].copy()
df_sido

Unnamed: 0,행정구역,총인구수,세대수,세대당 인구,남자 인구수,여자 인구수,남여 비율
0,서울특별시 (1100000000),9532428,4422587,2.16,4630630,4901798,0.94
452,부산광역시 (2600000000),3356311,1541975,2.18,1642368,1713943,0.96
674,대구광역시 (2700000000),2390721,1062993,2.25,1178486,1212235,0.97
826,인천광역시 (2800000000),2945009,1294158,2.28,1474536,1470473,1.0
999,광주광역시 (2900000000),1442454,643841,2.24,713483,728971,0.98
1102,대전광역시 (3000000000),1454228,662615,2.19,725742,728486,1.0
1187,울산광역시 (3100000000),1122566,481811,2.33,576723,545843,1.06
1249,세종특별자치시 (3600000000),368276,151639,2.43,183879,184397,1.0
1273,경기도 (4100000000),13549577,5820524,2.33,6820025,6729552,1.01
1882,강원도 (4200000000),1537717,743798,2.07,774008,763709,1.01


- 시도명 컬럼 추가

In [20]:
df_sido['시도명']=df_sido['행정구역'].str.split(' ').str[0]

In [21]:
df_sido.head(3)

Unnamed: 0,행정구역,총인구수,세대수,세대당 인구,남자 인구수,여자 인구수,남여 비율,시도명
0,서울특별시 (1100000000),9532428,4422587,2.16,4630630,4901798,0.94,서울특별시
452,부산광역시 (2600000000),3356311,1541975,2.18,1642368,1713943,0.96,부산광역시
674,대구광역시 (2700000000),2390721,1062993,2.25,1178486,1212235,0.97,대구광역시
