### 경상남도 인구 수(연령별) 데이터
* 행정안전부_지역별(행정동) 성별 연령별 주민등록 인구수: https://www.data.go.kr/data/15097972/fileData.do

1. 경상남도 인구 수 데이터 추출
2. 인구 수 데이터 전처리
3. 주소 데이터 통합 전처리
4. 사용할 데이터만 추출

In [3]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [4]:
## 인구 수 데이터 불러오고 경상남도 인구 수 데이터 추출
population = pd.read_csv(
    filepath_or_buffer = "../data/행정안전부_지역별(행정동) 성별 연령별 주민등록 인구수_20240531.csv", 
    encoding = "cp949"
    )
pop_gyeongn = population[population["시도명"] == "경상남도"].drop(columns=["기준연월"])

In [5]:
pop_gyeongn["행정기관코드"] = pop_gyeongn["행정기관코드"].apply(lambda x: str(x)[:-2])

#### 인구 수 데이터 전처리 

In [6]:
### 남
pop_gyeongn["유아남"] = pop_gyeongn.loc[:, "0세남자":"7세남자"].sum(axis=1)
pop_gyeongn["초등학생남"] = pop_gyeongn.loc[:, "8세남자":"13세남자"].sum(axis=1)
pop_gyeongn["중학생남"] = pop_gyeongn.loc[:, "14세남자":"16세남자"].sum(axis=1)
pop_gyeongn["고등학생남"] = pop_gyeongn.loc[:, "17세남자":"19세남자"].sum(axis=1)
pop_gyeongn["20대남"] = pop_gyeongn.loc[:, "20세남자":"29세남자"].sum(axis=1)
pop_gyeongn["30대남"] = pop_gyeongn.loc[:, "30세남자":"39세남자"].sum(axis=1)
pop_gyeongn["40대남"] = pop_gyeongn.loc[:, "40세남자":"49세남자"].sum(axis=1)
pop_gyeongn["50대남"] = pop_gyeongn.loc[:, "50세남자":"59세남자"].sum(axis=1)
pop_gyeongn["노인남"] = pop_gyeongn.loc[:, "60세남자":"110세이상 남자"].sum(axis=1)
### 여
pop_gyeongn["유아여"] = pop_gyeongn.loc[:, "0세여자":"7세여자"].sum(axis=1)
pop_gyeongn["초등학생여"] = pop_gyeongn.loc[:, "8세여자":"13세여자"].sum(axis=1)
pop_gyeongn["중학생여"] = pop_gyeongn.loc[:, "14세여자":"16세여자"].sum(axis=1)
pop_gyeongn["고등학생여"] = pop_gyeongn.loc[:, "17세여자":"19세여자"].sum(axis=1)
pop_gyeongn["20대여"] = pop_gyeongn.loc[:, "20세여자":"29세여자"].sum(axis=1)
pop_gyeongn["30대여"] = pop_gyeongn.loc[:, "30세여자":"39세여자"].sum(axis=1)
pop_gyeongn["40대여"] = pop_gyeongn.loc[:, "40세여자":"49세여자"].sum(axis=1)
pop_gyeongn["50대여"] = pop_gyeongn.loc[:, "50세여자":"59세여자"].sum(axis=1)
pop_gyeongn["노인여"] = pop_gyeongn.loc[:, "60세여자":"110세이상 여자"].sum(axis=1)
### 합계
pop_gyeongn["유아"] = pop_gyeongn.loc[:, ["유아남", "유아여"]].sum(axis=1)
pop_gyeongn["초등학생"] = pop_gyeongn.loc[:, ["초등학생남", "초등학생여"]].sum(axis=1)
pop_gyeongn["중학생"] = pop_gyeongn.loc[:, ["중학생남", "중학생여"]].sum(axis=1)
pop_gyeongn["고등학생"] = pop_gyeongn.loc[:, ["고등학생남", "고등학생여"]].sum(axis=1)
pop_gyeongn["20대"] = pop_gyeongn.loc[:, ["20대남", "20대여"]].sum(axis=1)
pop_gyeongn["30대"] = pop_gyeongn.loc[:, ["30대남", "30대여"]].sum(axis=1)
pop_gyeongn["40대"] = pop_gyeongn.loc[:, ["40대남", "40대여"]].sum(axis=1)
pop_gyeongn["50대"] = pop_gyeongn.loc[:, ["50대남", "50대여"]].sum(axis=1)
pop_gyeongn["노인"] = pop_gyeongn.loc[:, ["노인남", "노인여"]].sum(axis=1)

#### 주소 데이터 통합 전처리

In [7]:
pop_gyeongn["시도_시군구_읍면동명"] = pop_gyeongn.apply(lambda row: row["시도명"] + " " + row["시군구명"] + " " + row["읍면동명"], axis=1)

In [8]:
use_columns = [
    "행정기관코드", 
    "시도_시군구_읍면동명", 
    "계", 
    "남자", 
    "여자", 
    "유아", 
    "초등학생", 
    "중학생", 
    "고등학생", 
    "20대", 
    "30대", 
    "40대", 
    "50대", 
    "노인"
    ]

pop_gyeongn = pop_gyeongn[use_columns]