# 연령별인구현황을 분석하여 10년 뒤 사회현상 예측과 대비

데이터 파일 : 연령별인구현황(201812_202312).csv

* 조회기간 : 2018년~2023년(6년)

01. 데이터프레임과 데이터시각화
02. 년도별총인구수(꺾은선그래프)
03. 년도별행정구역Top3총인구수(꺾은선그래프)
04. (2023년)연령별총인수구(세로막대그래프)
05. (2018년)전국성별연령별인구분포(가로막대그래프)
06. 년도별행정구역 Top3 총인구수(누적막대그래프)
07. 년도별10대총인구수비율(원그래프+도넛그래프)
08. (서울시)년도별남녀총인구수비교(다중세로막대그래프)
09. **(2023년)연령별행정구역별총인구수(다중세로막대그래프)**

# 1) 한글 글꼴 설치하기

* 구글 코랩에 한글 글꼴이 없어서 한글이 깨지는 것을 방지하기 위해 글꼴을 설치해야 한다.
* 매 주피터 노트북 파일마다 설치해야 한다.
* 설치가 끝나면 코랩 [런타임] → [세션 다시 시작]을 선택 후 [예] 클릭
* 모든 라이브러리들을 다시 import 해야 한다.

In [None]:
# 한글 글꼴 설치하기
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 2) 라이브러리 불러오기

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

---
# **(2023년) 연령별 지역별 총인구수 비교**
# (행정구역(전국, 서울특별시), 2023년 연령대별 총인구수)


# 3) 데이터 불러오기

pandas pd.read_csv 도움말 :

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# 구글 드라이브에서 외부 데이터 파일 불러오기

# 1. 구글 드라이브 마운트하기 : [파일-[드라이브 마운트] 아이콘
# 2. 구글 드라이브 파일 경로 복사하기 : content\drive\MyDrive\..\파일명 위에서 우 클릭 [경로 복사]
# 3. 구글 드라이브에서 외부 데이터 파일 불러와 file_name 변수에 할당하기
file_path = '/content/drive/MyDrive/파이썬데이터시각화/SpaceProbe_data/연령별인구현황(201812_202312).csv'

# csv 파일에서 행정구역, 년도별_총인구수 데이터 가져오기
# pd.read_csv('\경로\파일명.csv')
# encoding : csv를 불러올때 한글이 한글이 깨져 열릴때 'cp949'나 'utf-8'로 불러오기
# index_col = index or 'column 명' : row index로 사용할 Col 설정
# nrows = 1 : 1 row까지만 불러오기(header 포함)
# usecols=['월', '품목', '수량'] : 가져올 col 설정 / xlsx 파일에서는 열 머리글로 설정 uscols=('A', 'B:F')
# header = True(default) or False : 첫 줄을 Column 명으로 사용 여부
# sep = ',' : Col 구분자를 설정한다.
# skiprows = 3 또는 [0, 2]) : 첫 번째와 세 번째 row를 제외하고 불러옴(header 포함)
# names = [col_1, col_2, ....] : 칼럼명을 col_1, col_2...로 변경
# na_values =['a'] : NaN을 특정 값(a)로 변경

In [None]:
# 2023년 총 인구수 가져오기------------------------------------------------------------------------------------------
# 모든 행정구역 row 가져오기
df = pd.read_csv(file_path, encoding ='CP949', usecols=['행정구역', '2023년_계_0~9세', '2023년_계_10~19세', '2023년_계_20~29세', '2023년_계_30~39세', '2023년_계_40~49세', '2023년_계_50~59세', '2023년_계_60~69세', '2023년_계_70~79세', '2023년_계_80~89세', '2023년_계_90~99세', '2023년_계_100세 이상' ])
df

# 4) 데이터 전처리하기

In [None]:
# Col 레이블 바꾸기
df.columns = ['행정구역', '9세 이하', '10대', '20대', '30대', '40대', '50대', '60대', '70대', '80대', '90대', '100세 이상']
df

In [None]:
# 행정구역 정리하고 index로 설정하기-------------------------------------------------------------------------------
# 행정구역을 공백(' ')을 기준으로 분리하고 공백 왼쪽의 행정구역명만 남긴다.
# str.split : 문자열을 분리한다.
# expand=True : DataFrame 구조의 변경 사항을 적용한다.
# get(0) : 공백을 기준으로 분리된 0번째 데이터만 남긴다.
# 남겨진 행정구역을 행정구역 열에 배치한다.
df['행정구역'] = df['행정구역'].str.split(' ', expand=True).get(0)

# index를 '행정구역'으로 바꾸기
df.set_index('행정구역', inplace=True)
df

In [None]:
# 결측값 NaN를 ',0'로 바꾸기----------------------------------------------
df.fillna(',0', inplace=True)
df

In [None]:
# 전체 행 개수 확인하기
df.shape[0]

In [None]:
# 문자 인구수를 정수 인구수로 바꾸기-------------------------------------------
cnt = df.shape[0]       # 총 행 개수를 cnt 변수에 할당한다.
for i in range(cnt):    # 총 행 개수만큼 문자열을 정수행을 찾아 바꾼다.
    df.iloc[i] = df.iloc[i].str.replace(',', '').astype(int)
df

---
# 5) 데이터 시각화하기

In [None]:
# 한글 폰트 설정하기
plt.rc('font', family = 'NanumGothic', size = 12)

# 음수 축 설정하기
plt.rc('axes', unicode_minus = False)

## 5-1) 혼합 그래프 만들기

* plt.bar : 세로 막대 그래프
* plt.plot : 꺾은선 그래프

* 전국과 서울특별시 지역의 인수구가 크게 차이가 난다.
* 전국인구수는 세로 막대 그래프로 기본축을 참조하게 한다.
* 서울특별시 지역의 인구수는 꺾은선 그래프로 보조축을 참조하게 한다.

In [None]:
# 이중 축 만들기(x축 공유) -----------------------------------------------------------------
# subplots() : subplots(1,1) 한 개의 그래프가 생성된다.
# figsize=(가로, 세로) : 차트 크기
fig, ax1 = plt.subplots(figsize=(15, 6))

# '전국' row를 꺾은선 그래프로 만든다. 왼쪽 y축을 참조한다.
ax1.plot(df.columns, df.loc['전국']//1000, label='전국', color='red')                      #  (x,y) : (연령대, 전국인구수)

# x축을 ax1과 ax2가 공유한다.
ax2 = ax1.twinx()

# '서울특별시' row를 세로 막대 그래프로 만든다. 오른쪽 y축을 참조한다.
ax2.bar(df.columns, df.loc['서울특별시']//1000, label='서울특별시', color='green')           #  (x,y) : (연령대, 서울특별시인구수)

plt.show()

## 5-2) 혼합 그래프 꾸미기

In [None]:
# y축 서식 꾸미기 ---------------------------------------------------------------------------
fig, ax1 = plt.subplots(figsize=(15, 6))

# '전국' 꺾은선 그래프 꾸미기----------------------------------------------------------------
ax1.set_ylabel('전국 인구수(천 명)', color='red')                # 왼쪽 y축 제목
ax1.set_ylim(0, 12000)                                           # y축 최솟값, 최댓값
ax1.set_yticks([0, 2000, 4000, 6000, 8000, 10000, 12000])        # y축 눈금 단위(ticks)
ax1.plot(df.columns, df.loc['전국']//1000, label='전국', color='red')

# x축을 ax1과 ax2가 공유한다.
ax2 = ax1.twinx()

# '서울특별시' 세로 막대 그래프 꾸미기 ------------------------------------------------------
ax2.set_ylabel('서울특별시 인구수(천 명)', color='green')       # 오른쪽 y축 제목
ax2.set_ylim(0, 2500)                                           #  y축 최솟값, 최댓값
ax2.set_yticks([0, 500, 1000, 1500, 2000, 2500])                # y축 눈금 단위(ticks)
# alpha : 꺾은선 그래프가 막대 그래프가 뒤에 배치되어 막대 그래프에 투명도를 설정한다.
ax2.bar(df.columns, df.loc['서울특별시']//1000, label='서울특별시', color='green', alpha=0.7)

plt.show()

In [None]:
# 꺾은선 그래프 꾸미기 ----------------------------------------------------------------------
fig, ax1 = plt.subplots(figsize=(15, 6))

# '전국' 꺾은선 그래프-----------------------------------------------------------------------
ax1.set_ylabel('전국 인구수(천 명)', color='red')                # 왼쪽 y축 제목
ax1.set_ylim(0, 12000)                                           # y축 최솟값, 최댓값
ax1.set_yticks([0, 2000, 4000, 6000, 8000, 10000, 12000])        # y축 눈금 단위(ticks)

# '전국' 꺾은선 그래프의 값 레이블 추가하기--------------------------------------------------
for i, val in enumerate(df.loc['전국']//1000):
    ax1.text(i, val+600, format(val, ','), ha = 'center')

# '전국' 꺾은선 그래프 꾸미기----------------------------------------------------------------
ax1.plot(df.columns, df.loc['전국']//1000, label='전국', color='red', linewidth=2, marker='o', markersize=15, markeredgecolor='white', markeredgewidth=2)

#-------------------------------------------------------------------------------------------
# x축을 ax1과 ax2가 공유한다.
ax2 = ax1.twinx()

# '서울특별시' 세로 막대 그래프
ax2.set_ylabel('서울특별시 인구수(천 명)', color='green')       # 오른쪽 y축 제목
ax2.set_ylim(0, 2500)                                           #  y축 최솟값, 최댓값
ax2.set_yticks([0, 500, 1000, 1500, 2000, 2500])                # y축 눈금 단위(ticks)
# alpha : 꺾은선 그래프가 막대 그래프가 뒤에 배치되어 막대 그래프에 투명도를 설정한다.
ax2.bar(df.columns, df.loc['서울특별시']//1000, label='서울특별시', color='green', alpha=0.7)

plt.show()

In [None]:
# 막대 그래프 꾸미기 -----------------------------------------------------------------------
fig, ax1 = plt.subplots(figsize=(15, 6))

# '전국' 꺾은선 그래프-----------------------------------------------------------------------
ax1.set_ylabel('전국 인구수(천 명)', color='red')                       # 왼쪽 y축 제목
ax1.set_ylim(0, 12000)                                                  # y축 최솟값, 최댓값
ax1.set_yticks([0, 2000, 4000, 6000, 8000, 10000, 12000])               # y축 눈금 단위(ticks)

# '전국' 꺾은선 그래프의 값 레이블 추가하기
for i, val in enumerate(df.loc['전국']//1000):
    ax1.text(i, val+600, format(val, ','), ha = 'center')

# '전국' 꺾은선 그래프 꾸미기
ax1.plot(df.columns, df.loc['전국']//1000, label='전국', color='red', linewidth=2, marker='o', markersize=15, markeredgecolor='white', markeredgewidth=2)

# x축을 ax1과 ax2가 공유한다.
ax2 = ax1.twinx()

# '서울특별시' 세로 막대 그래프 꾸미기------------------------------------------------------
ax2.set_ylabel('서울특별시 인구수(천 명)', color='green')               # 오른쪽 y축 제목
ax2.set_ylim(0, 2500)                                                   #  y축 최솟값, 최댓값
ax2.set_yticks([0, 500, 1000, 1500, 2000, 2500])                        # y축 눈금 단위(ticks)

# '서울특별시' 세로 막대 그래프의 값 레이블 추가하기----------------------------------------
for i, val in enumerate(df.loc['서울특별시']//1000):
    ax1.text(i, 200, format(val, ','), ha = 'center')

ax2.bar(df.columns, df.loc['서울특별시']//1000, label='서울특별시', color='green', alpha=0.7)

plt.show()

In [None]:
# 혼합 그래프 꾸미기 -----------------------------------------------------------------------
fig, ax1 = plt.subplots(figsize=(15, 6))

# 혼합 그래프 제목 추가하기-----------------------------------------------------------------
fig.suptitle('2023년 전국 및 서울특별시 총인구수 비교', fontsize=20)

# '전국' 꺾은선 그래프
ax1.set_ylabel('전국 인구수(천 명)', color='red')                       # 왼쪽 y축 제목
ax1.set_ylim(0, 12000)                                                  # y축 최솟값, 최댓값
ax1.set_yticks([0, 2000, 4000, 6000, 8000, 10000, 12000])               # y축 눈금 단위(ticks)

# '전국' 꺾은선 그래프의 값 레이블 추가하기
for i, val in enumerate(df.loc['전국']//1000):
    ax1.text(i, val+600, format(val, ','), ha = 'center')

# '전국' 꺾은선 그래프 꾸미기
ax1.plot(df.columns, df.loc['전국']//1000, label='전국', color='red', linewidth=2, marker='o', markersize=15, markeredgecolor='white', markeredgewidth=2)

#--------------------------------------------------------------------------------------------
# x축을 ax1과 ax2가 공유한다.
ax2 = ax1.twinx()

# '서울특별시' 세로 막대 그래프 꾸미기-
ax2.set_ylabel('서울특별시 인구수(천 명)', color='green')               # 오른쪽 y축 제목
ax2.set_ylim(0, 2500)                                                   #  y축 최솟값, 최댓값
ax2.set_yticks([0, 500, 1000, 1500, 2000, 2500])                        # y축 눈금 단위(ticks)

# '서울특별시' 세로 막대 그래프의 값 레이블 추가하기
for i, val in enumerate(df.loc['서울특별시']//1000):
    ax1.text(i, 200, format(val, ','), ha = 'center')

ax2.bar(df.columns, df.loc['서울특별시']//1000, label='서울특별시', color='green', alpha=0.7)


# 혼합 범례 추가하기-----------------------------------------------------------------
fig.legend(loc=(0.8, 0.6))              # loc(x, y) : 0~1사이의 가로, 세로 위치에 배치한다.

plt.show()

In [None]:
# 단일 그래프 그림 파일로 저장하기 : plt 함수 사용
# plt.savefig('graph.jpg')

# 혼합 그래프 그림 파일로 저장하기 : fit 함수 사용
fig.savefig('mixgraph.png')

# 전국과 다른 지역과도 인구수를 비교해 본다.