# 연령별인구현황을 분석하여 10년 뒤 사회현상 예측과 대비

데이터 파일 : 연령별인구현황(201812_202312).csv

* 조회기간 : 2018년~2023년(6년)

01. 데이터프레임과 데이터시각화
02. 년도별총인구수(꺾은선그래프)
03. 년도별행정구역Top3총인구수(꺾은선그래프)
04. (2023년)연령별총인수구(세로막대그래프)
05. (2018년)전국성별연령별인구분포(가로막대그래프)
06. 년도별행정구역 Top3 총인구수(누적막대그래프)
07. **년도별10대총인구수비율(원그래프+도넛그래프)**
08. (서울시)년도별남녀총인구수비교(다중세로막대그래프)
09. (2023년)연령별행정구역별총인구수(다중세로막대그래프)

# 1) 한글 글꼴 설치하기

* 구글 코랩에 한글 글꼴이 없어서 한글이 깨지는 것을 방지하기 위해 글꼴을 설치해야 한다.
* 매 주피터 노트북 파일마다 설치해야 한다.
* 설치가 끝나면 코랩 [런타임] → [세션 다시 시작]을 선택 후 [예] 클릭
* 모든 라이브러리들을 다시 import 해야 한다.

In [None]:
# 한글 글꼴 설치하기
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 2) 라이브러리 불러오기

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

---
# **(2018~2023년) 10대 총인구수 비율**
# (행정구역(전국), (2018~2023) 년도별 10대 총인구수)


# 3) 데이터 불러오기

pandas pd.read_csv 도움말 :

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# 구글 드라이브에서 외부 데이터 파일 불러오기

# 1. 구글 드라이브 마운트하기 : [파일-[드라이브 마운트] 아이콘
# 2. 구글 드라이브 파일 경로 복사하기 : content\drive\MyDrive\..\파일명 위에서 우 클릭 [경로 복사]
# 3. 구글 드라이브에서 외부 데이터 파일 불러와 file_name 변수에 할당하기
file_path = '/content/drive/MyDrive/파이썬데이터시각화/SpaceProbe_data/연령별인구현황(201812_202312).csv'

# csv 파일에서 행정구역, 년도별_총인구수 데이터 가져오기
# pd.read_csv('\경로\파일명.csv')
# encoding : csv를 불러올때 한글이 한글이 깨져 열릴때 'cp949'나 'utf-8'로 불러오기
# index_col = index or 'column 명' : row index로 사용할 Col 설정
# nrows = 1 : 1 row까지만 불러오기(header 포함)
# usecols=['월', '품목', '수량'] : 가져올 col 설정 / xlsx 파일에서는 열 머리글로 설정 uscols=('A', 'B:F')
# header = True(default) or False : 첫 줄을 Column 명으로 사용 여부
# sep = ',' : Col 구분자를 설정한다.
# skiprows = 3 또는 [0, 2]) : 첫 번째와 세 번째 row를 제외하고 불러옴(header 포함)
# names = [col_1, col_2, ....] : 칼럼명을 col_1, col_2...로 변경
# na_values =['a'] : NaN을 특정 값(a)로 변경

In [None]:
# 년도별(2018~2023) 전국 총인구수 가져오기------------------------------------------------------------------------------------------
# index는 '행정구역'이고, 첫 번째 머리글을 제외한 하나 row(전국) 가져오기
df = pd.read_csv(file_path, encoding ='CP949', index_col='행정구역', nrows = 1, usecols=['행정구역', '2018년_계_0~9세', '2019년_계_0~9세', '2020년_계_0~9세', '2021년_계_0~9세', '2022년_계_0~9세',  '2023년_계_0~9세'])
df

# 4) 데이터 전처리하기

In [None]:
# Col 레이블 바꾸기
# 방법1. 파일 불러올 때 nrows 속성을 이용해 재명명하기
# 방법2. df.columns으로 나중에 수정하기
df.columns = ['2018년', '2019년', '2020년', '2021년', '2022년', '2023년']
df

In [None]:
# index 값 바꾸기
# '전국  (0000000000)'를 '전국인구수'로 바꾸기
# inplace=True : 원본 값 바꾸기
df.rename(index={'전국  (0000000000)':'전국인구수'}, inplace=True)
df          # 바뀐 index 값 확인하기

In [None]:
# 문자(str) 콤마(,)를 제거해 정수형(int)으로 바꾸기(예) 1,951(문자) -> 1951(정수))
# 재 실행시에는 데이터 불러오기 후 다시 실행해야 한다.

# df.iloc[0] : integerLocation의 index가 0인 '전국인구수' row
# str.replace(',', '').astype(int) : 문자열(str)에서 콤마(,)를 빈 칸으로 바꾸어, 정수형(int)로 형변환한다.
df.iloc[0] = df.iloc[0].str.replace(',', '').astype(int)
df

---
# 5) 데이터 시각화하기

In [None]:
# 한글 폰트 설정하기
plt.rc('font', family = 'NanumGothic', size = 12)

# 음수 축 설정하기
plt.rc('axes', unicode_minus = False)

## 5-1) 원 그래프 만들기

* plt.pie : 원 그래프

pie() 함수는 전체 데이터 중 특정 데이터의 비율을 보기 쉽게 표현한다.

https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.pie.html

In [None]:
plt.figure(figsize=(5,5))                        # 그래프 크기(너비, 높이) 변경하기

# '전국인구수' row 데이터로 원 그래프 만들기
plt.pie(df.iloc[0])

plt.title('전국 10대 인구수 비율', size=20)     # 그래프 제목
plt.show()                                      # 그래프만 표시하기

## 5-2) 원 그래프 꾸미기

* 원 그래프 조각 색상 바꾸기 :https://matplotlib.org/stable/users/explain/colors/colors.html

In [None]:
# 레이블과 백분율 값 추가하기
plt.figure(figsize=(5,5), facecolor='lightblue')        # 그래프 크기(너비, 높이) 변경하기

# 항목 레이블로 columns명 할당하기----------------------------------------------------------------------
# labels 속성 : 항목 이름을 표시한다.
# autopct = '%.1f%%' : 값/전체값인 비율(%)로, 소수점 이하 1자리까지 표시한다.
# startangle = 90 : 첫 번째 항목을 시계 반대 방향으로 90도 회전하여 배치한다.
plt.pie(df.iloc[0], labels = df.columns, autopct = '%.1f%%', startangle = 90)

plt.title('전국 10대 인구수 비율', size=20)     # 그래프 제목
plt.show()                                      # 그래프만 표시하기

In [None]:
# 원 그래프 조각 분리하기
plt.figure(figsize=(5,5))                               # 그래프 크기(너비, 높이) 변경하기

labels = df.columns                                     # 항목 레이블로 columns명 할당하기

# 첫 번째 요소 조각만 분리하기----------------------------------------------------------------------
# explode = [0.05] * 6 : 모든 조각에 동일한 간격 지정하기
explode = [0.1, 0, 0, 0, 0, 0.1]                          # 0값은 분리되지 않는다.
plt.pie(df.iloc[0], labels = labels, autopct = '%.1f%%', startangle = 90, explode = explode)

plt.title('전국 10대 인구수 비율', size=20)     # 그래프 제목
plt.show()                                      # 그래프만 표시하기

In [None]:
# 원 그래프 조각 색상 바꾸기
plt.figure(figsize=(5,5))                               # 그래프 크기(너비, 높이) 변경하기
labels = df.columns                                     # 항목 레이블로 columns명 할당하기
explode = [0.1, 0, 0, 0, 0, 0.1]                        # 첫 번째 요소 조각만 분리하기

# 각 조각의 색상을 color 변수에 할당하기----------------------------------------------------------------------
color = ['olive', 'lavender', 'wheat', 'tomato', 'violet', 'crimson']
plt.pie(df.iloc[0], labels = labels, autopct = '%.1f%%', startangle = 90, explode = explode, colors = color)

plt.title('전국 10대 인구수 비율', size=20)     # 그래프 제목
plt.show()                                      # 그래프만 표시하기

# 6) 도넛형 그래프 만들기

* 원 그래프에 중심에서 끝까지의 반지름의 크기를 줄여 중간을 비우는 효과를 준다.
* plt.axis('equal') : 원이 찌그러져 나온다면 axis 함수를 추가하여 동그랗게 표현한다.


In [None]:
plt.figure(figsize=(5,5))                               # 그래프 크기(너비, 높이) 변경하기
labels = df.columns                                     # 항목 레이블로 columns명 할당하기
color = ['olive', 'lavender', 'wheat', 'tomato', 'violet', 'crimson']   # 각 조각의 색상을 color 변수에 할당하기

# 도넛 그래프 만들기 ---------------------------------------------------
# 조각의 높이(0.1 ~ 1) // '1'은 기본 원 그래프 크기
wedgeprops = {'width' : 0.6}
plt.pie(df.iloc[0], labels = labels, autopct = '%.1f%%', startangle = 90, colors = color, wedgeprops = wedgeprops)

plt.title('전국 10대 인구수 비율', size=20)     # 그래프 제목
plt.show()                                      # 그래프만 표시하기

In [None]:
plt.figure(figsize=(5,5))                               # 그래프 크기(너비, 높이) 변경하기
labels = df.columns                                     # 항목 레이블로 columns명 할당하기
color = ['olive', 'lavender', 'wheat', 'tomato', 'violet', 'crimson']   # 각 조각의 색상을 color 변수에 할당하기

# 도넛 조각 분리하기 ---------------------------------------------------
# explode로 조각을 분리하면 조각이 틀어지는 경우가 발생하므로 wedgeprops 속성에서 조각에 테두리를 흰색으로 두께를 주어 표현한다.
wedgeprops = {'width' : 0.6, 'edgecolor':'white', 'linewidth':4}
plt.pie(df.iloc[0], labels = labels, autopct = '%.1f%%', startangle = 90, colors = color, wedgeprops = wedgeprops)

plt.title('전국 10대 인구수 비율', size=20)     # 그래프 제목
plt.show()                                      # 그래프만 표시하기


# 서울 지역만 10대들의 2018~2023년 인구 분포도를 확인해 본다.

