# 연령별인구현황을 분석하여 10년 뒤 사회현상 예측과 대비

데이터 파일 : 연령별인구현황(201812_202312).csv

* 조회기간 : 2018년~2023년(6년)

01. 데이터프레임과 데이터시각화
02. 년도별총인구수(꺾은선그래프)
03. **년도별행정구역Top3총인구수(꺾은선그래프)**
04. (2023년)연령별총인수구(세로막대그래프)
05. (2018년)전국성별연령별인구분포(가로막대그래프)
06. 년도별행정구역 Top3 총인구수(누적막대그래프)
07. 년도별10대총인구수비율(원그래프+도넛그래프)
08. (서울시)년도별남녀총인구수비교(다중세로막대그래프)
09. (2023년)연령별행정구역별총인구수(다중세로막대그래프)

# 1) 한글 글꼴 설치하기

* 구글 코랩에 한글 글꼴이 없어서 한글이 깨지는 것을 방지하기 위해 글꼴을 설치해야 한다.
* 매 주피터 노트북 파일마다 설치해야 한다.
* 설치가 끝나면 코랩 [런타임] → [세션 다시 시작]을 선택 후 [예] 클릭
* 모든 라이브러리들을 다시 import 해야 한다.

In [None]:
# 한글 글꼴 설치하기
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 2) 라이브러리 불러오기


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

---
# **년도별 행정지역 Top3 총인구수**
# (행정구역(전국), 년도별_총인구수)

# 3) 데이터 불러오기

pandas pd.read_csv 도움말 :

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [None]:
# 구글 드라이브에서 외부 데이터 파일 불러오기

# 1. 구글 드라이브 마운트하기 : [파일-[드라이브 마운트] 아이콘
# 2. 구글 드라이브 파일 경로 복사하기 : content\drive\MyDrive\..\파일명 위에서 우 클릭 [경로 복사]
# 3. 구글 드라이브에서 외부 데이터 파일 불러와 file_path 변수에 할당하기
from google.colab import drive
drive.mount('/content/drive')
file_path = '/content/drive/MyDrive/파이썬데이터시각화/SpaceProbe_data/연령별인구현황(201812_202312).csv'

#-----------------------------------------------------------------------------------------------------
# csv 파일에서 전체 행정구역, 년도별(2018~2023) 총인구수 데이터 가져오기

# pd.read_csv('\경로\파일명.csv')
# encoding : csv를 불러올때 한글이 한글이 깨져 열리면 'cp949'나 'utf-8'로 불러오기
# index_col = index or 'column 명' : row index로 사용할 Col 설정
# nrows = 1 : 1 row까지만 불러오기(header 포함)
# usecols=['월', '품목', '수량'] : 가져올 col 설정 / xlsx 파일에서는 열 머리글로 설정가능 : uscols=('A', 'B:F')
# header = True(default) or False : 첫 줄을 Column 명으로 사용 여부
# sep = ',' : Col 구분자를 설정한다.
# skiprows = 3 또는 [0, 2]) : 첫 번째와 세 번째 row를 제외하고 불러옴(header 포함)
# names = [col_1, col_2, ....] : 칼럼명을 col_1, col_2...로 변경
# na_values =['a'] : NaN을 특정 값(a)로 변경

df = pd.read_csv(file_path, encoding ='CP949', usecols=['행정구역', '2018년_계_총인구수', '2019년_계_총인구수', '2020년_계_총인구수', '2021년_계_총인구수', '2022년_계_총인구수', '2023년_계_총인구수'])
df

# 4) 데이터 전처리하기

In [None]:
# Col 레이블 바꾸기
df.columns = ['행정구역', '2018년', '2019년', '2020년', '2021년', '2022년', '2023년']
df

In [None]:
# 행정구역을 공백(' ')을 기준으로 분리하고 공백 왼쪽의 행정구역명만 남긴다.
# str.split : 문자열을 분리한다.
# expand=True : DataFrame 구조의 변경 사항을 적용한다.
# get(0) : 공백을 기준으로 분리된 0번째 데이터만 남긴다.
# 남겨진 행정구역을 행정구역 열에 배치한다.
df['행정구역'] = df['행정구역'].str.split(' ', expand=True).get(0)
df

In [None]:
# index를 '행정구역'으로 바꾸기
# inplace=True : 원본 데이터 바꾸기
df.set_index('행정구역', inplace=True)
df

In [None]:
# '전국' row 삭제하기
df.drop(index = '전국', inplace=True)
df

In [None]:
# 모든 NaN 데이터(결측치)를 ,0으로 채워 문자열(str)로 만든다.
# ',0'은 문자열(str)로 차후에 ,를 제거하고 정수(int)으로 형변환하기 위함이다.
# inplace=True : 원본 값 바꾸기
df.fillna(',0', inplace=True)
df

In [None]:
# 행 개수 정보 알아내기
df.shape

In [None]:
# 문자(str) 콤마(,)를 제거해 정수형(int)으로 바꾸기(예) 1,951(문자) -> 1951(정수))
# 재 실행시에는 데이터 불러오기 후 다시 실행해야 한다.

# for 반복문 : i 변수의 값이 0~17지 총 18회 반복하여 문자를 정수로 형변환한다.
# df.iloc[i] : integerLocation의 index
# str.replace(',', '').astype(int) : 문자열(str)에서 콤마(,)를 빈 칸으로 바꾸어, 정수형(int)로 형변환한다.

for i in range(18):
    df.iloc[i] = df.iloc[i].str.replace(',', '').astype(int)
df

In [None]:
# 2023년 Top3 행정구역 알아내기 => 경기도, 서울특별시, 부산광역시
# 2023년 Col을 기준으로 내림차순 정렬(ascending = False) / 생략하면 오름차순 정렬된다.
# inplace=True : 정렬 결과를 원본으로 변경한다.
df.sort_values('2023년', ascending = False, inplace=True)
df.head(3)  # 처음 3개의 row 가져오기

---
# 5) 데이터 시각화하기


In [None]:
# 한글 폰트와 폰크 크기 설정하기
plt.rc('font', family = 'NanumGothic', size = 12)

# 음수 축 설정하기
plt.rc('axes', unicode_minus = False)

## 5-1) 여러 개 계열의 꺾은선 그래프 만들기

* plt.plot : 꺾은선 그래프

In [None]:
plt.figure(figsize=(10,5))                           # 그래프 크기(너비, 높이) 변경하기

# 꺾은선 그래프(x(연도), y(데이터))
plt.plot(df.columns, df.iloc[0]//1000)              # 경기도//1000 나눈 몫
plt.plot(df.columns, df.iloc[1]//1000)              # 서울특별시//1000 나눈 몫
plt.plot(df.columns, df.iloc[2]//1000)              # 부산광역시//1000 나눈 몫

plt.title('2018~2023년 행정구역 Top3 총인구수 비교')# 그래프 제목
plt.xlabel('연도')                                  # x축 제목
plt.ylabel('인구수(천 명)')                         # y축 제목
plt.ylim(0, 20000)                                  # y축 최솟값, 최댓값
plt.show()                                          # 그래프만 표시하기

## 5-2) 꺾은선 그래프 꾸미기

* matplotlib color picker :

https://matplotlib.org/stable/users/explain/colors/colors.html

https://matplotlib.org/stable/gallery/color/named_colors.html

* maker 종류 :

https://matplotlib.org/stable/api/markers_api.html

* 선 스타일 :

https://matplotlib.org/stable/gallery/lines_bars_and_markers/linestyles.html

* 속성 축약어

https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html

* 범례 위치 :

https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.legend.html

In [None]:
plt.figure(figsize=(10,5))                           # 그래프 크기(너비, 높이) 변경하기

# 꺾은선 서식---------------------------------------------------------------------------
# color='red': 꺾은선 색상
# linewidth : 꺾은선 두께
# linestyle='--' : 꺾은선 스타일 실선('-'), 파선('--'), 파선+점선('-.'), 점선(':') 선없음('None')
# marker='o', 'v', 'X' : 마커 종류
# markersize 또는 ms : 마커 크기
# markerfacecolor = 'yellow' 또는 mfc = 'y' : 마커 채우기 색상
# markeredgecolor='white' 또는 mec='w': 마커 테두리 색상
# markeredgewidth 또는 mew : 마커 테두리 두께
# alpha : 선과 마커 투명도(0~1)

# 범례 추가하기-------------------------------------------------------------------------
# label + legend()
plt.plot(df.columns, df.iloc[0]//1000, marker='o', linestyle = '--', label = '경기도')
plt.plot(df.columns, df.iloc[1]//1000, marker='v', label = '서울특별시')
plt.plot(df.columns, df.iloc[2]//1000, marker='s', label = '부산광역시')
plt.legend(fontsize=10, loc='upper left')          # 범례(label)

plt.title('2018~2023년 행정구역 Top3 총인구수 비교', fontsize=15)   # 그래프 제목
plt.xlabel('연도')                                  # x축 제목
plt.ylabel('인구수(천 명)')                         # y축 제목
plt.ylim(0, 20000)                                  # y축 최솟값, 최댓값
plt.show()                                          # 그래프만 표시하기