# 모듈 설치

In [9]:
import os
import sys
# import re
import pickle
from collections import defaultdict, OrderedDict, Counter
import warnings
warnings.filterwarnings('ignore')

# import json
from tqdm import tqdm

In [10]:
import numpy as np
import pandas as pd
# from pandas.plotting import scatter_matrix
# from pandas_profiling import ProfileReport
# from missingno import dendrogram
# import missingno as msno

# pd.options.display.float_format = '{:0.5f}'.format`

In [11]:
import matplotlib.pyplot as plt
import seaborn as sns

# settings for seaborn plot sizes
sns.set(rc={'figure.figsize':(20, 10)})
plt.rc('font',family='Malgun Gothic')

----

# 데이터 베이스 활용

In [12]:
# 해당 데이터들의 정보와 DataFrame를 불러올 수 있는 딕셔너리
# 파일 크기 큼 주의
with open('Database.p', 'rb') as file:    
    DataBase = pickle.load(file)

In [13]:
# 해당 데이터들의 정보들만 빠르게 파악할 수 있는 딕셔너리
with open('Database_info.p', 'rb') as file:
    DataBase_info = pickle.load(file)

In [14]:
def db_NameList():
    """데이터베이스 안에 있는 data 이름들 리스트로 반환

    Returns:
        list: data Names in DataBase
    """
    return list(DataBase_info.keys())

In [15]:
def db_nameToInfo(name):
    """데이터베이스 중에 name 에 해당하는 정보들을 딕셔너리 형태로 반환

    Args:
        name (str): 데이터 이름 (한글)

    Returns:
        dict: name data's information
    """
    return DataBase_info[name]

In [16]:
def db_nameToDataframe(name):
    """데이터베이스 중에 name 에 해당하는 데이터 프레임 반환

    Args:
        name (str): 데이터 이름 (한글)

    Returns:
        DataFrame: name data's DataFrame
    """
    return DataBase[name]['data'].copy()

In [17]:
def db_nameToColumns(name):
    """데이터베이스 중에 name 에 해당하는 데이터 프레임의 칼럼 리스트 반환

    Args:
        name (str): 데이터 이름 (한글)

    Returns:
        list: name data's columns
    """
    return db_nameToInfo(name)['columns']

In [18]:
data3=db_nameToDataframe('주문지역 인구 특성')

In [19]:
data3

Unnamed: 0,기준연월,시군구코드,시도명,시군구명,5세단위구분,총인구수,남성인구수,여성인구수
0,201801,11110,서울특별시,종로구,0-4세,4070,2054,2016
1,201802,11110,서울특별시,종로구,0-4세,4049,2049,2000
2,201803,11110,서울특별시,종로구,0-4세,4022,2036,1986
3,201804,11110,서울특별시,종로구,0-4세,4008,2025,1983
4,201805,11110,서울특별시,종로구,0-4세,4007,2017,1990
...,...,...,...,...,...,...,...,...
62995,202102,50130,제주특별자치도,서귀포시,100+,103,13,90
62996,202103,50130,제주특별자치도,서귀포시,100+,63,4,59
62997,202104,50130,제주특별자치도,서귀포시,100+,66,4,62
62998,202105,50130,제주특별자치도,서귀포시,100+,71,4,67


In [21]:
data3=data3[data3['시도명']=='서울특별시']

In [22]:
data3

Unnamed: 0,기준연월,시군구코드,시도명,시군구명,5세단위구분,총인구수,남성인구수,여성인구수
0,201801,11110,서울특별시,종로구,0-4세,4070,2054,2016
1,201802,11110,서울특별시,종로구,0-4세,4049,2049,2000
2,201803,11110,서울특별시,종로구,0-4세,4022,2036,1986
3,201804,11110,서울특별시,종로구,0-4세,4008,2025,1983
4,201805,11110,서울특별시,종로구,0-4세,4007,2017,1990
...,...,...,...,...,...,...,...,...
6295,202102,11740,서울특별시,강동구,100+,256,65,191
6296,202103,11740,서울특별시,강동구,100+,116,29,87
6297,202104,11740,서울특별시,강동구,100+,116,29,87
6298,202105,11740,서울특별시,강동구,100+,117,29,88


In [23]:
data3['기준연월'].dtypes

dtype('int64')

In [28]:
data3=data3[(202000<data3['기준연월'])&(data3['기준연월']<202100)]

In [26]:
data3['5세단위구분'].unique()

array(['0-4세', '5-9세', '10-14세', '15-19세', '20-24세', '25-29세', '30-34세',
       '35-39세', '40-44세', '45-49세', '50-54세', '55-59세', '60-64세',
       '65-69세', '70-74세', '75-79세', '80-84세', '85-89세', '90-94세',
       '95-99세', '100+'], dtype=object)

In [29]:
data3.groupby('기준연월')['총인구수'].sum()

기준연월
202001    9733509
202002    9736962
202003    9733655
202004    9726787
202005    9724496
202006    9720846
202007    9715429
202008    9708247
202009    9699232
202010    9689159
202011    9679771
202012    9668465
Name: 총인구수, dtype: int64

In [41]:
data3_1=data3.groupby('시군구명')[['총인구수']].sum().reset_index() #지역별 총인구수

In [42]:
data3_1

Unnamed: 0,시군구명,총인구수
0,강남구,6502781
1,강동구,5458642
2,강북구,3734331
3,강서구,7033513
4,관악구,5982799
5,광진구,4189653
6,구로구,4865626
7,금천구,2787565
8,노원구,6335790
9,도봉구,3948530


In [35]:
data3.groupby(['시군구명','5세단위구분'])['총인구수'].sum()

시군구명  5세단위구분
강남구   0-4세      172082
      10-14세    343840
      100+        3413
      15-19세    371198
      20-24세    404154
                 ...  
중랑구   75-79세    159691
      80-84세     94844
      85-89세     41644
      90-94세     14856
      95-99세      3965
Name: 총인구수, Length: 525, dtype: int64

In [36]:
def percent_(df_bin, df) :
    total = sum(df_bin)
    #print(total)
    percentage = df_bin/total*100
    #print(percentage)
    df['%']=percentage
    
    # 데이터프레임의 항목당 백분율 계산 함수 (매개변수 (DF_백분율로 나타내려는 column, DF))

In [43]:
percent_(data3_1['총인구수'],data3_1)

In [44]:
data3_1

Unnamed: 0,시군구명,총인구수,%
0,강남구,6502781,5.580035
1,강동구,5458642,4.68406
2,강북구,3734331,3.204429
3,강서구,7033513,6.035456
4,관악구,5982799,5.133839
5,광진구,4189653,3.595141
6,구로구,4865626,4.175193
7,금천구,2787565,2.392009
8,노원구,6335790,5.43674
9,도봉구,3948530,3.388233
