In [12]:
from LandBase import *

def population_to_db(con, p_yyyy='2008') :
    ####
    # "행정안전부"의 "주민등록인구 및 세대현황"을 DB에 저장
    # 조회가능기간: 2008 ~ 2016
    # 테이블: population_history
    ####
    
    # DataFrame 작성
    df = pd.read_csv('./source_files/행정안전부_주민등록인구와세대_200812_201612.csv', sep=',', encoding='utf-8')
    df = df[ ( df['행정구역'].str.startswith('서울') ) | ( df['행정구역'].str.startswith('인천') )  | ( df['행정구역'].str.startswith('경기') ) ]
    df2 = pd.DataFrame()
        
    # DB처리
    df2['yyyy'] = p_yyyy
    df2['admd_cd'] = df['행정구역'].str.extract('[(](\d+)', expand=False).astype(str)
    df2['admd_nm'] = df['행정구역'].str.extract('(.*)[(]', expand=False).astype(str)
    df2[['tot_population', 'tot_household', 'cnt_per_household', 'male_population', 'female_population']] \
    = df[[p_yyyy+'년_총인구수', p_yyyy+'년_세대수', p_yyyy+'년_세대당 인구', p_yyyy+'년_남자 인구수', p_yyyy+'년_여자 인구수']]
    df2['yyyy'] = p_yyyy
    df2.replace(np.NaN, 0, inplace=True)
    #display(df[[p_yyyy+'년_총인구수', p_yyyy+'년_세대수', p_yyyy+'년_세대당 인구', p_yyyy+'년_남자 인구수', p_yyyy+'년_여자 인구수']])

    # DB처리
    table_name = 'population_history'
    sql = 'delete from ' + table_name + ' where yyyy = \'' + p_yyyy + '\'';
    con.execute(sql)
    df2.to_sql(name=table_name, con=con, if_exists='append', index=False, chunksize=1000)

    
def p_5term_to_db(con, p_yyyy='2016') :
    ####
    # "KOSIS"의 행정구역(읍면동)별/5세별 주민등록인구(2000년 ~ 2016년)
    # "KOSIS"에서 csv 파일을 다운로드 받아서 이용함 (api로는 4000 항목 이상이라서 조회가 안 됨. 그럴거면 api는 왜 만들어 둔거냐!!!)
    # 조회가능기간: 2000 ~ 2016
    # 테이블: population_5term
    ####
    
    # DataFrame 작성
    df = pd.read_csv('./source_files/kosis_통계청_읍면동_5세별_인구수_' + p_yyyy +'.csv', sep=',', encoding='euc-kr')
    df = df[ ( df['C행정구역(동읍면)별'].str.startswith('\'11') ) | \
            ( df['C행정구역(동읍면)별'].str.startswith('\'28') )  | \
            ( df['C행정구역(동읍면)별'].str.startswith('\'41') ) ] # 11: 서울, 28: 인천, 41: 경기
    df.drop(['C5세별'], axis=1, inplace=True)
    df['C행정구역(동읍면)별'] = df['C행정구역(동읍면)별'].str.replace('\'', '')
    df.rename(columns={'C행정구역(동읍면)별':'admd_cd',\
                       '행정구역(동읍면)별':'admd_nm',\
                       '5세별':'term5',\
                       '시점':'yyyy',\
                       '인구':'tot_population',\
                       '남':'male_population',\
                       '여':'female_population'}, inplace=True)

    # DB처리
    table_name = 'population_5term'
    sql = 'delete from ' + table_name + ' where yyyy = \'' + p_yyyy + '\'';
    con.execute(sql)
    df.to_sql(name=table_name, con=con, if_exists='append', index=False, chunksize=1000)

    
def p_move_to_db(con, p_yyyy='2016') :
    ####
    # "KOSIS" -> 온라인간행물 -> 국내인구이동통계 -> 이동자수(시군구 전출입지별 성별 연령별 이동자수)
    # "KOSIS"에서 csv 파일을 다운로드 받아서 이용함
    # 조회가능기간: 2001 ~ 2016
    # 테이블: population_move
    ####
    
    # DataFrame 작성
    df = pd.read_excel('./source_files/kosis_온라인간행물_인구이동(전입전출)_' + p_yyyy +'.xlsx', encoding='euc-kr')
    df = df[ ['전출지코드', '전출지','전입지코드', '전입지', '계']]
    df = df[ (df['전출지'].str.startswith('서울')) |\
            (df['전출지'].str.startswith('경기')) |\
            (df['전출지'].str.startswith('인천')) |\
            (df['전입지'].str.startswith('서울')) |\
            (df['전입지'].str.startswith('경기')) |\
            (df['전입지'].str.startswith('인천')) ]
    df['yyyy'] = p_yyyy
    df.rename(columns={'전출지코드':'transfer_cd',\
                       '전출지':'transfer_nm',\
                       '전입지코드':'transference_cd',\
                       '전입지':'transference_nm',\
                       '계':'person_cnt'}, inplace=True)

    # DB처리
    table_name = 'population_move'
    sql = 'delete from ' + table_name + ' where yyyy = \'' + p_yyyy + '\'';
    con.execute(sql)
    df.to_sql(name=table_name, con=con, if_exists='append', index=False, chunksize=1000)


In [13]:
# DB Connection Open
con = get_db_connection()

# "행정안전부"의 "주민등록인구 및 세대현황"을 DB에 저장
'''for yyyy in ('2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016') :
    population_to_db(con, yyyy)'''

# "KOSIS"의 행정구역(읍면동)별/5세별 주민등록인구
'''for yyyy in range(2016, 2017, 1) :
    p_5term_to_db(con, str(yyyy))'''

# "KOSIS"의 전출입지별 인구이동
for yyyy in range(2016, 2017, 1) :
    print(yyyy)
    p_move_to_db(con, str(yyyy))

# DB Connection Close
disconnect_db(con)

print('Program Finised')

2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
Program Finised
