### 서울시 데이터 통합

In [None]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

#### 1. CCTV 데이터

In [None]:
# 1) 데이터 파일 읽기
filename = 'data/서울시 자치구 년도별 CCTV 설치 현황_221231기준.csv'
columns = '구분,총계,2013년 이전 설치된 CCTV,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년,2022년'.split(',')
cctv = pd.read_csv(filename, encoding='euc=kr', thousands=',')
cctv = cctv[columns]
cctv.head()

In [None]:
# 2) 결측치 확인
cctv.isna().sum().sum()

In [None]:
# 3) 최근 증가율
cctv.loc[:, '2020년':'2022년'].sum(axis=1).head()

In [None]:
cctv['최근증가율'] = cctv.iloc[:, 10:].sum(axis=1) / cctv.iloc[:, 2:10].sum(axis=1)
cctv['최근증가율'] = (cctv['최근증가율'] * 100).round(2)
cctv.head()

In [None]:
# 4) Selection and rename
cctv = cctv[['구분', '총계', '최근증가율']]
cctv.head()

In [None]:
cctv.rename(columns={'구분':'구별', '총계':'CCTV댓수'}, inplace=True)
cctv.head()

In [None]:
# 5) Filtering - 계 데이터 삭제
cctv.drop([0], inplace=True)
cctv.head()

In [None]:
# 6) 구 이름에서 공백 지우기
cctv.구별 = cctv.구별.str.replace(' ', '')
cctv.head(3)

In [None]:
# 7) cctv.csv 파일에 저장
cctv.to_csv('data/cctv.csv', index=False)
df = pd.read_csv('data/cctv.csv')
df.head()

#### 2. 인구 데이터

In [None]:
# 1) 파일 읽기
pop = pd.read_csv('data/서울시인구.txt', sep='\t')
pop.head()

In [None]:
pop = pd.read_csv('data/서울시인구.txt', sep='\t', skiprows=2)
pop.head()

In [None]:
# 2) 결측치 확인
pop.isna().sum().sum()

In [None]:
# 3) Selection and rename
pop = pop[['자치구','계','계.1','계.2','65세이상고령자']]
pop.head(3)

In [None]:
pop.columns = ['구별','인구수','내국인','외국인','고령자']
pop.head(3)

In [None]:
# 4) 합계 데이터 삭제
pop.drop([0], inplace=True)
pop.head(3)

In [None]:
# 5) 천단위 구분기호 없애고 정수로 변환하기
for column in pop.columns[1:]:
    pop[column] = pop[column].str.replace(',','').astype(int)
pop.head(3)

In [None]:
# 6) 외국인 비율, 고령자 비율 컬럼 만들기
pop['외국인비율'] = (pop.외국인 / pop.인구수 * 100).round(2)
pop['고령자비율'] = (pop.고령자 / pop.인구수 * 100).round(2)
pop.head(3)

In [None]:
# 7) pop.csv에 저장하기
pop.to_csv('data/pop.csv', index=False)
df = pd.read_csv('data/pop.csv')
df.head(3)