# 데이터 전처리

## #01. 패키지 참조

In [9]:
import numpy as np
import pandas as pd 

from matplotlib import pyplot as plt
import seaborn as sb

## #02. 데이터 구축

### 1. 데이터 파일 열기

In [10]:
df2018 = pd.read_csv('서울시 우리마을가게 상권분석서비스(상권-추정매출)_2018.csv', encoding='euc-kr')
df2019 = pd.read_csv('서울시 우리마을가게 상권분석서비스(상권-추정매출)_2019.csv', encoding='euc-kr')
df2020 = pd.read_csv('서울시 우리마을가게 상권분석서비스(상권-추정매출)_2020.csv', encoding='euc-kr')
df2021 = pd.read_csv('서울시 우리마을가게 상권분석서비스(상권-추정매출)_2021.csv', encoding='euc-kr')
df상권영역 = pd.read_csv('서울시 우리마을가게 상권분석서비스(상권영역).csv', encoding='euc-kr')
df건축물 = pd.read_csv('서울특별시 건축물대장 법정동 코드정보.csv', encoding='euc-kr')

### 2. 상권영역에 구 이름 병합

#### 상권영역 데이터

서울시에만 해당하는 데이터

In [11]:
df상권영역.head()

Unnamed: 0,기준_년월_코드,상권_구분_코드,상권_구분_코드_명,상권_코드,상권_코드_명,엑스좌표_값,와이좌표_값,시군구_코드,행정동_코드,형태정보
0,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,
1,201810,R,전통시장,1001454,봉천제일종합시장,195147,442413,11620,11620595,
2,201810,R,전통시장,1001474,도곡시장,204551,444227,11680,11680650,
3,201810,R,전통시장,1001475,강남개포시장,206065,443310,11680,11680670,
4,201810,R,전통시장,1001412,화곡본동시장,186203,449328,11500,11500590,


#### 법정동 코드정보

전국에 대한 데이터

In [12]:
df건축물.head()

Unnamed: 0,시군구코드,법정동코드,행정동코드,시도명,시군구명,법정동명,행정동명,적용시작일,적용만료일
0,42750,31224,0,강원도,영월군,산솔면 화원리,,20211102,99991231
1,42750,31226,0,강원도,영월군,산솔면 석항리,,20211102,99991231
2,42750,31221,0,강원도,영월군,산솔면 녹전리,,20211102,99991231
3,42750,31223,312,강원도,영월군,산솔면 이목리,산솔면,20211102,99991231
4,42750,31225,312,강원도,영월군,산솔면 연상리,산솔면,20211102,99991231


#### 법정동 코드 정보를 상권영역에 결합

In [16]:
df상권영역2 = pd.merge(df상권영역, df건축물.filter(['시군구명', '시군구코드']), left_on='시군구_코드', right_on='시군구코드', how='inner')
df상권영역2

Unnamed: 0,기준_년월_코드,상권_구분_코드,상권_구분_코드_명,상권_코드,상권_코드_명,엑스좌표_값,와이좌표_값,시군구_코드,행정동_코드,형태정보,시군구명,시군구코드
0,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620
1,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620
2,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620
3,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620
4,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620
...,...,...,...,...,...,...,...,...,...,...,...,...
145707,201810,A,골목상권,1000381,동일로242길,205175,463916,11350,11350630,,노원구,11350
145708,201810,A,골목상권,1000381,동일로242길,205175,463916,11350,11350630,,노원구,11350
145709,201810,A,골목상권,1000381,동일로242길,205175,463916,11350,11350630,,노원구,11350
145710,201810,A,골목상권,1000381,동일로242길,205175,463916,11350,11350630,,노원구,11350


### 3. `구`에 대한 정보 확인

#### 얼마나 많은 `구`가 있는가?

In [17]:
df상권영역2['시군구명'].value_counts()

시군구명
종로구     14553
강남구     13915
영등포구    12284
성북구     11868
중구      11825
마포구      7739
성동구      7728
관악구      7568
동대문구     7268
용산구      5858
강서구      5313
구로구      4897
서초구      4760
서대문구     3936
강동구      3480
동작구      3250
은평구      3111
송파구      2925
양천구      2646
도봉구      2508
중랑구      2304
광진구      2040
강북구      2028
노원구      1170
금천구       738
Name: count, dtype: int64

#### 파생변수 생성

`행정구`는 값의 종류가 너무 많아서 더미변수화 하기가 어려울 것으로 보고 도심과 비도심으로 구분하는 파생변수를 생성

> 출처: 서울2030플렌

In [18]:
도심 = ['종로구', '중구', '영등포구', '서초구', '강남구'] 

df상권영역2['도심'] = np.isin(df상권영역2['시군구명'], 도심)

df상권영역2.head()

Unnamed: 0,기준_년월_코드,상권_구분_코드,상권_구분_코드_명,상권_코드,상권_코드_명,엑스좌표_값,와이좌표_값,시군구_코드,행정동_코드,형태정보,시군구명,시군구코드,도심
0,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620,False
1,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620,False
2,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620,False
3,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620,False
4,201810,R,전통시장,1001453,낙성대시장,196121,442084,11620,11620585,,관악구,11620,False


In [19]:
# df상권영역2.to_excel('df상권영역2.xlsx', index=False)

### 4. 코로나 이전 매출 데이터
#### 단순 데이터 결합



In [21]:
코로나이전df= pd.concat([df2018,df2018])
코로나이전df.reset_index(drop=True,inplace=True) 

In [23]:
코로나이전df2= 코로나이전df.loc[코로나이전df['상권_구분_코드_명']=='골목상권',:]
코로나이전df2.head()

Unnamed: 0,기준_년_코드,기준_분기_코드,상권_구분_코드,상권_구분_코드_명,상권_코드,상권_코드_명,서비스_업종_코드,서비스_업종_코드_명,분기당_매출_금액,분기당_매출_건수,...,시간대_건수~24_매출_건수,남성_매출_건수,여성_매출_건수,연령대_10_매출_건수,연령대_20_매출_건수,연령대_30_매출_건수,연령대_40_매출_건수,연령대_50_매출_건수,연령대_60_이상_매출_건수,점포수
2,2018,1,A,골목상권,1000289,인촌로17가길,CS300021,문구,6044732,23,...,0,23,0,0,0,0,8,7,8,4
3,2018,1,A,골목상권,1000515,남부순환로70길,CS200030,피부관리실,11863957,40,...,0,0,36,0,0,0,13,23,0,1
4,2018,1,A,골목상권,1000902,논현로63길,CS200029,네일숍,1766586,19,...,3,0,15,0,0,11,0,0,5,2
5,2018,1,A,골목상권,1000407,연서로33길,CS200007,치과의원,140020113,2150,...,0,1033,1117,32,280,324,402,458,654,1
6,2018,1,A,골목상권,1000407,연서로33길,CS200008,한의원,145038784,6360,...,20,2712,3648,10,391,896,1326,1930,1807,1


### 코로나 이전과 이후의 조사범위를 동일하게 설정
코로나19 발생시점인 2020년 1월을 기준으로 2018년 1,2,3,4분기, 2019년 1,2,3,4분기 데이터와 2020년 1,2,3,4분기, 2021년 1,2분기 데이터만 수집된 상태.

그러므로 코로나 이전 데이터에서 2018년 1,2분기를 분석 범위에서 제외해야 코로나 전후에 대한 데이터 분포가 균형을 이루게 된다.

In [25]:
제외할index = 코로나이전df2.query("(기준_년_코드==2018 and (기준_분기_코드==1 or 기준_분기_코드==2))").index
코로나이전df3 = 코로나이전df2.drop(제외할index)
코로나이전df3.reset_index(drop=True, inplace=True)
코로나이전df3.to_excel('코로나이전_매출데이터.xlsx', index=False)
코로나이전df3

### 코로나 이후 매출 데이터


In [24]:

# 코로나이후df = pd.concat([df2020,df2021])
# 코로나이후df.reset_index(drop=True,inplace=True)

# 코로나이후df2 = 코로나이후df.loc[코로나이후df['상권_구분_코드_명']=='골목상권',:]
# 코로나이후df2.to_excel("코로나이후_매출데이터.xlsx", index=False)
# 코로나이후df2



KeyboardInterrupt



In [None]:
코로나이전df3['covid19']=0
코로나이후df2['covid19']=1

concat_df = pd.concat([코로나이전df3,코로나이후df2])

concat_df.reset_index(drop=True,inplace=True)