In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import numpy as np

# 🥄숙박 | 음식업 | 도소매업

### 데이터 불러오기

In [3]:
path1 = '/content/drive/MyDrive/파이썬 시각화/data/서울시 상권분석서비스.csv'
path2 = '/content/drive/MyDrive/파이썬 시각화/data/1인당 국민총소득.xlsx'
path3 = '/content/drive/MyDrive/파이썬 시각화/data/서울시 사업체현황 종사자수.csv'
path4 = '/content/drive/MyDrive/파이썬 시각화/data/서울시 동별 인구밀도.csv'

In [6]:
# 인코딩

import chardet

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read())
        return result['encoding']

# 각 파일의 인코딩 감지
encoding1 = detect_encoding(path1)
encoding3 = detect_encoding(path3)
encoding4 = detect_encoding(path4)

df = pd.read_csv(path1, encoding=encoding1)
df_i = pd.read_excel(path2)
df_s = pd.read_csv(path3, encoding=encoding3)
df_d = pd.read_csv(path4, encoding=encoding4)


### 폐업률

년분기가 년월 형식으로 잘못되어 있어 변경해줌

In [None]:
# 년도별, 분기별 시각화 하기 위해 컬럼 생성
df['년'] = df['기준_년분기_코드'].str.split(' ').str[0].str.replace('년', '')
df['분기'] = df['기준_년분기_코드'].str.split(' ').str[1].str.replace('월', '')

# 24 -> 2024 형태로 변환
df['년'] = '20' + df['년']

# 년-분기를 datetime 형식으로 변환
df['년_분기'] = pd.to_datetime(df['년'] + '-' + df['분기'], format='%Y-%m')

# YYYY-MM 형식으로 변환
df['년_분기'] = df['년_분기'].dt.strftime('%Y-%m')

# 기존에 있던 년분기 코드 삭제
df = df.drop(columns = ['기준_년분기_코드'])

df.head()

Unnamed: 0,자치구_코드_명,서비스_업종_코드_명,점포_수,폐업_률,폐업_점포_수,프랜차이즈_점포_수,년,분기,년_분기
0,강동구,전자상거래업,1954,3.1,60,4,2024,2,2024-02
1,강동구,화장품,551,2.8,16,28,2024,2,2024-02
2,강동구,문구,132,5.5,8,13,2024,2,2024-02
3,강동구,의약품,405,1.8,8,30,2024,2,2024-02
4,강동구,편의점,35,4.5,19,383,2024,2,2024-02


In [None]:
#df.to_csv('/content/drive/MyDrive/파이썬 시각화/pre_data/폐업률.csv', index = False)
print("CSV 파일이 저장되었습니다.")

CSV 파일이 저장되었습니다.


-------

### 1인당 국민 총소득

In [None]:
df_i = pd.read_excel(path2)

In [None]:
# 인덱스와 컬럼 위치 변경
df_i = df_i.transpose()

# 첫번째 행을 인덱스로 변경
df_i.columns = df_i.iloc[0]

# 2019~2023 년도만 추출
df_i = df_i.loc[[2019, 2020, 2021, 2022, 2023]]

# 국민총소득 컬럼만 추출
df_i = df_i['1인당 실질 국민총소득(만 원)']

df_i

Unnamed: 0,1인당 실질 국민총소득(만 원)
2019,3532.0
2020,3530.0
2021,3657.0
2022,3639.0
2023,3703.0


In [None]:
#df_i.to_csv('/content/drive/MyDrive/파이썬 시각화/pre_data/국민총소득.csv', index = False)
print("CSV 파일이 저장되었습니다.")

CSV 파일이 저장되었습니다.


---------
### 사업체 현황

In [None]:
df_s = pd.read_csv(path3, encoding=encoding3)

In [None]:
# 필요한 구와 사업체 수 컬럼만 뽑기
df_s = df_s[['Unnamed: 0', '2019', '2020', '2021', '2022']]

# 필요 없는 행 삭제
df_s = df_s.drop(df_s.index[:2])

# 자치구로 컬럼명 변경
df_s = df_s.rename(columns = {'Unnamed: 0':'자치구'})

# 인덱스 정렬
df_s = df_s.reset_index(drop=True)

df_s.head()

Unnamed: 0,자치구,2019,2020,2021,2022
0,종로구,39679,50531,48361,47595
1,중구,60127,76129,70308,68143
2,용산구,20254,31507,29680,28047
3,성동구,28343,41582,41665,41306
4,광진구,24445,35423,33706,33325


In [None]:
#df_s.to_csv('/content/drive/MyDrive/파이썬 시각화/pre_data/사업체수.csv', index = False)
print("CSV 파일이 저장되었습니다.")

CSV 파일이 저장되었습니다.


------

### 동별 인구밀도

In [7]:
df_d

Unnamed: 0,자치구,행정동,2019,2020,2021,2022,2023
0,종로구,소계,6769,6649,6431,6365,6292
1,종로구,사직동,7980,7972,7834,7606,-
2,종로구,삼청동,2011,1952,1838,1773,-
3,종로구,부암동,4648,4552,4309,4201,-
4,종로구,평창동,2121,2095,2066,2013,-
...,...,...,...,...,...,...,...
449,강동구,천호2동,22869,22453,21499,21545,-
450,강동구,길동,21367,21598,28555,28183,-
451,강동구,강일동,-,-,14594,14627,-
452,강동구,상일1동,-,-,21390,21526,-
