In [1]:
import pandas as pd
import numpy as np
from glob import glob
from tqdm.notebook import tqdm
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import folium
import json
from matplotlib import font_manager, rc
mpl.rcParams['axes.unicode_minus'] = False
plt.rc('font', family = 'Malgun Gothic')

# 커피지수 part_1

In [2]:
# 1. 데이터로부터 4개 커피숍 정보 추출
data_dir = './data1/소상공인'
df = pd.read_csv(f'{data_dir}/소상공인시장진흥공단_상가(상권)정보_서울_202112.csv')

In [3]:
df.shape

(315294, 39)

In [4]:
# 업종중분류코드 : Q12 --> 카페/커피샵
df = df[df.상권업종중분류코드 == 'Q12']

In [5]:
df = df[['상호명', '지점명', '시도명', '시군구명']]
print(df.shape)
df.head(3)

(18628, 4)


Unnamed: 0,상호명,지점명,시도명,시군구명
23,커피빈,코리아대학로대명거리점,서울특별시,종로구
99,요거프레소,쌍문점,서울특별시,도봉구
191,우성커피숍,,서울특별시,양천구


In [6]:
# 스타벅스 커피숍 대소문자
sb = df[df.상호명.str.contains('스타벅스|STARBUCKS', case=False)]
sb.head(3)

Unnamed: 0,상호명,지점명,시도명,시군구명
1544,스타벅스,동숭로아트점,서울특별시,종로구
2474,스타벅스남부터미널2점,남부터미널2점,서울특별시,서초구
2570,스타벅스,현대목동점,서울특별시,양천구


In [7]:
# 지점명중 스타벅스지점명이 없는 데이터 검색
# sb = [df.지점명.str.contains('스타벅스|STARBUCKS', case=False,
#                         na=False)]
# sb.head(3)

In [8]:
# 커피빈 이디야 빽다방의 한/영문 같이검색 cb, ed, bd
cb = df[df.상호명.str.contains('커피빈|COFFEEBEAN', case=False)]
cb.head(3)

Unnamed: 0,상호명,지점명,시도명,시군구명
23,커피빈,코리아대학로대명거리점,서울특별시,종로구
390,커피빈코리아낙성대역점,코리아낙성대역점,서울특별시,관악구
1411,커피빈,코리아청담에스점,서울특별시,강남구


In [9]:
ed = df[df.상호명.str.contains('이디야|EDIYA', case=False)]
ed.head(3)

Unnamed: 0,상호명,지점명,시도명,시군구명
1131,이디야커피,신길역점,서울특별시,영등포구
1495,이디야커피,라이프점,서울특별시,영등포구
2397,이디야커피양재AT점,양재AT점,서울특별시,서초구


In [10]:
bd = df[df.상호명.str.contains('빽다방|PAIKSCOFFEE', case=False)]
bd.head(3)

Unnamed: 0,상호명,지점명,시도명,시군구명
7179,빽다방공덕새창로점,공덕새창로점,서울특별시,마포구
7789,빽다방서초우성점,서초우성점,서울특별시,서초구
18660,빽다방중계은행사거리점,중계은행사거리점,서울특별시,노원구


In [11]:
len(sb), len(cb), len(ed), len(bd)

(467, 148, 416, 142)

# 전국 데이터에서 4개 매장 정보 추출

In [18]:
# 빈 데이터 프레임을 만들기
starbucks = pd.DataFrame(columns=['상호명', '시도명', '시군구명'])
coffeebean = pd.DataFrame(columns=['상호명', '시도명', '시군구명'])
ediya = pd.DataFrame(columns=['상호명', '시도명', '시군구명'])
paik = pd.DataFrame(columns=['상호명', '시도명', '시군구명'])

In [19]:
# 디렉토리 내 데이터파일을 for문으로 불러와 전처리
for file in tqdm(glob(f'{data_dir}/*.csv')):
    df = pd.read_csv(file, low_memory=False)
    df = df[df.상권업종중분류코드 == 'Q12']
    df = df[['상호명', '시도명', '시군구명']]
    sb = df[df.상호명.str.contains('스타벅스|STARBUCKS', case =False)]
    cb = df[df.상호명.str.contains('커피빈|COFFEEBEAN', case=False)]
    ed = df[df.상호명.str.contains('이디야|EDIYA', case=False)]
    bd = df[df.상호명.str.contains('빽다방|PAIKSCOFFEE', case=False)]
    
    starbucks = pd.concat([starbucks, sb])
    coffeebean = pd.concat([coffeebean, cb])
    ediya = pd.concat([ediya, ed])
    paik = pd.concat([paik, bd])

  0%|          | 0/17 [00:00<?, ?it/s]

In [20]:
starbucks.shape, coffeebean.shape, ediya.shape, paik.shape

((1504, 3), (257, 3), (2076, 3), (727, 3))

In [21]:
paik.tail()

Unnamed: 0,상호명,시도명,시군구명
84222,빽다방,충청북도,청주시 상당구
84244,빽다방,충청북도,진천군
84963,빽다방,충청북도,청주시 흥덕구
85634,빽다방,충청북도,청주시 청원구
85821,빽다방,충청북도,보은군


In [22]:
starbucks.to_csv('./data1/스타벅스.csv', index = False)

In [23]:
coffeebean.to_csv('./data1/커피빈.csv', index = False)

In [24]:
ediya.to_csv('./data1/이디야.csv', index = False)

In [25]:
paik.to_csv('./data1/빽다방.csv', index = False)