# 할리스 커피 매장 정보 크롤링 

```
# BeautifulSoup 객체를 생성해서 파싱
# 1. 1 ~ 49 페이지까지 반복해서 url 설정
# 2. url 요청하여 응답받은 웹페이지 저장
# 3. BeautifulSoup 객체 생성
# 4. tr 태그 하위의 td 태그 중에서 필요한 항목만 추출하여 result 리스트에 추가 저장
```

In [322]:
import urllib.request
import pandas as pd
from bs4 import BeautifulSoup, Comment

In [539]:
result = []

def my_parser():
    url = 'https://www.hollys.co.kr/store/korea/korStore2.do?pageNo='
    page_url = [url + str(i) for i in range(1, 50)]

    for i in range(0, 49):
        print(page_url[i] + " 페이지 시작 ===")
        request = urllib.request.Request(page_url[i])
        response = urllib.request.urlopen(request)
        
        html = response.read().decode('utf-8')
        soup = BeautifulSoup(html, "html.parser")
        
        tbl = soup.select('table.tb_store tbody tr')
        
        
        for tr in tbl:
            txt_list = []
            for td in tr.find_all("td"):
                txt = ''
                if td.find_all("img"):
                    alt = [img["alt"] for img in td.find_all("img") if img.has_attr("alt")]
                    txt = ", ".join(alt)
                else:
                    txt = td.get_text(strip=True)
                    if txt == '': txt = 'NULL'
                txt_list.append(txt)
            result.append(txt_list)
                
        print(page_url[i] + " 페이지 완료 ===")
        
        #if i == 1: break


my_parser()







https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=1 페이지 시작 ===
1페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=2 페이지 시작 ===
2페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=3 페이지 시작 ===
3페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=4 페이지 시작 ===
4페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=5 페이지 시작 ===
5페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=6 페이지 시작 ===
6페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=7 페이지 시작 ===
7페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=8 페이지 시작 ===
8페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=9 페이지 시작 ===
9페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=10 페이지 시작 ===
10페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=11 페이지 시작 ===
11페이지 완료 ===
https://www.hollys.co.kr/store/korea/korStore2.do?pageNo=12 페이지 시작 ===
12페이지 완료 ===
https://ww

In [535]:
result

[['전북 전주시 덕진구',
  '전주백제대로점2',
  '영업중',
  '전라북도 전주시 덕진구 백제대로 592 (금암동) 1층',
  '주차',
  '063-271-5056'],
 ['경기 성남시 분당구',
  '분당미금점',
  '영업중',
  '경기도 성남시 분당구 미금일로90번길 24 (구미동) B1F ~ 1F',
  '주차',
  '031-713-7739'],
 ['부산 기장군',
  '부산일광신도시점',
  '영업중',
  '부산광역시 기장군 일광읍 해빛6로 43-20 .',
  '주차',
  '070-4790-2715'],
 ['서울 중구',
  '메리츠봉래타워점',
  '영업중',
  '서울시 중구 칠패로 28 메리츠강북타워 1층',
  'NULL',
  '02-753-8835'],
 ['경기 성남시 중원구',
  '성남모란역점',
  '영업중',
  '경기도 성남시 중원구 성남대로1148번길 8 (성남동) 1층, 성남동3453',
  'NULL',
  '031-758-5953'],
 ['경기 고양시 덕양구',
  '고양시청DI점',
  '영업중',
  '경기도 고양시 덕양구 호국로 730 2F',
  '테라스, 주차',
  '031-812-0105'],
 ['강원 원주시',
  '(춘)치악휴게소점',
  '영업중',
  '강원도 원주시 신림면 다리실2길 32 .',
  '테라스, 주차',
  '033-762-8129'],
 ['인천 남동구',
  '간석오거리점',
  '영업중',
  '인천광역시 남동구 남동대로 931 (간석동) 씨앤케이 웨딩홀',
  '주차',
  '032-425-0915'],
 ['대구 수성구',
  '대구범어천로점',
  '영업중',
  '대구광역시 수성구 범어천로 200 (범어동, 범어월드메르디앙웨스턴카운티) 102호, 201호',
  '주차',
  '053-759-5779'],
 ['서울 강동구',
  '길동포유르센티점',
  '영업중',
  '서울특별시 강동구 진황도로 104 (길동) 1층 (101~102호)',
 

In [563]:
df = pd.DataFrame(result)
thead_list = [th.get_text(strip=True).replace(" ", "") for th in soup.select('table.tb_store thead tr th')]
df.columns = thead_list
df.index = range(1, len(df)+1)
# df = df.reset_index(drop=True)  # 기존 인덱스 삭제
# df.index += 1  # 1부터 시작하는 인덱스 설정
#df.head(30)
df = df.drop(['현황'], axis=1) 

In [565]:
df.to_csv('data/hollys.csv', encoding='cp949')