# 할리스 매장정보 웹스크래핑 실습

In [1]:
# 1. 필요한 라이브러리 설치 및 임포트
!pip install requests beautifulsoup4 pandas

Collecting pandas
  Downloading pandas-2.2.3-cp312-cp312-macosx_11_0_arm64.whl.metadata (89 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.3-cp312-cp312-macosx_11_0_arm64.whl (11.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.4/11.4 MB[0m [31m20.4 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hDownloading tzdata-2024.2-py2.py3-none-any.whl (346 kB)
Installing collected packages: tzdata, pandas
Successfully installed pandas-2.2.3 tzdata-2024.2


## 2. 웹 페이지 요청하기
- 웹사이트에서 데이터를 가져오기

In [5]:


import requests
from bs4 import BeautifulSoup
import pandas as pd
import json
from typing import List, Dict

def get_samsung_stock_info(page: int) -> str:
    """
    삼성전자 주가 정보 페이지의 HTML을 가져오는 함수
    
    Args:
        page (int): 페이지 번호
    Returns:
        str: 웹 페이지의 HTML 내용
    """
    url = "https://finance.naver.com/item/sise_day.naver?code=005930&"
    params = {"page": page}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/120.0.0.0'
    }
    
    try:
        response = requests.get(url, params=params, headers=headers)
        response.raise_for_status()  # 오류가 있으면 예외를 발생시킴
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"페이지 {page} 요청 중 에러 발생: {e}")
        return ""

# 테스트: 첫 페이지 가져오기
html = get_samsung_stock_info(1)
print("HTML 일부:", html[:500])  # 처음 500자만 출력

HTML 일부: 
<html lang="ko">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">
<title>네이버페이 증권</title>

<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20241104162211/css/newstock.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20241104162211/css/common.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20241104162211/css/finance_header.css">
<link rel="


## 3. HTML 파싱하기
- BeautifulSoup를 사용하여 HTML에서 필요한 정보를 추출

In [12]:
def parse_stock_info(html: str) -> List[Dict]:
    """
    HTML에서 매장 정보를 파싱하는 함수
    
    Args:
        html (str): 파싱할 HTML 문자열
    Returns:
        List[Dict]: 매장 정보 딕셔너리의 리스트
    """
    stock = []
    soup = BeautifulSoup(html, 'html.parser')
    
    table = soup.find("class", {"class": "type2"})
    if not table:
        return stock

    tbody = table.find("tbody")
    if not tbody:
        return stocks
        
    for tr in tbody.find_all("tr"):
        tds = tr.find_all('td')
        if len(tds) < 6:
            continue
            
        stock = {
            'date': tds[0].text.strip(),
            'close': tds[1].text.strip(),
            'change': tds[2].text.strip(),
            'open': tds[3].text.strip(),
            'high': tds[4].text.strip(),
            'low': tds[5].text.strip(),
            'volume': tds[6].text.strip()
        }
        stocks.append(stock)
        
    return stocks

html = get_samsung_stock_info(6)
parsed_stocks = parse_stock_info(html)


# 테스트: 첫 페이지 파싱하기
stores = parse_store_info(html)
print(f"첫 페이지에서 찾은 매장 수: {len(stores)}")
print("\n첫 번째 매장 정보:")
print(json.dumps(stores[0], ensure_ascii=False, indent=2))

첫 페이지에서 찾은 매장 수: 0

첫 번째 매장 정보:


IndexError: list index out of range

## 4. 데이터 저장하기
- 수집한 데이터를 CSV와 JSON 형식으로 저장

In [5]:
def save_to_files(stores: List[Dict], base_path: str = "./"):
    """
    매장 정보를 CSV와 JSON 파일로 저장하는 함수
    
    Args:
        stores (List[Dict]): 저장할 매장 정보 리스트
        base_path (str): 파일을 저장할 기본 경로
    """
    # CSV 파일로 저장
    df = pd.DataFrame(stores)
    csv_path = f"{base_path}hollys_stores.csv"
    df.to_csv(csv_path, encoding='utf-8', index=False)
    
    # JSON 파일로 저장
    json_path = f"{base_path}hollys_stores.json"
    with open(json_path, 'w', encoding='utf-8') as f:
        json.dump(stores, f, ensure_ascii=False, indent=4)
    
    print(f"CSV 파일 저장 완료: {csv_path}")
    print(f"JSON 파일 저장 완료: {json_path}")
    
    # 데이터 미리보기
    print("\n데이터 미리보기:")
    print(df.head())

# 테스트: 첫 페이지 데이터 저장하기
save_to_files(stores)

CSV 파일 저장 완료: ./hollys_stores.csv
JSON 파일 저장 완료: ./hollys_stores.json

데이터 미리보기:
       region      name status  \
0      인천 남동구   간석오거리점2    영업중   
1      대구 수성구  대구범어천로점2    영업중   
2      서울 강동구  길동포유르센티점    영업중   
3      서울 강동구   고덕비즈밸리점    영업중   
4  경남 창원시 의창구     창원팔용점    영업중   

                                             address      service  \
0                  인천광역시 남동구 남동대로 931 (간석동) 씨앤케이 웨딩홀           주차   
1  대구광역시 수성구 범어천로 200 (범어동, 범어월드메르디앙웨스턴카운티) 102호,...           주차   
2              서울특별시 강동구 진황도로 104 (길동) 1층 (101~102호)                
3          서울특별시 강동구 고덕비즈밸리로 38 (고덕동) KS타워 101호~102호       테라스 주차   
4          경상남도 창원시 의창구 창원대로18번길 6-8 (팔용동) 할리스 창원팔용점  테라스 흡연시설 주차   

          phone  
0  032-425-0915  
1  053-759-5779  
2   02-487-9997  
3             .  
4             .  


## 5. 전체 과정 실행하기

In [7]:
def main():
    stores = []
    
    # 매장 정보 수집
    print("할리스 매장 정보 수집 중...")
    for page in range(1, 50):  # 1~2 페이지만 수집 (테스트용)
        html = get_hollys_store_info(page)
        if html:
            page_stores = parse_store_info(html)
            stores.extend(page_stores)
            print(f"페이지 {page}: {len(page_stores)}개의 매장 정보 수집 완료")
    
    if not stores:
        print("매장 정보를 가져오는데 실패했습니다.")
        return
        
    print(f"\n총 {len(stores)}개의 매장 정보를 수집했습니다.")

    # 데이터 저장
    try:
        save_to_files(stores)
    except Exception as e:
        print(f"데이터 저장 중 에러 발생: {e}")

# 전체 과정 실행
main()

할리스 매장 정보 수집 중...
페이지 1: 10개의 매장 정보 수집 완료
페이지 2: 10개의 매장 정보 수집 완료
페이지 3: 10개의 매장 정보 수집 완료
페이지 4: 10개의 매장 정보 수집 완료
페이지 5: 10개의 매장 정보 수집 완료
페이지 6: 10개의 매장 정보 수집 완료
페이지 7: 10개의 매장 정보 수집 완료
페이지 8: 10개의 매장 정보 수집 완료
페이지 9: 10개의 매장 정보 수집 완료
페이지 10: 10개의 매장 정보 수집 완료
페이지 11: 10개의 매장 정보 수집 완료
페이지 12: 10개의 매장 정보 수집 완료
페이지 13: 10개의 매장 정보 수집 완료
페이지 14: 10개의 매장 정보 수집 완료
페이지 15: 10개의 매장 정보 수집 완료
페이지 16: 10개의 매장 정보 수집 완료
페이지 17: 10개의 매장 정보 수집 완료
페이지 18: 10개의 매장 정보 수집 완료
페이지 19: 10개의 매장 정보 수집 완료
페이지 20: 10개의 매장 정보 수집 완료
페이지 21: 10개의 매장 정보 수집 완료
페이지 22: 10개의 매장 정보 수집 완료
페이지 23: 10개의 매장 정보 수집 완료
페이지 24: 10개의 매장 정보 수집 완료
페이지 25: 10개의 매장 정보 수집 완료
페이지 26: 10개의 매장 정보 수집 완료
페이지 27: 10개의 매장 정보 수집 완료
페이지 28: 10개의 매장 정보 수집 완료
페이지 29: 10개의 매장 정보 수집 완료
페이지 30: 10개의 매장 정보 수집 완료
페이지 31: 10개의 매장 정보 수집 완료
페이지 32: 10개의 매장 정보 수집 완료
페이지 33: 10개의 매장 정보 수집 완료
페이지 34: 10개의 매장 정보 수집 완료
페이지 35: 10개의 매장 정보 수집 완료
페이지 36: 10개의 매장 정보 수집 완료
페이지 37: 10개의 매장 정보 수집 완료
페이지 38: 10개의 매장 정보 수집 완료
페이지 39: 10개의 매장 정보 수집 완료
페이지 40: 10개의 매장 