# Function 정의

## scrape_fbref()

### Fbref.com에서 프리미어 리그 경기(매치) 데이터를 스크래핑하는 함수

- param start_year = 시작 연도 (기본값 :2004)
- param end_year = 종료 연도 (기본값 : 2024)
- param output_file : CSV 파일 이름 (기본값 : 'epl_match_data_fbref.csv')
- data_generator() : URL 리스트를 순회하며 각 URL에서 데이터를 스크래핑하는 제너레이터 함수
- return : 스크래핑된 데이터를 포함하는 DataFrame

# Library Import

In [5]:
import os
import pandas as pd
import time
import random
from tqdm import tqdm

# scrape_fbref 함수 정의

In [14]:
def scrape_fbref(start_year=2004, end_year=2024, output_file='epl_match_data_fbref.csv'):
    # fbref.com에서 프리미어 리그 매치 데이터를 가져오기 위한 기본 URL 형식
    base_url = 'https://fbref.com/en/comps/9/{}/schedule/{}-Premier-League-Scores-and-Fixtures'
    
    # 2004년부터 2023까지의 시즌에 대한 URL 리스트 생성
    urls = [base_url.format(f'{season}-{season+1}', f'{season}-{season+1}') 
                 for season in range(start_year, end_year)]
    
    def data_generator():
        # tqdm을 사용하여 진행 상황을 시각화
        for url in tqdm(urls, desc='Scraping data'): 
            # 과도한 요청을 보내지 않기 위해 3 ~ 6초 사이의 랜덤한 시간 동안 대기
            time.sleep(random.uniform(5, 10))
            # yield from 구문을 사용하여 pd.read_html(url)의 결과를 한 번에 하나씩 반환
            yield from pd.read_html(url) 

    combined_df = pd.concat(data_generator(), ignore_index=True)

    # 현재 파일의 디렉토리 경로
    current_dir = os.getcwd()
    # 'raw_data' 폴더 경로
    raw_data_dir = os.path.join(current_dir, 'raw_data')

    # 'raw_data' 폴더가 없으면 생성
    os.makedirs(raw_data_dir, exist_ok=True)

    # 'raw_data' 폴더 안에 CSV 파일 저장
    output_path = os.path.join(raw_data_dir, output_file)
    combined_df.to_csv(output_path, index=False)

    print(f'{output_file} 데이터가 {output_path}에 저장되었습니다.')
    
    return combined_df

# 사용 예시

In [None]:
if __name__ == "__main__":
    result_df = scrape_fbref()
    print(f'데이터 스크래핑 완료. 총 {len(result_df)} 행의 데이터가 저장되었습니다.')