In [None]:
import schedule
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

def crawl_statiz():
    try:
        print("크롤링 시작!")

        # 웹 페이지 요청
        url = "https://statiz.sporki.com/player/?m=playlog&p_no=14867&pos=batting&year=2024&si=2&vs_pNo=&sd=&ed="  # 실제 URL로 변경
        response = requests.get(url)
        
        if response.status_code == 200:
            print("웹 페이지 요청 성공!")
        else:
            print(f"웹 페이지 요청 실패: {response.status_code}")
            return
        
        # HTML 파싱
        html = response.text
        soup = BeautifulSoup(html, 'html.parser')
        table = soup.find_all("table")[0]

        # 테이블에서 데이터 추출
        rows = table.find_all('tr')[1:]  # 헤더를 제외한 데이터 행만 선택
        if not rows:
            print("데이터 행을 찾을 수 없습니다.")
            return

        # 데이터프레임 생성
        data = []
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.strip() for ele in cols]
            data.append(cols)
        
        df = pd.DataFrame(data, columns=["Date", "Team", "Inning", "Pitcher", "Batter", "BC", "Result", "Prev", "Next", "LEV", "REs", "REa", "WPe", "WPa"])
       
        # CSV로 내보내기
        csv_file = 'Playing.csv'
        df.to_csv(csv_file, index=False, encoding='utf-8-sig')
        
        print("데이터가 CSV 파일로 저장되었습니다.")

        # 저장된 파일 읽어서 확인하기
        saved_df = pd.read_csv(csv_file, encoding='utf-8-sig')
        print("저장된 데이터:")
        print(saved_df.head())

    except Exception as e:
        print(f"오류 발생: {e}")

# 크롤링 작업을 일정 주기로 실행
schedule.every(10).minutes.do(crawl_statiz)   # 10분마다 실행

# 테스트를 위해 즉시 실행
crawl_statiz()

while True:
    schedule.run_pending()
    time.sleep(1)


크롤링 시작!
웹 페이지 요청 성공!
데이터가 CSV 파일로 저장되었습니다.
저장된 데이터:
    Date Team Inning Pitcher Batter       BC      Result         Prev  \
0  05-03   롯데    9회말     김원중  8 김현준  5 (2-2)       루킹 삼진  1사 1,2루 8:7   
1  07-21   롯데    8회말     김원중  9 김현준  4 (1-2)   선행주자아웃 출루  1사 1,2루 5:4   
2  04-10   롯데    6회초     전미르  8 김현준  5 (1-2)      헛스윙 삼진  2사 2,3루 3:4   
3  03-31  SSG   10회말     이로운  1 김현준  2 (1-0)  중견수 플라이 아웃  1사 1,2루 3:3   
4  03-26   LG    2회초      켈리  7 김현준  5 (3-1)  1루수 병살타 아웃  1사 1,2루 0:1   

          Next   LEV    REs    REa    WPe    WPa  
0  2사 1,2루 8:7  7.15  1.097 -0.621  17.1% -0.164  
1  2사 1,3루 5:4  5.24  1.106 -0.583  30.4% -0.099  
2     이닝종료 3:4  3.33  0.614 -0.614  74.3% -0.098  
3  2사 1,2루 3:3  4.30  0.971 -0.488  61.2% -0.096  
4     이닝종료 0:1  2.16  0.971 -0.971  65.8% -0.095  
크롤링 시작!
웹 페이지 요청 성공!
오류 발생: [Errno 13] Permission denied: 'Playing.csv'


In [None]:
# 1단계: 웹 페이지 요청
import requests

url = "https://statiz.sporki.com/player/?m=playlog&p_no=14867&pos=batting&year=2024&si=2&vs_pNo=&sd=&ed="  # 실제 URL로 변경
response = requests.get(url)

if response.status_code == 200:
    print("웹 페이지 요청 성공!")
else:
    print(f"웹 페이지 요청 실패: {response.status_code}")


In [None]:
# 2단계: HTML 파싱
from bs4 import BeautifulSoup

html = response.text
soup = BeautifulSoup(html, 'html.parser')
table = soup.find_all("table")

if table:
    print("테이블 찾기 성공!")
    table = table[0]
else:
    print("테이블을 찾을 수 없습니다.")


In [11]:
# 3단계: 테이블에서 데이터 추출
rows = table.find_all('tr')

if rows:
    print("데이터 행 찾기 성공!")
    rows = rows[1:]  # 헤더를 제외한 데이터 행만 선택
else:
    print("데이터 행을 찾을 수 없습니다.")


데이터 행 찾기 성공!


In [13]:
# 4단계: 데이터프레임 생성
import pandas as pd

data = []
for row in rows:
    cols = row.find_all('td')
    cols = [ele.text.strip() for ele in cols]
    data.append(cols)

    df = pd.DataFrame(data, columns=["Date", "Team", "Inning", "Pitcher", "Batter", "BC", "Result", "Prev", "Next", "LEV", "REs", "REa", "WPe", "WPa"])

if not df.empty:
    print("데이터프레임 생성 성공!")
    print(df.head())
else:
    print("데이터프레임 생성 실패!")


데이터프레임 생성 성공!
    Date Team Inning Pitcher Batter       BC      Result         Prev  \
0  05-03   롯데    9회말     김원중  8 김현준  5 (2-2)       루킹 삼진  1사 1,2루 8:7   
1  07-21   롯데    8회말     김원중  9 김현준  4 (1-2)   선행주자아웃 출루  1사 1,2루 5:4   
2  04-10   롯데    6회초     전미르  8 김현준  5 (1-2)      헛스윙 삼진  2사 2,3루 3:4   
3  03-31  SSG   10회말     이로운  1 김현준  2 (1-0)  중견수 플라이 아웃  1사 1,2루 3:3   
4  03-26   LG    2회초      켈리  7 김현준  5 (3-1)  1루수 병살타 아웃  1사 1,2루 0:1   

          Next   LEV    REs     REa    WPe     WPa  
0  2사 1,2루 8:7  7.15  1.097  -0.621  17.1%  -0.164  
1  2사 1,3루 5:4  5.24  1.106  -0.583  30.4%  -0.099  
2     이닝종료 3:4  3.33  0.614  -0.614  74.3%  -0.098  
3  2사 1,2루 3:3  4.30  0.971  -0.488  61.2%  -0.096  
4     이닝종료 0:1  2.16  0.971  -0.971  65.8%  -0.095  


In [None]:
# 5단계: CSV로 내보내기
csv_file = 'Playing.csv'
df.to_csv(csv_file, index=False, encoding='utf-8-sig')
print("데이터가 CSV 파일로 저장되었습니다.")


In [None]:
# 6단계: 저장된 파일 읽어서 확인하기
saved_df = pd.read_csv(csv_file, encoding='utf-8-sig')

if not saved_df.empty:
    print("저장된 데이터 읽기 성공!")
    print(saved_df.head())
else:
    print("저장된 데이터를 읽을 수 없습니다.")
