In [1]:

import requests
from bs4 import BeautifulSoup
import pandas as pd

In [2]:

# 삼성전자 코드
code = '005930'
headers = {'User-Agent': 'Mozilla/5.0'}

# 수집할 날짜 범위
start_date = pd.to_datetime('2023-03-01')
end_date = pd.to_datetime('2024-02-28')

#모든 DataFrame을 출력할 수 있도록 설정
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# 데이터를 저장할 리스트
data = []

# 여러 페이지 돌면서 데이터 수집
for page in range(1, 70):  # 페이지 수를 넉넉히 설정 (필요시 조정)
    url = f"https://finance.naver.com/item/sise_day.nhn?code={code}&page={page}"
    res = requests.get(url, headers=headers)
    soup = BeautifulSoup(res.text, 'html.parser')
    
    table = soup.find('table', class_='type2')
    rows = table.find_all('tr')
    
    for row in rows:
        cols = row.find_all('td')
        if len(cols) >= 6:
            date_str = cols[0].get_text(strip=True)
            if not date_str:
                continue  # 빈 줄 건너뛰기
            
            date = pd.to_datetime(date_str, format='%Y.%m.%d')
            close_price = cols[1].get_text(strip=True).replace(',', '')
            volume = cols[6].get_text(strip=True).replace(',', '')
            
            # 날짜가 범위 안에 있는지 확인
            if start_date <= date <= end_date:
                data.append({
                    '날짜': date.strftime('%Y.%m.%d'),
                    '종가': int(close_price),
                    '거래량': int(volume)
                })
            elif date < start_date:
                break  # 시작 날짜보다 과거 데이터면 중단

In [None]:
# 데이터프레임으로 변환
df = pd.DataFrame(data).drop_duplicates(subset='날짜')
df = df.sort_values('날짜').reset_index(drop=True)

# 전일 종가 추가 (shift 사용)
df['전일종가'] = df['종가'].shift(1)

# 변동률 계산
df['변동률(%)'] = ((df['종가'] - df['전일종가']) / df['전일종가']) * 100
df['변동률(%)'] = df['변동률(%)'].fillna(0)  # 첫 행은 0으로

# 전일종가 컬럼 삭제
df = df.drop(columns=['전일종가'])

# 소수점 둘째자리까지만 반올림
df['변동률(%)'] = df['변동률(%)'].round(2)

# 상승/하락 여부 라벨링 (0/1)
df['상승 여부'] = (df['변동률(%)'] > 0).astype(int)
print(df['상승 여부'].value_counts())

# 결과 출력 
print(df)

# CSV 저장
df.to_csv('samsung_stock_20230301_20240228.csv', index=False, encoding='utf-8-sig')

상승 여부
0    128
1    117
Name: count, dtype: int64
