1. 데이터 전처리 과정
2. 최종결과물 : 

Code	Name	Volatility	TotalReturn	AvgReturn	Sector	Volume	Amount	Marcap

In [1]:
# 데이터 분석을 위한 패키지
import numpy as np
import pandas as pd

In [2]:
# 시각화 패키지
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
import FinanceDataReader as fdr

In [4]:
import koreanize_matplotlib

In [5]:
import datetime
from dateutil.relativedelta import relativedelta

In [6]:
# 모든 컬럼,행을 출력하도록 설정
pd.set_option('display.max_columns', None) # None으로 설정하면 모든 컬럼 출력
pd.set_option('display.max_rows', None) #None으로 설정하면 모든 행 출력

In [8]:
etfs = fdr.StockListing('ETF/KR')
etfs.head(1)

Unnamed: 0,Symbol,Category,Name,Price,RiseFall,Change,ChangeRate,NAV,EarningRate,Volume,Amount,MarCap
0,459580,6,KODEX CD금리액티브(합성),1058860,2,290,0.03,1058657.0,0.8281,247325,261881,91164


In [None]:
etf = fdr.DataReader('459580')
etf   

In [7]:
# n개월 전 날짜 계산 함수(개월단위)
def calculate_start_date(months_ago, end_date):
    start_date = datetime.datetime.strptime(end_date, '%Y-%m-%d') - relativedelta(months=months_ago)
    return start_date.strftime('%Y-%m-%d')

# 오늘 날짜 구하기
today = datetime.datetime.today()
today_str = today.strftime('%Y-%m-%d')

In [64]:
# fdr.StockListing으로 불러온 시장 데이터에 'Sector' 열 추가
# 처음 데이터를 가공할때 사용
def add_sector_to_market_data(sector_file_path, market=None):
    
    # 종목 정보 불러오기
    if market == 'KOSPI':
        df = fdr.StockListing('KOSPI')
    elif market == 'KOSDAQ':
        df = fdr.StockListing('KOSDAQ')
    elif market == 'ETF':
        df = fdr.StockListing('ETF/KR')
    else:
        raise ValueError("지원하지 않는 시장입니다.")
    
    # 업종 정보가 담긴 데이터프레임 불러오기
    info_df = pd.read_csv(sector_file_path)
    
    if market in ['KOSPI', 'KOSDAQ']:
        # 업종 정보 병합
        df = df.merge(info_df[['종목명', '업종명']], left_on='Name', right_on='종목명', how='left')
        df.rename(columns={'업종명': 'Sector'}, inplace=True)
             
    # etfs의 Symbol을 Code로, MarCap을 Marcap으로 재정의
    if market == 'ETF':
        df.rename(columns={'Symbol': 'Code', 'MarCap': 'Marcap'}, inplace=True)
        
        # 카테고리와 대응되는 섹터 정의
        category_decode = {
            1: '국내 시장지수',
            2: '국내 업종/테마',
            3: '국내파생',
            4: '해외주식',
            5: '원자재',
            6: '채권',
            7: '기타'
        }
        df['Sector'] = None
        
        # 'Category' 열에 따라 'Sector' 열을 설정
        df['Sector'] = df['Category'].map(category_decode)
    
    # sector 열이 추가된 kospi, kosdaq, etfs 반환            
    return df          

In [43]:
# sector 열이 추가된 df 호출

tmp_kospi = add_sector_to_market_data('sector_by_stock_list_df.csv',market='KOSPI')
tmp_kosdaq = add_sector_to_market_data('sector_by_stock_list_df.csv',market='KOSDAQ')
tmp_etfs = add_sector_to_market_data('sector_by_stock_list_df.csv',market='ETF')


In [44]:
# 위의 과정으로 kospi, kosdaq에 sector 열이 추가 되었음을 확인 할 수 있습니다.
display(tmp_kospi.head(2))
display(tmp_kosdaq.head(2))
display(tmp_etfs.head(2))

Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId,Sector
0,5930,KR7005930003,삼성전자,KOSPI,,54400,1,1000,1.87,52800,55100,52800,19318046,1047542312930,324756170720000,5969782550,STK,반도체와반도체장비
1,660,KR7000660001,SK하이닉스,KOSPI,,181900,1,10700,6.25,174500,182700,173100,4233446,760554633376,132423630193500,728002365,STK,반도체와반도체장비


Unnamed: 0,Code,ISU_CD,Name,Market,Dept,Close,ChangeCode,Changes,ChagesRatio,Open,High,Low,Volume,Amount,Marcap,Stocks,MarketId,Sector
0,196170,KR7196170005,알테오젠,KOSDAQ GLOBAL,기술성장기업부,318500,1,18500,6.17,300000,319500,298000,739646,229685175000,16982046718000,53318828,KSQ,생물공학
1,247540,KR7247540008,에코프로비엠,KOSDAQ GLOBAL,우량기업부,113000,1,7500,7.11,105600,115200,105600,910881,102475642000,11051551872000,97801344,KSQ,전기제품


Unnamed: 0,Code,Category,Name,Price,RiseFall,Change,ChangeRate,NAV,EarningRate,Volume,Amount,Marcap,Sector
0,459580,6,KODEX CD금리액티브(합성),1058960,2,100,0.01,1058996.0,0.8346,306572,324646,91179,채권
1,360750,4,TIGER 미국S&P500,21515,5,-95,-0.44,21464.0,15.2383,4862878,104465,71408,해외주식


In [59]:
def combined_stock_analysis(market=None, month_ago=1, end_date=today_str):
    
    start_date = calculate_start_date(month_ago, end_date)
    results = []  # 결과를 저장할 리스트
    
    market_list = ['KOSPI', 'KOSDAQ', 'ETF']
    # 시장 데이터 선택
    if market in market_list:
        sector_data = add_sector_to_market_data('sector_by_stock_list_df.csv', market=market)
    else:
        raise ValueError(" 'KOSPI', 'KOSDAQ', 'ETF' 세 시장만 지원하는 기능입니다.")
    
    # 'Code'를 인덱스로 설정
    sector_data = sector_data.set_index('Code')

    # 각 종목의 데이터를 가져와 변동성과 수익률 계산
    for index, row in sector_data.iterrows():
        ticker = index
        try:
            # 각 종목의 데이터 가져오기
            data = fdr.DataReader(ticker, start=start_date, end=end_date)
            if data.empty:
                print(f"종목 {ticker}의 데이터가 없습니다. 건너뜁니다.")
                continue
            
            # 수익률 계산
            
            data['Returns'] = data['Close'].pct_change() * 100  # 수익률을 퍼센트로 변환
            data.dropna(inplace=True)  # NaN 값 제거
            
            if len(data) == 1:  # 상장이후 일일수익률 데이터가 단 하나라  수익률 계산이 의미가 없는경우
                print(f"종목 {ticker}은 일일수익률 데이터가 하나라, 수익률 계산이 의미가 없기때문에 건너뜁니다.")
                continue
      
            if len(data) == 0: # 상장이후 종가가 하나라 수익률 계산 자체가 되지 않는경우
                print(f"종목 {ticker}의 데이터가 충분하지 않습니다. 건너뜁니다.")
                continue
            
            # 변동성 계산 (표준편차)
            volatility = data['Returns'].std()
            
            # 총 수익률 계산
            total_return = (data['Close'].iloc[-1] - data['Close'].iloc[0]) / data['Close'].iloc[0] * 100
            
            # 평균 수익률 계산
            avg_return = data['Returns'].mean()
            
            # 결과 저장
            results.append({
                'Code': ticker,                         # 종목코드
                'Name': row['Name'],                    # 종목명
                'Volatility': round(volatility, 2),     # 변동성(%)
                'TotalReturn': round(total_return, 2),  # 총수익률(%)
                'AvgReturn': avg_return,                # 평균수익률(%)      
            })

        except Exception as e:
            print(f"{ticker} 데이터 오류: {e}")

    # 결과 DataFrame 생성
    results_df = pd.DataFrame(results)
    return results_df


In [12]:
# 각종목에 총수익률, 변동성, 평균수익률을 포함한 df (month_ago 매개변수 입력을 안했기때문에 1개월)

kospi_df = combined_stock_analysis(market='KOSPI')
kospi_df.head()

Unnamed: 0,Code,Name,Volatility,TotalReturn,AvgReturn
0,5930,삼성전자,1.550107,-1.865672,-0.082703
1,660,SK하이닉스,2.335104,3.517283,0.38805
2,373220,LG에너지솔루션,2.400147,-13.350126,-0.617715
3,207940,삼성바이오로직스,1.440232,-4.136505,-0.221735
4,5380,현대차,2.119022,-1.631702,-0.096006


In [None]:
kosdaq_df = combined_stock_analysis(market='KOSDAQ')
kosdaq_df.head()

In [None]:
etfs_df = combined_stock_analysis(market='ETF')
etfs_df.head()

# 0001S0 0000Y0 0000D0 0000J0 0001P0 0000Z0 총 6개의 ETF는 누락되어있음

In [57]:
# 개선된 함수 - 데이터 전처리
# 반복문의 사용을 줄이고, 중복 코드를 줄인 형태
# merge를 통해 두 df를 결합하였기 때문에, 대량의 데이터 소화시 성능향상이 기대
# 이함수는 df를 반환하기 때문에 변수에 할당해줘야 합니다.

def add_sector_info(*, market=None, local_df=None, local_market=None, month_ago=3) :
    
    if local_df is None and market is None:
        raise ValueError("market 또는 local_df중 하나는 반드시 제공되어야 합니다.")

    market_list = ['KOSPI', 'KOSDAQ', 'ETF']
    # 종목 데이터 가져오기
    # 전처리 된 로컬 파일을 가져와서 쓰는경우
    if local_df is not None :
        df = local_df
    # 미리 작업한 파일이 없는경우  
    elif market in market_list :
        df = combined_stock_analysis(market=market, month_ago=month_ago)       
    else:
        raise ValueError(" 'KOSPI', 'KOSDAQ' 두 시장만 지원하는 기능입니다.")  
        
    # 전처리 된 로컬 파일을 사용하는경우 : 그 파일이 어느 시장데이터를 전처리했는지 매개변수에 기입
    if local_market is not None and local_market in ['KOSPI', 'KOSDAQ', 'ETF'] :
        sector_data = add_sector_to_market_data('sector_by_stock_list_df.csv', market=local_market)
    elif market in market_list:
        sector_data = add_sector_to_market_data('sector_by_stock_list_df.csv', market=market)    
    else: 
        raise ValueError("local_market은 'KOSPI' 또는 'KOSDAQ'이어야 합니다.")
                   
    # 'Code'를 인덱스로 설정
    sector_data = sector_data.set_index('Code')

    # 업종과 시가총액, 거래량, 거래대금 추가
    df = df.merge(sector_data[['Sector','Volume','Amount','Marcap']], left_on='Code', right_index=True, how='left')
    
    if market is not None:
        df.to_csv(f'{market}_add_sector_{month_ago}m.csv', index=False, encoding='utf-8-sig')
    elif local_market is not None:
        df.to_csv(f'{local_market}_add_sector_{month_ago}.csv', index=False, encoding='utf-8-sig')    
    else:
        raise ValueError("파일 이름을 저장하기 위한 적절한 매개변수가 필요합니다.")
             
    return df

In [67]:
result = add_sector_info(market='KOSPI', month_ago=1)
result.head(2)

Unnamed: 0,Code,Name,Volatility,TotalReturn,AvgReturn,Sector,Volume,Amount,Marcap
0,5930,삼성전자,1.64,0.55,0.084736,반도체와반도체장비,19318046,1047542312930,324756170720000
1,660,SK하이닉스,2.61,8.86,0.311172,반도체와반도체장비,4233446,760554633376,132423630193500


In [68]:
result3 = add_sector_info(market='KOSDAQ', month_ago=1)
result3.head(2)

Unnamed: 0,Code,Name,Volatility,TotalReturn,AvgReturn,Sector,Volume,Amount,Marcap
0,196170,알테오젠,4.48,4.08,0.224704,생물공학,739646,229685175000,16982046718000
1,247540,에코프로비엠,3.34,-12.67,-0.675576,전기제품,910881,102475642000,11051551872000


In [69]:
result2 = add_sector_info(market='ETF', month_ago=1)
result2.head(2)

0001S0 데이터 오류: 404 Client Error: Not Found for url: https://query2.finance.yahoo.com/v8/finance/chart/0001S0?period1=1733324400&period2=1736002800&interval=1d&includeAdjustedClose=true
0000Y0 데이터 오류: 404 Client Error: Not Found for url: https://query2.finance.yahoo.com/v8/finance/chart/0000Y0?period1=1733324400&period2=1736002800&interval=1d&includeAdjustedClose=true
0000D0 데이터 오류: 404 Client Error: Not Found for url: https://query2.finance.yahoo.com/v8/finance/chart/0000D0?period1=1733324400&period2=1736002800&interval=1d&includeAdjustedClose=true
0000J0 데이터 오류: 404 Client Error: Not Found for url: https://query2.finance.yahoo.com/v8/finance/chart/0000J0?period1=1733324400&period2=1736002800&interval=1d&includeAdjustedClose=true
0001P0 데이터 오류: 404 Client Error: Not Found for url: https://query2.finance.yahoo.com/v8/finance/chart/0001P0?period1=1733324400&period2=1736002800&interval=1d&includeAdjustedClose=true
0000Z0 데이터 오류: 404 Client Error: Not Found for url: https://query2.finance.

Unnamed: 0,Code,Name,Volatility,TotalReturn,AvgReturn,Sector,Volume,Amount,Marcap
0,459580,KODEX CD금리액티브(합성),0.01,0.25,0.014342,채권,306572,324646,91179
1,360750,TIGER 미국S&P500,1.03,0.28,0.027025,해외주식,4862878,104465,71408
