<a href="https://colab.research.google.com/github/xvmon234-ai/Learning-Python/blob/main/Financial_Risk_Prediction/01_Data_Acquisition_Preprocessing/Data_Acquisition_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **데이터셋 수집 및 준비 가이드라인**
해외 상장 기업 데이터를 가져오는 작업은 Python의 yfinance 라이브러리를 활용하면 매우 효율적입니다. 다음은 Colab 환경에서 데이터를 수집하고 준비하는 구체적인 가이드라인입니다.


---



#### **1단계: 라이브러리 설치 및 불러오기**
가장 먼저 yfinance 라이브러리를 설치해야 합니다.

In [2]:
!pip install yfinance



In [3]:
import yfinance as yf
import pandas as pd

#### **2단계: 데이터 수집 대상 기업 선정**
특정 산업이나 국가의 기업들을 선정하여 분석 범위를 좁히는 것이 좋습니다. 예를 들어, 미국의 기술주를 분석하고 싶다면 다음과 같이 티커(Ticker)를 리스트로 만듭니다.

In [4]:
# 분석 대상 기업 티커 리스트 (예: 미국 기술주)
tickers = ['AAPL', 'MSFT', 'GOOGL', 'AMZN', 'META']

#### **3단계: 재무 데이터 불러오기**
`yfinance`의 `Ticker` 객체를 사용하여 재무제표 데이터를 불러올 수 있습니다. 특히 감사에 중요한 `대차대조표(Balance Sheet)`와 `손익계산서(Income Statement)` 데이터를 가져오는 것이 핵심입니다.

In [5]:
# 불러올 데이터프레임을 저장할 딕셔너리
financial_data = {}

for ticker in tickers:
    try:
        # 각 기업의 Ticker 객체 생성
        stock = yf.Ticker(ticker)

        # 재무제표 데이터 불러오기
        # .income_stmt: 손익계산서 (과거 5개년 데이터)
        # .balance_sheet: 대차대조표 (과거 5개년 데이터)
        income_stmt = stock.income_stmt
        balance_sheet = stock.balance_sheet

        # 필요한 경우, 데이터를 전치(transpose)하여 시계열 형태로 만듦
        # yfinance는 최신 재무제표가 가장 왼쪽에 위치
        income_stmt = income_stmt.T
        balance_sheet = balance_sheet.T

        # 데이터 저장
        financial_data[ticker] = {
            'income_stmt': income_stmt,
            'balance_sheet': balance_sheet
        }

        print(f"{ticker}의 재무 데이터를 성공적으로 불러왔습니다.")

    except Exception as e:
        print(f"{ticker}의 데이터를 불러오는 중 오류가 발생했습니다: {e}")

# 'AAPL' 기업의 손익계산서 확인
financial_data['AAPL']['income_stmt'].head()

AAPL의 재무 데이터를 성공적으로 불러왔습니다.
MSFT의 재무 데이터를 성공적으로 불러왔습니다.
GOOGL의 재무 데이터를 성공적으로 불러왔습니다.
AMZN의 재무 데이터를 성공적으로 불러왔습니다.
META의 재무 데이터를 성공적으로 불러왔습니다.


Unnamed: 0,Tax Effect Of Unusual Items,Tax Rate For Calcs,Normalized EBITDA,Net Income From Continuing Operation Net Minority Interest,Reconciled Depreciation,Reconciled Cost Of Revenue,EBITDA,EBIT,Net Interest Income,Interest Expense,...,Interest Expense Non Operating,Interest Income Non Operating,Operating Income,Operating Expense,Research And Development,Selling General And Administration,Gross Profit,Cost Of Revenue,Total Revenue,Operating Revenue
2024-09-30,0.0,0.241,134661000000.0,93736000000.0,11445000000.0,210352000000.0,134661000000.0,123216000000.0,,,...,,,123216000000.0,57467000000.0,31370000000.0,26097000000.0,180683000000.0,210352000000.0,391035000000.0,391035000000.0
2023-09-30,0.0,0.147,125820000000.0,96995000000.0,11519000000.0,214137000000.0,125820000000.0,114301000000.0,-183000000.0,3933000000.0,...,3933000000.0,3750000000.0,114301000000.0,54847000000.0,29915000000.0,24932000000.0,169148000000.0,214137000000.0,383285000000.0,383285000000.0
2022-09-30,0.0,0.162,130541000000.0,99803000000.0,11104000000.0,223546000000.0,130541000000.0,119437000000.0,-106000000.0,2931000000.0,...,2931000000.0,2825000000.0,119437000000.0,51345000000.0,26251000000.0,25094000000.0,170782000000.0,223546000000.0,394328000000.0,394328000000.0
2021-09-30,0.0,0.133,123136000000.0,94680000000.0,11284000000.0,212981000000.0,123136000000.0,111852000000.0,198000000.0,2645000000.0,...,2645000000.0,2843000000.0,108949000000.0,43887000000.0,21914000000.0,21973000000.0,152836000000.0,212981000000.0,365817000000.0,365817000000.0
2020-09-30,,,,,,,,,890000000.0,2873000000.0,...,2873000000.0,3763000000.0,,,,,,,,


#### **4단계: 데이터 통합 및 전처리**
불러온 데이터를 하나로 통합하고, 결측값이나 데이터 타입을 정리하는 과정입니다.

In [6]:
# 모든 기업의 손익계산서를 통합 (간단한 예시)
all_income_statements = pd.concat([data['income_stmt'] for data in financial_data.values()])

# 데이터 전처리 (결측값 처리, 데이터 타입 변환 등)
# .fillna(0, inplace=True): 결측값을 0으로 채움
# .astype(float): 데이터 타입을 실수형으로 변환
all_income_statements.fillna(0, inplace=True)
all_income_statements = all_income_statements.astype(float)

print("모든 기업의 손익계산서 데이터가 통합 및 전처리되었습니다.")

모든 기업의 손익계산서 데이터가 통합 및 전처리되었습니다.
