# 미국 주식 데이터 수집하기

퀀트 투자의 장점은 데이터만 있다면 동일한 투자 전략을 전세계 모든 국가에 적용할 수 있다는 점이다. 이번 장에서는 미국 전 종목의 티커 수집 및 주가, 재무제표, 가치지표를 다운로드 해보도록 하겠다.

## 티커 수집하기

우리나라는 거래소가 '한국거래소' 한 곳 뿐이지만, 미국은 매우 많은 거래소가 존재한다. 따라서 동일한 종목이 여러 거래소에서 거래되는 일도 발생한다. 그 중에서도 가장 규모가 큰 거래소는 뉴욕거래소(NYSE), 나스닥(NASDAQ), 아멕스(AMEX)이며, 해당 거래소에 상장된 종목들은 나스닥 홈페이지에서 제공된다.

```
https://www.nasdaq.com/market-activity/stocks/screener
```

위 사이트에 접속하여 개발자 도구 화면을 연 후 하단의 [Download CSV] 버튼을 누르면, 해당 데이터를 받아오는 웹주소가 표시된다.

```{figure} image/data_us/us_ticker.png
---
name: us_ticker
---
미국의 상장종목 리스트
```

```
https://api.nasdaq.com/api/screener/stocks?tableonly=true&limit=25&offset=0&download=true
```

해당 주소에 접속하면, 각 종목에 대한 정보가 JSON 형태로 제공된다. 이를 크롤링 해보도록 하겠다.

In [4]:
import pandas as pd
import requests as rq

url = 'https://api.nasdaq.com/api/screener/stocks?tableonly=true&limit=25&offset=0&download=true'
headers = {
    "User-Agent":
    "Mozilla/5.0 (X11; CrOS x86_64 12871.102.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.141 Safari/537.36"
}

data = rq.get(url, headers=headers)
data_json = data.json()['data']
us_ticker = pd.DataFrame(data_json['rows'])

us_ticker.head()

KeyboardInterrupt: 

1. 먼저 url과 헤더정보를 입력하며, 헤더의 User-Agent에는 웹브라우저 구별을 입력해준다. 해당 사이트는 크롤러와 같이 정체가 불분명한 웹브라우저를 통한 접속이 막혀 있어, 마치 모질라 혹은 크롬을 통해 접속한 것 처럼 데이터를 요청한다. 다양한 웹브라우저 리스트는 다음 사이트에서 확인할 수 있다.
http://www.useragentstring.com/pages/useragentstring.php
2. `get()` 함수를 통해 페이지의 데이터를 불러온다.
3. `json()` 함수를 통해 json 형태로 불러온 후, data 부분을 선택한다.
4. json 형태를 데이터프레임 형태로 변경한다.

## 티커 클렌징

먼저 위에서 받은 데이터에서 종목 수를 확인해보도록 하자.

In [None]:
len(us_ticker)

7008

종목수를 살펴보면 상당히 많은 종목이 존재한다. 그러나 미국의 경우 동일한 종목이 여러 거래소에 상장된 경우가 있으므로, 이를 먼저 제거해주도록 한다. symbol과 name열 중 중복되는 종목이 있으면 첫번쨰 데이터만을 남기도록 한다.

In [None]:
us_ticker = us_ticker.loc[~us_ticker.symbol.duplicated(keep='first'), :]
us_ticker = us_ticker.loc[~us_ticker.name.duplicated(keep='first'), :]

len(us_ticker)

6999

다음으로 위에서 받은 데이터 중 모든 종목이 투자에 적합한 종목이 아니므로 클렌징 처리를 해주도록 한다.

In [None]:
us_ticker['marketCap'] = pd.to_numeric(us_ticker['marketCap'])

 먼저 시가총액에 해당하는 열을 숫자 형태로 바꿔준다. 이제 어떠한 종목이 일반적인 종목이 아닌지 탐색해보도록 하자.

In [None]:
import numpy as np

display(us_ticker.loc[us_ticker['marketCap'] == 0].head(),
        us_ticker[np.isnan(us_ticker['marketCap'])].head(),
        us_ticker.loc[us_ticker['name'].str.contains('%')].head())

Unnamed: 0,symbol,name,lastsale,netchange,pctchange,volume,marketCap,country,ipoyear,industry,sector,url
3,AACT,Ares Acquisition Corporation II Class A Ordina...,$10.875,-0.005,-0.046%,55446,0.0,,2023,Blank Checks,Finance,/market-activity/stocks/aact
6,AAM,AA Mission Acquisition Corp. Class A Ordinary ...,$10.05,0.01,0.10%,65394,0.0,,2024,,,/market-activity/stocks/aam
43,ACAB,Atlantic Coastal Acquisition Corp. II Class A ...,$11.55,0.2,1.762%,17487,0.0,United States,2022,Blank Checks,Finance,/market-activity/stocks/acab
44,ACABU,Atlantic Coastal Acquisition Corp. II Unit,$12.54,0.0,0.00%,5,0.0,United States,2022,Blank Checks,Finance,/market-activity/stocks/acabu
72,ACP,abrdn Income Credit Strategies Fund Common Shares,$6.44,-0.05,-0.77%,714776,0.0,United States,2011,Investment Managers,Finance,/market-activity/stocks/acp


Unnamed: 0,symbol,name,lastsale,netchange,pctchange,volume,marketCap,country,ipoyear,industry,sector,url
30,ABR^D,Arbor Realty Trust 6.375% Series D Cumulative ...,$19.00,-0.79,-3.992%,14644,,United States,,,,/market-activity/stocks/abr^d
31,ABR^E,Arbor Realty Trust 6.25% Series E Cumulative R...,$19.4996,-0.0504,-0.258%,2561,,United States,,,,/market-activity/stocks/abr^e
32,ABR^F,Arbor Realty Trust 6.25% Series F Fixed-to-Flo...,$20.52,-0.17,-0.822%,20739,,United States,,,,/market-activity/stocks/abr^f
73,ACP^A,abrdn Income Credit Strategies Fund 5.250% Ser...,$23.4732,-0.6669,-2.763%,421,,United States,,,,/market-activity/stocks/acp^a
75,ACR^C,ACRES Commercial Realty Corp. 8.625% Fixed-to-...,$24.89,0.02,0.08%,15288,,United States,,,,/market-activity/stocks/acr^c


Unnamed: 0,symbol,name,lastsale,netchange,pctchange,volume,marketCap,country,ipoyear,industry,sector,url
22,ABLLL,Abacus Life Inc. 9.875% Fixed Rate Senior Note...,$26.40,0.0,0.00%,227,1970796000.0,United States,,Investment Managers,Finance,/market-activity/stocks/ablll
30,ABR^D,Arbor Realty Trust 6.375% Series D Cumulative ...,$19.00,-0.79,-3.992%,14644,,United States,,,,/market-activity/stocks/abr^d
31,ABR^E,Arbor Realty Trust 6.25% Series E Cumulative R...,$19.4996,-0.0504,-0.258%,2561,,United States,,,,/market-activity/stocks/abr^e
32,ABR^F,Arbor Realty Trust 6.25% Series F Fixed-to-Flo...,$20.52,-0.17,-0.822%,20739,,United States,,,,/market-activity/stocks/abr^f
53,ACGLN,Arch Capital Group Ltd. Depositary Shares each...,$20.255,-0.005,-0.025%,60938,7617052000.0,Bermuda,,Property-Casualty Insurers,Finance,/market-activity/stocks/acgln


첫째, 시가총액이 0인 종목, 시가총액이 NaN인 종목, 종목 이름에 '%'가 들어간 종목을 살펴보면 Acquisition 혹은 Warrant 등이거나 전환사채, 우선주 등 보통주가 아니다. 따라서 제외하는 것이 좋다.

In [None]:
us_ticker.loc[us_ticker['name'].str.contains('ETF | Fund')].head()

Unnamed: 0,symbol,name,lastsale,netchange,pctchange,volume,marketCap,country,ipoyear,industry,sector,url
72,ACP,abrdn Income Credit Strategies Fund Common Shares,$6.44,-0.05,-0.77%,714776,0.0,United States,2011.0,Investment Managers,Finance,/market-activity/stocks/acp
73,ACP^A,abrdn Income Credit Strategies Fund 5.250% Ser...,$23.4732,-0.6669,-2.763%,421,,United States,,,,/market-activity/stocks/acp^a
84,ACV,Virtus Diversified Income & Convertible Fund C...,$20.645,0.015,0.073%,41507,213943185.0,United States,2015.0,Finance/Investors Services,Finance,/market-activity/stocks/acv
115,ADX,Adams Diversified Equity Fund Inc.,$21.73,0.07,0.323%,223890,0.0,United States,,Investment Managers,Finance,/market-activity/stocks/adx
120,AEF,abrdn Emerging Markets Equity Income Fund Inc....,$5.36,-0.03,-0.557%,36797,575463000.0,United States,,Finance/Investors Services,Finance,/market-activity/stocks/aef


둘째, 종목명에 'ETF' 혹은 'Fund'가 들어간 종목은 펀드에 해당하므로 제외한다.

In [None]:
us_ticker.loc[us_ticker['name'].str.contains(
    'Depositary | each representing')].head()

Unnamed: 0,symbol,name,lastsale,netchange,pctchange,volume,marketCap,country,ipoyear,industry,sector,url
2,AACG,ATA Creativity Global American Depositary Shares,$1.01,0.0776,8.323%,218765,32320130.0,China,2008.0,Other Consumer Services,Real Estate,/market-activity/stocks/aacg
19,ABEV,Ambev S.A. American Depositary Shares (Each re...,$2.15,-0.03,-1.376%,19143857,33870740000.0,Brazil,2013.0,Beverages (Production/Distribution),Consumer Staples,/market-activity/stocks/abev
40,ABVX,Abivax SA American Depositary Shares,$10.27,-0.05,-0.484%,259218,646162500.0,France,2023.0,Biotechnology: Pharmaceutical Preparations,Health Care,/market-activity/stocks/abvx
53,ACGLN,Arch Capital Group Ltd. Depositary Shares each...,$20.255,-0.005,-0.025%,60938,7617052000.0,Bermuda,,Property-Casualty Insurers,Finance,/market-activity/stocks/acgln
54,ACGLO,Arch Capital Group Ltd. Depositary Shares Each...,$23.40,-0.04,-0.171%,25400,8799753000.0,Bermuda,,Property-Casualty Insurers,Finance,/market-activity/stocks/acglo


마지막으로 종목명에 'Depositary'나 'each representing'가 들어간 종목은 ADR 이므로 제외한다.

In [None]:
us_ticker = us_ticker.loc[~(us_ticker['marketCap'] == 0)]
us_ticker = us_ticker.loc[~(np.isnan(us_ticker['marketCap']))]
us_ticker = us_ticker.loc[~(us_ticker['name'].str.contains('%'))]
us_ticker = us_ticker.loc[~us_ticker['name'].str.contains('ETF | Fund')]
us_ticker = us_ticker.loc[~us_ticker['name'].str.contains('Depositary')]
us_ticker = us_ticker.loc[~us_ticker['name'].str.contains('each representing')]

len(us_ticker)

5417

이전에 비해 종목수가 현격하게 줄어들었다. 물론 해당 과정을 거쳐도 다중 클래스가 상장되어 있는 등 클렌징 처리를 할 종목이 많지만 그 수가 매우 적으므로, 효율성 측면에서 위의 과정 정도만으로도 충분하다. 이 중 필요한 열 선택 및 기준일(오늘 날짜)을 입력해준다.

In [None]:
from datetime import date, timedelta

date.today()

us_ticker = us_ticker[[
    'symbol', 'name', 'marketCap', 'country', 'ipoyear', 'industry', 'sector'
]]
us_ticker['date'] = date.today().strftime("%Y%m%d")
us_ticker['date'] = pd.to_datetime(us_ticker['date'])
us_ticker = us_ticker.replace({np.nan: None})

us_ticker.head(10)

Unnamed: 0,symbol,name,marketCap,country,ipoyear,industry,sector,date
0,A,Agilent Technologies Inc. Common Stock,39326540000.0,United States,1999.0,Biotechnology: Laboratory Analytical Instruments,Industrials,2024-11-03
1,AA,Alcoa Corporation Common Stock,10480860000.0,United States,2016.0,Aluminum,Industrials,2024-11-03
4,AADI,Aadi Bioscience Inc. Common Stock,48983520.0,United States,,Biotechnology: Pharmaceutical Preparations,Health Care,2024-11-03
5,AAL,American Airlines Group Inc. Common Stock,8897554000.0,United States,,Air Freight/Delivery Services,Consumer Discretionary,2024-11-03
7,AAME,Atlantic American Corporation Common Stock,33251610.0,United States,,Life Insurance,Finance,2024-11-03
8,AAOI,Applied Optoelectronics Inc. Common Stock,688683800.0,United States,2013.0,Semiconductors,Technology,2024-11-03
9,AAON,AAON Inc. Common Stock,9192562000.0,United States,,Industrial Machinery/Components,Industrials,2024-11-03
10,AAP,Advance Auto Parts Inc.,2163193000.0,United States,,Auto & Home Supply Stores,Consumer Discretionary,2024-11-03
11,AAPL,Apple Inc. Common Stock,3389154000000.0,United States,1980.0,Computer Manufacturing,Technology,2024-11-03
12,AAT,American Assets Trust Inc. Common Stock,1622418000.0,United States,2011.0,Real Estate Investment Trusts,Real Estate,2024-11-03


이제 위의 데이터를 DB에 저장한다. 먼저 SQL에서 다음의 쿼리를 통해 테이블(us_ticker)을 만든다.

In [None]:
use stock_db;

create table us_ticker
(
    symbol varchar(20) not null,
    name varchar(300),
    marketCap float,
    country varchar(20),
    ipoyear varchar(4),
    industry varchar(100),
    sector varchar(30),
    date date,
    primary key(symbol, date)
);

마지막으로 티커 데이터를 해당 테이블에 저장한다.

In [None]:
import pymysql

con = pymysql.connect(user='root',
                      passwd='1346',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()
query = """
    insert into us_ticker2 (symbol, name, marketCap, country, ipoyear, industry, sector, date)
    values (%s,%s,%s,%s,%s,%s,%s,%s) as new
    on duplicate key update
    name=new.name,marketCap=new.marketCap,country=new.country,
    ipoyear=new.ipoyear,industry=new.industry,sector=new.sector;    
"""

args = us_ticker.values.tolist()

mycursor.executemany(query, args)
con.commit()

con.close()

## 주가 다운로드

미국 뿐만 아니라 전 세계 주가(한국 포함)의 경우 야후 파이낸스에서 제공하고 있다.

```
https://finance.yahoo.com/
```

사이트에서 종목 티커를 검색한 후 [Historical Data] 탭을 선택하면 확인 및 다운로드가 가능하다. 또한 pandas_datareader 패키지의 `DataReader()` 함수를 사용하면 야후 API를 통해 주가 데이터를 매우 손쉽게 다운로드 받을 수도 있다. 예시로써 애플(AAPL)의 주가를 다운로드 받아보도록 하자.

```{figure} image/data_us/yahoo_price.png
---
name: yahoo_price
---
야후에서 제공하는 주가 데이터
```

In [None]:
import yfinance as yf

price = yf.download('AAPL',progress=False,start='2000-01-01')
price.head()

Price,Adj Close,Close,High,Low,Open,Volume
Ticker,AAPL,AAPL,AAPL,AAPL,AAPL,AAPL
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2000-01-03 00:00:00+00:00,0.844004,0.999442,1.004464,0.907924,0.936384,535796800
2000-01-04 00:00:00+00:00,0.772846,0.915179,0.987723,0.90346,0.966518,512377600
2000-01-05 00:00:00+00:00,0.784155,0.928571,0.987165,0.919643,0.926339,778321600
2000-01-06 00:00:00+00:00,0.716295,0.848214,0.955357,0.848214,0.947545,767972800
2000-01-07 00:00:00+00:00,0.750226,0.888393,0.901786,0.852679,0.861607,460734400


`DataReader()` 함수 내에 티커와 출처에 해당하는 'yahoo'를 입력하면 주가 정보를 매우 손쉽게 받을 수 있다.

```{note}
국내 주가 역시 야후 파이낸스를 통해 다운로드 받을 수 있다. 그러나 일부 중소형주의 경우 데이터가 존재하지 않는 문제가 있어 국내 사이트를 이용해 수집하는 것을 권장한다.
```

### 전 종목 주가 다운로드

미국 데이터 역시 국내 전종목 주가를 다운로드 받고 DB에 저장했던것과 동일하게 `for loop` 구문을 이용하면 된다. 먼저 SQL에서 미국 주가 데이터에 해당하는 테이블(us_price)를 만든다.

In [None]:
use stock_db;

create table us_price
(
    Date date,
    High double,
    Low double,
    Open double,
    Close double,
    Volume double,
    Adj_Close double,
    ticker varchar(20),
    primary key(Date, ticker)
);

파이썬에서 아래 코드를 실행하면 for loop 구문을 통해 전종목 주가가 DB에 저장된다.

In [None]:
# 패키지 불러오기

import pymysql
import pandas as pd
import yfinance as yf
from datetime import date
import time
from tqdm import tqdm

# DB 연결
con = pymysql.connect(user='root',
                      passwd='1346',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()

# 티커리스트 불러오기
ticker_list = pd.read_sql("""
select * from us_ticker2
where date = (select max(date) from us_ticker2);
""",
                          con=con)

# DB 저장 쿼리
query = """
    insert into us_price (Date, High, Low, Open, Close, Volume, Adj_Close, ticker)
    values (%s, %s,%s,%s,%s,%s,%s,%s) as new
    on duplicate key update
    High = new.High, Open = new.Open, Close = new.Close,
    Volume = new.Volume, Adj_Close = new.Adj_Close;
"""

# 오류 발생시 저장할 데이터프레임 생성
error_list = []
price_empty = pd.DataFrame({
    'Date': date.today().strftime("%Y-%m-%d"),
    'High': [None],
    'Low': [None],
    'Open': [None],
    'Close': [None],
    'Volumne': [None],
    'Adj_Close': [None]
})

# 전종목 주가 다운로드 및 저장
for i in tqdm(range(0, len(ticker_list))):

    # 빈 데이터프레임 복사
    price = price_empty.copy()

    # 티커 선택
    ticker = ticker_list['symbol'][i]

    # 오류 발생 시 이를 무시하고 다음 루프로 진행
    try:

        # url 생성
        price = yf.download(ticker,progress=False)

        # 데이터 클렌징
        price = price.reset_index()
        price['ticker'] = ticker
        price.rename(columns={'Adj Close': 'Adj_Close'}, inplace=True)

    except:

        # 오류 발생시 빈 데이터프레임을 불러온 후 다음 루프로 이동
        price['ticker'] = ticker
        error_list.append(ticker)

    # 주가 데이터를 DB에 저장
    args = price.values.tolist()

    mycursor.executemany(query, args)
    con.commit()

    # 타임슬립 적용
    time.sleep(2)

# DB 연결 종료
con.close()

  ticker_list = pd.read_sql("""
  0%|          | 18/5417 [01:27<6:06:13,  4.07s/it]
1 Failed download:
['ABLLW']: YFInvalidPeriodError("%ticker%: Period 'max' is invalid, must be one of ['1d', '5d']")
  0%|          | 20/5417 [01:32<4:51:42,  3.24s/it]
1 Failed download:
['ABLVW']: YFInvalidPeriodError("%ticker%: Period 'max' is invalid, must be one of ['1d', '5d']")
  1%|          | 31/5417 [02:13<5:13:14,  3.49s/it]
1 Failed download:
['ABVEW']: YFInvalidPeriodError("%ticker%: Period 'max' is invalid, must be one of ['1d', '5d']")
  1%|          | 57/5417 [03:54<6:30:51,  4.38s/it]
1 Failed download:
['ACONW']: YFInvalidPeriodError("%ticker%: Period 'max' is invalid, must be one of ['1d', '5d']")
  1%|▏         | 80/5417 [05:26<5:39:26,  3.82s/it]
1 Failed download:
['ADNWW']: YFInvalidPeriodError("%ticker%: Period 'max' is invalid, must be one of ['1d', '5d']")
  2%|▏         | 84/5417 [05:42<5:37:42,  3.80s/it]
1 Failed download:
['ADSEW']: YFInvalidPeriodError("%ticker%: Period 'm

In [None]:
error_list

[]

1. DB에 연결한다.
2. 기준일이 최대, 즉 최근일 기준 보통주에 해당하는 종목 리스트(ticker_list)만 불러온다.
3. DB에 저장할 쿼리(query)를 입력한다.
4. 페이지 오류, 통신 오류 등 오류가 발생할 경우 저장할 빈 데이터프레임(price_empty)을 생성한다.
5. `for loop` 구문을 통해 전종목 주가를 다운로드 받으며, 진행상황을 알기위해 `tqdm()` 함수를 이용한다.
6. `DataReader()` 함수를 통해 야후 파이낸스에서 주가를 받은 후 클렌징 처리한다.
7.  `try except` 문을 통해 오류가 발생시 위에서 생성한 빈 데이터프레임을 이용한다.
8. 주가 데이터를 DB에 저장한다.
9. 무한 크롤링을 방지하기 위해 한 번의 루프가 끝날 때마다 타임슬립을 적용한다.
10. 모든 작업이 끝나면 DB와의 연결을 종료한다.

```{figure} image/data_us/sql_price.png
---
name: sql_price
---
미국 주가 테이블
```

## 재무제표 크롤링

재무제표 역시 야후 파이낸스에서 구할 수 있다. [Financials] 탭을 클릭하면 연간 및 분기 기준 재무제표를 제공하고 있다. 해당 데이터를 다운로드 받을 수 있는 여러 패키지가 존재하며, 본 책에서는 그 중에서도 `yahoo_fin` 패키지를 사용하도록 하겠다. 해당 패키지의 자세한 설명은 아래 사이트에서 확인할 수 있다.

```
http://theautomatic.net/yahoo_fin-documentation/
```

```{figure} image/data_us/yahoo_fs.png
---
name: yahoo_fs
---
야후에서 제공하는 재무제표 데이터
```

해당 패키지의 `get_financials()` 함수를 이용하면 손익계산서, 재무상태표, 현금흐름표를 한번에 다운로드 받을 수 있으며, 예시로 애플(AAPL) 종목의 연간 재무제표를 받아보도록 하겠다.

In [None]:
from yahooquery import Ticker

data = Ticker('AAPL')
data.asset_profile
data.summary_detail
data.history()

  has_live_indice = index_utc[-1] >= last_trade - pd.Timedelta(2, "S")
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["dividends"].fillna(0, inplace=True)


Unnamed: 0_level_0,Unnamed: 1_level_0,open,high,low,close,volume,adjclose,dividends
symbol,date,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
AAPL,2024-01-02,187.149994,188.440002,183.889999,185.639999,82488700,184.938217,0.0
AAPL,2024-01-03,184.220001,185.880005,183.429993,184.250000,58414500,183.553467,0.0
AAPL,2024-01-04,182.149994,183.089996,180.880005,181.910004,71983600,181.222336,0.0
AAPL,2024-01-05,181.990005,182.759995,180.169998,181.179993,62303300,180.495071,0.0
AAPL,2024-01-08,182.089996,185.600006,181.500000,185.559998,59144500,184.858521,0.0
AAPL,...,...,...,...,...,...,...,...
AAPL,2024-10-28,233.320007,234.729996,232.550003,233.399994,36087100,233.399994,0.0
AAPL,2024-10-29,233.100006,234.330002,232.320007,233.669998,35417200,233.669998,0.0
AAPL,2024-10-30,232.610001,233.470001,229.550003,230.100006,47070900,230.100006,0.0
AAPL,2024-10-31,229.339996,229.830002,225.369995,225.910004,64370100,225.910004,0.0


In [None]:
data_y = data.all_financial_data(frequency='a')
data_y

Unnamed: 0_level_0,asOfDate,periodType,currencyCode,AccountsPayable,AccountsReceivable,AccumulatedDepreciation,AvailableForSaleSecurities,BasicAverageShares,BasicEPS,BeginningCashPosition,...,TotalExpenses,TotalLiabilitiesNetMinorityInterest,TotalNonCurrentAssets,TotalNonCurrentLiabilitiesNetMinorityInterest,TotalOperatingIncomeAsReported,TotalRevenue,TotalTaxPayable,TradeandOtherPayablesNonCurrent,TreasurySharesNumber,WorkingCapital
symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AAPL,2020-09-30,12M,USD,42296000000.0,16120000000.0,-66760000000.0,100887000000.0,17352120000.0,3.31,50224000000.0,...,208227000000.0,258549000000.0,180175000000.0,153157000000.0,66288000000.0,274515000000.0,,28170000000.0,,38321000000.0
AAPL,2021-09-30,12M,USD,54763000000.0,26278000000.0,-70283000000.0,127877000000.0,16701270000.0,5.67,39789000000.0,...,256868000000.0,287912000000.0,216166000000.0,162431000000.0,108949000000.0,365817000000.0,,24689000000.0,,9355000000.0
AAPL,2022-09-30,12M,USD,64115000000.0,28184000000.0,-72340000000.0,120805000000.0,16215960000.0,6.15,35929000000.0,...,274891000000.0,302083000000.0,217350000000.0,148101000000.0,119437000000.0,394328000000.0,6552000000.0,16657000000.0,,-18577000000.0
AAPL,2023-09-30,12M,USD,62611000000.0,29508000000.0,-70884000000.0,100544000000.0,15744230000.0,6.16,24977000000.0,...,268984000000.0,290437000000.0,209017000000.0,145129000000.0,114301000000.0,383285000000.0,8819000000.0,15457000000.0,0.0,-1742000000.0


In [None]:
import numpy as np

data_y.reset_index(inplace=True)
data_y = data_y.loc[:,~data_y.columns.isin(['periodType','currencyCode'])]
data_y = data_y.melt(id_vars = ['symbol','asOfDate'])
data_y = data_y.replace([np.nan],None)
data_y['freq'] = 'y'
data_y.columns = ['ticker','date','account','value','freq']
data_y

Unnamed: 0,ticker,date,account,value,freq
0,AAPL,2020-09-30,AccountsPayable,42296000000.0,y
1,AAPL,2021-09-30,AccountsPayable,54763000000.0,y
2,AAPL,2022-09-30,AccountsPayable,64115000000.0,y
3,AAPL,2023-09-30,AccountsPayable,62611000000.0,y
4,AAPL,2020-09-30,AccountsReceivable,16120000000.0,y
...,...,...,...,...,...
655,AAPL,2023-09-30,TreasurySharesNumber,0.0,y
656,AAPL,2020-09-30,WorkingCapital,38321000000.0,y
657,AAPL,2021-09-30,WorkingCapital,9355000000.0,y
658,AAPL,2022-09-30,WorkingCapital,-18577000000.0,y


In [None]:
import yahoo_fin.stock_info as si

data_y = si.get_financials('AAPL', yearly=True, quarterly=False)
data_y.keys()

ModuleNotFoundError: No module named 'yahoo_fin'

인자에 `yearly = True, quarterly = False`는 연간 재무제표를 의미하며, 딕셔너리 형태로 세 종류의 재무제표가 다운로드 되었다. 이를 하나의 데이터프레임으로 바꿔주도록 한다.

In [None]:
import pandas as pd

data_fs_y = pd.concat([v for k, v in data_y.items()])
data_fs_y = data_fs_y.stack().reset_index()
data_fs_y.columns = ['account', 'date', 'value']
data_fs_y['freq'] = 'y'

data_fs_y.head()

1. 딕셔너리의 value에 해당하는 부분만을 선택한 후 `concat()` 함수를 통해 데이터프레임 형태로 합쳐준다.
2. `stack()` 함수를 통해 데이터를 위에서 아래로 길게 재구조화 해주며, `reset_index()` 함수를 통해 인덱스를 초기화한다.
3. 열 이름을 변경한다.
4. freq 열에 연간에 해당하는 'y'를 입력한다.

이처럼 패키지를 이용하여 미국 데이터도 매우 쉽게 다운로드 받을 수 있다. 분기별 재무제표를 받는법도 위와 같으며, 인자만 `yearly=False, quarterly=True`로 변경하면 된다.

In [None]:
data_q = si.get_financials('AAPL', yearly=False, quarterly=True)
data_fs_q = pd.concat([v for k, v in data_q.items()])
data_fs_q = data_fs_q.stack().reset_index()
data_fs_q.columns = ['account', 'date', 'value']
data_fs_q['freq'] = 'q'

data_fs_q.head()

### 전 종목 재무제표 다운로드

`for loop` 구문을 이용하여 전 종목 재무제표를 다운로드 받도록 하겠다. 먼저 SQL에서 미국 재무제표 데이터에 해당하는 테이블(us_fs)를 만든다.

In [None]:
use stock_db;

create table us_fs
(
    ticker varchar(20),
    date date,
    account varchar(100),
    value double,
    freq varchar(1),
        
    primary key(account, date, ticker, freq)
);

이제 파이썬에서 아래 코드를 실행하면 for loop 구문을 통해 전 종목 재무제표가 DB에 저장된다.

In [None]:
# 패키지 불러오기
from sqlalchemy import create_engine
import pymysql
import pandas as pd
from yahooquery import Ticker
import numpy as np
import time
from tqdm import tqdm

# DB 연결
engine = create_engine('mysql+pymysql://root:1346@127.0.0.1:3306/stock_db')
con = pymysql.connect(
    user='root', passwd='1346', host='127.0.0.1', db='stock_db', charset='utf8'
)

mycursor = con.cursor()

# 티커리스트 불러오기
ticker_list = pd.read_sql("""
select * from us_ticker2
where date = (select max(date) from us_ticker2);
""", con = con)


# DB 저장 쿼리
query_fs = """
    insert into us_fs2 (ticker,date,account,value,freq)
    values (%s,%s,%s,%s,%s) as new
    on duplicate key update
    value = new.value;
"""


# 오류 발생시 저장할 데이터프레임 생성
error_list = []



# 전종목 주가 다운로드 및 저장

for i in tqdm(range(0, len(ticker_list))): 

    
    
    # 티커 선택
    ticker = ticker_list['symbol'][i]        
    
    # 오류 발생 시 이를 무시하고 다음 루프로 진행
    try:
        
       data = Ticker(ticker)

       # 재무제표 다운로드
       
       # 연간
       data_y = data.all_financial_data(frequency='a')
       data_y.reset_index(inplace=True)
       data_y = data_y.loc[:,~data_y.columns.isin(['periodType','currencyCode'])]
       data_y = data_y.melt(id_vars = ['symbol','asOfDate'])
       data_y = data_y.replace([np.nan],None)
       data_y['freq'] = 'y'
       data_y.columns = ['ticker','date','account','value','freq']

       # 분기
       data_q = data.all_financial_data(frequency='q')
       data_q.reset_index(inplace=True)
       data_q = data_q.loc[:,~data_q.columns.isin(['periodType','currencyCode'])]
       data_q = data_q.melt(id_vars = ['symbol','asOfDate'])
       data_q = data_q.replace([np.nan],None)
       data_q['freq'] = 'q'
       data_q.columns = ['ticker','date','account','value','freq']
       
       # 합치기
       data_fs = pd.concat([data_y, data_q], axis = 0)
                   

       # 주가 데이터를 DB에 저장
       args  = data_fs.values.tolist() 
       mycursor.executemany(query_fs, args)
       con.commit()

    except:
        
        # 오류 발생시 빈 데이터프레임을 불러온 후 다음 루프로 이동
        print(ticker)
        error_list.append(ticker)   
       
    

    
    # 타임슬립 적용
    time.sleep(2)    
    
# DB 연결 종료
engine.dispose()
con.close()    

  from pandas.core.computation.check import NUMEXPR_INSTALLED
  from pandas.core import (
  ticker_list = pd.read_sql("""
  0%|          | 9/5417 [01:07<11:25:44,  7.61s/it]

AAT


  1%|          | 32/5417 [03:42<10:03:38,  6.73s/it]

AC


  1%|          | 33/5417 [03:48<9:28:43,  6.34s/it] 

ACA


  1%|          | 34/5417 [04:00<10:34:25,  7.07s/it]


KeyboardInterrupt: 

In [None]:
con.close()

1. DB에 연결한다.
2. 기준일이 최대, 즉 최근일 기준 보통주에 해당하는 종목 리스트(ticker_list)만 불러온다.
3. DB에 저장할 쿼리(query)를 입력한다.
4. 페이지 오류, 통신 오류 등 오류가 발생할 경우 저장할 빈 데이터프레임(fs_empty)을 생성한다.
5. `for loop` 구문을 통해 전종목 재무제표를 다운로드 받으며, 진행상황을 알기위해 `tqdm()` 함수를 이용한다.
6. `get_financials()` 함수를 이용해 연간 및 분기 재무제표를 받은 후, 두 테이블을 `concat()` 함수를 통해 행으로 묶어준다.
7. 재무제표 데이터를 DB에 저장한다.
8. 무한 크롤링을 방지하기 위해 한 번의 루프가 끝날 때마다 타임슬립을 적용한다.
9. 모든 작업이 끝나면 DB와의 연결을 종료한다.

```{figure} image/data_us/sql_fs.png
---
name: sql_fs
---
미국 재무제표 테이블
```

```{note}
미국 종목들의 가치지표는 국내 재무제표 데이터를 이용해 가치지표를 계산했던 것과 동일한 방법으로 계산할 수 있으므로, 이는 생략하도록 한다.
```

In [None]:
ticker

NameError: name 'ticker' is not defined

In [5]:
# 티커리스트 불러오기
ticker_list = pd.read_sql("""
select * from us_ticker2
where date = (select max(date) from us_ticker2);
""", con = con)

  ticker_list = pd.read_sql("""


In [6]:
ticker_list

Unnamed: 0,symbol,name,marketCap,country,ipoyear,industry,sector,date
0,A,Agilent Technologies Inc. Common Stock,3.932650e+10,United States,1999,Biotechnology: Laboratory Analytical Instruments,Industrials,2024-11-03
1,AA,Alcoa Corporation Common Stock,1.048090e+10,United States,2016,Aluminum,Industrials,2024-11-03
2,AADI,Aadi Bioscience Inc. Common Stock,4.898350e+07,United States,,Biotechnology: Pharmaceutical Preparations,Health Care,2024-11-03
3,AAL,American Airlines Group Inc. Common Stock,8.897550e+09,United States,,Air Freight/Delivery Services,Consumer Discretionary,2024-11-03
4,AAME,Atlantic American Corporation Common Stock,3.325160e+07,United States,,Life Insurance,Finance,2024-11-03
...,...,...,...,...,...,...,...,...
5412,ZVRA,Zevra Therapeutics Inc. Common Stock,4.419890e+08,United States,,Biotechnology: Pharmaceutical Preparations,Health Care,2024-11-03
5413,ZVSA,ZyVersa Therapeutics Inc. Common Stock,1.965760e+06,United States,2022,Biotechnology: Pharmaceutical Preparations,Health Care,2024-11-03
5414,ZWS,Zurn Elkay Water Solutions Corporation Common ...,6.292990e+09,United States,2012,Industrial Machinery/Components,Industrials,2024-11-03
5415,ZYME,Zymeworks Inc. Common Stock,9.435090e+08,United States,,Biotechnology: Pharmaceutical Preparations,Health Care,2024-11-03


In [9]:
ticker = ticker_list['symbol']
ticker

0          A
1         AA
2       AADI
3        AAL
4       AAME
        ... 
5412    ZVRA
5413    ZVSA
5414     ZWS
5415    ZYME
5416    ZYXI
Name: symbol, Length: 5417, dtype: object

In [10]:
# 티커 데이터를 리스트로 변환
ticker_list = ticker.tolist()
print(ticker_list)


['A', 'AA', 'AADI', 'AAL', 'AAME', 'AAOI', 'AAON', 'AAP', 'AAPL', 'AAT', 'AB', 'ABAT', 'ABBV', 'ABCB', 'ABCL', 'ABEO', 'ABG', 'ABL', 'ABLLW', 'ABLV', 'ABLVW', 'ABM', 'ABNB', 'ABOS', 'ABR', 'ABSI', 'ABT', 'ABTS', 'ABUS', 'ABVC', 'ABVE', 'ABVEW', 'AC', 'ACA', 'ACAD', 'ACB', 'ACCD', 'ACCO', 'ACDC', 'ACEL', 'ACET', 'ACGL', 'ACHC', 'ACHR', 'ACHV', 'ACI', 'ACIC', 'ACIU', 'ACIW', 'ACLS', 'ACLX', 'ACM', 'ACMR', 'ACN', 'ACNB', 'ACNT', 'ACON', 'ACONW', 'ACR', 'ACRE', 'ACRS', 'ACRV', 'ACT', 'ACTG', 'ACTU', 'ACU', 'ACVA', 'ACXP', 'ADBE', 'ADC', 'ADCT', 'ADD', 'ADEA', 'ADGM', 'ADI', 'ADIL', 'ADM', 'ADMA', 'ADN', 'ADNT', 'ADNWW', 'ADP', 'ADPT', 'ADSE', 'ADSEW', 'ADSK', 'ADT', 'ADTN', 'ADTX', 'ADUS', 'ADV', 'ADVM', 'ADVWW', 'AE', 'AEE', 'AEG', 'AEHL', 'AEHR', 'AEI', 'AEIS', 'AEM', 'AEMD', 'AENT', 'AENTW', 'AEO', 'AEON', 'AEP', 'AER', 'AERT', 'AES', 'AESI', 'AEVA', 'AEYE', 'AFBI', 'AFCG', 'AFG', 'AFL', 'AFMD', 'AFRI', 'AFRIW', 'AFRM', 'AFYA', 'AG', 'AGAE', 'AGCO', 'AGEN', 'AGFY', 'AGI', 'AGIO', 'AGL',

In [12]:
from yahooquery import Ticker
import pandas as pd



# 가치주 선정 기준
max_per = 15       # PER이 15 이하인 주식
max_pbr = 1.5      # PBR이 1.5 이하인 주식
min_dividend = 0.02 # 배당 수익률이 2% 이상인 주식

# 결과 저장할 리스트
value_stocks = []

# 티커별로 가치주 지표 확인
for ticker in ticker_list:
    try:
        # 데이터 가져오기
        stock = Ticker(ticker)
        
        # 과거 재무 데이터 불러오기
        valuation = stock.all_financial_data(frequency='a')
        valuation.reset_index(inplace=True)
        
        # 2015년 1월 1일 이전 데이터만 사용
        valuation_2015 = valuation[(valuation.index.get_level_values('asOfDate') < '2015-01-01') & (valuation.index.get_level_values('symbol') == ticker)]
        
        # 최신 데이터만 추출
        if not valuation_2015.empty:
            recent_data = valuation_2015.iloc[-1]
            
            # 지표 추출
            per = recent_data.get('trailingPE', None)        # PER
            pbr = recent_data.get('priceToBook', None)       # PBR
            dividend_yield = recent_data.get('dividendYield', 0)  # 배당 수익률 (퍼센트)
            
            # 가치주 선정 조건 확인
            if per and per <= max_per and pbr and pbr <= max_pbr and dividend_yield >= min_dividend:
                value_stocks.append({
                    'ticker': ticker,
                    'PER': per,
                    'PBR': pbr,
                    'dividend_yield': dividend_yield
                })
    
    except Exception as e:
        print(f"Error retrieving data for {ticker}: {e}")

# 결과 출력
value_stocks_df = pd.DataFrame(value_stocks)
print("2015년 1월 1일 기준으로 선정된 가치주 리스트:")
print(value_stocks_df)


Error retrieving data for A: 'Requested level (asOfDate) does not match index name (None)'
Error retrieving data for AA: 'Requested level (asOfDate) does not match index name (None)'
Error retrieving data for AADI: 'Requested level (asOfDate) does not match index name (None)'
Error retrieving data for AAL: 'Requested level (asOfDate) does not match index name (None)'


KeyboardInterrupt: 

In [15]:
ticker_list

['A',
 'AA',
 'AADI',
 'AAL',
 'AAME',
 'AAOI',
 'AAON',
 'AAP',
 'AAPL',
 'AAT',
 'AB',
 'ABAT',
 'ABBV',
 'ABCB',
 'ABCL',
 'ABEO',
 'ABG',
 'ABL',
 'ABLLW',
 'ABLV',
 'ABLVW',
 'ABM',
 'ABNB',
 'ABOS',
 'ABR',
 'ABSI',
 'ABT',
 'ABTS',
 'ABUS',
 'ABVC',
 'ABVE',
 'ABVEW',
 'AC',
 'ACA',
 'ACAD',
 'ACB',
 'ACCD',
 'ACCO',
 'ACDC',
 'ACEL',
 'ACET',
 'ACGL',
 'ACHC',
 'ACHR',
 'ACHV',
 'ACI',
 'ACIC',
 'ACIU',
 'ACIW',
 'ACLS',
 'ACLX',
 'ACM',
 'ACMR',
 'ACN',
 'ACNB',
 'ACNT',
 'ACON',
 'ACONW',
 'ACR',
 'ACRE',
 'ACRS',
 'ACRV',
 'ACT',
 'ACTG',
 'ACTU',
 'ACU',
 'ACVA',
 'ACXP',
 'ADBE',
 'ADC',
 'ADCT',
 'ADD',
 'ADEA',
 'ADGM',
 'ADI',
 'ADIL',
 'ADM',
 'ADMA',
 'ADN',
 'ADNT',
 'ADNWW',
 'ADP',
 'ADPT',
 'ADSE',
 'ADSEW',
 'ADSK',
 'ADT',
 'ADTN',
 'ADTX',
 'ADUS',
 'ADV',
 'ADVM',
 'ADVWW',
 'AE',
 'AEE',
 'AEG',
 'AEHL',
 'AEHR',
 'AEI',
 'AEIS',
 'AEM',
 'AEMD',
 'AENT',
 'AENTW',
 'AEO',
 'AEON',
 'AEP',
 'AER',
 'AERT',
 'AES',
 'AESI',
 'AEVA',
 'AEYE',
 'AFBI',
 'AFCG',
