In [None]:
import pandas as pd
import requests
import time
from tqdm import tqdm
import urllib.request
from bs4 import BeautifulSoup
import csv

def stock_data(url):
    
    """
    日本証券取引所から上場企業リストを取得する
    ETFを除外した銘柄一覧を整形し、"stocklist.csv"として保存する
    """
    r = requests.get(url)
    with open('data_j.xls', 'wb') as output:
        output.write(r.content)
        
    stocklist = pd.read_excel("./data_j.xls")
    
    stocklist = stocklist[(stocklist["市場・商品区分"] == "プライム（内国株式）")|
                                  (stocklist["市場・商品区分"] == "スタンダード（内国株式）") |
                                  (stocklist["市場・商品区分"] == "グロース（内国株式）")]
    
    stocklist = stocklist[["コード","銘柄名","市場・商品区分","33業種区分","規模区分"]]
    
    stocklist = stocklist.replace({'プライム（内国株式）': 'プライム',
                   "スタンダード（内国株式）": "スタンダード",
                   'グロース（内国株式）': "グロース"})  
    
    stocklist.reset_index(drop=True)
    stocklist.to_csv("stocklist.csv", index = False)

def conpany_url():
    
    """
    stock_data()関数を元に取得したstocklist.csvを使い、コードを取得する
    取得したコードをもとに日経新聞社から企業URLをスクレイピングする
    取得した企業URLを"url_list.csv"として保存する
    """

    stocklist = pd.read_csv("./stocklist.csv")
    code_list = stocklist["コード"]

    url_list = []
    error_list = []

    for code in tqdm(code_list):
        try:
            url = "https://www.nikkei.com/nkd/company/gaiyo/?scode=" + str(code)
            html = urllib.request.urlopen(url)
            soup = BeautifulSoup(html, "html.parser")
            code_soup = soup.find_all(class_="w668 a-tblFixed")
            code_soup = code_soup[0]
            url_tag =  code_soup.find_all(class_="a-w80p")[1]
            url = url_tag.find('a')
            url = url.get('href')
            url_list.append(url)
            time.sleep(2)
        except Exception as e:
            print(e)
            print(type(e))
            print(code)
            error_list.append(code)
            url_list.append("Nan")
            pass
        
    print("エラーリスト:", error_list)
    f = open('url_list.csv', 'w')
    for x in url_list:
        f.write(str(x) + "\n")
    f.close()

if __name__ == '__main__':
    url = "https://www.jpx.co.jp/markets/statistics-equities/misc/tvdivq0000001vg2-att/data_j.xls"
    stock_data(url)
    conpany_url()