In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import time
import re
import camelot
import tabula
import warnings
import codecs
import math

warnings.simplefilter('ignore', UserWarning)
pd.set_option('display.max_rows', 100)
codecs.register_error('none', lambda e: ('', e.end))


# 銘柄抽出の流れ

PDFの表抽出ライブラリーは、camelotとtabulaの2種類がある。それぞれ抽出できない銘柄がいくつか存在する。<br>
camelotの方が抽出できる銘柄が多いので、camelotで抽出後、残りをtabulaで抽出する。<br>
手順1：camelotで抽出（取込エラーが出た銘柄は全て③tabulaでの抽出にまわす）<br>
　　　→取込が出来た銘柄一覧の表を作成<br>
　　　→余分な文字が多数含まれているので、値の加工を行う<br>
　　　→取込エラーが出ずにPDFの読み込みには成功したものの、十分なデータが抽出できなかった銘柄に対して、<br>
　　　　<b>削除銘柄</b>(十分にデータが抽出できていない銘柄)と<br>
　　　　<b>再抽出銘柄</b>(取込時のコードを変えればうまく抽出できそうな銘柄)の選別<br>
　　　→削除銘柄と再抽出銘柄を表から削除する（再抽出銘柄は②で再抽出する）<br>
手順2：camelotで再抽出銘柄のデータを再抽出<br>
　　　→取込が出来た銘柄一覧の表を作成<br>
　　　→余分な文字が多数含まれているので、値の加工を行う<br>
　　　→十分にデータが抽出できていない銘柄を表から削除する<br>
手順3：tabulaで抽出<br>
　　　→取込が出来た銘柄一覧の表を作成<br>
　　　→余分な文字が多数含まれているので、値の加工を行う<br>
　　　→十分にデータが抽出できていない銘柄を表から削除する<br>
手順4：以上で抽出した手順1、手順2、手順3のデータを結合して完成

In [None]:
#手順1：camelotで抽出
def get_pdf_camelot(start_url, code):
    #time.sleep(1)
    response = requests.get(start_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    if 'リクエストされたページがみつかりませんでした' in soup.text:
        print('東証以外の銘柄のため、PDF見つからず')
        pass
    else:
        table = soup.find('table', attrs={'class': 'Quote'})
        try:
            #訂正があった場合でも、訂正前のPDFを取得する
            for i in range(0, 5):
                print(i)
                if '訂正' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text\
                or '補足' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text:
                    pass
                else:
                    target_pdf = table.find_all('td', text = re.compile('.*決算短信.*'))[i].find('a').get('href')
                    break
        #最近上場した企業は、決算短信がまだ存在しない
        except Exception as e:
                print('決算短信が存在しない')
                print(e)
                print('\n')
                return 
        try:
            tables = camelot.read_pdf(target_pdf, flavor='stream', pages = '4-end', table_areas=['0,800,700,0'])
            get_features_camelot(tables, code)

        except Exception as e:
            tabula_dict[code] = e
            print('取込エラー')
            print(e)
            print('\n')
            pass

def get_features_camelot(tables, code):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
                '投資その他の資産合計', '流動負債合計', '固定負債合計']
    df_elements = []
    feature_remove_list = []
    count_tables = 0
    for table in tables:
        df_tbl = table.df
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []

    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code
    dfs_concat_camelot(df_all2)
    
    
def dfs_concat_camelot(df_all2):
    global df_camelot1
    df_camelot1 = pd.concat([df_camelot1, df_all2], axis=0)

In [None]:
#手順1：camelotで取り込む銘柄コードと、空データフレームの作成
codes = pd.read_csv('全銘柄データWeb（完成）.csv', encoding=("cp932"), header=0).iloc[:, 0]
df_camelot1 = pd.DataFrame()
tabula_dict = {}

In [None]:
#手順1：camelotでPDFから特徴量をDataFrameへ記入　※7時間くらいかかる
'''
・取込エラー
    Invalid dictionary construct: [/'Type', ...　→　camelotではデータ抽出できないのが、tabulaで抽出できる可能性が高い
    only algorithm code 1 and 2 are supported　→　データ抽出できないPDFである可能性が非常に高い
    No objects to concatenate　→　データ抽出できないPDFである可能性が高い
・決算短信が存在しない
    'NoneType' object has no attribute 'find'　→　上場したてで、決算短信のPDFがまだ存在しない
・東証以外の銘柄のため、PDF見つからず
    東証(東証1部・東証2部・JSQ・マザーズ)以外はPDFが取得できない
'''

for i in range(0, len(codes)):
    code = codes[i]
    start_url = 'http://ke.kabupro.jp/code/{}.htm'.format(code)
    print(start_url, 'i=', i)
    get_pdf_camelot(start_url, code)

In [None]:
#手順1：tabulaで取り込む銘柄コードの表をcsvへ書込み
#かなり後で使用する
df_for_tabula = pd.DataFrame()
df_for_tabula['code'] = tabula_dict.keys()
df_for_tabula['error'] = tabula_dict.values()

df_for_tabula.to_csv('temp_file/全銘柄PDFデータ（手順1_tabula用銘柄コード）.csv', mode='w', index=False, encoding="shift-jis", errors='none')

df_for_tabula

In [None]:
#手順1：camelotで取得した表の確認
df_camelot1 = df_camelot.reindex(columns=['code', '流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', 
                         '投資有価証券', '投資その他の資産合計', '流動負債合計', '固定負債合計', ])
df_camelot1

In [None]:
#手順1：camelotで取得した表をcsvへ書込み
df_camelot1.to_csv('temp_file/全銘柄PDFデータ（手順1_camelot加工前）.csv', mode='w', index=False, encoding="shift-jis", errors='none')

In [None]:
#手順1：camelotで取得した表をcsvから読み込み、余分な文字を消す
df_camelot2 = pd.read_csv('temp_file/全銘柄PDFデータ（手順1_camelot加工前）.csv', encoding=("cp932"), header=0)

replace_feature_list = list(df_camelot2.select_dtypes(include=object).columns.values)
replace_list = [',', '△', '―', '-', '，', '\n', ' ',
                '※1', '※2', '※3', '※4', '※5', '※6', '※7', '※8', '※9',
                '※１', '※２', '※３', '※４', '※５', '※６', '※７', '※８', '※９']
for i in replace_feature_list:
    for j in replace_list:
        df_camelot2[i] = df_camelot2[i].str.replace(j, '')
df_camelot2

In [None]:
#手順1：十分に取り込めていない銘柄コードについて、
#①再抽出する銘柄コードの抽出と、②削除する銘柄コードの抽出
camelot_re_dict = {}
camelot_drop_list = []
for i in range(0, len(df_camelot2)):
    #①再抽出する銘柄コードの抽出
    if len(df_camelot2.iloc[i, :].value_counts()) == 1:
        camelot_re_dict[df_camelot2.iloc[i, 0]] = 're1'
        print('code=', df_camelot2.iloc[i, 0], '再抽出：資料が左に細くて1つも取り込めない')
    elif df_camelot2.iloc[i, 9] == '非流動負債合計':
        camelot_re_dict[df_camelot2.iloc[i, 0]] = 're2'
        print('code=', df_camelot2.iloc[i, 0], '再抽出：固定負債合計の値が非流動負債合計')
        
for i in range(0, len(df_camelot2)):    
    #②削除する銘柄コードの抽出
    if len(df_camelot2.iloc[i, :].value_counts()) <= 3:
        camelot_drop_list.append(df_camelot2.iloc[i, 0])
        print('code=', df_camelot2.iloc[i, 0], '削除：特徴量が2つ以下')
    elif df_camelot2.iloc[i, :].str.contains('%').sum() !=0:
        camelot_drop_list.append(df_camelot2.iloc[i, 0])
        print('code=', df_camelot2.iloc[i, 0], '削除：%を含む')
    elif df_camelot2.iloc[i, 9] == '非流動負債合計':
        camelot_drop_list.append(df_camelot2.iloc[i, 0])
        print('code=', df_camelot2.iloc[i, 0], '削除：固定負債合計の値が非流動負債合計')

In [None]:
#手順1：削除する銘柄コードの削除
for i in camelot_drop_list:
    df_camelot2.drop(df_camelot2.index[df_camelot2['code'] == i], inplace=True)
df_camelot2

In [None]:
#手順1：camelotで取得した表（加工・削除後）をcsvへ書込み
df_camelot2.to_csv('temp_file/全銘柄PDFデータ（手順1_camelot完成）.csv', mode='w', index=False, encoding="shift-jis", errors='none')

In [None]:
#手順2：camelotで再抽出する銘柄コードと、空データフレームの作成
codes_camelot_re = list(camelot_re_dict.keys())
df_camelot_re1 = pd.DataFrame()

In [None]:
#手順2：camelotで再抽出
def get_pdf_camelot_re(start_url, code, frag):
    time.sleep(1)
    response = requests.get(start_url)
    soup = BeautifulSoup(response.content, 'html.parser')

    table = soup.find('table', attrs={'class': 'Quote'})
    #訂正があった場合でも、訂正前のPDFを取得する
    for i in range(0, 5):
        if '訂正' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text\
        or '補足' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text:
            pass
        else:
            target_pdf = table.find_all('td', text = re.compile('.*決算短信.*'))[i].find('a').get('href')
            break
                
    try:
        tables = camelot.read_pdf(target_pdf, flavor='stream', pages = '4-end', table_areas=['0,800,700,0'])
        if frag == 're1':
            get_features_camelot_re1(tables, code)
        else:
            get_features_camelot_re2(tables, code)
    except Exception as e:
        print('取込エラー')
        print(e)
        print('\n')
        pass

#手順2：対応①　camelot「固定負債合計の値が非流動負債合計」PDFデータの取込み
def get_features_camelot_re1(tables, code):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券',
                    '投資その他の資産合計', '流動負債合計', '固定負債合計']
    feature_remove_list = []
    df_elements = []
    for table in tables:
        df_tbl = table.df  
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #【左から2列目に値が入っているPDFのため、その対応をする】
                if df_element1.iloc[0, 1] == '':
                    df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-2]]
                #後のconcatで列がずれないようにするため、値の列の名前を1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []
    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code
    dfs_concat_camelot_re(df_all2)

    
#手順2：対応②　camelot「固定負債合計の値が非流動負債合計」PDFデータの再抽出
def get_features_camelot_re2(tables, code):
#【現金及び預金→現金及び現金同等物、固定負債合計→非流動負債合計に変更】
    feature_list = ['流動資産合計', '現金及び現金同等物', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券',
                    '投資その他の資産合計', '流動負債合計', '非流動負債合計']
    feature_remove_list = []
    df_elements = []
    for table in tables:
        df_tbl = table.df  
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #【左から2列目に値が入っているPDFのため、その対応をする】
                if df_element1.iloc[0, 1] == '':
                    df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-2]]
                #後のconcatで列がずれないようにするため、値の列の名前を1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []
    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)\
    .rename(columns={'現金及び現金同等物': '現金及び預金'}).rename(columns={'非流動負債合計': '固定負債合計'}) 
    df_all2['code'] = code
    dfs_concat_camelot_re(df_all2)
    
    
def dfs_concat_camelot_re(df_all2):
    global df_camelot_re1
    df_camelot_re1 = pd.concat([df_camelot_re1, df_all2], axis=0)

In [None]:
#手順2：camelotで再抽出をPDFから特徴量をDataFrameへ記入　
for i in range(0, len(codes_camelot_re)):
    code = codes_camelot_re[i]
    frag = camelot_re_dict[code]
    start_url = 'http://ke.kabupro.jp/code/{}.htm'.format(code)
    print(start_url, 'i=', i)
    get_pdf_camelot_re(start_url, code, frag)

In [None]:
#手順2：camelotで再取得した表の確認
df_camelot_re1 = df_camelot_re1.reindex(columns=['code', '流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', 
                         '投資有価証券', '投資その他の資産合計', '流動負債合計', '固定負債合計', ])
df_camelot_re1

In [None]:
#手順2：camelotで再取得した表をcsvへ書込み
df_camelot_re1.to_csv('temp_file/全銘柄PDFデータ（手順2_camelot_re加工前）.csv', mode='w', 
                      index=False, encoding="shift-jis", errors='none')

In [None]:
#手順2：camelotで再取得した表の余分な文字を消す
df_camelot_re2 = pd.read_csv('temp_file/全銘柄PDFデータ（手順2_camelot_re加工前）.csv', encoding=("cp932"), header=0)
replace_feature_list = list(df_camelot_re2.select_dtypes(include=object).columns.values)
replace_list = [',', '△', '―', '-', '，', '\n', ' ',
                '※1', '※2', '※3', '※4', '※5', '※6', '※7', '※8', '※9',
                '※１', '※２', '※３', '※４', '※５', '※６', '※７', '※８', '※９', '\D']

for i in replace_feature_list:
    for j in replace_list:
        df_camelot_re2[i] = df_camelot_re2[i].str.replace(j, '')
df_camelot_re2


In [None]:
#手順2：camelotで再取得した銘柄のうち、十分に取り込めていない銘柄コードの抽出と削除
camelot_re_drop_list = []

#削除する銘柄コードの抽出        
for i in range(0, len(df_camelot_re2)):    
    #②削除する銘柄コードの抽出
    if len(df_camelot_re2.iloc[i, :].value_counts()) <= 3:
        camelot_re_drop_list.append(df_camelot_re2.iloc[i, 0])
        print('code=', df_camelot_re2.iloc[i, 0], '削除：特徴量が2つ以下')
        
#削除する銘柄コードの削除
for i in camelot_re_drop_list:
    df_camelot_re2.drop(df_camelot_re2.index[df_camelot_re2['code'] == i], inplace=True)
df_camelot_re2

In [None]:
#手順2：camelotで再取得した表（加工・削除後）をcsvへ書込み
df_camelot_re2.to_csv('temp_file/全銘柄PDFデータ（手順2_camelot_re完成）.csv', mode='w',
                      index=False, encoding="shift-jis", errors='none')

In [None]:
#手順3：tabulaの利用
def get_pdf_tabula(start_url_tabula, code_tabula):
    response = requests.get(start_url_tabula)
    soup = BeautifulSoup(response.content, 'html.parser')
    if 'リクエストされたページがみつかりませんでした' in soup.text:
        print('東証以外の銘柄のため、PDF見つからず')
        pass
    else:
        table = soup.find('table', attrs={'class': 'Quote'})  
        #訂正があった場合でも、訂正前のPDFを取得する
        for i in range(0, 5):
            if '訂正' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text\
            or '補足' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text:
                pass
            else:
                target_pdf = table.find_all('td', text = re.compile('.*決算短信.*'))[i].find('a').get('href')
                break

        try:
            '''
            area (list of float, list of list of float, optional) –
            Portion of the page to analyze(top,left,bottom,right). Default is entire page.
            '''
            df_tbls = tabula.read_pdf(target_pdf, pages = 'all', stream=True, silent=True)
            get_features_tabula(df_tbls, code_tabula)           
        except Exception as e:
            error_dict[code_tabula] = e
            print('取込エラー')
            print(e)
            print('\n')
            pass

def get_features_tabula(df_tbls, code_tabula):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
                '投資その他の資産合計', '流動負債合計', '固定負債合計']
    df_elements = []
    feature_remove_list = []
    count_tables = 0
    for df_tbl in df_tbls:
        count = 0
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []

    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code_tabula
    dfs_concat_tabula(df_all2)
    
    
def dfs_concat_tabula(df_all2):
    global df_tabula1
    df_tabula1 = pd.concat([df_tabula1, df_all2], axis=0)


In [None]:
#手順3：取り込む銘柄コードと、空データフレームの作成
#PDFの表抽出には、camelotとtabulaがある。それぞれ抽出できない銘柄がいくつか存在する。
#camelotの方が抽出できる銘柄が多いので、camelotで抽出後、残りをtabulaで抽出する。

codes_tabula = pd.read_csv('temp_file/全銘柄PDFデータ（手順1_tabula用銘柄コード）.csv', 
                           encoding=("cp932"), header=0).iloc[:, 0]
df_tabula1 = pd.DataFrame()
error_dict = {}

In [None]:
#手順3：tabulaでPDFから特徴量をDataFrameへ記入　※2時間くらいかかる
'''
・取込エラー
    No objects to concatenate　→　データ抽出できないPDFである可能性が高い
'''
#for i in range(0, len(codes_tabula)):
for i in range(0, len(codes_tabula)):
    code_tabula = codes_tabula[i]
    start_url_tabula = 'http://ke.kabupro.jp/code/{}.htm'.format(code_tabula)
    print(start_url_tabula, 'i=', i)
    get_pdf_tabula(start_url_tabula, code_tabula)

In [None]:
#手順3：tabulaで取得した表の確認
df_tabula1 = df_tabula1.reindex(columns=['code', '流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', 
                         '投資有価証券', '投資その他の資産合計', '流動負債合計', '固定負債合計', ])
df_tabula1

In [None]:
#手順3：tabulaで取得した表をcsvへ書込み
df_tabula1.to_csv('temp_file/全銘柄PDFデータ（手順3_tabula加工前）.csv', mode='w',
                  index=False, encoding="shift-jis", errors='none')

In [None]:
#手順3：tabulaで取得した表をcsvから読み込み、余分な文字を消す
df_tabula2 = pd.read_csv('temp_file/全銘柄PDFデータ（手順3_tabula加工前）.csv', encoding=("cp932"), header=0)

replace_feature_list = list(df_tabula2.select_dtypes(include=object).columns.values)
replace_list = [',', '△', '―', '-', '，', '\n', ' ',
                '※1', '※2', '※3', '※4', '※5', '※6', '※7', '※8', '※9',
                '※１', '※２', '※３', '※４', '※５', '※６', '※７', '※８', '※９', '\D',
                'H', 'M', '百万円']
for i in replace_feature_list:
    for j in replace_list:
        df_tabula2[i] = df_tabula2[i].str.replace(j, '')
df_tabula2

In [None]:
#手順3：tabulaで再取得した銘柄のうち、十分に取り込めていない銘柄コードの抽出と削除
#tabulaはあまりうまく抽出できないため、削除する銘柄が多い
tabula_drop_list = []

#削除する銘柄コードの抽出        
for i in range(0, len(df_tabula2)):    
    if len(df_tabula2.iloc[i, :].value_counts()) <= 3:
        tabula_drop_list.append(df_tabula2.iloc[i, 0])
        print('code=', df_tabula2.iloc[i, 0], '削除：特徴量が2つ以下')
        
#削除する銘柄コードの削除
for i in tabula_drop_list:
    df_tabula2.drop(df_tabula2.index[df_tabula2['code'] == i], inplace=True)
df_tabula2

In [None]:
#手順3：tabulaで取得した表（加工・削除後）をcsvへ書込み
df_tabula2.to_csv('temp_file/全銘柄PDFデータ（手順3_tabula完成）.csv', mode='w',
                      index=False, encoding="shift-jis", errors='none')

In [None]:
#手順4：camelotとcamelot_reとtabulaの読出し
df_camelot = pd.read_csv('temp_file/全銘柄PDFデータ（手順1_camelot完成）.csv', 
                             encoding=("cp932"), header=0)
df_camelot_re = pd.read_csv('temp_file/全銘柄PDFデータ（手順2_camelot_re完成）.csv', 
                             encoding=("cp932"), header=0)
df_tabula = pd.read_csv('temp_file/全銘柄PDFデータ（手順3_tabula完成）.csv', 
                             encoding=("cp932"), header=0)

df_tabula


In [None]:
#手順4：camelotとcamelot_reとtabulaの結合
df_pdf = pd.concat([df_camelot, df_camelot_re, df_tabula], axis=0)
df_pdf

In [None]:
#「現金預金」の値を「現金及び預金」に統合
for i in range(0, len(df_pdf)):
    if math.isnan(df_pdf.iloc[i, 3]) is False:
        df_pdf.iloc[i, 2] = df_pdf.iloc[i, 3]
del df_pdf['現金預金']

df_pdf

In [None]:
df_pdf.to_csv('全銘柄PDFデータ（完成）.csv', mode='w',
                      index=False, encoding="shift-jis", errors='none')

In [None]:
###【参考】

#camelotでPDFから特徴量を「並列処理で」DataFrameへ記入　※通常の80%の時間で取り込むことが出来る
import os
import concurrent.futures as confu

with confu.ThreadPoolExecutor(max_workers=os.cpu_count()) as executor:
    for i in range(0, 30):
        code = codes[i]
        start_url = 'http://ke.kabupro.jp/code/{}.htm'.format(code)
        time.sleep(1)
        print(start_url, 'i=', i)
        executor.submit(get_pdf_camelot, start_url, code, i)