In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import time
import re
import camelot
import tabula
import warnings
import codecs
import asyncio
import threading

warnings.simplefilter('ignore', UserWarning)
pd.set_option('display.max_rows', 100)
codecs.register_error('none', lambda e: ('', e.end))

Duplicate key in file WindowsPath('C:/ProgramData/Anaconda3/lib/site-packages/matplotlib/mpl-data/matplotlibrc'), line 250 ('font.family: IPAexGothic')



# 銘柄抽出の流れ

PDFの表抽出ライブラリーは、camelotとtabulaの2種類がある。それぞれ抽出できない銘柄がいくつか存在する。<br>
camelotの方が抽出できる銘柄が多いので、camelotで抽出後、残りをtabulaで抽出する。<br>
手順1：camelotで抽出（取込エラーが出た銘柄は全て③tabulaでの抽出にまわす）<br>
　　　→取込が出来た銘柄一覧の表を作成<br>
　　　→余分な文字が多数含まれているので、値の加工を行う<br>
　　　→取込エラーが出ずにPDFの読み込みには成功したものの、十分なデータが抽出できなかった銘柄に対して、<br>
　　　　<b>削除銘柄</b>(十分にデータが抽出できていない銘柄)と<br>
　　　　<b>再抽出銘柄</b>(取込時のコードを変えればうまく抽出できそうな銘柄)の選別<br>
　　　→削除銘柄と再抽出銘柄を表から削除する（再抽出銘柄は②で再抽出する）<br>
手順2：camelotで再抽出銘柄のデータを再抽出<br>
　　　→取込が出来た銘柄一覧の表を作成<br>
　　　→余分な文字が多数含まれているので、値の加工を行う<br>
　　　→十分にデータが抽出できていない銘柄を表から削除する<br>
手順3：tabulaで抽出<br>
　　　→取込が出来た銘柄一覧の表を作成<br>
　　　→余分な文字が多数含まれているので、値の加工を行う<br>
　　　→十分にデータが抽出できていない銘柄を表から削除する<br>
手順4：以上で抽出した手順1、手順2、手順3のデータを結合して完成

In [14]:
#手順1：camelotで抽出
def get_pdf_camelot(start_url, code):
    #time.sleep(1)
    response = requests.get(start_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    if 'リクエストされたページがみつかりませんでした' in soup.text:
        print('東証以外の銘柄のため、PDF見つからず')
        pass
    else:
        table = soup.find('table', attrs={'class': 'Quote'})
        try:
            #訂正があった場合でも、訂正前のPDFを取得する
            for i in range(0, 5):
                print(i)
                if '訂正' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text\
                or '補足' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text:
                    pass
                else:
                    target_pdf = table.find_all('td', text = re.compile('.*決算短信.*'))[i].find('a').get('href')
                    break
        #最近上場した企業は、決算短信がまだ存在しない
        except Exception as e:
                print('決算短信が存在しない')
                print(e)
                print('\n')
                return 
        try:
            tables = camelot.read_pdf(target_pdf, flavor='stream', pages = '4-end', table_areas=['0,800,700,0'])
            get_features_camelot(tables, code)

        except Exception as e:
            tabula_dict[code] = e
            print('取込エラー')
            print(e)
            print('\n')
            pass

def get_features_camelot(tables, code):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
                '投資その他の資産合計', '流動負債合計', '固定負債合計']
    df_elements = []
    feature_remove_list = []
    count_tables = 0
    for table in tables:
        df_tbl = table.df
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []

    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code
    dfs_concat_camelot(df_all2)
    
    
def dfs_concat_camelot(df_all2):
    global df_camelot1
    df_camelot1 = pd.concat([df_camelot1, df_all2], axis=0)

In [15]:
#手順1：camelotで取り込む銘柄コードと、空データフレームの作成
codes = pd.read_csv('全銘柄データWeb（完成）.csv', encoding=("cp932"), header=0).iloc[:, 0]
df_camelot1 = pd.DataFrame()
tabula_dict = {}

In [16]:
#手順1：camelotでPDFから特徴量をDataFrameへ記入　※7時間くらいかかる
'''
・取込エラー
    Invalid dictionary construct: [/'Type', ...　→　camelotではデータ抽出できないのが、tabulaで抽出できる可能性が高い
    only algorithm code 1 and 2 are supported　→　データ抽出できないPDFである可能性が非常に高い
    No objects to concatenate　→　データ抽出できないPDFである可能性が高い
・決算短信が存在しない
    'NoneType' object has no attribute 'find'　→　上場したてで、決算短信のPDFがまだ存在しない
・東証以外の銘柄のため、PDF見つからず
    東証(東証1部・東証2部・JSQ・マザーズ)以外はPDFが取得できない
'''

for i in range(0, len(codes)):
    code = codes[i]
    start_url = 'http://ke.kabupro.jp/code/{}.htm'.format(code)
    print(start_url, 'i=', i)
    get_pdf_camelot(start_url, code)

http://ke.kabupro.jp/code/1301.htm i= 0
http://ke.kabupro.jp/code/1332.htm i= 1
http://ke.kabupro.jp/code/1333.htm i= 2
取込エラー
Invalid dictionary construct: [/'Type', /'Font', /'BaseFont', /b"b'", /"\\x82l\\x82r\\x96\\xbe\\x92\\xa9'", /'Subtype', /'Type0', /'DescendantFonts', [<PDFObjRef:12>], /'Encoding', /'UniJIS-UTF16-H']


http://ke.kabupro.jp/code/1352.htm i= 3
http://ke.kabupro.jp/code/1375.htm i= 4
http://ke.kabupro.jp/code/1376.htm i= 5
http://ke.kabupro.jp/code/1377.htm i= 6
http://ke.kabupro.jp/code/1379.htm i= 7
http://ke.kabupro.jp/code/1380.htm i= 8
http://ke.kabupro.jp/code/1381.htm i= 9
http://ke.kabupro.jp/code/1382.htm i= 10
http://ke.kabupro.jp/code/1383.htm i= 11
http://ke.kabupro.jp/code/1384.htm i= 12
http://ke.kabupro.jp/code/1400.htm i= 13
http://ke.kabupro.jp/code/1401.htm i= 14
http://ke.kabupro.jp/code/1407.htm i= 15
http://ke.kabupro.jp/code/1413.htm i= 16
http://ke.kabupro.jp/code/1414.htm i= 17
http://ke.kabupro.jp/code/1417.htm i= 18


KeyboardInterrupt: 

In [None]:
#手順1：tabulaで取り込む銘柄コードの表をcsvへ書込み
#かなり後で使用する
df_for_tabula = pd.DataFrame()
df_for_tabula['code'] = tabula_dict.keys()
df_for_tabula['error'] = tabula_dict.values()

df_for_tabula.to_csv('temp_file/全銘柄PDFデータ（手順1_tabula用銘柄コード）.csv', mode='w', index=False, encoding="shift-jis", errors='none')

df_for_tabula

In [None]:
#手順1：camelotで取得した表の確認
df_camelot1 = df_camelot.reindex(columns=['code', '流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', 
                         '投資有価証券', '投資その他の資産合計', '流動負債合計', '固定負債合計', ])
df_camelot1

In [None]:
#手順1：camelotで取得した表をcsvへ書込み
df_camelot1.to_csv('temp_file/全銘柄PDFデータ（手順1_camelot加工前）.csv', mode='w', index=False, encoding="shift-jis", errors='none')

In [18]:
#手順1：camelotで取得した表をcsvから読み込み、余分な文字を消す
df_camelot2 = pd.read_csv('temp_file/全銘柄PDFデータ（手順1_camelot加工前）.csv', encoding=("cp932"), header=0)

replace_feature_list = list(df_camelot2.select_dtypes(include=object).columns.values)
replace_list = [',', '△', '―', '-', '，', '\n', ' ',
                '※1', '※2', '※3', '※4', '※5', '※6', '※7', '※8', '※9',
                '※１', '※２', '※３', '※４', '※５', '※６', '※７', '※８', '※９']
for i in replace_feature_list:
    for j in replace_list:
        df_camelot2[i] = df_camelot2[i].str.replace(j, '')
df_camelot2

Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,1301,86649,7100,,,15715,11682,13547,39189,37166
1,1332,231751,10986,,,147428,38076,86443,153467,134021
2,1352,12137,4019,,,26593,345,2390,11866,21666
3,1375,10202,,,18031,,,,7614,
4,1376,28828145,3447948,,,6627416,,2829597,16514107,1726482
...,...,...,...,...,...,...,...,...,...,...
2914,9990,17545707,1132167,,,6393571,4627857,13423191,5951278,5038906
2915,9991,71446,20.8,,1.4,23439,0.0,7290,37959,5094
2916,9994,32537,8664,,,11459,894,11165,28133,5102
2917,9995,28864,3395,,,1537,2131,3112,10263,888


In [19]:
#手順1：十分に取り込めていない銘柄コードについて、
#①再抽出する銘柄コードの抽出と、②削除する銘柄コードの抽出
camelot_re_dict = {}
camelot_drop_list = []
for i in range(0, len(df_camelot2)):
    #①再抽出する銘柄コードの抽出
    if len(df_camelot2.iloc[i, :].value_counts()) == 1:
        camelot_re_dict[df_camelot2.iloc[i, 0]] = 're1'
        print('code=', df_camelot2.iloc[i, 0], '再抽出：資料が左に細くて1つも取り込めない')
    elif df_camelot2.iloc[i, 9] == '非流動負債合計':
        camelot_re_dict[df_camelot2.iloc[i, 0]] = 're2'
        print('code=', df_camelot2.iloc[i, 0], '再抽出：固定負債合計の値が非流動負債合計')
        
for i in range(0, len(df_camelot2)):    
    #②削除する銘柄コードの抽出
    if len(df_camelot2.iloc[i, :].value_counts()) <= 3:
        camelot_drop_list.append(df_camelot2.iloc[i, 0])
        print('code=', df_camelot2.iloc[i, 0], '削除：特徴量が2つ以下')
    elif df_camelot2.iloc[i, :].str.contains('%').sum() !=0:
        camelot_drop_list.append(df_camelot2.iloc[i, 0])
        print('code=', df_camelot2.iloc[i, 0], '削除：%を含む')
    elif df_camelot2.iloc[i, 9] == '非流動負債合計':
        camelot_drop_list.append(df_camelot2.iloc[i, 0])
        print('code=', df_camelot2.iloc[i, 0], '削除：固定負債合計の値が非流動負債合計')

code= 3277 再抽出：資料が左に細くて1つも取り込めない
code= 3402 再抽出：固定負債合計の値が非流動負債合計
code= 4183 再抽出：固定負債合計の値が非流動負債合計
code= 6232 再抽出：資料が左に細くて1つも取り込めない
code= 6361 再抽出：固定負債合計の値が非流動負債合計
code= 7203 再抽出：固定負債合計の値が非流動負債合計
code= 7605 再抽出：資料が左に細くて1つも取り込めない
code= 8160 再抽出：資料が左に細くて1つも取り込めない
code= 8399 再抽出：資料が左に細くて1つも取り込めない
code= 8616 再抽出：資料が左に細くて1つも取り込めない
code= 8746 再抽出：資料が左に細くて1つも取り込めない
code= 9201 再抽出：固定負債合計の値が非流動負債合計
code= 9519 再抽出：固定負債合計の値が非流動負債合計
code= 9678 再抽出：資料が左に細くて1つも取り込めない
code= 9719 再抽出：固定負債合計の値が非流動負債合計
code= 3245 削除：%を含む
code= 3277 削除：特徴量が2つ以下
code= 3402 削除：固定負債合計の値が非流動負債合計
code= 4095 削除：特徴量が2つ以下
code= 4183 削除：固定負債合計の値が非流動負債合計
code= 4519 削除：特徴量が2つ以下
code= 4689 削除：特徴量が2つ以下
code= 4755 削除：特徴量が2つ以下
code= 5202 削除：特徴量が2つ以下
code= 5464 削除：特徴量が2つ以下
code= 6098 削除：特徴量が2つ以下
code= 6232 削除：特徴量が2つ以下
code= 6361 削除：固定負債合計の値が非流動負債合計
code= 6417 削除：特徴量が2つ以下
code= 6594 削除：特徴量が2つ以下
code= 6697 削除：特徴量が2つ以下
code= 6758 削除：特徴量が2つ以下
code= 6981 削除：特徴量が2つ以下
code= 7150 削除：特徴量が2つ以下
code= 7157 削除：特徴量が2つ以下
code= 7167 削除：特徴量が2つ以下
code= 718

In [20]:
#手順1：削除する銘柄コードの削除
for i in camelot_drop_list:
    df_camelot2.drop(df_camelot2.index[df_camelot2['code'] == i], inplace=True)
df_camelot2

Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,1301,86649,7100,,,15715,11682,13547,39189,37166
1,1332,231751,10986,,,147428,38076,86443,153467,134021
2,1352,12137,4019,,,26593,345,2390,11866,21666
3,1375,10202,,,18031,,,,7614,
4,1376,28828145,3447948,,,6627416,,2829597,16514107,1726482
...,...,...,...,...,...,...,...,...,...,...
2914,9990,17545707,1132167,,,6393571,4627857,13423191,5951278,5038906
2915,9991,71446,20.8,,1.4,23439,0.0,7290,37959,5094
2916,9994,32537,8664,,,11459,894,11165,28133,5102
2917,9995,28864,3395,,,1537,2131,3112,10263,888


In [21]:
#手順1：camelotで取得した表（加工・削除後）をcsvへ書込み
df_camelot2.to_csv('temp_file/全銘柄PDFデータ（手順1_camelot完成）.csv', mode='w', index=False, encoding="shift-jis", errors='none')

In [106]:
#手順2：camelotで再抽出する銘柄コードと、空データフレームの作成
codes_camelot_re = list(camelot_re_dict.keys())
df_camelot_re1 = pd.DataFrame()

In [107]:
#手順2：camelotで再抽出
def get_pdf_camelot_re(start_url, code, frag):
    time.sleep(1)
    response = requests.get(start_url)
    soup = BeautifulSoup(response.content, 'html.parser')

    table = soup.find('table', attrs={'class': 'Quote'})
    #訂正があった場合でも、訂正前のPDFを取得する
    for i in range(0, 5):
        if '訂正' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text\
        or '補足' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text:
            pass
        else:
            target_pdf = table.find_all('td', text = re.compile('.*決算短信.*'))[i].find('a').get('href')
            break
                
    try:
        tables = camelot.read_pdf(target_pdf, flavor='stream', pages = '4-end', table_areas=['0,800,700,0'])
        if frag == 're1':
            get_features_camelot_re1(tables, code)
        else:
            get_features_camelot_re2(tables, code)
    except Exception as e:
        print('取込エラー')
        print(e)
        print('\n')
        pass

#手順2：対応①　camelot「固定負債合計の値が非流動負債合計」PDFデータの取込み
def get_features_camelot_re1(tables, code):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券',
                    '投資その他の資産合計', '流動負債合計', '固定負債合計']
    feature_remove_list = []
    df_elements = []
    for table in tables:
        df_tbl = table.df  
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #【左から2列目に値が入っているPDFのため、その対応をする】
                if df_element1.iloc[0, 1] == '':
                    df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-2]]
                #後のconcatで列がずれないようにするため、値の列の名前を1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []
    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code
    dfs_concat_camelot_re(df_all2)

    
#手順2：対応②　camelot「固定負債合計の値が非流動負債合計」PDFデータの再抽出
def get_features_camelot_re2(tables, code):
#【現金及び預金→現金及び現金同等物、固定負債合計→非流動負債合計に変更】
    feature_list = ['流動資産合計', '現金及び現金同等物', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券',
                    '投資その他の資産合計', '流動負債合計', '非流動負債合計']
    feature_remove_list = []
    df_elements = []
    for table in tables:
        df_tbl = table.df  
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #【左から2列目に値が入っているPDFのため、その対応をする】
                if df_element1.iloc[0, 1] == '':
                    df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-2]]
                #後のconcatで列がずれないようにするため、値の列の名前を1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []
    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)\
    .rename(columns={'現金及び現金同等物': '現金及び預金'}).rename(columns={'非流動負債合計': '固定負債合計'}) 
    df_all2['code'] = code
    dfs_concat_camelot_re(df_all2)
    
    
def dfs_concat_camelot_re(df_all2):
    global df_camelot_re1
    df_camelot_re1 = pd.concat([df_camelot_re1, df_all2], axis=0)

In [108]:
#手順2：camelotで再抽出をPDFから特徴量をDataFrameへ記入　
for i in range(0, len(codes_camelot_re)):
    code = codes_camelot_re[i]
    frag = camelot_re_dict[code]
    start_url = 'http://ke.kabupro.jp/code/{}.htm'.format(code)
    print(start_url, 'i=', i)
    get_pdf_camelot_re(start_url, code, frag)

http://ke.kabupro.jp/code/3277.htm i= 0
http://ke.kabupro.jp/code/3402.htm i= 1
http://ke.kabupro.jp/code/4183.htm i= 2
http://ke.kabupro.jp/code/6232.htm i= 3
http://ke.kabupro.jp/code/6361.htm i= 4
http://ke.kabupro.jp/code/7203.htm i= 5
http://ke.kabupro.jp/code/7605.htm i= 6
http://ke.kabupro.jp/code/8160.htm i= 7
http://ke.kabupro.jp/code/8399.htm i= 8
http://ke.kabupro.jp/code/8616.htm i= 9
http://ke.kabupro.jp/code/8746.htm i= 10
http://ke.kabupro.jp/code/9201.htm i= 11
http://ke.kabupro.jp/code/9519.htm i= 12
http://ke.kabupro.jp/code/9678.htm i= 13
http://ke.kabupro.jp/code/9719.htm i= 14


In [109]:
#手順2：camelotで再取得した表の確認
df_camelot_re1 = df_camelot_re1.reindex(columns=['code', '流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', 
                         '投資有価証券', '投資その他の資産合計', '流動負債合計', '固定負債合計', ])
df_camelot_re1

Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,3277,17554080.0,3865863.0,,,290865.0,,594750.0,5516638.0,2918950.0
0,3402,1181039.0,236354.0,,998358.0,,,,681378.0,845186.0
0,4183,787572.0,195987.0,,455749.0,,,,466305.0,409663.0
0,6232,3257717.0,1891731.0,,,,646888,675887.0,432941.0,3346.0
0,6361,468136.0,136084.0,,160722.0,,,,291212.0,82087.0
0,7203,22776800.0,5100857.0,,,11411153.0,,,21460466.0,16518344.0
0,7605,13909184.0,6247882.0,,,13160081.0,,,,
0,8160,20354.0,16002.0,,,14779.0,2825,8027.0,16515.0,6087.0
0,8399,,,,,,,,,
0,8616,1342676.0,83589.0,,10740.0,,48155,,1143073.0,100176.0


In [110]:
#手順2：camelotで再取得した表をcsvへ書込み
df_camelot_re1.to_csv('temp_file/全銘柄PDFデータ（手順2_camelot_re加工前）.csv', mode='w', 
                      index=False, encoding="shift-jis", errors='none')

In [111]:
#手順2：camelotで再取得した表の余分な文字を消す
df_camelot_re2 = pd.read_csv('temp_file/全銘柄PDFデータ（手順2_camelot_re加工前）.csv', encoding=("cp932"), header=0)
replace_feature_list = list(df_camelot_re2.select_dtypes(include=object).columns.values)
replace_list = [',', '△', '―', '-', '，', '\n', ' ',
                '※1', '※2', '※3', '※4', '※5', '※6', '※7', '※8', '※9',
                '※１', '※２', '※３', '※４', '※５', '※６', '※７', '※８', '※９', '\D']

for i in replace_feature_list:
    for j in replace_list:
        df_camelot_re2[i] = df_camelot_re2[i].str.replace(j, '')
df_camelot_re2


Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,3277,17554080.0,3865863.0,,,290865.0,,594750.0,5516638.0,2918950.0
1,3402,1181039.0,236354.0,,998358.0,,,,681378.0,845186.0
2,4183,787572.0,195987.0,,455749.0,,,,466305.0,409663.0
3,6232,3257717.0,1891731.0,,,,646888.0,675887.0,432941.0,3346.0
4,6361,468136.0,136084.0,,160722.0,,,,291212.0,82087.0
5,7203,22776800.0,5100857.0,,,11411153.0,,,21460466.0,16518344.0
6,7605,13909184.0,6247882.0,,,13160081.0,,,,
7,8160,20354.0,16002.0,,,14779.0,2825.0,8027.0,16515.0,6087.0
8,8399,,,,,,,,,
9,8616,1342676.0,83589.0,,10740.0,,48155.0,,1143073.0,100176.0


In [112]:
#手順2：camelotで再取得した銘柄のうち、十分に取り込めていない銘柄コードの抽出と削除
camelot_re_drop_list = []

#削除する銘柄コードの抽出        
for i in range(0, len(df_camelot_re2)):    
    #②削除する銘柄コードの抽出
    if len(df_camelot_re2.iloc[i, :].value_counts()) <= 3:
        camelot_re_drop_list.append(df_camelot_re2.iloc[i, 0])
        print('code=', df_camelot_re2.iloc[i, 0], '削除：特徴量が2つ以下')
        
#削除する銘柄コードの削除
for i in camelot_re_drop_list:
    df_camelot_re2.drop(df_camelot_re2.index[df_camelot_re2['code'] == i], inplace=True)
df_camelot_re2

code= 8399 削除：特徴量が2つ以下


Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,3277,17554080,3865863,,,290865.0,,594750.0,5516638.0,2918950.0
1,3402,1181039,236354,,998358.0,,,,681378.0,845186.0
2,4183,787572,195987,,455749.0,,,,466305.0,409663.0
3,6232,3257717,1891731,,,,646888.0,675887.0,432941.0,3346.0
4,6361,468136,136084,,160722.0,,,,291212.0,82087.0
5,7203,22776800,5100857,,,11411153.0,,,21460466.0,16518344.0
6,7605,13909184,6247882,,,13160081.0,,,,
7,8160,20354,16002,,,14779.0,2825.0,8027.0,16515.0,6087.0
9,8616,1342676,83589,,10740.0,,48155.0,,1143073.0,100176.0
10,8746,7319602,2334471,,,388267.0,1628841.0,2056000.0,4204103.0,44459.0


In [113]:
#手順2：camelotで再取得した表（加工・削除後）をcsvへ書込み
df_camelot_re2.to_csv('temp_file/全銘柄PDFデータ（手順2_camelot_re完成）.csv', mode='w',
                      index=False, encoding="shift-jis", errors='none')

In [114]:
#手順3：tabulaの利用
def get_pdf_tabula(start_url_tabula, code_tabula):
    response = requests.get(start_url_tabula)
    soup = BeautifulSoup(response.content, 'html.parser')
    if 'リクエストされたページがみつかりませんでした' in soup.text:
        print('東証以外の銘柄のため、PDF見つからず')
        pass
    else:
        table = soup.find('table', attrs={'class': 'Quote'})  
        #訂正があった場合でも、訂正前のPDFを取得する
        for i in range(0, 5):
            if '訂正' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text\
            or '補足' in table.find_all('td', text = re.compile('.*決算短信.*'))[i].text:
                pass
            else:
                target_pdf = table.find_all('td', text = re.compile('.*決算短信.*'))[i].find('a').get('href')
                break

        try:
            '''
            area (list of float, list of list of float, optional) –
            Portion of the page to analyze(top,left,bottom,right). Default is entire page.
            '''
            df_tbls = tabula.read_pdf(target_pdf, pages = 'all', stream=True, silent=True)
            get_features_tabula(df_tbls, code_tabula)           
        except Exception as e:
            error_dict[code_tabula] = e
            print('取込エラー')
            print(e)
            print('\n')
            pass

def get_features_tabula(df_tbls, code_tabula):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
                '投資その他の資産合計', '流動負債合計', '固定負債合計']
    df_elements = []
    feature_remove_list = []
    count_tables = 0
    for df_tbl in df_tbls:
        count = 0
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []

    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code_tabula
    dfs_concat_tabula(df_all2)
    
    
def dfs_concat_tabula(df_all2):
    global df_tabula1
    df_tabula1 = pd.concat([df_tabula1, df_all2], axis=0)


In [117]:
#手順3：取り込む銘柄コードと、空データフレームの作成
#PDFの表抽出には、camelotとtabulaがある。それぞれ抽出できない銘柄がいくつか存在する。
#camelotの方が抽出できる銘柄が多いので、camelotで抽出後、残りをtabulaで抽出する。

codes_tabula = pd.read_csv('temp_file/全銘柄PDFデータ（手順1_tabula用銘柄コード）.csv', encoding=("cp932"), header=0).iloc[:, 0]
df_tabula1 = pd.DataFrame()
error_dict = {}

In [120]:
#手順3：tabulaでPDFから特徴量をDataFrameへ記入　※2時間くらいかかる
'''
・取込エラー
    No objects to concatenate　→　データ抽出できないPDFである可能性が高い
'''
#for i in range(0, len(codes_tabula)):
for i in range(0, len(codes_tabula)):
    code_tabula = codes_tabula[i]
    start_url_tabula = 'http://ke.kabupro.jp/code/{}.htm'.format(code_tabula)
    print(start_url_tabula, 'i=', i)
    get_pdf_tabula(start_url_tabula, code_tabula)

http://ke.kabupro.jp/code/1333.htm i= 0
http://ke.kabupro.jp/code/1438.htm i= 1
http://ke.kabupro.jp/code/1447.htm i= 2
http://ke.kabupro.jp/code/1448.htm i= 3
http://ke.kabupro.jp/code/1451.htm i= 4
http://ke.kabupro.jp/code/1712.htm i= 5
http://ke.kabupro.jp/code/1721.htm i= 6
http://ke.kabupro.jp/code/1723.htm i= 7
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/1724.htm i= 8
http://ke.kabupro.jp/code/1726.htm i= 9
http://ke.kabupro.jp/code/1737.htm i= 10
http://ke.kabupro.jp/code/1766.htm i= 11
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/1780.htm i= 12
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/1798.htm i= 13
http://ke.kabupro.jp/code/1801.htm i= 14
http://ke.kabupro.jp/code/1803.htm i= 15
http://ke.kabupro.jp/code/1812.htm i= 16
http://ke.kabupro.jp/code/1820.htm i= 17
http://ke.kabupro.jp/code/1824.htm i= 18
http://ke.kabupro.jp/code/1828.htm i= 19
http://ke.kabupro.jp/code/1840.htm i= 20
http://ke.kabupro.jp/code/1847.htm i= 21
http:/

http://ke.kabupro.jp/code/3458.htm i= 176
http://ke.kabupro.jp/code/3475.htm i= 177
http://ke.kabupro.jp/code/3477.htm i= 178
http://ke.kabupro.jp/code/3480.htm i= 179
http://ke.kabupro.jp/code/3482.htm i= 180
http://ke.kabupro.jp/code/3484.htm i= 181
http://ke.kabupro.jp/code/3486.htm i= 182
http://ke.kabupro.jp/code/3490.htm i= 183
http://ke.kabupro.jp/code/3491.htm i= 184
http://ke.kabupro.jp/code/3494.htm i= 185
http://ke.kabupro.jp/code/3496.htm i= 186
http://ke.kabupro.jp/code/3498.htm i= 187
http://ke.kabupro.jp/code/3529.htm i= 188
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/3536.htm i= 189
http://ke.kabupro.jp/code/3540.htm i= 190
http://ke.kabupro.jp/code/3541.htm i= 191
http://ke.kabupro.jp/code/3543.htm i= 192
http://ke.kabupro.jp/code/3546.htm i= 193
http://ke.kabupro.jp/code/3550.htm i= 194
http://ke.kabupro.jp/code/3556.htm i= 195
http://ke.kabupro.jp/code/3557.htm i= 196
http://ke.kabupro.jp/code/3558.htm i= 197
http://ke.kabupro.jp/code/3559.htm i= 198


http://ke.kabupro.jp/code/4512.htm i= 354
http://ke.kabupro.jp/code/4521.htm i= 355
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/4523.htm i= 356
http://ke.kabupro.jp/code/4524.htm i= 357
http://ke.kabupro.jp/code/4526.htm i= 358
http://ke.kabupro.jp/code/4541.htm i= 359
http://ke.kabupro.jp/code/4544.htm i= 360
http://ke.kabupro.jp/code/4548.htm i= 361
http://ke.kabupro.jp/code/4552.htm i= 362
http://ke.kabupro.jp/code/4556.htm i= 363
http://ke.kabupro.jp/code/4558.htm i= 364
http://ke.kabupro.jp/code/4574.htm i= 365
http://ke.kabupro.jp/code/4578.htm i= 366
http://ke.kabupro.jp/code/4579.htm i= 367
http://ke.kabupro.jp/code/4581.htm i= 368
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/4584.htm i= 369
http://ke.kabupro.jp/code/4592.htm i= 370
http://ke.kabupro.jp/code/4593.htm i= 371
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/4598.htm i= 372
http://ke.kabupro.jp/code/4612.htm i= 373
http://ke.kabupro.jp/code/4617.htm i= 374
http://ke.kabupr

http://ke.kabupro.jp/code/6391.htm i= 530
http://ke.kabupro.jp/code/6400.htm i= 531
http://ke.kabupro.jp/code/6403.htm i= 532
http://ke.kabupro.jp/code/6406.htm i= 533
http://ke.kabupro.jp/code/6418.htm i= 534
http://ke.kabupro.jp/code/6425.htm i= 535
http://ke.kabupro.jp/code/6448.htm i= 536
http://ke.kabupro.jp/code/6465.htm i= 537
http://ke.kabupro.jp/code/6470.htm i= 538
http://ke.kabupro.jp/code/6481.htm i= 539
http://ke.kabupro.jp/code/6482.htm i= 540
http://ke.kabupro.jp/code/6502.htm i= 541
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/6503.htm i= 542
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/6506.htm i= 543
http://ke.kabupro.jp/code/6513.htm i= 544
http://ke.kabupro.jp/code/6532.htm i= 545
http://ke.kabupro.jp/code/6533.htm i= 546
http://ke.kabupro.jp/code/6539.htm i= 547
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/6544.htm i= 548
http://ke.kabupro.jp/code/6549.htm i= 549
http://ke.kabupro.jp/code/6553.htm i= 550
http://ke.kabupr

http://ke.kabupro.jp/code/7718.htm i= 707
http://ke.kabupro.jp/code/7731.htm i= 708
http://ke.kabupro.jp/code/7733.htm i= 709
http://ke.kabupro.jp/code/7735.htm i= 710
http://ke.kabupro.jp/code/7740.htm i= 711
http://ke.kabupro.jp/code/7744.htm i= 712
http://ke.kabupro.jp/code/7751.htm i= 713
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/7779.htm i= 714
http://ke.kabupro.jp/code/7803.htm i= 715
http://ke.kabupro.jp/code/7804.htm i= 716
http://ke.kabupro.jp/code/7806.htm i= 717
http://ke.kabupro.jp/code/7807.htm i= 718
http://ke.kabupro.jp/code/7812.htm i= 719
http://ke.kabupro.jp/code/7813.htm i= 720
http://ke.kabupro.jp/code/7818.htm i= 721
http://ke.kabupro.jp/code/7827.htm i= 722
http://ke.kabupro.jp/code/7829.htm i= 723
http://ke.kabupro.jp/code/7832.htm i= 724
http://ke.kabupro.jp/code/7847.htm i= 725
http://ke.kabupro.jp/code/7851.htm i= 726
http://ke.kabupro.jp/code/7855.htm i= 727
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/7864.htm i= 728
http://k

http://ke.kabupro.jp/code/9766.htm i= 886
http://ke.kabupro.jp/code/9767.htm i= 887
http://ke.kabupro.jp/code/9827.htm i= 888
http://ke.kabupro.jp/code/9835.htm i= 889
http://ke.kabupro.jp/code/9853.htm i= 890
http://ke.kabupro.jp/code/9880.htm i= 891
http://ke.kabupro.jp/code/9885.htm i= 892
取込エラー
No objects to concatenate


http://ke.kabupro.jp/code/9890.htm i= 893
http://ke.kabupro.jp/code/9946.htm i= 894
http://ke.kabupro.jp/code/9948.htm i= 895
http://ke.kabupro.jp/code/9964.htm i= 896
http://ke.kabupro.jp/code/9978.htm i= 897
http://ke.kabupro.jp/code/9983.htm i= 898
http://ke.kabupro.jp/code/9984.htm i= 899
http://ke.kabupro.jp/code/9993.htm i= 900
http://ke.kabupro.jp/code/9996.htm i= 901


In [129]:
#手順3：tabulaで取得した表の確認
df_tabula1 = df_tabula1.reindex(columns=['code', '流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', 
                         '投資有価証券', '投資その他の資産合計', '流動負債合計', '固定負債合計', ])
df_tabula1

Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,1333,300511,31579,,,147902,43665,64393,213484,152237
0,1438,3239976,2125532,,,971599,,312646,1278725,232571
0,1447,10852865,3894837,,,1720706,215825,1246302,7571502,4709414
0,1333,300511,31579,,,147902,43665,64393,213484,152237
0,1438,3239976,2125532,,,971599,,312646,1278725,232571
...,...,...,...,...,...,...,...,...,...,...
0,9978,9068441,2105930,,,917594,92427,1480395,7690898,2883576
0,9983,1729266,,,151875,,,,631623,
0,9984,"△4,816,777",,,"404,062 H",,"2,495,273 M",,,
0,9993,14008,7716,,,31954,350,3728,18265,3905


In [131]:
#手順3：tabulaで取得した表をcsvへ書込み
df_tabula1.to_csv('temp_file/全銘柄PDFデータ（手順3_tabula加工前）.csv', mode='w',
                  index=False, encoding="shift-jis", errors='none')

In [144]:
#手順3：tabulaで取得した表をcsvから読み込み、余分な文字を消す
df_tabula2 = pd.read_csv('temp_file/全銘柄PDFデータ（手順3_tabula加工前）.csv', encoding=("cp932"), header=0)

replace_feature_list = list(df_tabula2.select_dtypes(include=object).columns.values)
replace_list = [',', '△', '―', '-', '，', '\n', ' ',
                '※1', '※2', '※3', '※4', '※5', '※6', '※7', '※8', '※9',
                '※１', '※２', '※３', '※４', '※５', '※６', '※７', '※８', '※９', '\D',
                'H', 'M', '百万円']
for i in replace_feature_list:
    for j in replace_list:
        df_tabula2[i] = df_tabula2[i].str.replace(j, '')
df_tabula2

Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,1333,300511,31579,,,147902,43665,64393,213484,152237
1,1438,3239976,2125532,,,971599,,312646,1278725,232571
2,1447,10852865,3894837,,,1720706,215825,1246302,7571502,4709414
3,1333,300511,31579,,,147902,43665,64393,213484,152237
4,1438,3239976,2125532,,,971599,,312646,1278725,232571
...,...,...,...,...,...,...,...,...,...,...
781,9978,9068441,2105930,,,917594,92427,1480395,7690898,2883576
782,9983,1729266,,,151875,,,,631623,
783,9984,4816777,,,404062,,2495273,,,
784,9993,14008,7716,,,31954,350,3728,18265,3905


In [145]:
#手順3：tabulaで再取得した銘柄のうち、十分に取り込めていない銘柄コードの抽出と削除
#tabulaはあまりうまく抽出できないため、削除する銘柄が多い
tabula_drop_list = []

#削除する銘柄コードの抽出        
for i in range(0, len(df_tabula2)):    
    if len(df_tabula2.iloc[i, :].value_counts()) <= 3:
        tabula_drop_list.append(df_tabula2.iloc[i, 0])
        print('code=', df_tabula2.iloc[i, 0], '削除：特徴量が2つ以下')
        
#削除する銘柄コードの削除
for i in tabula_drop_list:
    df_tabula2.drop(df_tabula2.index[df_tabula2['code'] == i], inplace=True)
df_tabula2

code= 1925 削除：特徴量が2つ以下
code= 2160 削除：特徴量が2つ以下
code= 2175 削除：特徴量が2つ以下
code= 2914 削除：特徴量が2つ以下
code= 2928 削除：特徴量が2つ以下
code= 3035 削除：特徴量が2つ以下
code= 3546 削除：特徴量が2つ以下
code= 3557 削除：特徴量が2つ以下
code= 3673 削除：特徴量が2つ以下
code= 3837 削除：特徴量が2つ以下
code= 3996 削除：特徴量が2つ以下
code= 4021 削除：特徴量が2つ以下
code= 4061 削除：特徴量が2つ以下
code= 4078 削除：特徴量が2つ以下
code= 4114 削除：特徴量が2つ以下
code= 4151 削除：特徴量が2つ以下
code= 4174 削除：特徴量が2つ以下
code= 4235 削除：特徴量が2つ以下
code= 4484 削除：特徴量が2つ以下
code= 4503 削除：特徴量が2つ以下
code= 4541 削除：特徴量が2つ以下
code= 4578 削除：特徴量が2つ以下
code= 4612 削除：特徴量が2つ以下
code= 4678 削除：特徴量が2つ以下
code= 4901 削除：特徴量が2つ以下
code= 4985 削除：特徴量が2つ以下
code= 5108 削除：特徴量が2つ以下
code= 5189 削除：特徴量が2つ以下
code= 5192 削除：特徴量が2つ以下
code= 5357 削除：特徴量が2つ以下
code= 5480 削除：特徴量が2つ以下
code= 5857 削除：特徴量が2つ以下
code= 5922 削除：特徴量が2つ以下
code= 5949 削除：特徴量が2つ以下
code= 6034 削除：特徴量が2つ以下
code= 6083 削除：特徴量が2つ以下
code= 6183 削除：特徴量が2つ以下
code= 6287 削除：特徴量が2つ以下
code= 6301 削除：特徴量が2つ以下
code= 6324 削除：特徴量が2つ以下
code= 6376 削除：特徴量が2つ以下
code= 6406 削除：特徴量が2つ以下
code= 6448 削除：特徴量が2つ以下
code= 6481 

Unnamed: 0,code,流動資産合計,現金及び預金,現金預金,有形固定資産,有形固定資産合計,投資有価証券,投資その他の資産合計,流動負債合計,固定負債合計
0,1333,300511,31579,,,147902,43665,64393,213484,152237
1,1438,3239976,2125532,,,971599,,312646,1278725,232571
2,1447,10852865,3894837,,,1720706,215825,1246302,7571502,4709414
3,1333,300511,31579,,,147902,43665,64393,213484,152237
4,1438,3239976,2125532,,,971599,,312646,1278725,232571
...,...,...,...,...,...,...,...,...,...,...
781,9978,9068441,2105930,,,917594,92427,1480395,7690898,2883576
782,9983,1729266,,,151875,,,,631623,
783,9984,4816777,,,404062,,2495273,,,
784,9993,14008,7716,,,31954,350,3728,18265,3905


In [147]:
#手順3：tabulaで取得した表（加工・削除後）をcsvへ書込み
df_tabula2.to_csv('temp_file/全銘柄PDFデータ（手順3_tabula完成）.csv', mode='w',
                      index=False, encoding="shift-jis", errors='none')

In [None]:
#手順4：camelotとcamelot_reとtabulaの結合



In [None]:
#camelot or tabulaの試し①

start_url = 'http://ke.kabupro.jp/code/1847.htm'
response = requests.get(start_url)
soup = BeautifulSoup(response.content, 'html.parser')

table = soup.find('table', attrs={'class': 'Quote'})
if 'リクエストされたページがみつかりませんでした' in soup.text:
    pass
else:
    try:
        target_pdf = table.find('td', text = re.compile('.*決算短信.*')).find('a').get('href')
    #最近上場した企業は、決算短信がまだ存在しない
    except Exception as e:
            print('決算短信が存在しない')
            print(e)
            print('\n')
            pass
        
target_pdf

In [None]:
'''
https://camelot-py.readthedocs.io/en/master/api.html
table_areas (list, optional (default: None))
– List of table area strings of the form x1,y1,x2,y2 where (x1, y1) -> left-top 
and (x2, y2) -> right-bottom in PDF coordinate space.
'''
#camelot or tabulaの試し①

#1663['0,700,600,40'], 
try:
    #tables = camelot.read_pdf(target_pdf, flavor='stream', pages = '4-end', table_areas=['0,800,700,0'])
    df_tbls = tabula.read_pdf(target_pdf, pages = 'all', stream=True, silent=True)
except Exception as e:
    print('--------------------')
    print('取込エラー')
    print(e)
    print('--------------------')
    pass
#PDFの座標の確認
#camelot.plot(tables[0], kind='textedge').show()

In [None]:
df_tbls[11]

In [None]:
#tabulaの試し①

feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
            '投資その他の資産合計', '流動負債合計', '固定負債合計']
df_elements = []
feature_remove_list = []
count_tables = 0
for df_tbl in df_tbls:
    count = 0
    for feature in feature_list:
        if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
            #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
            #特徴量と値だけの1行2列のデータフレームを作成
            df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
            #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
            df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
            df_elements.append(df_element2)
            #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
            #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
            feature_remove_list.append(feature)
    #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
    if len(feature_remove_list) != 0:
        for feature_remove in feature_remove_list:
            feature_list.remove(feature_remove)
        feature_remove_list = []

df_all1 = pd.concat(df_elements).T
df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
df_all2['code'] = code
df_all2

In [None]:
#camelotの試し①

#流動資産合計	現金及び預金	現金預金	有形固定資産	有形固定資産合計	投資有価証券	投資その他の資産合計	流動負債合計	固定負債合計
feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
            '投資その他の資産合計', '流動負債合計', '固定負債合計']
feature_remove_list = []
df_elements = []
for table in tables:
    df_tbl = table.df
    for feature in feature_list:
        if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
            #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
            #特徴量と値だけの1行2列のデータフレームを作成
            df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
            #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
            df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
            df_elements.append(df_element2)
            #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
            #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
            feature_remove_list.append(feature)
    #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
    if len(feature_remove_list) != 0:
        for feature_remove in feature_remove_list:
            feature_list.remove(feature_remove)
        feature_remove_list = []
        
df_all1 = pd.concat(df_elements).T
df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],) 
#df_all3 = df_all2.copy()
#df_all3['code'] = 1301

df_all1

In [None]:
#流動資産合計	現金及び預金	現金預金	有形固定資産	有形固定資産合計	投資有価証券	投資その他の資産合計	流動負債合計	固定負債合計
feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
            '投資その他の資産合計', '流動負債合計', '固定負債合計']
df_elements = []
count_tables = 0
for table in tables:
    df_tbl = table.df
    count = 0
    for feature in feature_list:
        if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
            #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
            #特徴量と値だけの1行2列のデータフレームを作成
            df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
            #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
            df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
            df_elements.append(df_element2)
            #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
            #同じ特徴量を2回取得することを避ける（）
            count +=1
    #countが1つでもあれば、資産か負債のテーブルデータを1つ取得したことになる
    if count != 0:
        count_tables += 1
    #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
    #連結のみを取得して抽出を終了するようにする
    if count_tables == 2:
        break
        
df_all1 = pd.concat(df_elements).T
df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],) 
#df_all3 = df_all2.copy()
#df_all3['code'] = 1301

df_all1

In [None]:
#流動資産合計	現金及び預金	現金預金	有形固定資産	有形固定資産合計	投資有価証券	投資その他の資産合計	流動負債合計	固定負債合計
feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
            '投資その他の資産合計', '流動負債合計', '固定負債合計']
dfs = []
count_tables = 0
for table in tables:
    df = table.df
    count = 0
    for feature in feature_list:
        if len(df[df.iloc[:,0] == feature]) == 1:
            dfs.append(df[df.iloc[:,0] == feature])
            count +=1
    if count != 0:
        count_tables += 1
    if count_tables == 2:
        break
        
    #if len(dfs) >= :
        #break
df_all1 = pd.concat(dfs)
df_all2 = df_all1.iloc[:, [0,-1]].T
df_all3 = pd.DataFrame([list(df_all2.iloc[1,:])],
                      columns=df_all2.iloc[0,:],) 
#df_all3 = df_all2.copy()
#df_all3['code'] = 1301

df_all1

In [None]:
df1 = tables[6].df
df1[df1.iloc[:,0] == '流動資産合計']
len(df1[df1.iloc[:,0] == '流動資産合計'])

In [None]:
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

input_path = '1301.pdf'
output_path = 'result.txt'

rsrcmgr = PDFResourceManager()
codec = 'utf-8'
params = LAParams()

with open(output_path, 'ab') as output:
    device = TextConverter(rsrcmgr, output, codec=codec, laparams=params)

    with open(input_path, 'rb') as input:
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.get_pages(input):
            interpreter.process_page(page)
        device.close()

In [None]:
###【参考】

#camelotでPDFから特徴量を「並列処理で」DataFrameへ記入　※通常の80%の時間で取り込むことが出来る
import os
import concurrent.futures as confu

with confu.ThreadPoolExecutor(max_workers=os.cpu_count()) as executor:
    for i in range(0, 30):
        code = codes[i]
        start_url = 'http://ke.kabupro.jp/code/{}.htm'.format(code)
        time.sleep(1)
        print(start_url, 'i=', i)
        executor.submit(get_pdf_camelot, start_url, code, i)