In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import time
import re
import camelot
import tabula
import warnings
import codecs

import threading
import os
import concurrent.futures as confu

warnings.simplefilter('ignore', UserWarning)
pd.set_option('display.max_rows', 100)
codecs.register_error('none', lambda e: ('', e.end))

Duplicate key in file WindowsPath('C:/ProgramData/Anaconda3/lib/site-packages/matplotlib/mpl-data/matplotlibrc'), line 250 ('font.family: IPAexGothic')


In [2]:
#取り込む銘柄コードと、空データフレームの作成
#PDFの表抽出には、camelotとtabulaがある。それぞれ抽出できない銘柄がいくつか存在する。
#camelotの方が抽出できる銘柄が多いので、camelotで抽出後、残りをtabulaで抽出する。

codes = pd.read_csv('全銘柄データ（加工前）.csv', encoding=("cp932"), header=0).iloc[:, 0]
df = pd.DataFrame()
tabula_list = []
tabula_dict = {}
tabula_dict_r = {}

In [3]:
#camelotの利用
def get_pdf_camelot(start_url, code, i):
    response = requests.get(start_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    if 'リクエストされたページがみつかりませんでした' in soup.text:
        print('東証以外の銘柄のため、PDF見つからず')
        pass
    else:
        table = soup.find('table', attrs={'class': 'Quote'})
        try:
            target_pdf = table.find('td', text = re.compile('.*決算短信.*')).find('a').get('href')
        #最近上場した企業は、決算短信がまだ存在しない
        except Exception as e:
                print('決算短信が存在しない')
                print(e)
                print('\n')
                return 
        try:
            #1663['0,700,600,40'], 
            tables = camelot.read_pdf(target_pdf, flavor='stream', pages = '4-end', table_areas=['0,800,700,0'])
            get_features_camelot(tables, code, i)

        except Exception as e:
            tabula_list.append(code)
            tabula_dict[code] = e
            try:
                tabula_dict_r[e].append(code)
            except:
                tabula_dict_r[e] = [code]
            print('取込エラー')
            print(e)
            print('\n')
            pass

def get_features_camelot(tables, code, i):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
                '投資その他の資産合計', '流動負債合計', '固定負債合計']
    df_elements = []
    feature_remove_list = []
    count_tables = 0
    for table in tables:
        df_tbl = table.df
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
                #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
                feature_remove_list.append(feature)
        #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
        if len(feature_remove_list) != 0:
            for feature_remove in feature_remove_list:
                feature_list.remove(feature_remove)
            feature_remove_list = []

    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code
    dfs_concat_camelot(df_all2, i)
    
    
def dfs_concat_camelot(df_all2, i):
    global df
    df = pd.concat([df, df_all2], axis=0)
    print('complete', 'i=', i)

In [None]:
#camelotでPDFから特徴量をDataFrameへ記入　※7時間くらいかかる
'''
・取込エラー
    Invalid dictionary construct: [/'Type', ...　→　camelotではデータ抽出できないのが、tabulaで抽出できる可能性が高い
    only algorithm code 1 and 2 are supported　→　データ抽出できないPDFである可能性が非常に高い
    No objects to concatenate　→　データ抽出できないPDFである可能性が高い
・決算短信が存在しない
    'NoneType' object has no attribute 'find'　→　上場したてで、決算短信のPDFがまだ存在しない
・東証以外の銘柄のため、PDF見つからず
    東証(東証1部・東証2部・JSQ・マザーズ)以外はPDFが取得できない
'''

with confu.ThreadPoolExecutor(max_workers=os.cpu_count()) as executor:
    for i in range(0, 30):
        code = codes[i]
        start_url = 'http://ke.kabupro.jp/code/{}.htm'.format(code)
        time.sleep(1)
        print(start_url, 'i=', i)
        executor.submit(get_pdf_camelot, start_url, code, i)

    #th = threading.Thread(target=get_pdf_camelot, args=[start_url, code, i])
    #th.start()
    #print(start_url, 'i=', i)
    #get_pdf_camelot(start_url, code)
df

In [None]:
#取得した表の確認
df = df.reindex(columns=['code', '流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', 
                         '投資有価証券', '投資その他の資産合計', '流動負債合計', '固定負債合計', ])
df

In [None]:
df.to_csv('全銘柄PDFデータ（camelot）1214, 2000.csv', mode='w', index=False, encoding="shift-jis", errors='none')

In [None]:
#tabula_listの確認


In [None]:
start_url = 'http://ke.kabupro.jp/code/4194.htm'
response = requests.get(start_url)
soup = BeautifulSoup(response.content, 'html.parser')

table = soup.find('table', attrs={'class': 'Quote'})
if 'リクエストされたページがみつかりませんでした' in soup.text:
    pass
else:
    try:
        target_pdf = table.find('td', text = re.compile('.*決算短信.*')).find('a').get('href')
    #最近上場した企業は、決算短信がまだ存在しない
    except Exception as e:
            print('決算短信が存在しない')
            print(e)
            print('\n')
            pass
        
target_pdf

In [None]:
'''
https://camelot-py.readthedocs.io/en/master/api.html
table_areas (list, optional (default: None))
– List of table area strings of the form x1,y1,x2,y2 where (x1, y1) -> left-top 
and (x2, y2) -> right-bottom in PDF coordinate space.
'''
#camelotの試し①

#1663['0,700,600,40'], 
try:
    tables = camelot.read_pdf(target_pdf, flavor='stream', pages = '4-end', table_areas=['0,800,700,0'])
    #dfs = tabula.read_pdf(target_pdf, pages = 'all', stream=True, silent=True)
except Exception as e:
    print('--------------------')
    print('取込エラー')
    print(e)
    print('--------------------')
    pass
#PDFの座標の確認
#camelot.plot(tables[0], kind='textedge').show()

In [None]:
#camelotの試し②

#流動資産合計	現金及び預金	現金預金	有形固定資産	有形固定資産合計	投資有価証券	投資その他の資産合計	流動負債合計	固定負債合計
feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
            '投資その他の資産合計', '流動負債合計', '固定負債合計']
feature_remove_list = []
df_elements = []
for table in tables:
    df_tbl = table.df
    for feature in feature_list:
        if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
            #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
            #特徴量と値だけの1行2列のデータフレームを作成
            df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
            #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
            df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
            df_elements.append(df_element2)
            #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
            #同じ特徴量を2回取得することを避けるため、一度入れた特徴量は削除リストに登録
            feature_remove_list.append(feature)
    #テーブル処理が1つ終わったら、削除リストに登録された特徴量を元のリストから削除する
    if len(feature_remove_list) != 0:
        for feature_remove in feature_remove_list:
            feature_list.remove(feature_remove)
        feature_remove_list = []
        
df_all1 = pd.concat(df_elements).T
df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],) 
#df_all3 = df_all2.copy()
#df_all3['code'] = 1301

df_all1

In [None]:
#tabulaの利用
def get_pdf_tabula(start_url, code):
    response = requests.get(start_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    if 'リクエストされたページがみつかりませんでした' in soup.text:
        print('東証以外の銘柄のため、PDF見つからず')
        pass
    else:
        table = soup.find('table', attrs={'class': 'Quote'})
        target_pdf = table.find('td', text = re.compile('.*決算短信.*')).find('a').get('href')   
        try:
            df_tbls = tabula.read_pdf(target_pdf, pages = 'all', stream=True, silent=True)
            print('tttttt')
            get_features_tabula(df_tbls, code)
            

        except Exception as e:
            print('--------------------')
            print('取込エラー')
            print(e)
            print('--------------------\n')
            pass

def get_features_tabula(df_tbls, code):
    feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
                '投資その他の資産合計', '流動負債合計', '固定負債合計']
    df_elements = []
    count_tables = 0
    for df_tbl in df_tbls:
        count = 0
        for feature in feature_list:
            if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
                #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
                #特徴量と値だけの1行2列のデータフレームを作成
                df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
                #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
                df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
                df_elements.append(df_element2)
                count +=1
        #countが1つでもあれば、資産か負債のテーブルデータを1つ取得したことになる
        if count != 0:
            count_tables += 1
        #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
        #連結のみを取得して抽出を終了するようにする
        if count_tables == 2:
            break

    df_all1 = pd.concat(df_elements).T
    df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],)  
    df_all2['code'] = code
    print('uuuuuuuuu')
    dfs_concat_tabula(df_all2)
    
    
def dfs_concat_tabula(df_all2):
    global df
    df = pd.concat([df, df_all2], axis=0)


In [None]:
df =  tables[5].df
df

In [None]:
#流動資産合計	現金及び預金	現金預金	有形固定資産	有形固定資産合計	投資有価証券	投資その他の資産合計	流動負債合計	固定負債合計
feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
            '投資その他の資産合計', '流動負債合計', '固定負債合計']
df_elements = []
count_tables = 0
for table in tables:
    df_tbl = table.df
    count = 0
    for feature in feature_list:
        if len(df_tbl[df_tbl.iloc[:,0] == feature]) == 1:
            #資産と負債が違うテーブルのため、df_element1の列がずれる場合がある
            #特徴量と値だけの1行2列のデータフレームを作成
            df_element1 = df_tbl[df_tbl.iloc[:,0] == feature].iloc[:, [0,-1]]
            #後のconcatで列がずれないようにするため、値の列の名前が違うため1に統一する
            df_element2 = df_element1.rename(columns={df_element1.columns[1]: 1})
            df_elements.append(df_element2)
            #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
            #同じ特徴量を2回取得することを避ける（）
            count +=1
    #countが1つでもあれば、資産か負債のテーブルデータを1つ取得したことになる
    if count != 0:
        count_tables += 1
    #資産と負債のテーブルが2つある銘柄がある（連結と単独のテーブル）
    #連結のみを取得して抽出を終了するようにする
    if count_tables == 2:
        break
        
df_all1 = pd.concat(df_elements).T
df_all2 = pd.DataFrame([list(df_all1.iloc[1,:])], columns=df_all1.iloc[0,:],) 
#df_all3 = df_all2.copy()
#df_all3['code'] = 1301

df_all1

In [None]:
#流動資産合計	現金及び預金	現金預金	有形固定資産	有形固定資産合計	投資有価証券	投資その他の資産合計	流動負債合計	固定負債合計
feature_list = ['流動資産合計', '現金及び預金', '現金預金', '有形固定資産', '有形固定資産合計', '投資有価証券', 
            '投資その他の資産合計', '流動負債合計', '固定負債合計']
dfs = []
count_tables = 0
for table in tables:
    df = table.df
    count = 0
    for feature in feature_list:
        if len(df[df.iloc[:,0] == feature]) == 1:
            dfs.append(df[df.iloc[:,0] == feature])
            count +=1
    if count != 0:
        count_tables += 1
    if count_tables == 2:
        break
        
    #if len(dfs) >= :
        #break
df_all1 = pd.concat(dfs)
df_all2 = df_all1.iloc[:, [0,-1]].T
df_all3 = pd.DataFrame([list(df_all2.iloc[1,:])],
                      columns=df_all2.iloc[0,:],) 
#df_all3 = df_all2.copy()
#df_all3['code'] = 1301

df_all1

In [None]:
df1 = tables[6].df
df1[df1.iloc[:,0] == '流動資産合計']
len(df1[df1.iloc[:,0] == '流動資産合計'])

In [None]:
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

input_path = '1301.pdf'
output_path = 'result.txt'

rsrcmgr = PDFResourceManager()
codec = 'utf-8'
params = LAParams()

with open(output_path, 'ab') as output:
    device = TextConverter(rsrcmgr, output, codec=codec, laparams=params)

    with open(input_path, 'rb') as input:
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.get_pages(input):
            interpreter.process_page(page)
        device.close()