# memo

| 項目 | 英訳 | 型 |
|---|---|
| 証券コード | code | int64 |
| 企業名 | company | object |
| 会計基準 | accounting method | object |
| 連結個別 | consolidate, non-consolidate | object |
| 決算期 | settlement term, fiscal term | object |
| 決算期間 | quarter | object |
| 期首 | term beginning | datetime64[ns] |
| 期末 | term end | datetime64[ns] |
| 名寄前勘定科目 (売上高欄) | account type | object |
| 売上高 | net sales | float64 |
| 営業利益 | operating income | float64 |
| 経常利益 | ordinary income | float64 |
| 純利益 | net income | float64 |
| 一株当り純利益 | EPS, earnings per share | float64 |
| 希薄化後一株当り純利益 | diluted net income per share | float64 |
| 純資産又は株主資本 | shareholders' equity | float64 |
| 総資産 | total assets | float64 |
| 一株当り純資産 | shareholders’ equity per share | float64 |
| 営業キャッシュフロー | cash flows from operating activities | float64 |
| 投資キャッシュフロー | cash flows from investing activities | float64 |
| 財務キャッシュフロー | cash flows from financing activities | float64 |
| 情報公開日 (更新日) | publication date | datetime64[ns] |

# importなど

In [49]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
import re
import math
from dateutil.parser import parse
from sqlalchemy import create_engine
from sqlalchemy.types import Date, Integer, Float, Text

import stock

%matplotlib inline

__クラス不使用__

In [2]:
# MySQL の接続作成
db_settings = {
    "host": 'localhost',
    "database": 'StockPrice_Yahoo_1',
    "user": 'user',
    "password": 'password',
    "port":'3306'
}
engine = create_engine('mysql://{user}:{password}@{host}:{port}/{database}'.format(**db_settings))

__クラス使用__

In [120]:
sql = stock.sql() # MySQLに接続するクラスインスタンスを作成

# 結合済みファイルの読み込み

## 初回新規ファイル作成時のみの代替処理

In [56]:
kabupro_kessan = new_kessan

## MySQL からの読み込み

In [138]:
table_name = 'kabupro_kessan'

'kabupro_kessan'

__クラス不使用__

In [124]:
kabupro_kessan = pd.read_sql_table(table_name, engine, index_col=None).drop('index', axis=1)

__クラス使用__

In [132]:
kabupro_kessan = sql.read_table(table_name)

## csv からの読み込みの場合

In [None]:
kabupro_kessan = pd.read_csv('/Users/Really/Stockyard/_csv/kabupro_kessan.csv')

In [None]:
kabupro_kessan

csv では読み込みのたびに型を設定しなおさなければならず面倒。  
整形後に保存した csv であれば配列の型の辞書を適用可能。

In [None]:
datatype = {'証券コード': 'int64',
                   '企業名': 'O',
                   '会計基準': 'O',
                   '連結個別': 'O',
                   '決算期': 'O',
                   '決算期間': 'O',
                   '期首': '<M8[ns]',
                   '期末': '<M8[ns]',
                   '名寄前勘定科目 (売上高欄)': 'O',
                   '売上高': 'float64',
                   '営業利益': 'float64',
                   '経常利益': 'float64',
                   '純利益': 'float64',
                   '一株当り純利益': 'float64',
                   '希薄化後一株当り純利益': 'float64',
                   '純資産又は株主資本': 'float64',
                   '総資産': 'float64',
                   '一株当り純資産': 'float64',
                   '営業キャッシュフロー': 'float64',
                   '投資キャッシュフロー': 'float64',
                   '財務キャッシュフロー': 'float64',
                   '情報公開日 (更新日)': '<M8[ns]'
                   }

In [None]:
# 整形済みのデータが実行環境内に存在する場合
datatype = dict(new_kessan.dtypes)
datatype

In [None]:
kabupro_kessan = kabupro_kessan.astype(datatype)

In [None]:
kabupro_kessan.dtypes

# 新規追加ファイルの読み込み、整形、保存 

## 決算プロの決算短信 xls ファイルの読み込み

In [57]:
xls_file = '/Users/Really/Stockyard/_dl_data/20171112f.xls' # http://ke.kabupro.jp/doc/down40.htm

In [58]:
# 決算プロの決算短信xlsを読み込む
new_kessan = pd.read_excel(xls_file) 

## 内容の確認

In [59]:
new_kessan.head(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目（売上高欄に掲載）,売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開又は更新日
0,1301,極洋,日本基準,連結,2018年3月期,第2四半期,2017-04-01,2017-09-30,売上高,120458000000.0,...,1633000000.0,155.5,144.15,26692000000.0,119806000000.0,,,,,2017-11-06
1,1301,極洋,日本基準,連結,2018年3月期,第1四半期,2017-04-01,2017-06-30,売上高,56844000000.0,...,754000000.0,71.8,66.56,25560000000.0,107422000000.0,,,,,2017-08-04
2,1301,極洋,日本基準,連結,2017年3月期,通期,2016-04-01,2017-03-31,売上高,236561000000.0,...,2422000000.0,230.66,213.01,25391000000.0,97391000000.0,2378.09,601000000.0,-1998000000.0,105000000.0,2017-05-11
3,1301,極洋,日本基準,連結,2017年3月期,第3四半期,2016-04-01,2016-12-31,売上高,179975000000.0,...,2449000000.0,233.26,215.13,25779000000.0,117168000000.0,,,,,2017-02-10
4,1301,極洋,日本基準,連結,2017年3月期,第2四半期,2016-04-01,2016-09-30,売上高,109570000000.0,...,1186000000.0,112.99,104.16,,,,,,,2017-11-06
5,1301,極洋,日本基準,連結,2017年3月期,第1四半期,2016-04-01,2016-06-30,売上高,52206000000.0,...,551000000.0,52.47,48.37,,,,,,,2017-08-04
6,1301,極洋,日本基準,連結,2016年3月期,通期,2015-04-01,2016-03-31,売上高,226626000000.0,...,1799000000.0,171.33,157.94,23065000000.0,94608000000.0,2149.67,2689000000.0,-5114000000.0,2482000000.0,2017-05-11
7,1301,極洋,日本基準,連結,2016年3月期,第3四半期,2015-04-01,2015-12-31,売上高,178890000000.0,...,1133000000.0,107.94,99.51,,,,,,,2017-02-10
8,1301,極洋,日本基準,連結,2016年3月期,第2四半期,2015-04-01,2015-09-30,売上高,108499000000.0,...,911000000.0,86.74,79.97,,,,,,,2016-11-04
9,1301,極洋,日本基準,連結,2016年3月期,第1四半期,2015-04-01,2015-06-30,売上高,50168000000.0,...,316000000.0,3.02,2.78,,,,,,,2016-08-05


In [7]:
new_kessan.columns

Index(['証券コード', '企業名', '会計基準', '連結個別', '決算期', '決算期間', '期首', '期末',
       '名寄前勘定科目 (売上高欄)', '売上高', '営業利益', '経常利益', '純利益', '一株当り純利益',
       '希薄化後一株当り純利益', '純資産又は株主資本', '総資産', '一株当り純資産', '営業キャッシュフロー',
       '投資キャッシュフロー', '財務キャッシュフロー', '情報公開日 (更新日)'],
      dtype='object')

In [60]:
# 列名を少し変更
new_kessan.columns = [
    '証券コード',
    '企業名',
    '会計基準',
    '連結個別',
    '決算期',
    '決算期間',
    '期首',
    '期末',
    '名寄前勘定科目 (売上高欄)',
    '売上高',
    '営業利益',
    '経常利益',
    '純利益',
    '一株当り純利益',
    '希薄化後一株当り純利益',
    '純資産又は株主資本',
    '総資産',
    '一株当り純資産',
    '営業キャッシュフロー',
    '投資キャッシュフロー',
    '財務キャッシュフロー',
    '情報公開日 (更新日)'
]

In [23]:
new_kessan[['証券コード', '企業名', '会計基準', '連結個別', '決算期', '決算期間', '期首', '期末',
       '名寄前勘定科目 (売上高欄)', '情報公開日 (更新日)']].head(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),情報公開日 (更新日)
0,1301,極洋,日本基準,個別,2013年3月期,第2四半期,2012-04-01,2012-09-30,売上高,2013-10-21
1,1301,極洋,日本基準,個別,2013年3月期,通期,2012-04-01,2013-03-31,売上高,2014-05-09
2,1301,極洋,日本基準,個別,2014年3月期,第2四半期,2013-04-01,2013-09-30,売上高,2014-10-27
3,1301,極洋,日本基準,個別,2014年3月期,通期,2013-04-01,2014-03-31,売上高,2015-05-08
4,1301,極洋,日本基準,個別,2015年3月期,通期,2014-04-01,2015-03-31,売上高,2015-05-08
5,1301,極洋,日本基準,連結,2013年3月期,第1四半期,2012-04-01,2012-06-30,売上高,2013-08-05
6,1301,極洋,日本基準,連結,2013年3月期,第2四半期,2012-04-01,2012-09-30,売上高,2013-10-21
7,1301,極洋,日本基準,連結,2013年3月期,第3四半期,2012-04-01,2012-12-31,売上高,2014-02-05
8,1301,極洋,日本基準,連結,2013年3月期,通期,2012-04-01,2013-03-31,売上高,2014-05-09
9,1301,極洋,日本基準,連結,2014年3月期,第1四半期,2013-04-01,2013-06-30,売上高,2014-08-05


In [61]:
new_kessan.groupby('決算期').count()

Unnamed: 0_level_0,証券コード,企業名,会計基準,連結個別,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,営業利益,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
決算期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2014年12月期,1666,1666,1666,1666,1666,1666,1666,1664,1664,1648,...,1665,1665,529,656,656,629,336,336,334,1666
2014年6月期,1,1,1,1,1,1,1,1,1,1,...,1,1,0,1,1,1,1,1,1,1
2014年9月期,6,6,6,6,6,6,6,6,6,6,...,6,6,3,5,5,4,2,2,2,6
2015年10月期,204,204,204,204,204,204,204,204,204,202,...,204,204,63,79,79,76,44,44,44,204
2015年11月期,252,252,252,252,252,252,252,252,252,248,...,251,252,44,89,89,88,48,48,48,252
2015年12月期,1830,1830,1830,1830,1830,1830,1830,1830,1830,1817,...,1830,1829,628,723,723,691,369,369,365,1830
2015年1月期,233,233,233,233,233,233,233,232,232,230,...,233,233,62,94,94,83,49,49,48,233
2015年2月期,972,972,972,972,972,972,972,971,971,962,...,972,972,264,359,359,345,194,194,194,972
2015年3月期,12169,12169,12169,12169,12169,12169,12169,12150,12150,11443,...,12166,12151,2842,4498,4498,4341,2284,2283,2278,12169
2015年4月期,168,168,168,168,168,168,168,168,168,164,...,168,166,50,65,65,64,33,33,33,168


In [62]:
new_kessan.groupby('決算期間').count()

Unnamed: 0_level_0,証券コード,企業名,会計基準,連結個別,決算期,期首,期末,名寄前勘定科目 (売上高欄),売上高,営業利益,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
決算期間,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
第1四半期,14128,14128,14128,14128,14128,14128,14128,14113,14113,13681,...,14125,14128,3668,4042,4042,1454,0,0,0,14128
第2四半期,14422,14422,14422,14422,14422,14422,14422,14401,14401,13450,...,14417,14417,3671,4034,4034,1428,0,0,0,14422
第3四半期,11189,11189,11189,11189,11189,11189,11189,11183,11183,10857,...,11189,11189,3198,3947,3947,1470,0,0,0,11189
通期,19230,19230,19230,19230,19230,19230,19230,19193,19193,18424,...,19227,19194,5216,17542,17542,17535,9614,9611,9577,19230


In [10]:
new_kessan[['証券コード', '企業名', '期末', '売上高', '営業利益', '経常利益', '純利益', '情報公開日 (更新日)']].head(20)

Unnamed: 0,証券コード,企業名,期末,売上高,営業利益,経常利益,純利益,情報公開日 (更新日)
0,1301,極洋,2015-03-31,218350000000.0,2460000000.0,2107000000.0,2433000000,2015-05-08
1,1301,極洋,2014-12-31,170140000000.0,2293000000.0,1974000000.0,2806000000,2015-02-04
2,1301,極洋,2014-09-30,102476000000.0,721000000.0,686000000.0,2265000000,2014-11-07
3,1301,極洋,2014-06-30,48675000000.0,319000000.0,389000000.0,223000000,2014-08-05
4,1301,極洋,2014-03-31,202387000000.0,2915000000.0,2985000000.0,2968000000,2015-05-08
5,1301,極洋,2013-12-31,157156000000.0,2875000000.0,2950000000.0,2724000000,2015-02-04
6,1301,極洋,2013-09-30,94101000000.0,1404000000.0,1500000000.0,1880000000,2014-11-07
7,1301,極洋,2013-06-30,44858000000.0,1006000000.0,1104000000.0,877000000,2014-08-05
8,1301,極洋,2013-03-31,178046000000.0,2324000000.0,2262000000.0,1269000000,2014-05-09
9,1301,極洋,2012-12-31,137793000000.0,1824000000.0,1960000000.0,952000000,2014-02-05


In [11]:
new_kessan[['証券コード', '企業名', '期末', '一株当り純利益', '希薄化後一株当り純利益', '純資産又は株主資本',
       '総資産', '一株当り純資産', '営業キャッシュフロー', '投資キャッシュフロー', '財務キャッシュフロー',
       '情報公開日 (更新日)']].head(20)

Unnamed: 0,証券コード,企業名,期末,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
0,1301,極洋,2015-03-31,23.17,21.36,23069000000.0,88937000000.0,215.65,-2340000000.0,-762000000.0,3698000000.0,2015-05-08
1,1301,極洋,2014-12-31,26.72,24.63,23603000000.0,106871000000.0,,,,,2015-02-04
2,1301,極洋,2014-09-30,21.57,19.89,22338000000.0,95721000000.0,,,,,2014-11-07
3,1301,極洋,2014-06-30,2.13,1.96,19171000000.0,91669000000.0,,,,,2014-08-05
4,1301,極洋,2014-03-31,28.26,27.55,19930000000.0,84319000000.0,187.57,1910000000.0,-1900000000.0,-512000000.0,2015-05-08
5,1301,極洋,2013-12-31,25.94,25.77,,,,,,,2015-02-04
6,1301,極洋,2013-09-30,17.9,,,,,,,,2014-11-07
7,1301,極洋,2013-06-30,8.35,,,,,,,,2014-08-05
8,1301,極洋,2013-03-31,12.08,,18683000000.0,83245000000.0,175.54,7384000000.0,-469000000.0,-6614000000.0,2014-05-09
9,1301,極洋,2012-12-31,9.07,,,,,,,,2014-02-05


In [63]:
new_kessan.dtypes

証券コード                      int64
企業名                       object
会計基準                      object
連結個別                      object
決算期                       object
決算期間                      object
期首                datetime64[ns]
期末                datetime64[ns]
名寄前勘定科目 (売上高欄)            object
売上高                      float64
営業利益                     float64
経常利益                     float64
純利益                      float64
一株当り純利益                  float64
希薄化後一株当り純利益              float64
純資産又は株主資本                float64
総資産                      float64
一株当り純資産                  float64
営業キャッシュフロー               float64
投資キャッシュフロー               float64
財務キャッシュフロー               float64
情報公開日 (更新日)       datetime64[ns]
dtype: object

In [None]:
# 2015年のファイルでは int
new_kessan['純利益'].max()

In [None]:
# 2017年のファイルでは float
kabupro_kessan_new['純利益'].max()

In [None]:
# 2015年のファイルでは文字列が混入しているため object
new_kessan['希薄化後一株当り純利益'].max()

In [None]:
new_kessan['希薄化後一株当り純利益'].min()

In [None]:
new_kessan['期末'].min()

In [None]:
new_kessan['情報公開日 (更新日)'].min()

In [64]:
new_kessan.duplicated().any()

False

In [65]:
new_kessan.isnull().any()

証券コード             False
企業名               False
会計基準              False
連結個別              False
決算期               False
決算期間              False
期首                False
期末                False
名寄前勘定科目 (売上高欄)     True
売上高                True
営業利益               True
経常利益               True
純利益                True
一株当り純利益            True
希薄化後一株当り純利益        True
純資産又は株主資本          True
総資産                True
一株当り純資産            True
営業キャッシュフロー         True
投資キャッシュフロー         True
財務キャッシュフロー         True
情報公開日 (更新日)       False
dtype: bool

## 整形

In [17]:
# 2015年のファイルでは int 型だったので float 型に
new_kessan['純利益'] = new_kessan['純利益'].astype(float)

In [20]:
# 2015年のファイルでは index 17979 に '―' が入っていたために列が object 型になってしまっている
new_kessan[new_kessan['希薄化後一株当り純利益'].apply(lambda x: type(x) is str)]

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)


In [19]:
# '―'  を NaN に置換
new_kessan.loc[new_kessan['希薄化後一株当り純利益'].apply(lambda x: type(x) is str), '希薄化後一株当り純利益'] = np.nan

In [None]:
new_kessan['希薄化後一株当り純利益'][17979]

In [None]:
new_kessan['希薄化後一株当り純利益'].max()

In [21]:
# float 型に変換
new_kessan['希薄化後一株当り純利益'] = new_kessan['希薄化後一株当り純利益'].astype(float)

In [66]:
# ソート
new_kessan = new_kessan.sort_values(['証券コード', '連結個別', '期末', '情報公開日 (更新日)']).reset_index(drop=True)

## csv に保存

In [111]:
# 保存
new_kessan.to_csv('/Users/Really/Stockyard/_csv/kabupro_kessan_20171112.csv')

In [117]:
# 保存したファイルの確認
csv_kessan = pd.read_csv('/Users/Really/Stockyard/_csv/kabupro_kessan_20171112.csv', index_col=0)
csv_kessan.head(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
0,1301,極洋,日本基準,個別,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,99476000000.0,...,2504000000.0,23.84,,,,,,,,2015-10-26
1,1301,極洋,日本基準,個別,2015年3月期,通期,2014-04-01,2015-03-31,売上高,212086000000.0,...,2139000000.0,20.37,18.78,17695000000.0,73519000000.0,168.48,,,,2016-05-09
2,1301,極洋,日本基準,個別,2016年3月期,通期,2015-04-01,2016-03-31,売上高,216350000000.0,...,1259000000.0,119.87,110.51,17817000000.0,78140000000.0,1696.42,,,,2017-05-11
3,1301,極洋,日本基準,個別,2017年3月期,通期,2016-04-01,2017-03-31,売上高,228083000000.0,...,2194000000.0,208.94,192.95,20117000000.0,81306000000.0,1915.42,,,,2017-05-11
4,1301,極洋,日本基準,連結,2015年3月期,第1四半期,2014-04-01,2014-06-30,売上高,48675000000.0,...,223000000.0,2.13,1.96,,,,,,,2015-08-03
5,1301,極洋,日本基準,連結,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,102476000000.0,...,2265000000.0,21.57,,,,,,,,2015-10-26
6,1301,極洋,日本基準,連結,2015年3月期,第3四半期,2014-04-01,2014-12-31,売上高,170140000000.0,...,2806000000.0,26.72,24.63,,,,,,,2016-02-05
7,1301,極洋,日本基準,連結,2015年3月期,通期,2014-04-01,2015-03-31,売上高,218350000000.0,...,2433000000.0,23.17,21.36,23069000000.0,88937000000.0,215.65,-2340000000.0,-762000000.0,3698000000.0,2016-05-09
8,1301,極洋,日本基準,連結,2016年3月期,第1四半期,2015-04-01,2015-06-30,売上高,50168000000.0,...,316000000.0,3.02,2.78,,,,,,,2016-08-05
9,1301,極洋,日本基準,連結,2016年3月期,第2四半期,2015-04-01,2015-09-30,売上高,108499000000.0,...,911000000.0,86.74,79.97,,,,,,,2016-11-04


## MySQL に保存

In [68]:
table_name = 'kabupro_kessan_20171112'

このケースではデータ型の定義は必要ないのかも  
定義しなくても意図通りの型で書き込めた

In [69]:
# データ型を定義しなくても意図通りの型で書き込めた
new_kessan.to_sql(table_name, engine, if_exists='replace')

In [None]:
# このケースではデータ型の定義は必要ないのかも
# sqlalchemy.typesで定義されたデータ型を辞書形式で設定して保存
data_type = {
    '`証券コード`': Integer(),
    '`企業名`': Text(),
    '`会計基準`': Text(),
    '`連結個別`': Text(),
    '`決算期`': Text(),
    '`決算期間`': Text(),
    '`期首`': Date(),
    '`期末`': Date(),
    '`名寄前勘定科目 (売上高欄)`': Text(),
    '`売上高`': Float(),
    '`営業利益`': Float(),
    '`経常利益`': Float(),
    '`純利益`': Float(),
    '`一株当り純利益`': Float(),
    '`希薄化後一株当り純利益`': Float(),
    '`純資産又は株主資本`': Float(),
    '`総資産`': Float(),
    '`一株当り純資産`': Float(),
    '`営業キャッシュフロー`': Float(),
    '`投資キャッシュフロー`': Float(),
    '`財務キャッシュフロー`': Float(),
    '`情報公開日 (更新日)`': Date()
}

kabupro_kessan.to_sql(table_name, engine, if_exists='replace', dtype=data_type)

__保存したデータの確認__

In [70]:
sql_kessan = pd.read_sql_table(table_name, engine, index_col=None).drop('index', axis=1)

In [73]:
sql_kessan.head(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
0,1301,極洋,日本基準,個別,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,99476000000.0,...,2504000000.0,23.84,,,,,,,,2015-10-26
1,1301,極洋,日本基準,個別,2015年3月期,通期,2014-04-01,2015-03-31,売上高,212086000000.0,...,2139000000.0,20.37,18.78,17695000000.0,73519000000.0,168.48,,,,2016-05-09
2,1301,極洋,日本基準,個別,2016年3月期,通期,2015-04-01,2016-03-31,売上高,216350000000.0,...,1259000000.0,119.87,110.51,17817000000.0,78140000000.0,1696.42,,,,2017-05-11
3,1301,極洋,日本基準,個別,2017年3月期,通期,2016-04-01,2017-03-31,売上高,228083000000.0,...,2194000000.0,208.94,192.95,20117000000.0,81306000000.0,1915.42,,,,2017-05-11
4,1301,極洋,日本基準,連結,2015年3月期,第1四半期,2014-04-01,2014-06-30,売上高,48675000000.0,...,223000000.0,2.13,1.96,,,,,,,2015-08-03
5,1301,極洋,日本基準,連結,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,102476000000.0,...,2265000000.0,21.57,,,,,,,,2015-10-26
6,1301,極洋,日本基準,連結,2015年3月期,第3四半期,2014-04-01,2014-12-31,売上高,170140000000.0,...,2806000000.0,26.72,24.63,,,,,,,2016-02-05
7,1301,極洋,日本基準,連結,2015年3月期,通期,2014-04-01,2015-03-31,売上高,218350000000.0,...,2433000000.0,23.17,21.36,23069000000.0,88937000000.0,215.65,-2340000000.0,-762000000.0,3698000000.0,2016-05-09
8,1301,極洋,日本基準,連結,2016年3月期,第1四半期,2015-04-01,2015-06-30,売上高,50168000000.0,...,316000000.0,3.02,2.78,,,,,,,2016-08-05
9,1301,極洋,日本基準,連結,2016年3月期,第2四半期,2015-04-01,2015-09-30,売上高,108499000000.0,...,911000000.0,86.74,79.97,,,,,,,2016-11-04


In [71]:
sql_kessan.columns

Index(['証券コード', '企業名', '会計基準', '連結個別', '決算期', '決算期間', '期首', '期末',
       '名寄前勘定科目 (売上高欄)', '売上高', '営業利益', '経常利益', '純利益', '一株当り純利益',
       '希薄化後一株当り純利益', '純資産又は株主資本', '総資産', '一株当り純資産', '営業キャッシュフロー',
       '投資キャッシュフロー', '財務キャッシュフロー', '情報公開日 (更新日)'],
      dtype='object')

In [72]:
sql_kessan.dtypes

証券コード                      int64
企業名                       object
会計基準                      object
連結個別                      object
決算期                       object
決算期間                      object
期首                datetime64[ns]
期末                datetime64[ns]
名寄前勘定科目 (売上高欄)            object
売上高                      float64
営業利益                     float64
経常利益                     float64
純利益                      float64
一株当り純利益                  float64
希薄化後一株当り純利益              float64
純資産又は株主資本                float64
総資産                      float64
一株当り純資産                  float64
営業キャッシュフロー               float64
投資キャッシュフロー               float64
財務キャッシュフロー               float64
情報公開日 (更新日)       datetime64[ns]
dtype: object

In [74]:
# nan 同士の比較は False になってしまうのでゼロで埋めて比較
(sql_kessan.fillna(0) == new_kessan.fillna(0)).any()

証券コード             True
企業名               True
会計基準              True
連結個別              True
決算期               True
決算期間              True
期首                True
期末                True
名寄前勘定科目 (売上高欄)    True
売上高               True
営業利益              True
経常利益              True
純利益               True
一株当り純利益           True
希薄化後一株当り純利益       True
純資産又は株主資本         True
総資産               True
一株当り純資産           True
営業キャッシュフロー        True
投資キャッシュフロー        True
財務キャッシュフロー        True
情報公開日 (更新日)       True
dtype: bool

# 新旧ファイルの結合

In [75]:
kabupro_kessan = kabupro_kessan.append(new_kessan)

In [105]:
kabupro_kessan.tail(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
110390,9997,ベルーナ,日本基準,連結,2014年3月期,第3四半期,2013-04-01,2013-12-31,売上高,96014000000.0,...,5424000000.0,55.78,,,,,,,,2015-01-30
110391,9997,ベルーナ,日本基準,連結,2014年3月期,通期,2013-04-01,2014-03-31,売上高,125412000000.0,...,7013000000.0,72.12,,73480000000.0,130648000000.0,755.67,5766000000.0,-15397000000.0,10721000000.0,2015-05-15
110392,9997,ベルーナ,日本基準,連結,2015年3月期,第1四半期,2014-04-01,2014-06-30,売上高,33068000000.0,...,874000000.0,8.99,,73838000000.0,134205000000.0,,,,,2014-07-31
110393,9997,ベルーナ,日本基準,連結,2015年3月期,第1四半期,2014-04-01,2014-06-30,売上高,33068000000.0,...,874000000.0,8.99,,,,,,,,2015-07-31
110394,9997,ベルーナ,日本基準,連結,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,56314000000.0,...,2051000000.0,21.09,,75158000000.0,136060000000.0,,,,,2014-10-31
110395,9997,ベルーナ,日本基準,連結,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,56314000000.0,...,2051000000.0,21.09,,,,,,,,2015-10-30
110396,9997,ベルーナ,日本基準,連結,2015年3月期,第3四半期,2014-04-01,2014-12-31,売上高,92688000000.0,...,5397000000.0,55.51,,78143000000.0,155115000000.0,,,,,2015-01-30
110397,9997,ベルーナ,日本基準,連結,2015年3月期,第3四半期,2014-04-01,2014-12-31,売上高,92688000000.0,...,5397000000.0,55.51,,,,,,,,2016-01-29
110398,9997,ベルーナ,日本基準,連結,2015年3月期,通期,2014-04-01,2015-03-31,売上高,120689000000.0,...,6394000000.0,65.77,,79510000000.0,152224000000.0,814.97,9089000000.0,-20191000000.0,12571000000.0,2015-05-15
110399,9997,ベルーナ,日本基準,連結,2015年3月期,通期,2014-04-01,2015-03-31,売上高,120689000000.0,...,6394000000.0,65.77,,79510000000.0,152224000000.0,814.97,9089000000.0,-20191000000.0,12571000000.0,2016-05-11


In [79]:
kabupro_kessan.dtypes

証券コード                      int64
企業名                       object
会計基準                      object
連結個別                      object
決算期                       object
決算期間                      object
期首                datetime64[ns]
期末                datetime64[ns]
名寄前勘定科目 (売上高欄)            object
売上高                      float64
営業利益                     float64
経常利益                     float64
純利益                      float64
一株当り純利益                  float64
希薄化後一株当り純利益              float64
純資産又は株主資本                float64
総資産                      float64
一株当り純資産                  float64
営業キャッシュフロー               float64
投資キャッシュフロー               float64
財務キャッシュフロー               float64
情報公開日 (更新日)       datetime64[ns]
dtype: object

In [77]:
# ソート
kabupro_kessan = kabupro_kessan.sort_values(['証券コード', '連結個別', '期末', '情報公開日 (更新日)']).reset_index(drop=True)

## 重複の確認、削除

In [106]:
kabupro_kessan.duplicated().any()

False

In [107]:
# keep=Falseで重複行のいずれかではなくすべてを表示
kabupro_kessan[kabupro_kessan.duplicated(keep=False)]

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)


In [82]:
kabupro_kessan = kabupro_kessan.drop_duplicates()

In [108]:
# インデックスの振り直し
kabupro_kessan = kabupro_kessan.reset_index(drop=True)

## 内容の確認

In [84]:
kabupro_kessan.isnull().any()

証券コード             False
企業名               False
会計基準              False
連結個別              False
決算期               False
決算期間              False
期首                False
期末                False
名寄前勘定科目 (売上高欄)     True
売上高                True
営業利益               True
経常利益               True
純利益                True
一株当り純利益            True
希薄化後一株当り純利益        True
純資産又は株主資本          True
総資産                True
一株当り純資産            True
営業キャッシュフロー         True
投資キャッシュフロー         True
財務キャッシュフロー         True
情報公開日 (更新日)       False
dtype: bool

In [85]:
kabupro_kessan['期末'].min()

Timestamp('2012-02-20 00:00:00')

In [86]:
kabupro_kessan['情報公開日 (更新日)'].min()

Timestamp('2012-04-26 00:00:00')

In [87]:
kabupro_kessan['期末'].max()

Timestamp('2017-09-30 00:00:00')

In [88]:
kabupro_kessan['情報公開日 (更新日)'].max()

Timestamp('2017-11-10 00:00:00')

In [None]:
kabupro_kessan.describe()

## csv に保存

In [118]:
# 保存
kabupro_kessan.to_csv('/Users/Really/Stockyard/_csv/kabupro_kessan.csv')

In [119]:
# 保存したファイルの確認
csv_kessan = pd.read_csv('/Users/Really/Stockyard/_csv/kabupro_kessan.csv', index_col=0)
csv_kessan.head(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
0,1301,極洋,日本基準,個別,2013年3月期,第2四半期,2012-04-01,2012-09-30,売上高,76546000000.0,...,79000000.0,0.76,,,,,,,,2013-10-21
1,1301,極洋,日本基準,個別,2013年3月期,通期,2012-04-01,2013-03-31,売上高,160610000000.0,...,806000000.0,7.68,,14818000000.0,70492000000.0,141.08,,,,2014-05-09
2,1301,極洋,日本基準,個別,2014年3月期,第2四半期,2013-04-01,2013-09-30,売上高,88161000000.0,...,1834000000.0,17.46,,,,,,,,2014-10-27
3,1301,極洋,日本基準,個別,2014年3月期,通期,2013-04-01,2014-03-31,売上高,192026000000.0,...,1806000000.0,17.2,16.77,16164000000.0,70381000000.0,153.9,,,,2015-05-08
4,1301,極洋,日本基準,個別,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,99476000000.0,...,2504000000.0,23.84,,,,,,,,2015-10-26
5,1301,極洋,日本基準,個別,2015年3月期,通期,2014-04-01,2015-03-31,売上高,212086000000.0,...,2139000000.0,20.37,18.78,17695000000.0,73519000000.0,168.48,,,,2015-05-08
6,1301,極洋,日本基準,個別,2015年3月期,通期,2014-04-01,2015-03-31,売上高,212086000000.0,...,2139000000.0,20.37,18.78,17695000000.0,73519000000.0,168.48,,,,2016-05-09
7,1301,極洋,日本基準,個別,2016年3月期,通期,2015-04-01,2016-03-31,売上高,216350000000.0,...,1259000000.0,119.87,110.51,17817000000.0,78140000000.0,1696.42,,,,2017-05-11
8,1301,極洋,日本基準,個別,2017年3月期,通期,2016-04-01,2017-03-31,売上高,228083000000.0,...,2194000000.0,208.94,192.95,20117000000.0,81306000000.0,1915.42,,,,2017-05-11
9,1301,極洋,日本基準,連結,2013年3月期,第1四半期,2012-04-01,2012-06-30,売上高,43191000000.0,...,335000000.0,3.19,,,,,,,,2013-08-05


## MySQL に保存

In [91]:
table_name = 'kabupro_kessan'

このケースではデータ型の定義は必要ないのかも  
定義しなくても意図通りの型で書き込めた

__クラス不使用__

In [92]:
# データ型を定義しなくても意図通りの型で書き込めた
kabupro_kessan.to_sql(table_name, engine, if_exists='replace')

In [None]:
# このケースではデータ型の定義は必要ないのかも
# sqlalchemy.typesで定義されたデータ型を辞書形式で設定して保存
data_type = {
    '`証券コード`': Integer(),
    '`企業名`': Text(),
    '`会計基準`': Text(),
    '`連結個別`': Text(),
    '`決算期`': Text(),
    '`決算期間`': Text(),
    '`期首`': Date(),
    '`期末`': Date(),
    '`名寄前勘定科目 (売上高欄)`': Text(),
    '`売上高`': Float(),
    '`営業利益`': Float(),
    '`経常利益`': Float(),
    '`純利益`': Float(),
    '`一株当り純利益`': Float(),
    '`希薄化後一株当り純利益`': Float(),
    '`純資産又は株主資本`': Float(),
    '`総資産`': Float(),
    '`一株当り純資産`': Float(),
    '`営業キャッシュフロー`': Float(),
    '`投資キャッシュフロー`': Float(),
    '`財務キャッシュフロー`': Float(),
    '`情報公開日 (更新日)`': Date()
}

kabupro_kessan.to_sql(table_name, engine, if_exists='replace', dtype=data_type)

__クラス使用__

In [123]:
sql.write_table(table_name, kabupro_kessan)

__保存したデータの確認__

__クラス不使用__

In [124]:
sql_kessan = pd.read_sql_table(table_name, engine, index_col=None).drop('index', axis=1)

__クラス使用__

In [132]:
sql_kessan = sql.read_table(table_name)

In [128]:
sql_kessan.head(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
0,1301,極洋,日本基準,個別,2013年3月期,第2四半期,2012-04-01,2012-09-30,売上高,76546000000.0,...,79000000.0,0.76,,,,,,,,2013-10-21
1,1301,極洋,日本基準,個別,2013年3月期,通期,2012-04-01,2013-03-31,売上高,160610000000.0,...,806000000.0,7.68,,14818000000.0,70492000000.0,141.08,,,,2014-05-09
2,1301,極洋,日本基準,個別,2014年3月期,第2四半期,2013-04-01,2013-09-30,売上高,88161000000.0,...,1834000000.0,17.46,,,,,,,,2014-10-27
3,1301,極洋,日本基準,個別,2014年3月期,通期,2013-04-01,2014-03-31,売上高,192026000000.0,...,1806000000.0,17.2,16.77,16164000000.0,70381000000.0,153.9,,,,2015-05-08
4,1301,極洋,日本基準,個別,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,99476000000.0,...,2504000000.0,23.84,,,,,,,,2015-10-26
5,1301,極洋,日本基準,個別,2015年3月期,通期,2014-04-01,2015-03-31,売上高,212086000000.0,...,2139000000.0,20.37,18.78,17695000000.0,73519000000.0,168.48,,,,2015-05-08
6,1301,極洋,日本基準,個別,2015年3月期,通期,2014-04-01,2015-03-31,売上高,212086000000.0,...,2139000000.0,20.37,18.78,17695000000.0,73519000000.0,168.48,,,,2016-05-09
7,1301,極洋,日本基準,個別,2016年3月期,通期,2015-04-01,2016-03-31,売上高,216350000000.0,...,1259000000.0,119.87,110.51,17817000000.0,78140000000.0,1696.42,,,,2017-05-11
8,1301,極洋,日本基準,個別,2017年3月期,通期,2016-04-01,2017-03-31,売上高,228083000000.0,...,2194000000.0,208.94,192.95,20117000000.0,81306000000.0,1915.42,,,,2017-05-11
9,1301,極洋,日本基準,連結,2013年3月期,第1四半期,2012-04-01,2012-06-30,売上高,43191000000.0,...,335000000.0,3.19,,,,,,,,2013-08-05


In [129]:
sql_kessan.tail(20)

Unnamed: 0,証券コード,企業名,会計基準,連結個別,決算期,決算期間,期首,期末,名寄前勘定科目 (売上高欄),売上高,...,純利益,一株当り純利益,希薄化後一株当り純利益,純資産又は株主資本,総資産,一株当り純資産,営業キャッシュフロー,投資キャッシュフロー,財務キャッシュフロー,情報公開日 (更新日)
109506,9997,ベルーナ,日本基準,連結,2014年3月期,第3四半期,2013-04-01,2013-12-31,売上高,96014000000.0,...,5424000000.0,55.78,,,,,,,,2015-01-30
109507,9997,ベルーナ,日本基準,連結,2014年3月期,通期,2013-04-01,2014-03-31,売上高,125412000000.0,...,7013000000.0,72.12,,73480000000.0,130648000000.0,755.67,5766000000.0,-15397000000.0,10721000000.0,2015-05-15
109508,9997,ベルーナ,日本基準,連結,2015年3月期,第1四半期,2014-04-01,2014-06-30,売上高,33068000000.0,...,874000000.0,8.99,,73838000000.0,134205000000.0,,,,,2014-07-31
109509,9997,ベルーナ,日本基準,連結,2015年3月期,第1四半期,2014-04-01,2014-06-30,売上高,33068000000.0,...,874000000.0,8.99,,,,,,,,2015-07-31
109510,9997,ベルーナ,日本基準,連結,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,56314000000.0,...,2051000000.0,21.09,,75158000000.0,136060000000.0,,,,,2014-10-31
109511,9997,ベルーナ,日本基準,連結,2015年3月期,第2四半期,2014-04-01,2014-09-30,売上高,56314000000.0,...,2051000000.0,21.09,,,,,,,,2015-10-30
109512,9997,ベルーナ,日本基準,連結,2015年3月期,第3四半期,2014-04-01,2014-12-31,売上高,92688000000.0,...,5397000000.0,55.51,,78143000000.0,155115000000.0,,,,,2015-01-30
109513,9997,ベルーナ,日本基準,連結,2015年3月期,第3四半期,2014-04-01,2014-12-31,売上高,92688000000.0,...,5397000000.0,55.51,,,,,,,,2016-01-29
109514,9997,ベルーナ,日本基準,連結,2015年3月期,通期,2014-04-01,2015-03-31,売上高,120689000000.0,...,6394000000.0,65.77,,79510000000.0,152224000000.0,814.97,9089000000.0,-20191000000.0,12571000000.0,2015-05-15
109515,9997,ベルーナ,日本基準,連結,2015年3月期,通期,2014-04-01,2015-03-31,売上高,120689000000.0,...,6394000000.0,65.77,,79510000000.0,152224000000.0,814.97,9089000000.0,-20191000000.0,12571000000.0,2016-05-11


In [100]:
sql_kessan.columns

Index(['証券コード', '企業名', '会計基準', '連結個別', '決算期', '決算期間', '期首', '期末',
       '名寄前勘定科目 (売上高欄)', '売上高', '営業利益', '経常利益', '純利益', '一株当り純利益',
       '希薄化後一株当り純利益', '純資産又は株主資本', '総資産', '一株当り純資産', '営業キャッシュフロー',
       '投資キャッシュフロー', '財務キャッシュフロー', '情報公開日 (更新日)'],
      dtype='object')

In [95]:
sql_kessan.dtypes

証券コード                      int64
企業名                       object
会計基準                      object
連結個別                      object
決算期                       object
決算期間                      object
期首                datetime64[ns]
期末                datetime64[ns]
名寄前勘定科目 (売上高欄)            object
売上高                      float64
営業利益                     float64
経常利益                     float64
純利益                      float64
一株当り純利益                  float64
希薄化後一株当り純利益              float64
純資産又は株主資本                float64
総資産                      float64
一株当り純資産                  float64
営業キャッシュフロー               float64
投資キャッシュフロー               float64
財務キャッシュフロー               float64
情報公開日 (更新日)       datetime64[ns]
dtype: object

In [102]:
kabupro_kessan.dtypes

証券コード                      int64
企業名                       object
会計基準                      object
連結個別                      object
決算期                       object
決算期間                      object
期首                datetime64[ns]
期末                datetime64[ns]
名寄前勘定科目 (売上高欄)            object
売上高                      float64
営業利益                     float64
経常利益                     float64
純利益                      float64
一株当り純利益                  float64
希薄化後一株当り純利益              float64
純資産又は株主資本                float64
総資産                      float64
一株当り純資産                  float64
営業キャッシュフロー               float64
投資キャッシュフロー               float64
財務キャッシュフロー               float64
情報公開日 (更新日)       datetime64[ns]
dtype: object

In [133]:
# nan 同士の比較は False になってしまうのでゼロで埋めて比較
(sql_kessan.fillna(0) == kabupro_kessan.fillna(0)).any()

証券コード             True
企業名               True
会計基準              True
連結個別              True
決算期               True
決算期間              True
期首                True
期末                True
名寄前勘定科目 (売上高欄)    True
売上高               True
営業利益              True
経常利益              True
純利益               True
一株当り純利益           True
希薄化後一株当り純利益       True
純資産又は株主資本         True
総資産               True
一株当り純資産           True
営業キャッシュフロー        True
投資キャッシュフロー        True
財務キャッシュフロー        True
情報公開日 (更新日)       True
dtype: bool

# 別アプリで csv に変換済みのファイルを読み込む場合

In [None]:
# 決算プロの決算短信csv(エクセルファイルより書き出し)を読み込む http://ke.kabupro.jp/doc/down40.htm
csv_version = pd.read_csv('/Users/Really/Stockyard/_dl_data/kabupro_20171112f.csv') 

## 内容の確認

In [None]:
csv_version

csv からの読み込みではほとんどの列の型が object になる (読み込み時にオプションで指定することも可能らしいが、列が多いと面倒)

In [None]:
csv_version.dtypes

In [None]:
csv_version.duplicated().any()

In [None]:
csv_version.isnull().any()

In [None]:
csv_version['期末'].min()

In [None]:
csv_version['情報公開日 (更新日)'].min()

In [None]:
csv_version[csv_version['連結個別'] == '個別']

In [None]:
csv_version[csv_version['連結個別'] == '連結']

In [None]:
csv_version.describe()

## 整形

In [None]:
# 日付のパース、datetime.dateへの型変換
csv_version['期首'] = csv_version['期首'].apply(lambda x: parse(x).date())
csv_version['期末'] = csv_version['期末'].apply(lambda x: parse(x).date())
csv_version['情報公開日 (更新日)'] = csv_version['情報公開日 (更新日)'].apply(lambda x: parse(x).date())

In [None]:
# 同じく日付のパース、datetime.dateへの型変換をまとめて。1列ずつやるより少し遅い？ 23s -> 30s
csv_version[['期首', '期末', '情報公開日 (更新日)']] = csv_version[['期首', '期末', '情報公開日 (更新日)']].applymap(lambda x: parse(x).date())

In [None]:
# pandasのTimestampへの型変換
# まとめてできないの？
# csv_version[['期首', '期末', '情報公開日 (更新日)']] = pd.to_datetime(csv_version[['期首', '期末', '情報公開日 (更新日)']], format='%Y-%m-%d')
csv_version['期首'] = pd.to_datetime(csv_version['期首'], format='%Y-%m-%d')
csv_version['期末'] = pd.to_datetime(csv_version['期末'], format='%Y-%m-%d')
csv_version['情報公開日 (更新日)'] = pd.to_datetime(csv_version['情報公開日 (更新日)'], format='%Y-%m-%d')

In [None]:
# 数値に変換する列のリスト作成
num_list = [
    '売上高', 
    '営業利益', 
    '経常利益', 
    '純利益', 
    '一株当り純利益',
    '希薄化後一株当り純利益', 
    '純資産又は株主資本', 
    '総資産', 
    '一株当り純資産', 
    '営業キャッシュフロー',
    '投資キャッシュフロー', 
    '財務キャッシュフロー'
]

In [None]:
# 数値に変換する項目の「,」を削除、float型に変換
csv_version[num_list] = csv_version[num_list].apply(lambda x: x.str.replace(',','')).astype(float)

In [None]:
# 冗長なやり方

# 2つのリストから1つの辞書を作成する方法
# num_dict = dict(zip(num_list, [str for i in range(len(num_list))]))

csv_version = csv_version.astype(dict(zip(num_list, [str for i in range(len(num_list))])))
csv_version[num_list] = csv_version[num_list].applymap(lambda x: x.replace(',', ''))
csv_version = csv_version.astype(dict(zip(num_list, [float for i in range(len(num_list))])))

In [None]:
# さらに冗長なやり方

csv_version = csv_version.astype({
    '売上高': str, 
    '営業利益': str, 
    '経常利益': str, 
    '純利益': str, 
    '一株当り純利益': str,
    '希薄化後一株当り純利益': str, 
    '純資産又は株主資本': str, 
    '総資産': str, 
    '一株当り純資産': str, 
    '営業キャッシュフロー': str,
    '投資キャッシュフロー': str, 
    '財務キャッシュフロー': str})

csv_version[[
    '売上高', 
    '営業利益', 
    '経常利益', 
    '純利益', 
    '一株当り純利益',
    '希薄化後一株当り純利益', 
    '純資産又は株主資本', 
    '総資産', 
    '一株当り純資産', 
    '営業キャッシュフロー',
    '投資キャッシュフロー', 
    '財務キャッシュフロー'
    ]] = csv_version[[
        '売上高', 
        '営業利益', 
        '経常利益', 
        '純利益', 
        '一株当り純利益',
        '希薄化後一株当り純利益', 
        '純資産又は株主資本', 
        '総資産', 
        '一株当り純資産', 
        '営業キャッシュフロー',
        '投資キャッシュフロー', 
        '財務キャッシュフロー'
        ]].applymap(lambda x: x.replace(',', ''))

csv_version = csv_version.astype({
    '売上高': float, 
    '営業利益': float, 
    '経常利益': float, 
    '純利益': float, 
    '一株当り純利益': float,
    '希薄化後一株当り純利益': float, 
    '純資産又は株主資本': float, 
    '総資産': float, 
    '一株当り純資産': float, 
    '営業キャッシュフロー': float,
       '投資キャッシュフロー': float, 
    '財務キャッシュフロー': float})

In [None]:
# ソート
csv_version = csv_version.sort_values(['証券コード', '連結個別', '期末', '情報公開日 (更新日)']).reset_index(drop=True)

# 四半期業績の差分を作ってみる

__もうちょっと上手いやり方ありそう__

In [None]:
code = 7203

In [None]:
kabupro.columns

In [None]:
kabupro.ix[(kabupro['証券コード'] == code) & (kabupro['会計基準'] == '米国基準'), 
           ['決算期', '期末', '売上高', '営業利益', '経常利益', '純利益', '一株当り純利益', '情報公開日 (更新日)']].tail(10)

In [None]:
diff_test = kabupro.ix[(kabupro['証券コード'] == code) & (kabupro['会計基準'] == '米国基準'), 
           ['決算期', '売上高', '営業利益', '経常利益', '純利益', '一株当り純利益']].tail(10)

In [None]:
diff_test

In [None]:
diff_test[['売上高差分', '営業利益差分', '経常利益差分', '純利益差分', '一株当り純利益差分']] = diff_test[['売上高', '営業利益', '経常利益', '純利益', '一株当り純利益']]

In [None]:
# 全銘柄一括でやるなら、上の行とコードが一致するかの判定を追加
for count in range(70501, 70501 + len(diff_test) - 1):
    if diff_test.loc[count, '決算期'] == diff_test.loc[count - 1, '決算期']:
        diff_test.loc[count, '売上高差分'] = diff_test.loc[count, '売上高'] - diff_test.loc[count - 1, '売上高']
        diff_test.loc[count, '営業利益差分'] = diff_test.loc[count, '営業利益'] - diff_test.loc[count - 1, '営業利益']
        diff_test.loc[count, '経常利益差分'] = diff_test.loc[count, '経常利益'] - diff_test.loc[count - 1, '経常利益']
        diff_test.loc[count, '純利益差分'] = diff_test.loc[count, '純利益'] - diff_test.loc[count - 1, '純利益']
        diff_test.loc[count, '一株当り純利益差分'] = diff_test.loc[count, '一株当り純利益'] - diff_test.loc[count - 1, '一株当り純利益']

In [None]:
diff_test[['決算期', '売上高差分', '営業利益差分', '経常利益差分', '純利益差分', '一株当り純利益差分']]
# 一株当り純利益差分が株探の１株益と揃わない