In [2]:
# external modules
import sys
import random
import numpy as np
import pandas as pd
import collections
import matplotlib.pyplot as plt
import japanize_matplotlib
from matplotlib.dates import DateFormatter
import seaborn as sns
import plotly.graph_objects as go
import statsmodels.api as sm

# Pandas setting
# Display 6 columns for viewing purposes
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 100)

# Reduce decimal points to 2
pd.options.display.float_format = '{:,.2f}'.format

In [2]:
# read temporary processed data
df = pd.read_csv("./../data/processed/tse1_unitchanged.csv", index_col=[0, 1, 2])
df_2008 = pd.read_csv("../data/processed/tse1_2008_balanced.csv", index_col=[0, 1, 2])

In [220]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], :].isna().mean()

決算期（年）                      0.00
決算期（月）                      0.00
決算期                         0.00
連結基準フラグ                     0.00
決算種別フラグ                     0.00
決算発表日                       0.00
事業年度開始年月日［３ヵ月］              0.01
事業年度終了年月日                   0.00
１株当たり利益［３ヵ月］                0.03
１株当たり利益［累計］                 0.01
当期純利益（連結）［累計］               0.19
【ＱＴＲ】当期利益                   0.00
棚卸資産                        0.02
受取手形・売掛金／売掛金及びその他の短期債権      0.01
資本的支出                       0.00
売上総利益［累計］                   0.00
【ＱＴＲ】売上総利益                  0.00
販売費及び一般管理費［累計］              0.01
法人税等［累計］                    0.00
法人税・住民税及び事業税合計／当期税金費用［累計］   0.27
税金等調整前当期純利益［累計］             0.00
税金等調整前当期利益［累計］              0.04
【ＱＴＲ】税金等調整前当期利益             0.04
１株当たり税引前利益                  0.01
売上高・営業収益［累計］                0.00
【ＱＴＲ】売上高・営業収益               0.01
１株当たり売上高                    0.01
期末従業員数                      0.00
純資産合計／資本合計                  0.01
【ＱＴＲ】純資産                    0.01
１株当たり純資産  

## 欠損処理

* 資本的支出と期末従業員数

四半期データは2008年に四半期開始、2011に簡素化されてる。(簡素化後、3ヶ月は任意。累積は義務)  
https://www.asb.or.jp/jp/accounting_standards/accounting_standards/y2007/2007-0314.html  
https://www.asb.or.jp/jp/accounting_standards/accounting_standards/y2011/2011-0325.html  
簡素化に伴い、資本的支出(CF計算書)、期末従業員数の報告が四半期で報告されなくなる。
--> Zhang et al. (2004)に倣い、資本的支出は4等分、期末従業員数は一定とする。

In [4]:
# proportion of missing value
df_2008[["資本的支出", "期末従業員数"]].isna().mean()

資本的支出    0.30
期末従業員数   0.54
dtype: float64

In [5]:
df_2008[["資本的支出", "期末従業員数"]].describe()

Unnamed: 0,資本的支出,期末従業員数
count,51955.0,34556.0
mean,18533372129.73,9439.12
std,108863616446.61,30128.37
min,1000000.0,13.0
25%,411000000.0,730.0
50%,1639000000.0,1849.0
75%,6891000000.0,5690.25
max,5121960000000.0,385243.0


* 期末従業員数

欠損は前四半期時点の従業員数を代入する。(従業員数は変化していないという仮定)

In [6]:
df_2008.loc[pd.IndexSlice[:, 2008, 6], :]["期末従業員数"].isna().sum()

52

In [7]:
df_2008.loc[pd.IndexSlice[:, 2008, 6], :]["期末従業員数"][
    df_2008.loc[pd.IndexSlice[:, 2008, 6], :]["期末従業員数"].isna()
]

企業名              決算期（年）  決算期（月）
ひらまつ             2008    6        nan
アルインコ            2008    6        nan
エムティーアイ          2008    6        nan
カワチ薬品            2008    6        nan
キャリアデザインセンター     2008    6        nan
キーエンス            2008    6        nan
グリムス             2008    6        nan
コナカ              2008    6        nan
サイバーエージェント       2008    6        nan
システムソフト          2008    6        nan
シミックホールディングス     2008    6        nan
ジャパンベストレスキューシステ  2008    6        nan
ステップ             2008    6        nan
ティア              2008    6        nan
ディア・ライフ          2008    6        nan
ネクシィーズグループ       2008    6        nan
パラカ              2008    6        nan
ファルコホールディングス     2008    6        nan
フルキャストホールディングス   2008    6        nan
ホソカワミクロン         2008    6        nan
メディカルシステムネットワーク  2008    6        nan
ヤマウラ             2008    6        nan
ヤマト              2008    6        nan
ユニカフェ            2008    6        nan
ヨコレイ             2008    6        nan
ランドビジネス          2

最初の期2008Q1が欠損してしまっている企業が 52 / 1436 ある。df_2008だけでは欠損値補填ができないのでdfに戻ってさらにさかのぼって補填

In [8]:
year_range = np.arange(2008, 2021)
month_range = [6, 9, 12, 3]

# check if firm recorded in all quater
# start from firm recorded in 2008Q1
recorded_firm_from_2008 = set(df.loc[pd.IndexSlice[:, 2008, 6], :].index.get_level_values("企業名").unique())

for i in year_range:
    for j in month_range:
        if j == 3: # if Mar, +1 year
            i += 1
        recorded_firm_from_2008 = recorded_firm_from_2008 & set(df.loc[pd.IndexSlice[:, i, j], :].index.get_level_values("企業名").unique())

df_2008 = df.loc[pd.IndexSlice[recorded_firm_from_2008, :, :], :] # 遡るためrecorded_firm_from_2008の企業の全期間 : のデータフレームをもう一度作成

In [9]:
df_2008.loc[pd.IndexSlice[["アサヒグループホールディングス", "アシックス"], :, :], :]["期末従業員数"].iloc[70:90]

企業名              決算期（年）  決算期（月）
アサヒグループホールディングス  2018    6              nan
                         9              nan
                         12       28,055.00
                 2019    3              nan
                         6              nan
                         9              nan
                         12       29,327.00
                 2020    3              nan
                         6              nan
                         9              nan
                         12       29,850.00
                 2021    3              nan
アシックス            1999    9              nan
                 2000    3         4,270.00
                         9         4,348.00
                 2001    3         4,273.00
                         9         4,233.00
                 2002    3         4,109.00
                         9         4,236.00
                 2003    3         4,132.00
Name: 期末従業員数, dtype: float64

In [10]:
# forward fill groupby firm level
df_2008["期末従業員数"] = df_2008.groupby(level=0)["期末従業員数"].fillna(method='ffill')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_2008["期末従業員数"] = df_2008.groupby(level=0)["期末従業員数"].fillna(method='ffill')


In [11]:
df_2008.loc[pd.IndexSlice[["アサヒグループホールディングス", "アシックス"], :, :], :]["期末従業員数"].iloc[70:90]

企業名              決算期（年）  決算期（月）
アサヒグループホールディングス  2018    6        30,864.00
                         9        30,864.00
                         12       28,055.00
                 2019    3        28,055.00
                         6        28,055.00
                         9        28,055.00
                         12       29,327.00
                 2020    3        29,327.00
                         6        29,327.00
                         9        29,327.00
                         12       29,850.00
                 2021    3        29,850.00
アシックス            1999    9              nan
                 2000    3         4,270.00
                         9         4,348.00
                 2001    3         4,273.00
                         9         4,233.00
                 2002    3         4,109.00
                         9         4,236.00
                 2003    3         4,132.00
Name: 期末従業員数, dtype: float64

* 資本的支出

欠損はほとんど半期報告のため。  
半期の値を2で割って前四半期に割り当てる。  
1年報告しかしていないなら4で割って各四半期に割り当てる。

まずは資本的支出の欠損パターンを確認

In [12]:
# check missing patterns
df_2008_capxisna = df_2008.loc[pd.IndexSlice[:, 2008:, 3:], :][
    df_2008.loc[pd.IndexSlice[:, 2008:, 3:], :]["資本的支出"].isna()
]

df_2008_capxisna.index.get_level_values("決算期（月）").unique()

Int64Index([9, 3, 6, 12], dtype='int64', name='決算期（月）')

どの四半期も欠損し得る

In [13]:
df_2008_capxisna["資本的支出"]

企業名          決算期（年）  決算期（月）
あい　ホールディングス  2011    9        nan
             2012    3        nan
                     9        nan
             2013    3        nan
                     9        nan
                               ..
ｅＢＡＳＥ        2018    12       nan
             2019    6        nan
                     12       nan
             2020    6        nan
                     12       nan
Name: 資本的支出, Length: 22747, dtype: float64

In [14]:
# firm missing Q1
missQ1 = df_2008_capxisna.loc[pd.IndexSlice[:, :, [6]], :]["資本的支出"].index.get_level_values(0).unique()
missQ1

Index(['あみやき亭', 'あらた', 'いすゞ自動車', 'いなげや', 'きんでん', 'ぐるなび', 'さくらインターネット', 'たけびし',
       'なとり', 'はせがわ',
       ...
       'ＴＯＹＯ　ＴＩＲＥ', 'ＴＰＲ', 'ＴＹＫ', 'ＵＡＣＪ', 'ＵＴグループ', 'ＶＴホールディングス',
       'ＷＤＢホールディングス', 'ＷＯＷＯＷ', 'ＺＯＺＯ', 'ｅＢＡＳＥ'],
      dtype='object', name='企業名', length=1082)

In [15]:
# firm missing Q2
missQ2 = df_2008_capxisna.loc[pd.IndexSlice[:, :, [9]], :]["資本的支出"].index.get_level_values(0).unique()
missQ2

Index(['あい　ホールディングス', 'いであ', 'きちりホールディングス', 'ひらまつ', 'アイティメディア', 'アイフィスジャパン',
       'アイ・エス・ビー', 'アイ・オー・データ機器', 'アウトソーシング', 'アグロ　カネショウ',
       ...
       'ＧＭＯペパボ', 'Ｉ－ＰＥＸ', 'ＩＮＰＥＸ', 'ＪＵＫＩ', 'ＫＮＴ－ＣＴホールディングス', 'ＭｏｎｏｔａＲＯ', 'ＮＪＳ',
       'ＳＢＳホールディングス', 'ＴＨＫ', 'ＴＯＹＯ　ＴＩＲＥ'],
      dtype='object', name='企業名', length=194)

In [16]:
# firm missing Q3
missQ3 = df_2008_capxisna.loc[pd.IndexSlice[:, :, [12]], :]["資本的支出"].index.get_level_values(0).unique()
missQ3

Index(['あみやき亭', 'あらた', 'いすゞ自動車', 'いなげや', 'きんでん', 'ぐるなび', 'さくらインターネット', 'たけびし',
       'なとり', 'はせがわ',
       ...
       'ＴＯＹＯ　ＴＩＲＥ', 'ＴＰＲ', 'ＴＹＫ', 'ＵＡＣＪ', 'ＵＴグループ', 'ＶＴホールディングス',
       'ＷＤＢホールディングス', 'ＷＯＷＯＷ', 'ＺＯＺＯ', 'ｅＢＡＳＥ'],
      dtype='object', name='企業名', length=1074)

In [17]:
# firm missing Q4
missQ4 = df_2008_capxisna.loc[pd.IndexSlice[:, :, [3]], :]["資本的支出"].index.get_level_values(0).unique()
missQ4

Index(['あい　ホールディングス', 'いであ', 'きちりホールディングス', 'アイフィスジャパン', 'アイ・エス・ビー',
       'アイ・オー・データ機器', 'アウトソーシング', 'アグロ　カネショウ', 'アゴーラ　ホスピタリティー　グ',
       'アサヒグループホールディングス',
       ...
       'ＧＭＯペパボ', 'Ｉ－ＰＥＸ', 'ＩＮＰＥＸ', 'ＪＵＫＩ', 'ＫＮＴ－ＣＴホールディングス', 'ＭｏｎｏｔａＲＯ', 'ＮＪＳ',
       'ＳＢＳホールディングス', 'ＴＨＫ', 'ＴＯＹＯ　ＴＩＲＥ'],
      dtype='object', name='企業名', length=194)

In [18]:
missQ1 & missQ2 & missQ3 & missQ4

Index(['アシックス', 'インテージホールディングス', 'エス・サイエンス', 'オムロン', 'クラレ', 'コナミホールディングス',
       'サイバネットシステム', 'サイバーコム', 'サカタインクス', 'システムソフト', 'ソディック', 'ソリトンシステムズ',
       'デジタルガレージ', 'トラスコ中山', 'フルキャストホールディングス', 'マキタ', 'メック', 'ユニカフェ',
       'ユニ・チャーム', 'ローランド　ディー．ジー．', 'ヴィンクス', '井関農機', '富士ソフト', '小林製薬', '市光工業',
       '手間いらず', '日本ペイントホールディングス', '日本商業開発', '日機装', '日清紡ホールディングス', '日華化学',
       '星光ＰＭＣ', '東京応化工業', '東洋インキＳＣホールディングス', '江崎グリコ', '資生堂', '電通国際情報サービス',
       '鳥居薬品', 'ＩＮＰＥＸ', 'ＫＮＴ－ＣＴホールディングス', 'ＴＨＫ', 'ＴＯＹＯ　ＴＩＲＥ'],
      dtype='object', name='企業名')

In [19]:
df_2008.loc[pd.IndexSlice["日本商業開発", :, :], :]["資本的支出"]

企業名     決算期（年）  決算期（月）
日本商業開発  2003    3                   nan
        2004    3                   nan
        2005    3                   nan
        2006    3        107,000,000.00
        2007    3        150,000,000.00
                9                   nan
                12                  nan
        2008    3                   nan
                6                   nan
                9         52,000,000.00
                12        53,000,000.00
        2009    3         53,000,000.00
                6                   nan
                9                   nan
                12                  nan
        2010    3         10,000,000.00
                6         20,000,000.00
                9         20,000,000.00
                12        20,000,000.00
        2011    3         20,000,000.00
                6                   nan
                9                   nan
                12                  nan
        2012    3                   nan
                6

めんどくせぇ、でもどちらにせよ後の発表された資本的支出の額に前の欠損値分の資本的支出が含まれていて、欠損の分を問う分割して配分すればおっけー。

全部欠損している企業はもうどうしようもない、サンプルから落とすしかない。

In [20]:
# 欠損 50% 以上
len(df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=0)[
    df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=0) >= 0.5
])

7

In [21]:
# 欠損 40% 以上
len(df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=0)[
    df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=0) >= 0.4
])

16

In [22]:
# 欠損 30% 以上
len(df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=0)[
    df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=0) >= 0.3
])

1082

In [23]:
df_2008.loc[pd.IndexSlice["システムソフト", 2008:, :], :]["資本的支出"]

企業名      決算期（年）  決算期（月）
システムソフト  2008    3          1,000,000.00
                 6          3,000,000.00
                 9          5,000,000.00
                 12                  nan
         2009    3                   nan
                 6                   nan
                 9                   nan
                 12        12,000,000.00
         2010    3         12,000,000.00
                 6         12,000,000.00
                 9         12,000,000.00
                 12                  nan
         2011    3                   nan
                 6                   nan
                 9        944,000,000.00
                 12                  nan
         2012    3          1,000,000.00
                 6                   nan
                 9         21,000,000.00
                 12                  nan
         2013    3         26,000,000.00
                 6                   nan
                 9         54,000,000.00
                 12              

欠損率が大きくても、これなら埋めれる。(会計年度内最低1回報告している)

In [24]:
df_2008.loc[pd.IndexSlice["マキタ", 2008:, :], :]["資本的支出"]

企業名  決算期（年）  決算期（月）
マキタ  2008    3                      nan
             6                      nan
             9                      nan
             12                     nan
     2009    3                      nan
             6                      nan
             9                      nan
             12                     nan
     2010    3                      nan
             6                      nan
             9                      nan
             12                     nan
     2011    3                      nan
             6                      nan
             9                      nan
             12                     nan
     2012    3                      nan
             6                      nan
             9                      nan
             12                     nan
     2013    3                      nan
             6                      nan
             9                      nan
             12                     nan
     2014    3      

このような欠損(１年に渡って欠損している)は救いようがない

チェックすべき(除外すべき)なのは、会計年度1年を通して欠損している企業かどうか consecutive nan

---

levelを会計年度にするためにmultiindexしなおす

In [25]:
# change index to 会計年度, 四半期
df_2008["会計年度"] = df_2008["決算期"].apply(lambda x: int(x[:4])-1 if int(x[-2:]) <= 3 else int(x[:4])) # 1, 2, 3月なら西暦-1
df_2008["四半期"] = df_2008["決算期"].apply(lambda x: 
                            "Q1" if int(x[-2:]) ==  6 else (
                            "Q2" if int(x[-2:]) ==  9 else (
                            "Q3" if int(x[-2:]) == 12 else (
                            "Q4" if int(x[-2:]) ==  3 else (
                            "NonMar" + x[-2:]
                            ))))
                           )

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_2008["会計年度"] = df_2008["決算期"].apply(lambda x: int(x[:4])-1 if int(x[-2:]) <= 3 else int(x[:4])) # 1, 2, 3月なら西暦-1
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_2008["四半期"] = df_2008["決算期"].apply(lambda x:


In [26]:
# set multiindex ["企業名", "会計年度", "四半期"]
df_2008.reset_index(inplace=True)
df_2008.set_index(["企業名", "会計年度", "四半期"], inplace=True)

---

In [27]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=[0, 1])[
    df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=[0, 1]) == 1
]

企業名          会計年度
エス・サイエンス     2017   1.00
             2019   1.00
オムロン         2009   1.00
             2012   1.00
             2014   1.00
             2015   1.00
             2019   1.00
コナミホールディングス  2008   1.00
             2010   1.00
             2011   1.00
             2013   1.00
             2014   1.00
             2015   1.00
             2016   1.00
マキタ          2008   1.00
             2009   1.00
             2010   1.00
             2011   1.00
             2012   1.00
             2013   1.00
             2014   1.00
             2015   1.00
             2016   1.00
手間いらず        2014   1.00
             2019   1.00
日本商業開発       2011   1.00
             2012   1.00
Name: 資本的支出, dtype: float64

2008年度以降、1会計年間に１つも資本的支出が観測されていないのは27年

In [28]:
whole_miss_capx = df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=[0, 1])[
    df_2008.loc[pd.IndexSlice[:, 2008:, :], :]["資本的支出"].isna().mean(level=[0, 1]) == 1
].index.get_level_values(0).unique()

whole_miss_capx

Index(['エス・サイエンス', 'オムロン', 'コナミホールディングス', 'マキタ', '手間いらず', '日本商業開発'], dtype='object', name='企業名')

この企業は会計年度1年間丸ごと欠損しているのでサンプルから drop していい

欠損パターンは("Q1", "Q3"), ("Q2", "Q4"), ("Q1", "Q2", "Q3"), ("Q2", "Q3", "Q4"), ("Q1", "Q2", "Q4), ("Q1", "Q3", "Q4)か、1つだけ、もしくは全部(これはdropする)

In [29]:
# previous_fiscal_year = None
# # for i in df_2008.index.get_level_values(0).unique():
# for i in df_2008.index.get_level_values(0).unique():
# #     print(i)
#     for j in df_2008.loc[pd.IndexSlice[i, 2008:, :], :].index.get_level_values(1).unique():
#         temp_df = df_2008.loc[pd.IndexSlice[i, j, :], :]["資本的支出"]
# #         print(temp_df)
#         if temp_df.isna().sum() > 0:
# #             print("missing")
#             missing_type = list(temp_df[temp_df.isna()].index.get_level_values(2).values)
# #             print("missing type: ", temp_df[temp_df.isna()].index.get_level_values(2).values)
#             if missing_type == ["Q1", "Q3"]:
#                 pass
#             elif missing_type == ["Q2", "Q4"]:
#                 pass
#             elif missing_type == ["Q1", "Q2", "Q3"]:
#                 print(i)
#                 print("missing type: ", temp_df[temp_df.isna()].index.get_level_values(2).values)
#                 pass
#             else:
#                 print(i)
#                 print("missing type: ", temp_df[temp_df.isna()].index.get_level_values(2).values)
#                 pass
#         else:
# #             print("no missing")
#             pass

In [30]:
df_2008.loc[pd.IndexSlice["オムロン", :, :], :]["資本的支出"].iloc[0:100]

企業名   会計年度  四半期
オムロン  1999  Q2                  nan
            Q4    31,146,000,000.00
      2000  Q2                  nan
            Q4    37,583,000,000.00
      2001  Q2                  nan
            Q4    38,896,000,000.00
      2002  Q2                  nan
            Q4    34,454,000,000.00
      2003  Q1                  nan
            Q2                  nan
            Q3                  nan
            Q4    38,115,000,000.00
      2004  Q1                  nan
            Q2                  nan
            Q3                  nan
            Q4    38,579,000,000.00
      2005  Q1                  nan
            Q2                  nan
            Q3                  nan
            Q4    40,560,000,000.00
      2006  Q1                  nan
            Q2                  nan
            Q3                  nan
            Q4    44,689,000,000.00
      2007  Q1                  nan
            Q2                  nan
            Q3                  nan
            

In [31]:
df_2008.loc[pd.IndexSlice["システムソフト", :, :], :]["資本的支出"].iloc[0:100]

企業名      会計年度  四半期
システムソフト  1999  Q2               nan
               Q4    143,000,000.00
         2000  Q2      7,000,000.00
               Q4     20,000,000.00
         2001  Q2     26,000,000.00
               Q4     34,000,000.00
         2002  Q2     65,000,000.00
               Q4    101,000,000.00
         2003  Q1      2,000,000.00
               Q2      6,000,000.00
               Q3      5,000,000.00
               Q4      7,000,000.00
         2004  Q1      1,000,000.00
               Q2      5,000,000.00
               Q3      8,000,000.00
               Q4     12,000,000.00
         2005  Q1      8,000,000.00
               Q2      9,000,000.00
               Q3     10,000,000.00
               Q4               nan
         2006  Q1      9,000,000.00
               Q2     26,000,000.00
               Q3     24,000,000.00
               Q4     31,000,000.00
         2007  Q1     36,000,000.00
               Q2     44,000,000.00
               Q3      1,000,000.00
         

In [32]:
df_2008.loc[pd.IndexSlice["ＴＨＫ", :, :], :]["資本的支出"].iloc[0:100]

企業名  会計年度  四半期
ＴＨＫ  1999  Q2                  nan
           Q4     4,857,000,000.00
     2000  Q2     4,009,000,000.00
           Q4    11,076,000,000.00
     2001  Q2     7,647,000,000.00
           Q4     9,226,000,000.00
     2002  Q2     2,578,000,000.00
           Q4     4,759,000,000.00
     2003  Q1     1,624,000,000.00
           Q2     2,500,000,000.00
           Q3     3,802,000,000.00
           Q4     5,105,000,000.00
     2004  Q1     1,774,000,000.00
           Q2     2,663,000,000.00
           Q3     6,001,000,000.00
           Q4     6,963,000,000.00
     2005  Q1     2,712,000,000.00
           Q2     6,989,000,000.00
           Q3     8,524,000,000.00
           Q4    12,520,000,000.00
     2006  Q1     2,601,000,000.00
           Q2     5,386,000,000.00
           Q3     8,845,000,000.00
           Q4    12,848,000,000.00
     2007  Q1    15,305,000,000.00
           Q2     8,995,000,000.00
           Q3    14,327,000,000.00
           Q4    19,618,000,000.00
     

Q4は本決算だから累計かも? --> Q4 < Q2 とかあるので大丈夫なはず

やっぱり四半期報告である以上、報告していない分は時期に含まれている気がするから、年度またいだとしても(つまりQ4の欠損値に対して)次年度を分割して穴埋めする方針で。

In [33]:
# 丸ごと1年欠損している企業をdrop
df_2008 = df_2008.loc[pd.IndexSlice[(recorded_firm_from_2008 - set(whole_miss_capx)), :, :], :]

In [34]:
df_2008.index.get_level_values(0).unique()

Index(['あい　ホールディングス', 'あみやき亭', 'あらた', 'いすゞ自動車', 'いであ', 'いなげや', 'かどや製油',
       'きちりホールディングス', 'きんでん', 'ぐるなび',
       ...
       'ＴＹＫ', 'ＵＡＣＪ', 'ＵＴグループ', 'ＶＴホールディングス', 'ＷＤＢホールディングス', 'ＷＯＷ　ＷＯＲＬＤ',
       'ＷＯＷＯＷ', 'Ｚホールディングス', 'ＺＯＺＯ', 'ｅＢＡＳＥ'],
      dtype='object', name='企業名', length=1430)

ちょうど5の倍数、VRPで割り切れる  
"システムソフト"の欠損が一番多くてバリエーションが多い?っぽいからこいつをうまくできればおっけー

In [35]:
df_2008_copy = df_2008.copy()

In [36]:
df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], :]["資本的支出"]

企業名      会計年度  四半期
システムソフト  1999  Q2               nan
               Q4    143,000,000.00
         2000  Q2      7,000,000.00
               Q4     20,000,000.00
         2001  Q2     26,000,000.00
               Q4     34,000,000.00
         2002  Q2     65,000,000.00
               Q4    101,000,000.00
         2003  Q1      2,000,000.00
               Q2      6,000,000.00
               Q3      5,000,000.00
               Q4      7,000,000.00
         2004  Q1      1,000,000.00
               Q2      5,000,000.00
               Q3      8,000,000.00
               Q4     12,000,000.00
         2005  Q1      8,000,000.00
               Q2      9,000,000.00
               Q3     10,000,000.00
               Q4               nan
         2006  Q1      9,000,000.00
               Q2     26,000,000.00
               Q3     24,000,000.00
               Q4     31,000,000.00
         2007  Q1     36,000,000.00
               Q2     44,000,000.00
               Q3      1,000,000.00
         

In [37]:
# 1企業例
isna_series = df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"].isna()

for i in range(len(isna_series)-1):
    if (isna_series.iloc[i] == True) & (isna_series.iloc[i+1] == False): 
        # i が nan, i+1 が nan じゃないとき、
        ind_non_nan = df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], :].index[i+1]
        print("index of record be divided: ", ind_non_nan)
        print(df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"][i], df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"][i+1])
        num_nan = 0
        ind_nan_list = []
        while isna_series.iloc[i - num_nan]:
            # nan がどのくらい続いていたのかカウントして、
            num_nan += 1
            ind_nan_list.append(df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"].index[i+1 - num_nan])
        print("num nan: ", num_nan)
        print("index of nan: ", ind_nan_list)
        # nan じゃない i+1 を num_nan + 1の分だけ割っておいて、
        divided_value = (df_2008_copy.loc[pd.IndexSlice[ind_non_nan[0], ind_non_nan[1], ind_non_nan[2]], "資本的支出"] / (num_nan+1))
        print("divided value: ", divided_value)
        df_2008_copy.loc[pd.IndexSlice[ind_non_nan[0], ind_non_nan[1], ind_non_nan[2]], "資本的支出"] = divided_value
        for ind_nan in ind_nan_list:
            # nan にも同じ割った値を代入
            df_2008_copy.loc[pd.IndexSlice[ind_nan[0], ind_nan[1], ind_nan[2]], "資本的支出"] = divided_value

index of record be divided:  ('システムソフト', 1999, 'Q4')
nan 143000000.0
num nan:  1
index of nan:  [('システムソフト', 1999, 'Q2')]
divided value:  71500000.0
index of record be divided:  ('システムソフト', 2006, 'Q1')
nan 9000000.0
num nan:  1
index of nan:  [('システムソフト', 2005, 'Q4')]
divided value:  4500000.0
index of record be divided:  ('システムソフト', 2009, 'Q3')
nan 12000000.0
num nan:  4
index of nan:  [('システムソフト', 2009, 'Q2'), ('システムソフト', 2009, 'Q1'), ('システムソフト', 2008, 'Q4'), ('システムソフト', 2008, 'Q3')]
divided value:  2400000.0
index of record be divided:  ('システムソフト', 2011, 'Q2')
nan 944000000.0
num nan:  3
index of nan:  [('システムソフト', 2011, 'Q1'), ('システムソフト', 2010, 'Q4'), ('システムソフト', 2010, 'Q3')]
divided value:  236000000.0
index of record be divided:  ('システムソフト', 2011, 'Q4')
nan 1000000.0
num nan:  1
index of nan:  [('システムソフト', 2011, 'Q3')]
divided value:  500000.0
index of record be divided:  ('システムソフト', 2012, 'Q2')
nan 21000000.0
num nan:  1
index of nan:  [('システムソフト', 2012, 'Q1')]
divided value:  1

In [38]:
df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], :]["資本的支出"]

企業名      会計年度  四半期
システムソフト  1999  Q2     71,500,000.00
               Q4     71,500,000.00
         2000  Q2      7,000,000.00
               Q4     20,000,000.00
         2001  Q2     26,000,000.00
               Q4     34,000,000.00
         2002  Q2     65,000,000.00
               Q4    101,000,000.00
         2003  Q1      2,000,000.00
               Q2      6,000,000.00
               Q3      5,000,000.00
               Q4      7,000,000.00
         2004  Q1      1,000,000.00
               Q2      5,000,000.00
               Q3      8,000,000.00
               Q4     12,000,000.00
         2005  Q1      8,000,000.00
               Q2      9,000,000.00
               Q3     10,000,000.00
               Q4      4,500,000.00
         2006  Q1      4,500,000.00
               Q2     26,000,000.00
               Q3     24,000,000.00
               Q4     31,000,000.00
         2007  Q1     36,000,000.00
               Q2     44,000,000.00
               Q3      1,000,000.00
         

できた!これを全社でループする

In [39]:
# fill nan (devide after equal) for "資本的支出"

for firm in df_2008.index.get_level_values(0).unique():
    isna_series = df_2008.loc[pd.IndexSlice[firm, :, :], "資本的支出"].isna()

    for i in range(len(isna_series)-1):
        if (isna_series.iloc[i] == True) & (isna_series.iloc[i+1] == False): 
            # i が nan, i+1 が nan じゃないとき、
            ind_non_nan = df_2008.loc[pd.IndexSlice[firm, :, :], :].index[i+1]

            num_nan = 0
            ind_nan_list = []
            while isna_series.iloc[i - num_nan]:
                # nan がどのくらい続いていたのかカウントして、
                num_nan += 1
                ind_nan_list.append(df_2008.loc[pd.IndexSlice[firm, :, :], "資本的支出"].index[i+1 - num_nan])
            # nan じゃない i+1 を num_nan + 1の分だけ割っておいて、
            divided_value = (df_2008.loc[pd.IndexSlice[ind_non_nan[0], ind_non_nan[1], ind_non_nan[2]], "資本的支出"] / (num_nan+1))
            df_2008.loc[pd.IndexSlice[ind_non_nan[0], ind_non_nan[1], ind_non_nan[2]], "資本的支出"] = divided_value

            for ind_nan in ind_nan_list:
                # nan にも同じ割った値を代入
                df_2008.loc[pd.IndexSlice[ind_nan[0], ind_nan[1], ind_nan[2]], "資本的支出"] = divided_value
#     print(firm, " done")

In [40]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], "資本的支出"].isna().sum()

13

In [41]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], "資本的支出"][df_2008.loc[pd.IndexSlice[:, 2008:, :], "資本的支出"].isna()]

企業名              会計年度  四半期
あい　ホールディングス      2020  Q4    nan
インテージホールディングス    2020  Q4    nan
オルバヘルスケアホールディング  2020  Q4    nan
ディア・ライフ          2020  Q3    nan
                       Q4    nan
トーア紡コーポレーション     2020  Q4    nan
パイロットコーポレーション    2020  Q4    nan
フルキャストホールディングス   2020  Q4    nan
メック              2020  Q4    nan
日本エスコン           2020  Q4    nan
鈴木               2020  Q4    nan
ＣＩＪ              2020  Q4    nan
ＩＮＰＥＸ            2020  Q4    nan
Name: 資本的支出, dtype: float64

最後の期2020Q4が欠損していたらどうしようもないが、ぶっちゃけテスト期間になるので欠損したままで良い。


とりあえずここまでで一回保存

In [42]:
df_2008.to_csv("./../data/processed/tse1_2008_capx_labor_filled.csv")

In [3]:
df_2008 = pd.read_csv("./../data/processed/tse1_2008_capx_labor_filled.csv", index_col=[0, 1, 2])

* 期中平均株式数［３ヵ月］

In [10]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], [
    '期中平均株式数［累計］', 
    '期中平均株式数［３ヵ月］', 
    '期末発行済株式総数', 
    '自己株式数'
]].isna().mean()

期中平均株式数［累計］    0.01
期中平均株式数［３ヵ月］   0.61
期末発行済株式総数      0.00
自己株式数          0.03
dtype: float64

In [16]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［累計］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［累計］'].isna()
]

企業名          会計年度  四半期
あみやき亭        2013  Q2    nan
あらた          2015  Q1    nan
いすゞ自動車       2014  Q2    nan
きちりホールディングス  2012  Q1    nan
             2013  Q1    nan
                          ..
ＺＯＺＯ         2016  Q2    nan
ｅＢＡＳＥ        2012  Q4    nan
             2017  Q2    nan
             2018  Q4    nan
             2019  Q4    nan
Name: 期中平均株式数［累計］, Length: 885, dtype: float64

In [11]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［３ヵ月］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［３ヵ月］'].isna()
]

企業名          会計年度  四半期
あい　ホールディングス  2008  Q1    nan
             2009  Q1    nan
             2010  Q1    nan
             2011  Q1    nan
                   Q3    nan
                          ..
ｅＢＡＳＥ        2019  Q3    nan
                   Q4    nan
             2020  Q2    nan
                   Q3    nan
                   Q4    nan
Name: 期中平均株式数［３ヵ月］, Length: 45331, dtype: float64

In [18]:
# 累計も3ヶ月も欠損しているレコード
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['期中平均株式数［累計］', '期中平均株式数［３ヵ月］']][
    (df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［累計］'].isna()) & (df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［３ヵ月］'].isna())
]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,期中平均株式数［累計］,期中平均株式数［３ヵ月］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1
あみやき亭,2013,Q2,,
あらた,2015,Q1,,
いすゞ自動車,2014,Q2,,
きちりホールディングス,2012,Q1,,
きちりホールディングス,2013,Q1,,
...,...,...,...,...
ＺＯＺＯ,2016,Q2,,
ｅＢＡＳＥ,2012,Q4,,
ｅＢＡＳＥ,2017,Q2,,
ｅＢＡＳＥ,2018,Q4,,


'期中平均株式数［累計］'の欠損レコード(885個)は'期中平均株式数［３ヵ月］'も必ず欠損している。

In [19]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［累計］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［累計］'].isna()
].index.get_level_values(0)))

c.values()

dict_values([1, 1, 1, 3, 1, 1, 1, 1, 2, 1, 1, 2, 1, 5, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 1, 2, 1, 2, 1, 6, 3, 1, 1, 1, 3, 2, 2, 2, 2, 2, 1, 7, 3, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 2, 4, 2, 1, 1, 1, 1, 2, 1, 1, 1, 4, 1, 2, 4, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 3, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 3, 2, 1, 2, 3, 3, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 1, 2, 1, 2, 1, 3, 3, 1, 1, 1, 1, 5, 1, 1, 2, 1, 1, 1, 2, 2, 1, 1, 4, 2, 2, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 2, 1, 4, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 1, 1, 2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

累計は欠損少ない

In [20]:
c.most_common()[:50]

[('ＣＯＴＡ', 9),
 ('エムスリー', 7),
 ('インフォマート', 6),
 ('ＫＤＤＩ', 6),
 ('ＬＩＦＵＬＬ', 6),
 ('アステラス製薬', 5),
 ('フジオフードグループ本社', 5),
 ('参天製薬', 5),
 ('ガンホー・オンライン・エンター', 4),
 ('クレハ', 4),
 ('グリムス', 4),
 ('プレステージ・インターナショナ', 4),
 ('メンバーズ', 4),
 ('日本たばこ産業', 4),
 ('日本ハム', 4),
 ('日本Ｍ＆Ａセンター', 4),
 ('日進工具', 4),
 ('朝日インテック', 4),
 ('ＧＭＯペイメントゲートウェイ', 4),
 ('ＭｏｎｏｔａＲＯ', 4),
 ('ｅＢＡＳＥ', 4),
 ('きちりホールディングス', 3),
 ('ウェルネット', 3),
 ('エス・エム・エス', 3),
 ('エムティーアイ', 3),
 ('サイバーエージェント', 3),
 ('ジェイエイシーリクルートメント', 3),
 ('ティア', 3),
 ('テクマトリックス', 3),
 ('ディア・ライフ', 3),
 ('ディーブイエックス', 3),
 ('ピーシーデポコーポレーション', 3),
 ('ファンコミュニケーションズ', 3),
 ('リンクアンドモチベーション', 3),
 ('レーザーテック', 3),
 ('伊藤忠テクノソリューションズ', 3),
 ('住友ベークライト', 3),
 ('夢真ビーネックスグループ', 3),
 ('山洋電気', 3),
 ('日本ライフライン', 3),
 ('穴吹興産', 3),
 ('野村総合研究所', 3),
 ('ＪＣＵ', 3),
 ('アイティメディア', 2),
 ('アウトソーシング', 2),
 ('アドソル日進', 2),
 ('アドバンテッジリスクマネジメン', 2),
 ('アバント', 2),
 ('アルプス技研', 2),
 ('アークランドサービスホールディ', 2)]

In [24]:
df_2008.loc[pd.IndexSlice[c.most_common()[1][0], 2008:, :], [
    '期中平均株式数［累計］', 
    '期中平均株式数［３ヵ月］', 
    '期末発行済株式総数', 
    '自己株式数'
]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,期中平均株式数［累計］,期中平均株式数［３ヵ月］,期末発行済株式総数,自己株式数
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
エムスリー,2008,Q1,260928.0,260928.0,260928.0,
エムスリー,2008,Q2,261027.0,261125.0,261270.0,
エムスリー,2008,Q3,261108.0,261270.0,261270.0,
エムスリー,2008,Q4,261176.0,,261666.0,
エムスリー,2009,Q1,261666.0,261666.0,261666.0,
エムスリー,2009,Q2,261678.0,261690.0,261690.0,
エムスリー,2009,Q3,261683.0,261694.0,261696.0,
エムスリー,2009,Q4,261689.0,,261732.0,
エムスリー,2010,Q1,261853.0,261853.0,261984.0,
エムスリー,2010,Q2,261918.0,261984.0,261984.0,


累計の欠損をmeanやffillで埋める(limit=1)なら、この企業はdropする。もしくは期末を使うか。<-- 期末のほうがいいかも

In [28]:
# 累計も'期末発行済株式総数も欠損しているレコード
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['期中平均株式数［累計］', '期末発行済株式総数', '自己株式数']][
    (df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［累計］'].isna()) & (df_2008.loc[pd.IndexSlice[:, 2008:, :], '期末発行済株式総数'].isna())
]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,期中平均株式数［累計］,期末発行済株式総数,自己株式数
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
イトーキ,2008,Q2,,,
グリムス,2008,Q1,,,
システムソフト,2008,Q1,,,
ビーピー・カストロール,2008,Q2,,,
フジオフードグループ本社,2008,Q2,,,
フューチャー,2008,Q2,,,
ラックランド,2008,Q2,,,
大末建設,2014,Q1,,,


累計も期末も欠損しているのはmeanかffillする(期末はffillがいいかもね)

In [12]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［３ヵ月］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '期中平均株式数［３ヵ月］'].isna()
].index.get_level_values(0)))

c.values()

dict_values([33, 33, 34, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 21, 33, 33, 33, 23, 33, 33, 33, 33, 33, 33, 33, 25, 33, 33, 33, 33, 33, 23, 32, 33, 20, 23, 33, 33, 33, 33, 33, 33, 13, 33, 33, 33, 35, 25, 33, 33, 33, 33, 34, 13, 33, 33, 33, 33, 33, 33, 33, 33, 33, 13, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 34, 33, 6, 33, 33, 33, 33, 33, 33, 33, 33, 33, 27, 21, 33, 33, 25, 33, 33, 33, 33, 33, 33, 34, 33, 33, 26, 33, 33, 33, 33, 33, 19, 34, 21, 33, 33, 33, 33, 33, 33, 33, 17, 33, 33, 33, 33, 33, 33, 34, 33, 33, 23, 33, 33, 33, 33, 33, 33, 33, 33, 33, 14, 26, 33, 33, 31, 33, 33, 33, 33, 33, 34, 33, 33, 32, 33, 33, 33, 33, 15, 33, 33, 33, 33, 25, 33, 33, 33, 33, 33, 33, 33, 13, 33, 33, 32, 33, 33, 33, 24, 33, 33, 34, 33, 35, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 33, 27, 33, 33, 33, 13, 33, 33, 13, 33, 33, 33, 33, 21, 33, 33, 33, 33, 33, 33, 32, 33, 32, 33, 33, 32, 33, 33, 25, 33, 33, 33, 33, 33, 33, 33, 33, 34, 33, 33, 33, 33, 33, 33, 33, 

3ヶ月は各社30期ぐらい落ちてる

In [13]:
c.most_common()[:50]

[('ファルコホールディングス', 36),
 ('アバント', 35),
 ('グリムス', 35),
 ('ファンコミュニケーションズ', 35),
 ('三菱食品', 35),
 ('伊藤忠食品', 35),
 ('ＭｏｎｏｔａＲＯ', 35),
 ('あらた', 34),
 ('アルコニックス', 34),
 ('イフジ産業', 34),
 ('エス・エム・エス', 34),
 ('エフ・ジェー・ネクスト', 34),
 ('オプテックスグループ', 34),
 ('ガンホー・オンライン・エンター', 34),
 ('クワザワホールディングス', 34),
 ('サンネクスタグループ', 34),
 ('シークス', 34),
 ('シーティーエス', 34),
 ('シード', 34),
 ('ソフトクリエイトホールディング', 34),
 ('タカラレーベン', 34),
 ('タケエイ', 34),
 ('チノー', 34),
 ('ティア', 34),
 ('テクマトリックス', 34),
 ('ディア・ライフ', 34),
 ('ノジマ', 34),
 ('ビジネスエンジニアリング', 34),
 ('ビジネスブレイン太田昭和', 34),
 ('フクシマガリレイ', 34),
 ('フジオフードグループ本社', 34),
 ('ブルドックソース', 34),
 ('プロトコーポレーション', 34),
 ('ミクシィ', 34),
 ('ミスミグループ本社', 34),
 ('モーニングスター', 34),
 ('ユニカフェ', 34),
 ('大末建設', 34),
 ('東急', 34),
 ('東海理化電機製作所', 34),
 ('藤久', 34),
 ('西日本旅客鉄道', 34),
 ('豊和工業', 34),
 ('野村総合研究所', 34),
 ('ＤＴＳ', 34),
 ('ＧＭＯグローバルサイン・ホール', 34),
 ('ＧＭＯペパボ', 34),
 ('ＪＰホールディングス', 34),
 ('ＫＮＴ－ＣＴホールディングス', 34),
 ('ＵＴグループ', 34)]

In [26]:
df_2008.loc[pd.IndexSlice[c.most_common()[1][0], 2008:, :], [
    '期中平均株式数［累計］', 
    '期中平均株式数［３ヵ月］', 
    '期末発行済株式総数', 
    '自己株式数'
]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,期中平均株式数［累計］,期中平均株式数［３ヵ月］,期末発行済株式総数,自己株式数
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
エムスリー,2008,Q1,260928.0,260928.0,260928.0,
エムスリー,2008,Q2,261027.0,261125.0,261270.0,
エムスリー,2008,Q3,261108.0,261270.0,261270.0,
エムスリー,2008,Q4,261176.0,,261666.0,
エムスリー,2009,Q1,261666.0,261666.0,261666.0,
エムスリー,2009,Q2,261678.0,261690.0,261690.0,
エムスリー,2009,Q3,261683.0,261694.0,261696.0,
エムスリー,2009,Q4,261689.0,,261732.0,
エムスリー,2010,Q1,261853.0,261853.0,261984.0,
エムスリー,2010,Q2,261918.0,261984.0,261984.0,


累計から3ヶ月の求め方

$$\begin{eqnarray}
    NI_{Q} &:& Q四半期3ヶ月の当期純利益 \\
    N_{M} &:& M月末株式数 \ (発行済-自己株) \\
    MN_{Q} &:& Q四半期3ヶ月の期中平均株式数 \\
    CMN_{Q} &:& Q四半期累計の期中平均株式数 \\
    \\
    MN_{Q1}をCMNから求めるときとき \\
    MN_{Q1} &=& CMN_{Q1} \tag{1} \\
    \\
    MN_{Q2}をCMNから求めるときとき \\
    CMN_{Q2} - CMN_{Q1} &=& \frac{N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}}{6} - \frac{N_{4}+N_{5}+N_{6}}{3} \\
        &=& \frac{N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}}{6} - \frac{2N_{4}+2N_{5}+2N_{6}}{6} \\
        &=& \frac{1}{6} (N_{7}+N_{8}+N_{9}) - \frac{1}{6} (N_{4}+N_{5}+N_{6}) \\
        &=& \frac{1}{2} \frac{(N_{7}+N_{8}+N_{9})}{3} - \frac{1}{2} \frac{(N_{4}+N_{5}+N_{6})}{3} \\
        &=& \frac{1}{2} MN_{Q2} - \frac{1}{2} CMN_{Q1} \\
        (&=& \frac{1}{2} MN_{Q2} - \frac{1}{2} MN_{Q1}) \\
    よって
    CMN_{Q2} - CMN_{Q1} &=& \frac{1}{2} MN_{Q2} - \frac{1}{2} CMN_{Q1} \\
    2CMN_{Q2} - 2CMN_{Q1} &=& MN_{Q2} - CMN_{Q1} \\
    MN_{Q2} &=& 2CMN_{Q2} - CMN_{Q1} \tag{2} \\
    \\
    MN_{Q3}をCMNから求めるときとき \\
    CMN_{Q3} - CMN_{Q2} &=& \frac{N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}+N_{10}+N_{11}+N_{12}}{9} - \frac{N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}}{6} \\
        &=& \frac{2N_{4}+2N_{5}+2N_{6}+2N_{7}+2N_{8}+2N_{9}+2N_{10}+2N_{11}+2N_{12}}{18} - \frac{3N_{4}+3N_{5}+3N_{6}+3N_{7}+3N_{8}+3N_{9}}{18} \\
        &=& \frac{1}{9} (N_{10}+N_{11}+N_{12}) - \frac{1}{18} (N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}) \\
        &=& \frac{1}{3} \frac{(N_{10}+N_{11}+N_{12})}{3} - \frac{1}{3} \frac{(N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9})}{6} \\
        &=& \frac{1}{3} MN_{Q3} - \frac{1}{3} CMN_{Q2} \\
    よって
    CMN_{Q3} - CMN_{Q2} &=& \frac{1}{3} MN_{Q3} - \frac{1}{3} CMN_{Q2} \\
    3CMN_{Q3} - 3CMN_{Q2} &=& MN_{Q3} - CMN_{Q2} \\
    MN_{Q3} &=& 3CMN_{Q3} - 2CMN_{Q2} \tag{3} \\
    \\
    MN_{Q4}をCMNから求めるときとき \\
    CMN_{Q4} - CMN_{Q3} &=& \frac{N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}+N_{10}+N_{11}+N_{12}+N_{1}+N_{2}+N_{3}}{12} - \frac{N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}+N_{10}+N_{11}+N_{12}}{9} \\
        &=& \frac{3N_{4}+3N_{5}+3N_{6}+3N_{7}+3N_{8}+3N_{9}+3N_{10}+3N_{11}+3N_{12}+3N_{1}+3N_{2}+3N_{3}}{36} - \frac{4N_{4}+4N_{5}+4N_{6}+4N_{7}+4N_{8}+4N_{9}+4N_{10}+4N_{11}+4N_{12}}{36} \\
        &=& \frac{1}{12} (N_{1}+N_{2}+N_{3}) - \frac{1}{36} (N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}+N_{10}+N_{11}+N_{12}) \\
        &=& \frac{1}{4} \frac{(N_{1}+N_{2}+N_{3})}{3} - \frac{1}{4} \frac{(N_{4}+N_{5}+N_{6}+N_{7}+N_{8}+N_{9}+N_{10}+N_{11}+N_{12})}{9} \\
        &=& \frac{1}{4} MN_{Q4} - \frac{1}{4} CMN_{Q3} \\
    よって
    CMN_{Q4} - CMN_{Q3} &=& \frac{1}{4} MN_{Q4} - \frac{1}{4} CMN_{Q3} \\
    4CMN_{Q4} - 4CMN_{Q3} &=& MN_{Q4} - CMN_{Q3} \\
    MN_{Q4} &=& 4CMN_{Q4} - 3CMN_{Q3} \tag{4} \\
\end{eqnarray}$$

* 四半期EPS

In [4]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['１株当たり利益［３ヵ月］', 
                                         '１株当たり利益［累計］', 
                                         '当期純利益（連結）［累計］', 
                                         '【ＱＴＲ】当期利益', 
                                         '期中平均株式数［累計］', 
                                         '期中平均株式数［３ヵ月］', 
                                         '期末発行済株式総数', 
                                         '自己株式数'
                                        ]].isna().mean()

１株当たり利益［３ヵ月］    0.03
１株当たり利益［累計］     0.01
当期純利益（連結）［累計］   0.20
【ＱＴＲ】当期利益       0.00
期中平均株式数［累計］     0.01
期中平均株式数［３ヵ月］    0.61
期末発行済株式総数       0.00
自己株式数           0.03
dtype: float64

In [5]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], '１株当たり利益［３ヵ月］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '１株当たり利益［３ヵ月］'].isna()
]

企業名          会計年度  四半期
あい　ホールディングス  2008  Q1    nan
あみやき亭        2009  Q3    nan
             2013  Q2    nan
             2020  Q4    nan
あらた          2014  Q1    nan
                          ..
ｅＢＡＳＥ        2012  Q4    nan
             2017  Q2    nan
             2018  Q4    nan
             2019  Q4    nan
             2020  Q4    nan
Name: １株当たり利益［３ヵ月］, Length: 2293, dtype: float64

In [6]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], '１株当たり利益［３ヵ月］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '１株当たり利益［３ヵ月］'].isna()
].index.get_level_values(0)))

c.values()

dict_values([1, 3, 3, 1, 3, 4, 1, 1, 1, 1, 1, 1, 3, 2, 1, 1, 1, 1, 2, 1, 3, 1, 1, 3, 1, 2, 4, 1, 7, 2, 1, 1, 3, 3, 5, 1, 1, 5, 2, 2, 1, 2, 2, 3, 2, 2, 2, 2, 1, 3, 2, 1, 2, 3, 1, 1, 1, 1, 2, 1, 1, 5, 1, 1, 1, 5, 3, 1, 1, 1, 2, 1, 3, 2, 3, 2, 2, 1, 9, 4, 2, 2, 2, 3, 1, 2, 2, 1, 2, 1, 3, 3, 1, 3, 3, 1, 3, 1, 3, 2, 1, 7, 5, 2, 1, 2, 6, 2, 1, 1, 2, 3, 1, 1, 2, 4, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 2, 3, 1, 1, 1, 2, 2, 1, 1, 3, 7, 1, 2, 4, 3, 2, 3, 3, 1, 5, 1, 1, 8, 3, 1, 2, 2, 3, 1, 1, 5, 1, 2, 3, 5, 1, 1, 2, 1, 2, 2, 3, 1, 2, 4, 3, 1, 2, 1, 1, 1, 3, 1, 1, 1, 1, 1, 4, 3, 1, 1, 1, 5, 1, 2, 1, 2, 1, 5, 1, 2, 2, 1, 1, 2, 3, 1, 2, 1, 1, 3, 2, 3, 3, 3, 1, 1, 1, 3, 2, 2, 2, 2, 2, 4, 2, 2, 6, 2, 1, 4, 1, 2, 1, 1, 3, 1, 1, 1, 1, 1, 2, 1, 1, 2, 1, 4, 2, 2, 2, 1, 1, 1, 2, 1, 2, 1, 2, 1, 2, 1, 1, 1, 1, 1, 1, 3, 2, 1, 2, 2, 1, 2, 1, 1, 1, 1, 4, 1, 1, 3, 1, 1, 2, 1, 2, 1, 3, 1, 2, 1, 1, 2, 2, 3, 2, 2, 4, 3, 2, 1, 1, 5, 2, 2, 1, 2, 2, 3, 2, 4, 4, 1, 1, 1, 3, 6, 1, 4, 1, 1, 4, 5, 2, 1, 2, 1, 2, 1, 2, 1, 1, 

各社欠損はあるけど、数は1~5くらいで少ない(10落ちてるやつはある)

In [7]:
c.most_common()[:50]

[('ＣＯＴＡ', 10),
 ('インフォマート', 9),
 ('キーエンス', 8),
 ('アウトソーシング', 7),
 ('エムスリー', 7),
 ('ガンホー・オンライン・エンター', 7),
 ('ファンコミュニケーションズ', 7),
 ('リンクアンドモチベーション', 7),
 ('ＭｏｎｏｔａＲＯ', 7),
 ('エン・ジャパン', 6),
 ('ジェイエイシーリクルートメント', 6),
 ('ディア・ライフ', 6),
 ('フジオフードグループ本社', 6),
 ('ペッパーフードサービス', 6),
 ('住友ゴム工業', 6),
 ('日本たばこ産業', 6),
 ('沖縄電力', 6),
 ('電算', 6),
 ('ＡＧＣ', 6),
 ('ＧＭＯペイメントゲートウェイ', 6),
 ('ＫＤＤＩ', 6),
 ('ＬＩＦＵＬＬ', 6),
 ('アサヒグループホールディングス', 5),
 ('アステラス製薬', 5),
 ('アルプス技研', 5),
 ('アークランドサービスホールディ', 5),
 ('エムティーアイ', 5),
 ('キリンホールディングス', 5),
 ('クレハ', 5),
 ('グリムス', 5),
 ('サイバーエージェント', 5),
 ('サッポロホールディングス', 5),
 ('ティア', 5),
 ('デジタルホールディングス', 5),
 ('トリドールホールディングス', 5),
 ('トーア紡コーポレーション', 5),
 ('ハイパー', 5),
 ('バリューコマース', 5),
 ('パイロットコーポレーション', 5),
 ('ブロンコビリー', 5),
 ('プレステージ・インターナショナ', 5),
 ('ミルボン', 5),
 ('メンバーズ', 5),
 ('住友ベークライト', 5),
 ('内外トランスライン', 5),
 ('参天製薬', 5),
 ('多木化学', 5),
 ('大塚商会', 5),
 ('山洋電気', 5),
 ('日本ライフライン', 5)]

In [8]:
df_2008.loc[pd.IndexSlice[c.most_common()[1][0], 2008:, :], [
    '１株当たり利益［３ヵ月］', 
    '１株当たり利益［累計］', 
    '当期純利益（連結）［累計］', 
    '【ＱＴＲ】当期利益', 
    '期中平均株式数［累計］', 
    '期中平均株式数［３ヵ月］', 
    '期末発行済株式総数', 
    '自己株式数'
]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,１株当たり利益［３ヵ月］,１株当たり利益［累計］,当期純利益（連結）［累計］,【ＱＴＲ】当期利益,期中平均株式数［累計］,期中平均株式数［３ヵ月］,期末発行済株式総数,自己株式数
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
インフォマート,2008,Q1,,4719.16,,97000000.0,36345.0,,36345.0,
インフォマート,2008,Q2,,7363.55,,96000000.0,36345.0,,36345.0,
インフォマート,2008,Q3,,10716.54,,120000000.0,36172.0,,36380.0,1497.0
インフォマート,2008,Q4,2729.09,2729.09,,94000000.0,34672.0,34672.0,36380.0,2000.0
インフォマート,2009,Q1,2806.49,5535.38,,,34525.0,34380.0,36380.0,2000.0
インフォマート,2009,Q2,3021.58,8556.38,,103000000.0,34476.0,34380.0,36380.0,2000.0
インフォマート,2009,Q3,3229.83,11786.29,,112000000.0,34479.0,,36380.0,1445.0
インフォマート,2009,Q4,3111.56,3111.56,,108000000.0,34935.0,34935.0,36380.0,1445.0
インフォマート,2010,Q1,2398.83,5510.39,,84000000.0,34935.0,34935.0,36380.0,1445.0
インフォマート,2010,Q2,2235.11,7745.5,,78000000.0,34935.0,34935.0,36380.0,1445.0


累計EPSを求める際の期中平均株式数も、累計期間中の平均株式数なので、単純に累計EPSの差分をとって3ヶ月EPSにするのは良くなさそう  

今はとりあえず "【ＱＴＲ】当期利益" / "期中平均株式数［３ヵ月］"で代入できるところは代入  
"期中平均株式数［３ヵ月］"が欠損している場合は 月別の"期末発行済株式総数", "自己株式数"を取得して算出。  
どっちにしろ最後のスケーリング処理にも"期中平均株式数［３ヵ月］"を使うので、結局"期中平均株式数［３ヵ月］"の欠損は完璧に埋めないといけない。

In [9]:
# これを代入
df_2008.loc[pd.IndexSlice[c.most_common()[1], 2008:, :], "【ＱＴＲ】当期利益"] / df_2008.loc[pd.IndexSlice[c.most_common()[1], 2008:, :], "期中平均株式数［３ヵ月］"]

企業名      会計年度  四半期
インフォマート  2008  Q1         nan
               Q2         nan
               Q3         nan
               Q4    2,711.12
         2009  Q1         nan
               Q2    2,995.93
               Q3         nan
               Q4    3,091.46
         2010  Q1    2,404.47
               Q2    2,232.72
               Q3         nan
               Q4    2,043.71
         2011  Q1    2,242.41
               Q2    2,639.80
               Q3         nan
               Q4    2,545.81
         2012  Q1         nan
               Q2         nan
               Q3         nan
               Q4       21.45
         2013  Q1         nan
               Q2         nan
               Q3         nan
               Q4        8.23
         2014  Q1         nan
               Q2         nan
               Q3         nan
               Q4        5.09
         2015  Q1         nan
               Q2         nan
               Q3         nan
               Q4        4.53
         2016  Q1    

* 棚卸資産

In [50]:
# 欠損率
df_2008.loc[pd.IndexSlice[:, 2008:, :], "棚卸資産"].isna().mean()

0.0285771920387305

In [51]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], "棚卸資産"][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], "棚卸資産"].isna()
]

企業名    会計年度  四半期
ぐるなび   2016  Q1    nan
             Q2    nan
             Q3    nan
             Q4    nan
       2017  Q1    nan
                    ..
ｅＢＡＳＥ  2011  Q1    nan
             Q2    nan
       2014  Q4    nan
       2018  Q4    nan
       2020  Q4    nan
Name: 棚卸資産, Length: 2125, dtype: float64

In [52]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], "棚卸資産"][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], "棚卸資産"].isna()
].index.get_level_values(0)))

c.values()

dict_values([20, 3, 7, 15, 3, 3, 3, 27, 4, 3, 52, 3, 1, 3, 3, 1, 3, 3, 3, 1, 18, 3, 3, 24, 42, 32, 3, 3, 43, 3, 32, 3, 52, 3, 3, 1, 52, 20, 3, 3, 3, 27, 3, 2, 3, 29, 3, 11, 3, 3, 49, 3, 3, 3, 3, 3, 41, 15, 3, 11, 3, 3, 3, 3, 9, 3, 3, 2, 3, 52, 3, 3, 40, 12, 3, 1, 50, 3, 3, 3, 1, 34, 3, 3, 1, 3, 3, 3, 3, 51, 3, 3, 39, 3, 3, 3, 3, 3, 3, 3, 3, 8, 3, 1, 3, 52, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 3, 37, 1, 3, 3, 3, 3, 3, 52, 3, 50, 3, 3, 3, 52, 3, 3, 3, 3, 3, 36, 3, 3, 3, 3, 3, 3, 3, 52, 3, 3, 3, 3, 3, 3, 3, 19, 3, 3, 1, 39, 3, 52, 3, 3, 46, 52, 3, 3, 1, 3, 3, 3, 52, 2, 2, 3, 1, 2, 47, 52, 22, 29, 3, 3, 3, 3, 1, 3, 28, 3, 3, 3, 1, 3, 3, 3, 11, 3, 2, 1, 10, 11])

In [53]:
c.most_common()[:50]

[('アドバンテッジリスクマネジメン', 52),
 ('クイック', 52),
 ('グリー', 52),
 ('バリューコマース', 52),
 ('京阪神ビルディング', 52),
 ('夢真ビーネックスグループ', 52),
 ('川西倉庫', 52),
 ('日本Ｍ＆Ａセンター', 52),
 ('楽天グループ', 52),
 ('福山通運', 52),
 ('近鉄エクスプレス', 52),
 ('ＧＭＯグローバルサイン・ホール', 52),
 ('リニカル', 51),
 ('ファンコミュニケーションズ', 50),
 ('安田倉庫', 50),
 ('セック', 49),
 ('ＧＭＯインターネット', 47),
 ('渋沢倉庫', 46),
 ('カカクコム', 43),
 ('エムティーアイ', 42),
 ('ディー・エヌ・エー', 41),
 ('パラカ', 40),
 ('三井倉庫ホールディングス', 39),
 ('東海運', 39),
 ('内外トランスライン', 37),
 ('日本石油輸送', 36),
 ('ミクシィ', 34),
 ('エン・ジャパン', 32),
 ('キャリアデザインセンター', 32),
 ('ジェイエイシーリクルートメント', 29),
 ('ＧＭＯペパボ', 29),
 ('ＬＩＦＵＬＬ', 28),
 ('アステリア', 27),
 ('サカイ引越センター', 27),
 ('エムスリー', 24),
 ('ＧＭＯペイメントゲートウェイ', 22),
 ('ぐるなび', 20),
 ('ケイヒン', 20),
 ('朝日ネット', 19),
 ('エックスネット', 18),
 ('アイフィスジャパン', 15),
 ('デジタルアーツ', 15),
 ('ヒューリック', 12),
 ('スカラ', 11),
 ('デジタルホールディングス', 11),
 ('ＵＴグループ', 11),
 ('ｅＢＡＳＥ', 11),
 ('Ｚホールディングス', 10),
 ('ドリームインキュベータ', 9),
 ('中部電力', 8)]

In [54]:
df_2008.loc[pd.IndexSlice[c.most_common()[30][0], 2008:, :], "棚卸資産"]

企業名     会計年度  四半期
ＧＭＯペパボ  2008  Q1     2,000,000.00
              Q2     2,000,000.00
              Q3     3,000,000.00
              Q4              nan
        2009  Q1              nan
              Q2              nan
              Q3     2,000,000.00
              Q4              nan
        2010  Q1              nan
              Q2              nan
              Q3     1,000,000.00
              Q4              nan
        2011  Q1              nan
              Q2              nan
              Q3     1,000,000.00
              Q4              nan
        2012  Q1              nan
              Q2              nan
              Q3              nan
              Q4              nan
        2013  Q1              nan
              Q2              nan
              Q3              nan
              Q4              nan
        2014  Q1              nan
              Q2              nan
              Q3              nan
              Q4              nan
        2015  Q1              

ほぼ欠損がない企業が結構ある。全体欠損率は約3%なので、欠損値は特定企業に集中している (まあその企業を drop すればいいから、むしろうれしい)

欠損処理は mean か ffill. 一応 meanがいいという報告はあるっぽい, 金子 (2003)
fillna(method='mean', limit=4)にしておいて、連続1年欠損があるような企業は埋めずに dropする

* 売掛金

In [159]:
# 欠損率
df_2008.loc[pd.IndexSlice[:, 2008:, :], '受取手形・売掛金／売掛金及びその他の短期債権'].isna().mean()

0.005800274491863277

欠損率自体は非常に小さい. 1%未満

In [160]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], '受取手形・売掛金／売掛金及びその他の短期債権'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '受取手形・売掛金／売掛金及びその他の短期債権'].isna()
]

企業名         会計年度  四半期
あみやき亭       2008  Q1    nan
                  Q2    nan
                  Q3    nan
                  Q4    nan
            2009  Q1    nan
                         ..
ＶＴホールディングス  2018  Q2    nan
                  Q3    nan
Ｚホールディングス   2013  Q1    nan
                  Q2    nan
                  Q3    nan
Name: 受取手形・売掛金／売掛金及びその他の短期債権, Length: 355, dtype: float64

In [161]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], '受取手形・売掛金／売掛金及びその他の短期債権'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '受取手形・売掛金／売掛金及びその他の短期債権'].isna()
].index.get_level_values(0)))

c.values()

dict_values([7, 3, 3, 3, 4, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 3, 3, 1, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 6, 3, 1, 7, 3, 3, 3, 3, 3, 3, 15, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 1, 3, 3, 3, 3])

In [162]:
c.most_common()[:10]

[('学究社', 15),
 ('あみやき亭', 7),
 ('共栄タンカー', 7),
 ('元気寿司', 6),
 ('アステリア', 4),
 ('アイシン', 3),
 ('アイティメディア', 3),
 ('アステラス製薬', 3),
 ('アドバンテスト', 3),
 ('アマダ', 3)]

1企業に欠損が集中しているわけでもない

In [165]:
df_2008.loc[pd.IndexSlice[c.most_common()[1][0], 2008:, :], '受取手形・売掛金／売掛金及びその他の短期債権']

企業名    会計年度  四半期
あみやき亭  2008  Q1              nan
             Q2              nan
             Q3              nan
             Q4              nan
       2009  Q1              nan
             Q2              nan
             Q3              nan
             Q4     4,000,000.00
       2010  Q1     4,000,000.00
             Q2     3,000,000.00
             Q3     3,000,000.00
             Q4     2,000,000.00
       2011  Q1     2,000,000.00
             Q2     1,000,000.00
             Q3     2,000,000.00
             Q4     2,000,000.00
       2012  Q1     2,000,000.00
             Q2     2,000,000.00
             Q3     2,000,000.00
             Q4     2,000,000.00
       2013  Q1     2,000,000.00
             Q2     1,000,000.00
             Q3     2,000,000.00
             Q4     1,000,000.00
       2014  Q1     3,000,000.00
             Q2     2,000,000.00
             Q3     2,000,000.00
             Q4     4,000,000.00
       2015  Q1     5,000,000.00
             Q2     3,000,

最初の方にまとめて欠損しているパターンがいくつかある. 最初の二つまでdrop するか

欠損処理は mean か ffill

* 売上総利益

In [60]:
# 欠損率
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['【ＱＴＲ】売上総利益', "売上総利益［累計］"]].isna().mean()

【ＱＴＲ】売上総利益   0.01
売上総利益［累計］    0.00
dtype: float64

欠損率自体は非常に小さい. 1%未満  
'【ＱＴＲ】売上総利益'が欠損していて、"売上総利益［累計］"の差分で補填できるのであれば補填する

In [61]:
df_2008.loc[pd.IndexSlice["システムソフト", 2008:, :], ['【ＱＴＲ】売上総利益', "売上総利益［累計］"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,【ＱＴＲ】売上総利益,売上総利益［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1
システムソフト,2008,Q1,79000000.0,306000000.0
システムソフト,2008,Q2,153000000.0,459000000.0
システムソフト,2008,Q3,99000000.0,99000000.0
システムソフト,2008,Q4,98000000.0,197000000.0
システムソフト,2009,Q1,,184000000.0
システムソフト,2009,Q2,,317000000.0
システムソフト,2009,Q3,41000000.0,41000000.0
システムソフト,2009,Q4,91000000.0,132000000.0
システムソフト,2010,Q1,24000000.0,156000000.0
システムソフト,2010,Q2,61000000.0,217000000.0


でもよく見ると、この会社はQ3が類型と3ヶ月が一致、つまり12月決算かも?  
--> 6, 9, 12, 3に四半期報告する会社は必ずしも 3月決算ではない  
--> 3月決算に絞るにしても、累計の欠損処理するにしても、会社の決算月(もしくは決算種別フラグ?)のデータが必要!

---
決算種別フラグから、2008年度以降 3月本決算企業とそれ以外(6, 9, 12)を特定  
もしかすると途中で本決算月を変えてるかもしれない

In [68]:
df_2008["決算種別フラグ"].unique()

array([10, 21, 22, 23, 24])

In [85]:
# 3月のレコード数
df_2008[df_2008["決算期（月）"] == 3].shape[0]

30412

In [92]:
# 3月が本決算であるレコード数
df_2008[(df_2008["決算期（月）"] == 3) & (df_2008["決算種別フラグ"] == 10)].shape[0]

26608

In [93]:
# 3月がQ1決算であるレコード数
df_2008[(df_2008["決算期（月）"] == 3) & (df_2008["決算種別フラグ"] == 21)].shape[0]

2447

In [94]:
# 3月がQ2決算であるレコード数
df_2008[(df_2008["決算期（月）"] == 3) & (df_2008["決算種別フラグ"] == 22)].shape[0]

845

In [95]:
# 3月がQ3決算であるレコード数
df_2008[(df_2008["決算期（月）"] == 3) & (df_2008["決算種別フラグ"] == 23)].shape[0]

511

In [96]:
# 3月がQ4決算であるレコード数
df_2008[(df_2008["決算期（月）"] == 3) & (df_2008["決算種別フラグ"] == 24)].shape[0]

1

In [113]:
# 少なくとも2008年度以降 1レコード3月本決算がある企業

df_2008.loc[pd.IndexSlice[:, 2008:, "Q4"], :][
    df_2008.loc[pd.IndexSlice[:, 2008:, "Q4"], "決算種別フラグ"] == 10
].index.get_level_values(0).unique()

Index(['あみやき亭', 'あらた', 'いすゞ自動車', 'いなげや', 'かどや製油', 'きんでん', 'ぐるなび', 'さくらインターネット',
       'たけびし', 'なとり',
       ...
       'ＴＹＫ', 'ＵＡＣＪ', 'ＵＴグループ', 'ＶＴホールディングス', 'ＷＤＢホールディングス', 'ＷＯＷ　ＷＯＲＬＤ',
       'ＷＯＷＯＷ', 'Ｚホールディングス', 'ＺＯＺＯ', 'ｅＢＡＳＥ'],
      dtype='object', name='企業名', length=1246)

このうち、2008/06 ~ 2020\03までの13年度中すべてが3月本決算である企業を特定する

In [142]:
# Q4 が 本決算である企業別割合が100%である企業
mar = (df_2008.loc[pd.IndexSlice[:, 2008:, "Q4"], "決算種別フラグ"] == 10).mean(level=0)[
    (df_2008.loc[pd.IndexSlice[:, 2008:, "Q4"], "決算種別フラグ"] == 10).mean(level=0) == 1
].index.get_level_values(0)

mar


Index(['あみやき亭', 'あらた', 'いすゞ自動車', 'いなげや', 'かどや製油', 'きんでん', 'ぐるなび', 'さくらインターネット',
       'たけびし', 'なとり',
       ...
       'ＴＹＫ', 'ＵＡＣＪ', 'ＵＴグループ', 'ＶＴホールディングス', 'ＷＤＢホールディングス', 'ＷＯＷ　ＷＯＲＬＤ',
       'ＷＯＷＯＷ', 'Ｚホールディングス', 'ＺＯＺＯ', 'ｅＢＡＳＥ'],
      dtype='object', name='企業名', length=1177)

2008/06 ~ 2020\03までの13年度中すべてが3月本決算である企業は この1177 社

In [144]:
df_2008 = df_2008.loc[pd.IndexSlice[mar, :, :], :]

df_2008

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,決算期（年）,決算期（月）,決算期,連結基準フラグ,決算種別フラグ,決算発表日,事業年度開始年月日［３ヵ月］,事業年度終了年月日,１株当たり利益［３ヵ月］,１株当たり利益［累計］,当期純利益（連結）［累計］,【ＱＴＲ】当期利益,棚卸資産,受取手形・売掛金／売掛金及びその他の短期債権,資本的支出,売上総利益［累計］,【ＱＴＲ】売上総利益,販売費及び一般管理費［累計］,法人税等［累計］,法人税・住民税及び事業税合計／当期税金費用［累計］,税金等調整前当期純利益［累計］,税金等調整前当期利益［累計］,【ＱＴＲ】税金等調整前当期利益,１株当たり税引前利益,売上高・営業収益［累計］,【ＱＴＲ】売上高・営業収益,１株当たり売上高,期末従業員数,純資産合計／資本合計,【ＱＴＲ】純資産,１株当たり純資産,期中平均株式数［累計］,期中平均株式数［３ヵ月］,期末発行済株式総数,自己株式数
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1
あみやき亭,1999,Q4,2000,3,2000/03,0,10,,,2000-03-31,,129967.34,,,4000000.00,,151500000.00,1219000000.00,,932000000.00,130000000.00,135000000.00,294000000.00,294000000.00,,231041.26,2024000000.00,,1590569.74,45.00,,,298887.18,,,1285.00,
あみやき亭,2000,Q4,2001,3,2001/03,0,10,,,2001-03-31,,156604.77,,,7000000.00,,151500000.00,2056000000.00,,1544000000.00,225000000.00,237000000.00,496000000.00,496000000.00,,244455.40,3388000000.00,,1669788.07,73.00,,,262689.94,,,2773.00,
あみやき亭,2001,Q2,2001,9,2001/09,0,22,,,2001-09-30,,70231.40,,,7000000.00,,185000000.00,1382000000.00,,1065000000.00,121000000.00,119000000.00,320000000.00,320000000.00,,225749.56,2305000000.00,,1626102.29,90.00,,,352916.19,2835.00,,3074.00,
あみやき亭,2001,Q4,2002,3,2002/03,0,10,,,2002-03-31,,112684.36,,,8000000.00,,520000000.00,2801000000.00,,2243000000.00,219000000.00,239000000.00,551000000.00,551000000.00,,186526.74,4597000000.00,,1556194.99,88.00,,,396428.72,2954.00,,3074.00,
あみやき亭,2002,Q2,2002,9,2002/09,0,22,,,2002-09-30,,28525.07,,,10000000.00,,261000000.00,1716000000.00,,1336000000.00,169000000.00,173000000.00,384000000.00,384000000.00,,102059.80,2709000000.00,,720000.00,100.00,,,180092.65,7525.00,,8548.00,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
ｅＢＡＳＥ,2019,Q4,2020,3,2020/03,1,10,2020-05-15,2020-01-01,2020-03-31,,,904000000.00,440000000.00,1000000.00,965000000.00,15500000.00,2326000000.00,903000000.00,1035000000.00,388000000.00,401000000.00,1292000000.00,1292000000.00,612000000.00,73.05,4441000000.00,1457000000.00,251.09,440.00,4747000000.00,4747000000.00,,,,23582400.00,588016.00
ｅＢＡＳＥ,2020,Q1,2020,6,2020/06,1,21,2020-07-31,2020-04-01,2020-06-30,2.01,2.01,92000000.00,92000000.00,4000000.00,595000000.00,7000000.00,390000000.00,390000000.00,261000000.00,44000000.00,,137000000.00,137000000.00,137000000.00,11.92,882000000.00,882000000.00,76.71,440.00,4590000000.00,4590000000.00,99.52,45988768.00,45988768.00,47164800.00,1176032.00
ｅＢＡＳＥ,2020,Q2,2020,9,2020/09,1,22,2020-10-30,2020-07-01,2020-09-30,3.81,5.82,267000000.00,175000000.00,4000000.00,531000000.00,7000000.00,906000000.00,516000000.00,531000000.00,122000000.00,,390000000.00,390000000.00,253000000.00,16.95,1899000000.00,1017000000.00,82.55,440.00,4785000000.00,4785000000.00,103.69,46007636.00,,47164800.00,1115447.00
ｅＢＡＳＥ,2020,Q3,2020,12,2020/12,1,23,2021-01-29,2020-10-01,2020-12-31,3.07,8.89,409000000.00,142000000.00,5000000.00,541000000.00,14500000.00,1375000000.00,469000000.00,800000000.00,187000000.00,,596000000.00,596000000.00,206000000.00,17.27,2868000000.00,969000000.00,83.09,440.00,4939000000.00,4939000000.00,107.04,46021592.00,,47164800.00,1115447.00


---

'【ＱＴＲ】売上総利益' を "売上総利益［累計］"の差分で補填できるところは補填する

というか累計をすべて差分したほうがいいかも

In [187]:
df_2008[["【ＱＴＲ】売上総利益", "売上総利益［累計］"]][(df_2008["【ＱＴＲ】売上総利益"].notna()) & (df_2008["売上総利益［累計］"].isna())]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,【ＱＴＲ】売上総利益,売上総利益［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1


"【ＱＴＲ】売上総利益"あり、 "売上総利益［累計］"なし、というレコードはないから

In [201]:
# 欠損状況
df_2008.loc[pd.IndexSlice[:, 2008:, :], "売上総利益［累計］"][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], "売上総利益［累計］"].isna()
]

企業名    会計年度  四半期
カカクコム  2016  Q1    nan
             Q2    nan
             Q3    nan
       2017  Q1    nan
             Q2    nan
                    ..
ＫＤＤＩ   2012  Q4    nan
       2013  Q1    nan
             Q2    nan
             Q3    nan
             Q4    nan
Name: 売上総利益［累計］, Length: 104, dtype: float64

In [202]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], "売上総利益［累計］"][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], "売上総利益［累計］"].isna()
].index.get_level_values(0)))

c.values()

dict_values([15, 1, 1, 1, 1, 16, 45, 24])

In [203]:
c.most_common()

[('ＨＯＹＡ', 45),
 ('ＫＤＤＩ', 24),
 ('日本電信電話', 16),
 ('カカクコム', 15),
 ('トリドールホールディングス', 1),
 ('モリテック\u3000スチール', 1),
 ('富士ピー・エス', 1),
 ('日本ライフライン', 1)]

特定の企業に欠損が集中 (drop)

In [208]:
df_2008.loc[pd.IndexSlice[c.most_common()[4][0], 2008:, :], ['【ＱＴＲ】売上総利益', "売上総利益［累計］"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,【ＱＴＲ】売上総利益,売上総利益［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1
トリドールホールディングス,2008,Q1,3818000000.0,3818000000.0
トリドールホールディングス,2008,Q2,4399000000.0,8217000000.0
トリドールホールディングス,2008,Q3,4739000000.0,12956000000.0
トリドールホールディングス,2008,Q4,5280000000.0,18236000000.0
トリドールホールディングス,2009,Q1,6272000000.0,6272000000.0
トリドールホールディングス,2009,Q2,7487000000.0,13759000000.0
トリドールホールディングス,2009,Q3,7521000000.0,21280000000.0
トリドールホールディングス,2009,Q4,7886000000.0,29166000000.0
トリドールホールディングス,2010,Q1,8519000000.0,8519000000.0
トリドールホールディングス,2010,Q2,,


このあたりくらいまでは dropするか  
つまり、fillna(method='mean', limit=1)にしておいて、連続1年欠損があるような企業は埋めずに dropする

In [188]:
# 一企業例
df_2008.loc[pd.IndexSlice["トリドールホールディングス", 2008:, :], ["【ＱＴＲ】売上総利益", "売上総利益［累計］"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,【ＱＴＲ】売上総利益,売上総利益［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1
トリドールホールディングス,2008,Q1,3818000000.0,3818000000.0
トリドールホールディングス,2008,Q2,4399000000.0,8217000000.0
トリドールホールディングス,2008,Q3,4739000000.0,12956000000.0
トリドールホールディングス,2008,Q4,5280000000.0,18236000000.0
トリドールホールディングス,2009,Q1,6272000000.0,6272000000.0
トリドールホールディングス,2009,Q2,7487000000.0,13759000000.0
トリドールホールディングス,2009,Q3,7521000000.0,21280000000.0
トリドールホールディングス,2009,Q4,7886000000.0,29166000000.0
トリドールホールディングス,2010,Q1,8519000000.0,8519000000.0
トリドールホールディングス,2010,Q2,,


In [191]:
df_2008_copy = df_2008.copy()
isna_series = df_2008_copy.loc[pd.IndexSlice["トリドールホールディングス", :, :], "売上総利益［累計］"][
    df_2008_copy.loc[pd.IndexSlice["トリドールホールディングス", :, :], "売上総利益［累計］"].isna()
]

isna_series

企業名            会計年度  四半期
トリドールホールディングス  2010  Q2    nan
Name: 売上総利益［累計］, dtype: float64

In [186]:
"トリドールホールディングス", 2008:, :], ["【ＱＴＲ】売上総利益", "売上総利益［累計］"


isna_series = df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"].isna()

for i in range(len(isna_series)-1):
    if (isna_series.iloc[i] == True) & (isna_series.iloc[i+1] == False): 
        # i が nan, i+1 が nan じゃないとき、
        ind_non_nan = df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], :].index[i+1]
        print("index of record be divided: ", ind_non_nan)
        print(df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"][i], df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"][i+1])
        num_nan = 0
        ind_nan_list = []
        while isna_series.iloc[i - num_nan]:
            # nan がどのくらい続いていたのかカウントして、
            num_nan += 1
            ind_nan_list.append(df_2008_copy.loc[pd.IndexSlice["システムソフト", :, :], "資本的支出"].index[i+1 - num_nan])
        print("num nan: ", num_nan)
        print("index of nan: ", ind_nan_list)
        # nan じゃない i+1 を num_nan + 1の分だけ割っておいて、
        divided_value = (df_2008_copy.loc[pd.IndexSlice[ind_non_nan[0], ind_non_nan[1], ind_non_nan[2]], "資本的支出"] / (num_nan+1))
        print("divided value: ", divided_value)
        df_2008_copy.loc[pd.IndexSlice[ind_non_nan[0], ind_non_nan[1], ind_non_nan[2]], "資本的支出"] = divided_value
        for ind_nan in ind_nan_list:
            # nan にも同じ割った値を代入
            df_2008_copy.loc[pd.IndexSlice[ind_nan[0], ind_nan[1], ind_nan[2]], "資本的支出"] = divided_value

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,【ＱＴＲ】売上総利益,売上総利益［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1
トリドールホールディングス,2008,Q1,3818000000.0,3818000000.0
トリドールホールディングス,2008,Q2,4399000000.0,8217000000.0
トリドールホールディングス,2008,Q3,4739000000.0,12956000000.0
トリドールホールディングス,2008,Q4,5280000000.0,18236000000.0
トリドールホールディングス,2009,Q1,6272000000.0,6272000000.0
トリドールホールディングス,2009,Q2,7487000000.0,13759000000.0
トリドールホールディングス,2009,Q3,7521000000.0,21280000000.0
トリドールホールディングス,2009,Q4,7886000000.0,29166000000.0
トリドールホールディングス,2010,Q1,8519000000.0,8519000000.0
トリドールホールディングス,2010,Q2,,


* 販売費及び一般管理費［累計］

In [209]:
# 欠損率
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['販売費及び一般管理費［累計］']].isna().mean()

販売費及び一般管理費［累計］   0.01
dtype: float64

In [210]:
# 欠損状況
df_2008.loc[pd.IndexSlice[:, 2008:, :], '販売費及び一般管理費［累計］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '販売費及び一般管理費［累計］'].isna()
]

企業名            会計年度  四半期
トリドールホールディングス  2010  Q2    nan
モリテック　スチール     2011  Q4    nan
中国電力           2008  Q1    nan
                     Q2    nan
                     Q3    nan
                            ..
ＨＯＹＡ           2019  Q4    nan
               2020  Q1    nan
                     Q2    nan
                     Q3    nan
                     Q4    nan
Name: 販売費及び一般管理費［累計］, Length: 555, dtype: float64

In [211]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], '販売費及び一般管理費［累計］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '販売費及び一般管理費［累計］'].isna()
].index.get_level_values(0)))

c.values()

dict_values([1, 1, 52, 52, 52, 52, 52, 52, 1, 1, 16, 52, 21, 52, 52, 1, 45])

In [212]:
c.most_common()

[('中国電力', 52),
 ('中部電力', 52),
 ('九州電力', 52),
 ('北海道電力', 52),
 ('北陸電力', 52),
 ('四国電力', 52),
 ('東京電力ホールディングス', 52),
 ('沖縄電力', 52),
 ('関西電力', 52),
 ('ＨＯＹＡ', 45),
 ('東北電力', 21),
 ('日本電信電話', 16),
 ('トリドールホールディングス', 1),
 ('モリテック\u3000スチール', 1),
 ('富士ピー・エス', 1),
 ('日本ライフライン', 1),
 ('電源開発', 1)]

特定の企業に欠損が集中 (drop)

In [217]:
df_2008.loc[pd.IndexSlice[c.most_common()[11][0], 2008:, :], ['販売費及び一般管理費［累計］']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,販売費及び一般管理費［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1
日本電信電話,2008,Q1,1219207000000.0
日本電信電話,2008,Q2,2453577000000.0
日本電信電話,2008,Q3,3747314000000.0
日本電信電話,2008,Q4,5145883000000.0
日本電信電話,2009,Q1,1198565000000.0
日本電信電話,2009,Q2,2424889000000.0
日本電信電話,2009,Q3,3679405000000.0
日本電信電話,2009,Q4,5020932000000.0
日本電信電話,2010,Q1,1203113000000.0
日本電信電話,2010,Q2,2358454000000.0


このあたりくらいまでは dropするか  
つまり、fillna(method='mean', limit=1)にしておいて、連続1年欠損があるような企業は埋めずに dropする

* 法人税

In [221]:
# 欠損率
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['法人税等［累計］', '法人税・住民税及び事業税合計／当期税金費用［累計］']].isna().mean()

法人税等［累計］                    0.00
法人税・住民税及び事業税合計／当期税金費用［累計］   0.27
dtype: float64

In [37]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['法人税等［累計］', '法人税・住民税及び事業税合計／当期税金費用［累計］']][
    (df_2008.loc[pd.IndexSlice[:, 2008:, :], '法人税等［累計］'].isna()) & 
    (df_2008.loc[pd.IndexSlice[:, 2008:, :], '法人税・住民税及び事業税合計／当期税金費用［累計］'].notna())
]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,法人税等［累計］,法人税・住民税及び事業税合計／当期税金費用［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1
アイ・オー・データ機器,2019,Q1,,916000000.0
アツギ,2019,Q2,,91000000.0
アドウェイズ,2008,Q3,,4000000.0
アルプス技研,2011,Q2,,106000000.0
ウェルネット,2010,Q2,,5000000.0
ウッドワン,2016,Q1,,205000000.0
エコナックホールディングス,2013,Q2,,1000000.0
エコナックホールディングス,2015,Q4,,3000000.0
エコナックホールディングス,2017,Q2,,6000000.0
エコナックホールディングス,2017,Q3,,7000000.0


'法人税等［累計］'が欠損して入れも'法人税・住民税及び事業税合計／当期税金費用［累計］'があるレコードもあるから  
'法人税等［累計］'をベースにして、欠損を'法人税・住民税及び事業税合計／当期税金費用［累計］'を代入して補填可能  
--> '法人税等［累計］' !='法人税・住民税及び事業税合計／当期税金費用［累計］' がほとんどなので、やっぱり補填しない方がいいかも

In [38]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['法人税等［累計］', '法人税・住民税及び事業税合計／当期税金費用［累計］']][
    (df_2008.loc[pd.IndexSlice[:, 2008:, :], '法人税等［累計］'].isna()) & 
    (df_2008.loc[pd.IndexSlice[:, 2008:, :], '法人税・住民税及び事業税合計／当期税金費用［累計］'].isna())
]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,法人税等［累計］,法人税・住民税及び事業税合計／当期税金費用［累計］
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1
アイティメディア,2014,Q1,,
アクセル,2019,Q1,,
アステリア,2010,Q1,,
アステリア,2011,Q1,,
アステリア,2012,Q1,,
アドソル日進,2009,Q1,,
アドソル日進,2010,Q1,,
アドソル日進,2011,Q1,,
アドソル日進,2012,Q1,,
インテリジェント　ウェイブ,2012,Q4,,


それでも両方とも欠損してることもあるので、最終的にはmean, ffillか、dropか

* 税引前利益

In [39]:
# 欠損状況
df_2008.loc[pd.IndexSlice[:, 2008:, :], [
    '税金等調整前当期純利益［累計］', 
    '税金等調整前当期利益［累計］',
    '【ＱＴＲ】税金等調整前当期利益', 
    '１株当たり税引前利益']
].isna().mean()

税金等調整前当期純利益［累計］   0.00
税金等調整前当期利益［累計］    0.04
【ＱＴＲ】税金等調整前当期利益   0.04
１株当たり税引前利益        0.01
dtype: float64

In [42]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], [
    '税金等調整前当期純利益［累計］', 
    '税金等調整前当期利益［累計］',
    '【ＱＴＲ】税金等調整前当期利益', 
    '１株当たり税引前利益']][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '税金等調整前当期純利益［累計］'].isna()
]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,税金等調整前当期純利益［累計］,税金等調整前当期利益［累計］,【ＱＴＲ】税金等調整前当期利益,１株当たり税引前利益
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ウェルネット,2009,Q1,,,,
ウェルネット,2010,Q2,,,,0.0
システムソフト,2010,Q1,,,,0.0
ジャムコ,2008,Q2,,,,0.0
スターティアホールディングス,2009,Q3,,,,0.0
ティラド,2009,Q4,,,,0.0
トリドールホールディングス,2010,Q2,,,,0.0
ノーリツ鋼機,2011,Q1,,,,0.0
フォーカスシステムズ,2013,Q1,,,,0.0
フジオフードグループ本社,2008,Q3,,,,


In [43]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], [
    '税金等調整前当期純利益［累計］', 
    '税金等調整前当期利益［累計］',
    '【ＱＴＲ】税金等調整前当期利益', 
    '１株当たり税引前利益']][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '税金等調整前当期純利益［累計］'].isna()
].index.get_level_values(0)))

c.values()

dict_values([2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [44]:
c.most_common()

[('ウェルネット', 2),
 ('システムソフト', 1),
 ('ジャムコ', 1),
 ('スターティアホールディングス', 1),
 ('ティラド', 1),
 ('トリドールホールディングス', 1),
 ('ノーリツ鋼機', 1),
 ('フォーカスシステムズ', 1),
 ('フジオフードグループ本社', 1),
 ('ペッパーフードサービス', 1),
 ('モリテック\u3000スチール', 1),
 ('協栄産業', 1),
 ('大豊建設', 1),
 ('大阪チタニウムテクノロジーズ', 1),
 ('安藤・間', 1),
 ('富士ピー・エス', 1),
 ('廣済堂', 1),
 ('新明和工業', 1),
 ('日本ライフライン', 1),
 ('日本電波工業', 1),
 ('日精樹脂工業', 1),
 ('東洋シヤッター', 1),
 ('高千穂交易', 1),
 ('ＢＥＥＮＯＳ', 1),
 ('ＯＵＧホールディングス', 1)]

In [47]:
df_2008.loc[pd.IndexSlice[c.most_common()[0][0], 2008:, :], [
    '税金等調整前当期純利益［累計］', 
    '税金等調整前当期利益［累計］',
    '【ＱＴＲ】税金等調整前当期利益', 
    '１株当たり税引前利益'
]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,税金等調整前当期純利益［累計］,税金等調整前当期利益［累計］,【ＱＴＲ】税金等調整前当期利益,１株当たり税引前利益
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
ウェルネット,2008,Q1,535000000.0,535000000.0,87000000.0,7005.09
ウェルネット,2008,Q2,200000000.0,200000000.0,200000000.0,10375.73
ウェルネット,2008,Q3,388000000.0,388000000.0,188000000.0,9929.37
ウェルネット,2008,Q4,546000000.0,546000000.0,158000000.0,9274.36
ウェルネット,2009,Q1,,,,
ウェルネット,2009,Q2,217000000.0,217000000.0,,11111.54
ウェルネット,2009,Q3,598000000.0,598000000.0,381000000.0,14782.22
ウェルネット,2009,Q4,1175000000.0,1175000000.0,577000000.0,19136.5
ウェルネット,2010,Q1,3540000000.0,3540000000.0,2365000000.0,
ウェルネット,2010,Q2,,,,0.0


In [None]:
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['税金等調整前当期純利益［累計］',  '１株当たり税引前利益']][
    (df_2008.loc[pd.IndexSlice[:, 2008:, :], '税金等調整前当期純利益［累計］'].isna()) & 
    (df_2008.loc[pd.IndexSlice[:, 2008:, :],  '１株当たり税引前利益'].notna())
]

税引前利益はETRの計算の分母になるので、0はやばい。dropするかも

* 売上高

In [49]:
# 欠損率
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['売上高・営業収益［累計］', '【ＱＴＲ】売上高・営業収益', '１株当たり売上高']].isna().mean()

売上高・営業収益［累計］    0.00
【ＱＴＲ】売上高・営業収益   0.01
１株当たり売上高        0.01
dtype: float64

In [53]:
# 欠損状況
df_2008.loc[pd.IndexSlice[:, 2008:, :], ['売上高・営業収益［累計］', '【ＱＴＲ】売上高・営業収益', '１株当たり売上高']][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '売上高・営業収益［累計］'].isna()
]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,売上高・営業収益［累計］,【ＱＴＲ】売上高・営業収益,１株当たり売上高
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ウェルネット,2009,Q1,,,
トリドールホールディングス,2010,Q2,,,
フジオフードグループ本社,2008,Q3,,,
モリテック　スチール,2011,Q4,,,
三井物産,2016,Q1,,,
...,...,...,...,...,...
豊田通商,2019,Q4,,,
豊田通商,2020,Q1,,,
豊田通商,2020,Q2,,,
豊田通商,2020,Q3,,,


"売上高・営業収益［累計］"の欠損は他のカラムでも欠損しているので補填不可能

In [54]:
c = collections.Counter(list(df_2008.loc[pd.IndexSlice[:, 2008:, :], '売上高・営業収益［累計］'][
    df_2008.loc[pd.IndexSlice[:, 2008:, :], '売上高・営業収益［累計］'].isna()
].index.get_level_values(0)))

c.values()

dict_values([1, 1, 1, 1, 20, 33, 16, 24, 20, 16, 12, 1, 1, 21])

In [55]:
c.most_common()

[('三菱商事', 33),
 ('伊藤忠商事', 24),
 ('豊田通商', 21),
 ('三井物産', 20),
 ('住友商事', 20),
 ('丸紅', 16),
 ('兼松', 16),
 ('双日', 12),
 ('ウェルネット', 1),
 ('トリドールホールディングス', 1),
 ('フジオフードグループ本社', 1),
 ('モリテック\u3000スチール', 1),
 ('富士ピー・エス', 1),
 ('日本ライフライン', 1)]

In [65]:
df_2008.loc[pd.IndexSlice[c.most_common()[7][0], 2008:, :], ['売上高・営業収益［累計］', '【ＱＴＲ】売上高・営業収益', '１株当たり売上高']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,売上高・営業収益［累計］,【ＱＴＲ】売上高・営業収益,１株当たり売上高
企業名,会計年度,四半期,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
双日,2008,Q1,1407178000000.0,1407178000000.0,4562.98
双日,2008,Q2,2905109000000.0,1497931000000.0,4710.14
双日,2008,Q3,4210238000000.0,1305129000000.0,4550.87
双日,2008,Q4,5166182000000.0,955944000000.0,4188.18
双日,2009,Q1,897121000000.0,897121000000.0,2909.29
双日,2009,Q2,1886398000000.0,989277000000.0,3058.73
双日,2009,Q3,2869018000000.0,982620000000.0,3089.77
双日,2009,Q4,3844418000000.0,975400000000.0,3097.14
双日,2010,Q1,958289000000.0,958289000000.0,3063.85
双日,2010,Q2,1965179000000.0,1006890000000.0,3141.55


特定の企業に欠損が集中 (drop)

In [67]:
df_2008.columns

Index(['決算期（年）', '決算期（月）', '決算期', '連結基準フラグ', '決算種別フラグ', '決算発表日',
       '事業年度開始年月日［３ヵ月］', '事業年度終了年月日', '１株当たり利益［３ヵ月］', '１株当たり利益［累計］',
       '当期純利益（連結）［累計］', '【ＱＴＲ】当期利益', '棚卸資産', '受取手形・売掛金／売掛金及びその他の短期債権', '資本的支出',
       '売上総利益［累計］', '【ＱＴＲ】売上総利益', '販売費及び一般管理費［累計］', '法人税等［累計］',
       '法人税・住民税及び事業税合計／当期税金費用［累計］', '税金等調整前当期純利益［累計］', '税金等調整前当期利益［累計］',
       '【ＱＴＲ】税金等調整前当期利益', '１株当たり税引前利益', '売上高・営業収益［累計］', '【ＱＴＲ】売上高・営業収益',
       '１株当たり売上高', '期末従業員数', '純資産合計／資本合計', '【ＱＴＲ】純資産', '１株当たり純資産',
       '期中平均株式数［累計］', '期中平均株式数［３ヵ月］', '期末発行済株式総数', '自己株式数'],
      dtype='object')

欠損処理後、最後に期間を2008Q1~にカットする

## ファンダメンタル会計変数の生成

## Data Preprocessing

データのスケーリング

$$\begin{eqnarray}
    INV &=& \frac{棚卸資産}{普通株式の期中加重平均株式数} \\
    AR &=& \frac{売掛金}{普通株式の期中加重平均株式数} \\
    CAPX &=& \frac{資本的支出}{普通株式の期中加重平均株式数} \\
    GM &=& \frac{売上総利益}{普通株式の期中加重平均株式数} \\
    SA &=& \frac{販売費及び一般管理費}{普通株式の期中加重平均株式数} \\
    ETR &=& 実効税率 \\
    LF &=& \log{労働力} \\
\end{eqnarray}$$