## 証券コードの取得

東証上場銘柄一覧

https://www.jpx.co.jp/markets/statistics-equities/misc/01.html

pandasからExcelファイルを `DataFrame` に読み込む

`read_excel` 関数の引数 `dtype` で指定した列のデータ型を変換

In [1]:
import pandas as pd

url = "https://www.jpx.co.jp/markets/statistics-equities/misc/tvdivq0000001vg2-att/data_j.xls"
listed_companies = pd.read_excel(url, dtype={"コード": str})
listed_companies.head()

Unnamed: 0,日付,コード,銘柄名,市場・商品区分,33業種コード,33業種区分,17業種コード,17業種区分,規模コード,規模区分
0,20201030,1301,極洋,市場第一部（内国株）,50,水産・農林業,1,食品,7,TOPIX Small 2
1,20201030,1305,ダイワ上場投信－トピックス,ETF・ETN,-,-,-,-,-,-
2,20201030,1306,ＮＥＸＴ　ＦＵＮＤＳ　ＴＯＰＩＸ連動型上場投信,ETF・ETN,-,-,-,-,-,-
3,20201030,1308,上場インデックスファンドＴＯＰＩＸ,ETF・ETN,-,-,-,-,-,-
4,20201030,1309,ＮＥＸＴ　ＦＵＮＤＳ　ＣｈｉｎａＡＭＣ・中国株式・上証５０連動型上場投信,ETF・ETN,-,-,-,-,-,-


### strアクセサ

Pythonの `str` 型と同等のメソッドを呼び出せる `Series` のプロパティ

In [2]:
listed_companies["コード"].str

<pandas.core.strings.StringMethods at 0x7fb420185b20>

コード列が01で終わる行を取得

In [3]:
listed_companies["コード"].str.endswith("01")

0        True
1       False
2       False
3       False
4       False
        ...  
4054    False
4055    False
4056    False
4057    False
4058    False
Name: コード, Length: 4059, dtype: bool

`loc` / `iloc` インデクサにはbool値を要素として指定できる

In [4]:
listed_companies_01 = listed_companies.loc[
    listed_companies["コード"].str.endswith("01")
]
listed_companies_01.head()

Unnamed: 0,日付,コード,銘柄名,市場・商品区分,33業種コード,33業種区分,17業種コード,17業種区分,規模コード,規模区分
0,20201030,1301,極洋,市場第一部（内国株）,50,水産・農林業,1,食品,7,TOPIX Small 2
62,20201030,1401,エムビーエス,マザーズ（内国株）,2050,建設業,3,建設・資材,-,-
271,20201030,1801,大成建設,市場第一部（内国株）,2050,建設業,3,建設・資材,4,TOPIX Mid400
368,20201030,2001,日本製粉,市場第一部（内国株）,3050,食料品,1,食品,6,TOPIX Small 1
450,20201030,2201,森永製菓,市場第一部（内国株）,3050,食料品,1,食品,4,TOPIX Mid400


### データを直列化

#### [pickle](https://docs.python.org/ja/3/library/pickle.html)

利点

- コンパクトなバイナリ
- 高速なI/O
- データ型の保持

欠点

- 汎用性がない(Pythonに限定)
- プロトコルの互換性

In [5]:
!mkdir -p data/

`DataFrame` をpickle形式に直列化

In [6]:
listed_companies_01.to_pickle("data/listed_companies_01.pickle")