# WEB+DB PRESS vol.118 COVID-19 2. Pandasの基本的な使い方を知る

- 参考記事  
Pythonデータ可視化入門
- ショートカット参考リンク  
[Qiita Google Colaboratory コマンド チートシート【jupyter対応】](https://qiita.com/Intel0tw5727/items/7cc68734edd568357a9e)

## Pandasのインストール

In [1]:
import pandas as pd

## Series：1次元のデータ

In [2]:
label = ['a','b','c','d','e']
data = [1,2,3,4,5]
s = pd.Series(data, index=label)

## DataFrame:2次元のデータ

In [5]:
data = {
    'col1':[1,2,3,4,5],
    'col2':[2,3,4,5,6],
    'col3':[3,4,5,6,7]
}
index_name = ['zero','one','two','three','four']
df = pd.DataFrame(data, index=index_name)

## loc属性：ラベル名によるデータ選択

In [12]:
# Series
print(s.loc['b'])
# DataFrame
print(df.loc['one', 'col2'])
print(df.loc['one':'three', :])
print(df.loc[['one', 'four'],['col1', 'col3']])

2
3
       col1  col2  col3
one       2     3     4
two       3     4     5
three     4     5     6
      col1  col3
one      2     4
four     5     7


## iloc属性：位置番号によるデータ選択

In [15]:
# Series
print(s.iloc[1])
# DataFrame
print(df.iloc[1, 1])
print(df.iloc[1:4, :])
print(df.iloc[[1,4], [0,2]])

2
3
       col1  col2  col3
one       2     3     4
two       3     4     5
three     4     5     6
      col1  col3
one      2     4
four     5     7


## 列名：名称によるデータ選択

In [20]:
# Series
print(s['b'])
# DataFrame
print(df['col2'])
print(df[['col1', 'col3']])

2
zero     2
one      3
two      4
three    5
four     6
Name: col2, dtype: int64
       col1  col3
zero      1     3
one       2     4
two       3     5
three     4     6
four      5     7


## データの更新・追加

In [21]:
df.iloc[1, 1] = 111
df.iloc[1:4, 0] = [13, 14, 15]
df.iloc[:, 2] = 0
print(df)

       col1  col2  col3
zero      1     2     0
one      13   111     0
two      14     4     0
three    15     5     0
four      5     6     0


## 行や列の追加

In [23]:
df.loc[5] = 42
df[4] = 4
print(df)

       col1  col2  col3  4
zero      1     2     0  4
one      13   111     0  4
two      14     4     0  4
three    15     5     0  4
four      5     6     0  4
5        42    42    42  4


## Tips：クラスのヘルプ表示方法

In [None]:
help(pd.DataFrame)

## CSVファイルの読み込みと保存

In [27]:
csv_url = 'https://www.customs.go.jp/toukei/shinbun/trade-st/timeseries_202003.csv'
df = pd.read_csv(csv_url, index_col=0, encoding='shift-jis')
print(df.head())
df.to_csv('boueki.csv')

                                         Unnamed: 1 Unnamed: 2
《季節調整値》　（単位：百万円）                                              
Seasonally adjusted data (a million yen)        NaN        NaN
Years/Months                              Exp-Total  Imp-Total
NaN                                             NaN        NaN
2010/04                                     5624812    5045774
2010/05                                     5644861    5167155


## Excelファイルの読み込み

In [34]:
excel_url = 'https://www.mof.go.jp/budget/reference/statistics/01.xls'
excel = pd.ExcelFile(excel_url)
print(excel.sheet_names)
print(len(excel.sheet_names))
df = pd.ExcelFile.parse(excel, sheet_name=excel.sheet_names[3], index_col=0)
df.to_excel('zaimu.xls')
print(df.head())
df = pd.read_excel('zaimu.xls', index_col=0)
print(df)

['1.-1明治・大正', '1.-2昭和元～21年度', '1.-3昭和22～63年度', '1.-4平成', '1.-5令和']
5
    Unnamed: 1    Unnamed: 2 Unnamed: 3  ... Unnamed: 5 Unnamed: 6      （単位：千円）
年度       区　　 分  歳　　　　　　　　　　入        NaN  ...        NaN  備　　　　　　　考        備　　　考
NaN        NaN       予　　算　　額    決　　算　　額  ...    決　　算　　額        NaN          NaN
NaN        NaN           NaN        NaN  ...        NaN        NaN          NaN
平成        暫定予算           NaN        NaN  ...        NaN        NaN          NaN
元年度    　第114国会    2843097334        NaN  ...        NaN        NaN  4月1日～5月20日分

[5 rows x 7 columns]
                               Unnamed: 1    Unnamed: 2  ... Unnamed: 6      （単位：千円）
年度                                  区　　 分  歳　　　　　　　　　　入  ...  備　　　　　　　考        備　　　考
NaN                                   NaN       予　　算　　額  ...        NaN          NaN
NaN                                   NaN           NaN  ...        NaN          NaN
平成                                   暫定予算           NaN  ...        NaN          NaN
元年度 

## Webサイト上の表データの読み込み

- read_htmlで与える引数は表示されている表の件数ではなく、表そのものを指す

In [39]:
html_url = 'http://www.kantei.go.jp/jp/singi/keizaisaisei/miraitoshikaigi/suishinkaigo2018/'
df = pd.read_html(html_url)[5]
print(df.head())

    回数          開催日                           議題・会議資料関係
0  第2回  平成29年12月11日  １．貿易手続等の全体最適化について  ２．裁判手続等のIT化について
1  第2回  平成29年12月11日                      議事次第 配布資料　議事要旨
2  第1回  平成29年11月 7日           法人設立手続きのオンライン・ワンストップ化について
3  第1回  平成29年11月 7日                      議事次第 配布資料 議事要旨
