<a href="https://colab.research.google.com/github/mazarimono/webdb_notebook/blob/master/chapter-2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第2章
## Pandasの使い方

In [1]:
import pandas as pd

### Series

In [2]:
label = ['a', 'b', 'c', 'd', 'e']
data = [1, 2, 3, 4, 5]
s = pd.Series(data, index=label)
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

### DataFrame

In [3]:
data = {
'col1': [1,2,3,4,5],
'col2': [2,3,4,5,6],
'col3': [3,4,5,6,7]
}
index_name = ['zero', 'one', 'two', 'three', 'four']
df = pd.DataFrame(data, index=index_name)
df

Unnamed: 0,col1,col2,col3
zero,1,2,3
one,2,3,4
two,3,4,5
three,4,5,6
four,5,6,7


### loc属性

In [4]:
df.loc['one', 'col2']

3

In [5]:
df.loc['one':'three', :]

Unnamed: 0,col1,col2,col3
one,2,3,4
two,3,4,5
three,4,5,6


In [6]:
df.loc[['one', 'four'], ['col1', 'col3']]

Unnamed: 0,col1,col3
one,2,4
four,5,7


In [7]:
s.loc['b']

2

### iloc属性

In [8]:
df.iloc[1, 1]

3

In [9]:
df.iloc[1:4, :]

Unnamed: 0,col1,col2,col3
one,2,3,4
two,3,4,5
three,4,5,6


In [10]:
df.iloc[[1, 4], [0, 2]]

Unnamed: 0,col1,col3
one,2,4
four,5,7


In [11]:
s.iloc[1]

2

### 名称によるデータ選択

In [12]:
df['col2']

zero     2
one      3
two      4
three    5
four     6
Name: col2, dtype: int64

In [13]:
df[['col1', 'col3']]

Unnamed: 0,col1,col3
zero,1,3
one,2,4
two,3,5
three,4,6
four,5,7


In [14]:
s['b']

2

### データの更新追加

In [15]:
df.iloc[1, 1] = 111
df

Unnamed: 0,col1,col2,col3
zero,1,2,3
one,2,111,4
two,3,4,5
three,4,5,6
four,5,6,7


In [16]:
df.iloc[1:4, 0] = [13,14,15]
df

Unnamed: 0,col1,col2,col3
zero,1,2,3
one,13,111,4
two,14,4,5
three,15,5,6
four,5,6,7


In [17]:
df.iloc[:, 2] = 0
df

Unnamed: 0,col1,col2,col3
zero,1,2,0
one,13,111,0
two,14,4,0
three,15,5,0
four,5,6,0


In [18]:
df.loc[5] = 42
df

Unnamed: 0,col1,col2,col3
zero,1,2,0
one,13,111,0
two,14,4,0
three,15,5,0
four,5,6,0
5,42,42,42


In [19]:
df[4] = 4
df

Unnamed: 0,col1,col2,col3,4
zero,1,2,0,4
one,13,111,0,4
two,14,4,0,4
three,15,5,0,4
four,5,6,0,4
5,42,42,42,4


### データの読み込み保存

In [20]:
## read_csv
csv_url = 'https://www.customs.go.jp/toukei/shinbun/trade-st/timeseries_202003.csv'
df = pd.read_csv(csv_url, index_col=0, encoding='shift-jis')
df.head()

Unnamed: 0_level_0,Unnamed: 1,Unnamed: 2
《季節調整値》　（単位：百万円）,Unnamed: 1_level_1,Unnamed: 2_level_1
Seasonally adjusted data (a million yen),,
Years/Months,Exp-Total,Imp-Total
,,
2010/04,5624812,5045774
2010/05,5644861,5167155


In [22]:
## 保存
!mkdir data
df.to_csv('data/boueki.csv')

In [23]:
df = pd.read_csv('data/boueki.csv')
df.head()

Unnamed: 0,《季節調整値》　（単位：百万円）,Unnamed: 1,Unnamed: 2
0,Seasonally adjusted data (a million yen),,
1,Years/Months,Exp-Total,Imp-Total
2,,,
3,2010/04,5624812,5045774
4,2010/05,5644861,5167155


In [24]:
## read_excel
excel_url = 'https://www.mof.go.jp/budget/reference/statistics/01.xls'
excel = pd.ExcelFile(excel_url)
print(excel.sheet_names)
print(len(excel.sheet_names))

['1.-1明治・大正', '1.-2昭和元～21年度', '1.-3昭和22～63年度', '1.-4平成', '1.-5令和']
5


In [25]:
df = pd.ExcelFile.parse(excel, sheet_name=excel.sheet_names[3], index_col=0)
df.head()

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,（単位：千円）
年度,区 分,歳 入,,歳 出,,備 考,備 考
,,予 算 額,決 算 額,予 算 額,決 算 額,,
,,,,,,,
平成,暫定予算,,,,,,
元年度,第114国会,2843097334,,9224545254,,,4月1日～5月20日分


In [26]:
## ファイルの保存
df.to_excel('data/zaimu.xls')

In [27]:
df = pd.read_excel('data/zaimu.xls', index_col=0)
df.head()

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,（単位：千円）
年度,区 分,歳 入,,歳 出,,備 考,備 考
,,予 算 額,決 算 額,予 算 額,決 算 額,,
,,,,,,,
平成,暫定予算,,,,,,
元年度,第114国会,2843097334,,9224545254,,,4月1日～5月20日分


In [28]:
html_url = 'http://www.kantei.go.jp/jp/singi/keizaisaisei/miraitoshikaigi/suishinkaigo2018/'
df = pd.read_html(html_url)[5]
df.head()

Unnamed: 0,回数,開催日,議題・会議資料関係
0,第6回,令和元年11月25日,組織の変革とオープンイノベーションの推進―内部の経営資源の新たな分野への投資の促進に向けて―
1,第6回,令和元年11月25日,議事次第 配布資料 議事要旨
2,第5回,令和元年10月31日,組織の変革とオープンイノベーションの推進―内部の経営資源の新たな分野への投資の促進に向けて―
3,第5回,令和元年10月31日,議事次第 配布資料 議事要旨
4,第4回,平成31年4月5日,産学融合によるイノベーションの創出について
