# pandasでデータの読み込み・書き込み
pandasでのデータの取扱から、データの読み込み、書き込みを行います。

## 内容

- シリーズとは
- データフレームとは
- 概要を見る
- インデックス名、カラム名
- データのピックアップ
- データの読み込み (CSV / Excel / HTML / SQL)
- データの書き込み (CSV / Excel)
- データの再利用 (pickle)

In [1]:
import pandas as pd

pandasライブラリのインポート。
as pdとし、pdで呼び出せるようにしています。

In [2]:
import numpy as np

後で、NumPyライブラリを使って、データク作成などを行うのでインポートしておく。

## シリーズとは

In [3]:
ser = pd.Series([10, 20, 30, 40])

In [4]:
ser

0    10
1    20
2    30
3    40
dtype: int64

4要素のシリーズオブジェクトを作って、内容を表示。

シリーズオブジェクトは、1次元のデータ

## データフレームとは

In [5]:
df = pd.DataFrame([[10, "a", True], [20, "b", False,], [30, "c", False], [40, "d", True]])

In [6]:
df

Unnamed: 0,0,1,2
0,10,a,True
1,20,b,False
2,30,c,False
3,40,d,True


4行3列のデータフレームを作って、内容を表示。

データフレームは、2次元データ

## 概要を見る

In [7]:
df = pd.DataFrame(np.arange(100).reshape(25, 4))

NumPyのarangeを使って25行4列のデータを生成し、データフレームを作った

In [8]:
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23
6,24,25,26,27
7,28,29,30,31
8,32,33,34,35
9,36,37,38,39


In [9]:
df.head()

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [10]:
df.tail()

Unnamed: 0,0,1,2,3
20,80,81,82,83
21,84,85,86,87
22,88,89,90,91
23,92,93,94,95
24,96,97,98,99


In [11]:
df.shape

(25, 4)

## インデックス名、カラム名

pandasでは、わかりやすいインデックス名(行に名前付け)やカラム名(列に名前付け)ができます。

In [12]:
df = pd.DataFrame(np.arange(6).reshape([3, 2]))

In [13]:
df

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5


In [14]:
df.columns = ["A", "B"]

In [15]:
df.index = ["01", "02", "03"]

In [16]:
df

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [17]:
named_df = pd.DataFrame(np.arange(6).reshape([3, 2]), columns=["A列", "B列"], index=["1行目", "2行目", "3行目"])

In [18]:
named_df

Unnamed: 0,A列,B列
1行目,0,1
2行目,2,3
3行目,4,5


In [19]:
named_df.index[0] = "11"

TypeError: Index does not support mutable operations

In [20]:
named_df.index = ['11', '12', '13']

In [21]:
named_df

Unnamed: 0,A列,B列
11,0,1
12,2,3
13,4,5


## データのピックアップ

In [22]:
df["A"]

01    0
02    2
03    4
Name: A, dtype: int64

In [23]:
df[["A", "B"]]

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [24]:
df[:2]

Unnamed: 0,A,B
1,0,1
2,2,3


In [25]:
df.loc[:, :]

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [26]:
df.loc[:, "A"]

01    0
02    2
03    4
Name: A, dtype: int64

In [27]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [28]:
df.loc["01", :]

A    0
B    1
Name: 01, dtype: int64

In [29]:
df.loc[["01", "03"], :]

Unnamed: 0,A,B
1,0,1
3,4,5


In [30]:
df.iloc[1, 1]

3

In [31]:
df.iloc[1:, 1]

02    3
03    5
Name: B, dtype: int64

In [32]:
df.iloc[1:, :2]

Unnamed: 0,A,B
2,2,3
3,4,5


## データの読み込み (CSV / Excel / HTML / SQL)

In [33]:
df = pd.read_csv("data/201704health.csv", encoding="utf-8")

In [34]:
df

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930
5,2017-04-06,7593,1800
6,2017-04-07,9320,1940
7,2017-04-08,4873,2300
8,2017-04-09,12045,1950
9,2017-04-10,7493,1850


### Excleデータの読み込み

xlrd ライブラリが必要

```
pip install xlrd
```

In [35]:
df = pd.read_excel("data/201704health.xlsx")

In [36]:
df

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930
5,2017-04-06,7593,1800
6,2017-04-07,9320,1940
7,2017-04-08,4873,2300
8,2017-04-09,12045,1950
9,2017-04-10,7493,1850


### HTML読み込み
PyCampの開催場所データを読み込む
https://www.pycon.jp/support/bootcamp.html

lxml と BeautifulSoup4ライブラリのインストールが必要

```
pip install lxml
pip install BeautifulSoup4
```

macOSの場合
OS側の変更で、OpenSSLを使用しないようになったようで、SSL errorが出る場合があるようです。
Applications/Python 3.6 フォルダにある、`Install Certificates.command` をダブルクリックする必要があるようです。

In [37]:
tables = pd.read_html("https://www.pycon.jp/support/bootcamp.html")

In [38]:
len(tables)

1

In [39]:
df = tables[0]

In [40]:
df

Unnamed: 0,No.,イベント,開催日,会場,講師,参加者,TA,Staff,開催レポート
0,,2016年,,,,,,,
1,1.0,Python Boot Camp in 京都,6月18日(土),CAMPHOR- HOUSE,谷口 英,5名,2.0,1.0,開催レポート
2,2.0,Python Boot Camp in 愛媛,7月30日(土),サイボウズ松山オフィス,寺田 学,12名,2.0,1.0,開催レポート
3,3.0,Python Boot Camp in 熊本,8月28日(日),未来会議室,寺田 学,8名,2.0,1.0,開催レポート
4,4.0,Python Boot Camp in 札幌,11月19日(土),株式会社インフィニットループ,村岡 友介,17名,2.0,1.0,開催レポート
5,,2017年,,,,,,,
6,5.0,Python Boot Camp in 栃木小山,2月11日(土),小山市立生涯学習センター,寺田 学,10名,2.0,1.0,開催レポート
7,6.0,Python Boot Camp in 広島,3月11日(土),中四国マネジメントシステム推進機構,鈴木 たかのり,15名,3.0,1.0,開催レポート
8,7.0,Python Boot Camp in 大阪,4月8日(土),株式会社ソウ,寺田 学,15名,3.0,4.0,開催レポート
9,8.0,Python Boot Camp in 神戸,5月20日(土),株式会社神戸デジタル・ラボ,清水川 貴之,21名,3.0,1.0,開催レポート


### SQL DBからの読み込み
SQLAlchemy が必要。データベースドライバも必要。

```
pip install sqlalchemy
```

In [41]:
from sqlalchemy import create_engine

In [42]:
engine = create_engine('sqlite:///data/sample.sqlite')

In [43]:
df = pd.read_sql_table("names", engine)

In [44]:
df

Unnamed: 0,id,name,age,emal
0,1,寺田,47,terada@example.com
1,2,佐藤,40,sato@example.com
2,3,鈴木,29,suzuki@example.com


## データの書き込み (CSV / Excel)

In [45]:
df

Unnamed: 0,id,name,age,emal
0,1,寺田,47,terada@example.com
1,2,佐藤,40,sato@example.com
2,3,鈴木,29,suzuki@example.com


In [46]:
df.to_csv("data/write_data.csv")

### Excel書き込み

openpyxl ライブラリが必要

```
pip install openpyxl
```

In [47]:
df.to_excel("data/write_data.xlsx")

## データの再利用 (pickle)

データフレームを再利用できるように、Pythonのシリアライズ化の仕組みを使って、ファイルシステムに保存します。

In [48]:
df = pd.DataFrame(np.random.rand(25, 4))

In [49]:
df

Unnamed: 0,0,1,2,3
0,0.502265,0.506615,0.073911,0.934442
1,0.033736,0.765823,0.962033,0.097123
2,0.863137,0.367517,0.526101,0.563238
3,0.666591,0.589653,0.819424,0.779328
4,0.128294,0.302731,0.918204,0.255819
5,0.866347,0.228111,0.171862,0.790774
6,0.4148,0.81077,0.574628,0.492051
7,0.107245,0.838237,0.91667,0.805333
8,0.324012,0.227226,0.919911,0.351835
9,0.036433,0.426265,0.250363,0.639535


In [50]:
df.to_pickle("data/write_df.pickle")

In [51]:
df = pd.DataFrame([[1, 2, 3, 4], [4, 5, 7, 8]])

In [52]:
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,4,5,7,8


In [53]:
df = pd.read_pickle("data/write_df.pickle")

In [54]:
df.head()

Unnamed: 0,0,1,2,3
0,0.502265,0.506615,0.073911,0.934442
1,0.033736,0.765823,0.962033,0.097123
2,0.863137,0.367517,0.526101,0.563238
3,0.666591,0.589653,0.819424,0.779328
4,0.128294,0.302731,0.918204,0.255819


In [55]:
df.shape

(25, 4)