# pandasでデータの読み込み・書き込み
pandasでのデータの取扱から、データの読み込み、書き込みを行います。

## 内容

- シリーズとは
- データフレームとは
- 概要を見る
- インデックス名、カラム名
- データのピックアップ
- データの読み込み (CSV / Excel / HTML / SQL)
- データの書き込み (CSV / Excel)
- データの再利用 (pickle)

In [1]:
import pandas as pd

pandasライブラリのインポート。
as pdとし、pdで呼び出せるようにしています。

In [2]:
import numpy as np

後で、NumPyライブラリを使って、データク作成などを行うのでインポートしておく。

## シリーズとは

In [3]:
ser = pd.Series([10, 20, 30, 40])

In [4]:
ser

0    10
1    20
2    30
3    40
dtype: int64

4要素のシリーズオブジェクトを作って、内容を表示。

シリーズオブジェクトは、1次元のデータ

## データフレームとは

In [5]:
df = pd.DataFrame([[10, "a", True], [20, "b", False,], [30, "c", False], [40, "d", True]])

In [6]:
df

Unnamed: 0,0,1,2
0,10,a,True
1,20,b,False
2,30,c,False
3,40,d,True


4行3列のデータフレームを作って、内容を表示。

データフレームは、2次元データ

## 概要を見る

In [7]:
df = pd.DataFrame(np.arange(100).reshape(25, 4))

NumPyのarangeを使って25行4列のデータを生成し、データフレームを作った

In [8]:
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23
6,24,25,26,27
7,28,29,30,31
8,32,33,34,35
9,36,37,38,39


In [9]:
df.head()

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [10]:
df.tail()

Unnamed: 0,0,1,2,3
20,80,81,82,83
21,84,85,86,87
22,88,89,90,91
23,92,93,94,95
24,96,97,98,99


In [11]:
df.shape

(25, 4)

## インデックス名、カラム名

pandasでは、わかりやすいインデックス名(行に名前付け)やカラム名(列に名前付け)ができます。

In [12]:
df = pd.DataFrame(np.arange(6).reshape([3, 2]))

In [13]:
df

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5


In [14]:
df.columns = ["A", "B"]

In [15]:
df.index = ["01", "02", "03"]

In [16]:
df

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [17]:
named_df = pd.DataFrame(np.arange(6).reshape([3, 2]), columns=["A列", "B列"], index=["1行目", "2行目", "3行目"])

In [18]:
named_df

Unnamed: 0,A列,B列
1行目,0,1
2行目,2,3
3行目,4,5


## データのピックアップ

In [19]:
df["A"]

01    0
02    2
03    4
Name: A, dtype: int64

In [20]:
df[["A", "B"]]

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [21]:
df[:2]

Unnamed: 0,A,B
1,0,1
2,2,3


In [22]:
df.loc[:, :]

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [23]:
df.loc[:, "A"]

01    0
02    2
03    4
Name: A, dtype: int64

In [24]:
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [25]:
df.loc["01", :]

A    0
B    1
Name: 01, dtype: int64

In [26]:
df.loc[["01", "03"], :]

Unnamed: 0,A,B
1,0,1
3,4,5


In [27]:
df.iloc[1, 1]

3

In [28]:
df.iloc[1:, 1]

02    3
03    5
Name: B, dtype: int64

In [29]:
df.iloc[1:, :2]

Unnamed: 0,A,B
2,2,3
3,4,5


## データの読み込み (CSV / Excel / HTML / SQL)

In [30]:
df = pd.read_csv("data/201704health.csv", encoding="utf-8")

In [31]:
df

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930
5,2017-04-06,7593,1800
6,2017-04-07,9320,1940
7,2017-04-08,4873,2300
8,2017-04-09,12045,1950
9,2017-04-10,7493,1850


### Excleデータの読み込み

xlrd ライブラリが必要

```
pip install xlrd
```

In [32]:
df = pd.read_excel("data/201704health.xlsx")

In [33]:
df

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930
5,2017-04-06,7593,1800
6,2017-04-07,9320,1940
7,2017-04-08,4873,2300
8,2017-04-09,12045,1950
9,2017-04-10,7493,1850


### HTML読み込み
PyCampの開催場所データを読み込む
https://www.pycon.jp/support/bootcamp.html

lxml と BeautifulSoup4ライブラリのインストールが必要

```
pip install lxml
pip install BeautifulSoup4
```

In [34]:
# tables = pd.read_html("https://www.pycon.jp/support/bootcamp.html")
# TODO: 別のサイトを探そう SSLエラーになる。

### SQL DBからの読み込み
SQLAlchemy が必要。データベースドライバも必要。

```
pip install sqlalchemy
```

In [35]:
from sqlalchemy import create_engine

In [36]:
engine = create_engine('sqlite:///data/sample.sqlite')

In [37]:
df = pd.read_sql_table("names", engine)

In [38]:
df

Unnamed: 0,id,name,age,emal
0,1,寺田,47,terada@example.com
1,2,佐藤,40,sato@example.com
2,3,鈴木,29,suzuki@example.com


## データの書き込み (CSV / Excel)

In [39]:
df

Unnamed: 0,id,name,age,emal
0,1,寺田,47,terada@example.com
1,2,佐藤,40,sato@example.com
2,3,鈴木,29,suzuki@example.com


In [40]:
df.to_csv("data/write_data.csv")

### Excel書き込み

openpyxl ライブラリが必要

```
pip install openpyxl
```

In [41]:
df.to_excel("data/write_data.xlsx")

## データの再利用 (pickle)

データフレームを再利用できるように、Pythonのシリアライズ化の仕組みを使って、ファイルシステムに保存します。

In [42]:
df = pd.DataFrame(np.random.rand(25, 4))

In [43]:
df

Unnamed: 0,0,1,2,3
0,0.070103,0.827411,0.198586,0.91114
1,0.407343,0.027904,0.117152,0.429932
2,0.270779,0.833865,0.389846,0.942003
3,0.174392,0.440584,0.117443,0.764292
4,0.472698,0.115547,0.779273,0.356868
5,0.001325,0.246514,0.162025,0.518952
6,0.195728,0.39473,0.37108,0.171592
7,0.953225,0.853459,0.289417,0.151732
8,0.627079,0.834152,0.510489,0.008477
9,0.216993,0.932398,0.930984,0.574764


In [44]:
df.to_pickle("data/write_df.pickle")

In [45]:
df = pd.DataFrame([[1, 2, 3, 4], [4, 5, 7, 8]])

In [46]:
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,4,5,7,8


In [47]:
df = pd.read_pickle("data/write_df.pickle")

In [48]:
df.head()

Unnamed: 0,0,1,2,3
0,0.070103,0.827411,0.198586,0.91114
1,0.407343,0.027904,0.117152,0.429932
2,0.270779,0.833865,0.389846,0.942003
3,0.174392,0.440584,0.117443,0.764292
4,0.472698,0.115547,0.779273,0.356868


In [49]:
df.shape

(25, 4)