# Pandasについて

In [2]:
# インポート
import pandas as pd
import numpy as np

### 基本

In [12]:
df = pd.DataFrame(np.arange(100).reshape((25, 4)))
# 先頭5行
# df.head()
# 終わり5行
df.tail()

Unnamed: 0,0,1,2,3
20,80,81,82,83
21,84,85,86,87
22,88,89,90,91
23,92,93,94,95
24,96,97,98,99


In [14]:
# サイズを見る
df.shape

(25, 4)

### インデックス名、カラム名

In [15]:
df = pd.DataFrame(np.arange(6).reshape((3,2)))
df

Unnamed: 0,0,1
0,0,1
1,2,3
2,4,5


In [19]:
# 後から指定
df.index = ["01", "02", "03"]
df.columns = ["A", "B"]
df

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [20]:
# 作成時に指定
named_df = pd.DataFrame(np.arange(6).reshape((3,2)),
                       columns=["A列", "B列"],
                       index=["1行","2行","3行"])
named_df

Unnamed: 0,A列,B列
1行,0,1
2行,2,3
3行,4,5


In [21]:
# dict型で作成する
pd.DataFrame({"A列":[0, 2, 4],"B列":[1, 3, 5]})

Unnamed: 0,A列,B列
0,0,1
1,2,3
2,4,5


### データの抽出

In [22]:
df = pd.DataFrame(np.arange(12).reshape((4,3)),
                 columns=["A", "B", "C"],
                 index=["1行目", "2行目", "3行目", "4行目"])
df

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [24]:
# 特定の列を抽出
df["A"]

1行目    0
2行目    3
3行目    6
4行目    9
Name: A, dtype: int32

In [27]:
# 複数列の抽出
df[["A", "B"]]

Unnamed: 0,A,B
1行目,0,1
2行目,3,4
3行目,6,7
4行目,9,10


In [32]:
# インデックス値を指定して行を抽出する
df[:1]

Unnamed: 0,A,B,C
1行目,0,1,2


In [33]:
df.loc[:, :]

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [35]:
# 行と列を指定して抽出する
df.loc[:, "A"]

1行目    0
2行目    3
3行目    6
4行目    9
Name: A, dtype: int32

In [45]:
# インデックス（数値）では指定できない
df.loc["1行目", ["A", "B"]]  # これだとSeries型
df.loc[["1行目"], ["A", "B"]]  # これだとDF型

Unnamed: 0,A,B
1行目,0,1


In [40]:
df.loc[["1行目", "2行目"]]

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5


In [46]:
# インデックスで指定して取り出す
df.iloc[1, 1]

4

In [52]:
# ilocの場合、任意にDF型で取り出すことができない？
df.iloc[1:, 1]

2行目     4
3行目     7
4行目    10
Name: B, dtype: int32

In [56]:
df.iloc[1:, :2]

Unnamed: 0,A,B
2行目,3,4
3行目,6,7
4行目,9,10


### データの読み込み

In [61]:
df = pd.read_csv("data/201704health.csv", encoding="utf-8")
df.head()

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930


In [60]:
df = pd.read_excel("data/201704health.xlsx")
df.head()

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930


In [63]:
# WebサイトのHTMLから表を取得する
url = "https://ja.wikipedia.org/wiki/%E3%83%88%E3%83%83%E3%83%97%E3%83%AC%E3%83%99%E3%83%AB%E3%83%89%E3%83%A1%E3%82%A4%E3%83%B3%E4%B8%80%E8%A6%A7"
tables = pd.read_html(url)
len(tables)

41

In [65]:
df = tables[4]
df

Unnamed: 0,Name,Entity,Explanation,Notes,IDN,DNSSEC,SLD,IPv6
0,.ac,アセンション島,,広く学術的なサイト（大学など）のために用いられる。アセンション島はイギリス領であるが、イギリ...,Yes,Yes,Yes,Yes
1,.ad,アンドラ,,アンドラにおける商標または市民権が必要となる[7][8]。,,Yes,Yes,
2,.ae,アラブ首長国連邦,,,,No,Yes,
3,.af,アフガニスタン,,,,Yes,Yes,
4,.ag,アンティグア・バーブーダ,,AGがドイツの株式会社(Aktiengesellschaft)の略称であることから、非公式に...,,Yes,Yes,
...,...,...,...,...,...,...,...,...
248,.ye,イエメン,,,,No,No,
249,.yt,マヨット島,,欧州連合・スイス・ノルウェー・アイスランド・リヒテンシュタインの個人・企業に限る[cctld...,Yes[cctld 12],Yes,Yes,
250,.za,南アフリカ,Zuid-Afrika (オランダ語),,,No,No,
251,.zm,ザンビア,,,,Yes,Yes[cctld 28],


### データの書き込み

In [66]:
df.to_csv("data/write_data.csv")

In [67]:
df.to_excel("data/write_data.xlsx")

### データの再利用

In [69]:
df.to_pickle("data/write_df.pickle")

In [70]:
df = pd.read_pickle("data/write_df.pickle")
df

Unnamed: 0,Name,Entity,Explanation,Notes,IDN,DNSSEC,SLD,IPv6
0,.ac,アセンション島,,広く学術的なサイト（大学など）のために用いられる。アセンション島はイギリス領であるが、イギリ...,Yes,Yes,Yes,Yes
1,.ad,アンドラ,,アンドラにおける商標または市民権が必要となる[7][8]。,,Yes,Yes,
2,.ae,アラブ首長国連邦,,,,No,Yes,
3,.af,アフガニスタン,,,,Yes,Yes,
4,.ag,アンティグア・バーブーダ,,AGがドイツの株式会社(Aktiengesellschaft)の略称であることから、非公式に...,,Yes,Yes,
...,...,...,...,...,...,...,...,...
248,.ye,イエメン,,,,No,No,
249,.yt,マヨット島,,欧州連合・スイス・ノルウェー・アイスランド・リヒテンシュタインの個人・企業に限る[cctld...,Yes[cctld 12],Yes,Yes,
250,.za,南アフリカ,Zuid-Afrika (オランダ語),,,No,No,
251,.zm,ザンビア,,,,Yes,Yes[cctld 28],


### データの整形

In [73]:
df = pd.read_excel("data/201704health.xlsx")
df.head()

Unnamed: 0,日付,歩数,摂取カロリー
0,2017-04-01,5439,2500
1,2017-04-02,2510,2300
2,2017-04-03,10238,1950
3,2017-04-04,8209,1850
4,2017-04-05,9434,1930


In [75]:
df["歩数"]>=10000
# => df.loc[:, "歩数"] >= 10000

0     False
1     False
2      True
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19     True
20     True
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
Name: 歩数, dtype: bool

In [77]:
df_selected = df[df["歩数"]>=10000]
df_selected

Unnamed: 0,日付,歩数,摂取カロリー
2,2017-04-03,10238,1950
8,2017-04-09,12045,1950
12,2017-04-13,10287,1800
19,2017-04-20,15328,1800
20,2017-04-21,12849,1940


In [78]:
df_selected.shape

(5, 3)

In [80]:
# クエリーで複数条件を指定して抽出
df.query("歩数>=10000 and 摂取カロリー<=1800")

Unnamed: 0,日付,歩数,摂取カロリー
12,2017-04-13,10287,1800
19,2017-04-20,15328,1800


### データ型変換

In [81]:
df.dtypes

日付        object
歩数         int64
摂取カロリー     int64
dtype: object

In [86]:
df.loc[:, "date"] = df.loc[:, "日付"].apply(pd.to_datetime)
df.dtypes

日付                object
歩数                 int64
摂取カロリー             int64
date      datetime64[ns]
dtype: object

In [88]:
df.loc[:, "摂取カロリー"] = df.loc[:, "摂取カロリー"].astype(np.float32)
df.dtypes

日付                object
歩数                 int64
摂取カロリー           float32
date      datetime64[ns]
dtype: object

In [90]:
df = df.set_index("date")
df.head()

Unnamed: 0_level_0,日付,歩数,摂取カロリー
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017-04-01,2017-04-01,5439,2500.0
2017-04-02,2017-04-02,2510,2300.0
2017-04-03,2017-04-03,10238,1950.0
2017-04-04,2017-04-04,8209,1850.0
2017-04-05,2017-04-05,9434,1930.0


### 並び替え