# pandas 101

pandasを書籍『Pythonによるデータ分析の教科書』に沿って学ぶ。


In [1]:
!pip list | grep -e "pandas" -e "numpy"

numpy                              1.15.4   
numpydoc                           0.8.0    
pandas                             0.24.1   


In [2]:
# Pandasの準備
import pandas as pd

## Series

In [31]:
# 1次元データ Series
ser = pd.Series([10, 20, 30, 40])
ser

0    10
1    20
2    30
3    40
dtype: int64

## DataFrame

In [32]:
# 2次元データ DataFrame
df = pd.DataFrame([[10, "a", True],
                  [20, "b", False],
                  [30, "c", False],
                  [40, "d", True]])

df

Unnamed: 0,0,1,2
0,10,a,True
1,20,b,False
2,30,c,False
3,40,d,True


In [26]:
# numpyの
import numpy as np
df = pd.DataFrame(np.arange(100).reshape((25, 4)))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23
6,24,25,26,27
7,28,29,30,31
8,32,33,34,35
9,36,37,38,39


In [25]:
# 最初・最後からN行を表示
print("------------ df.head() ------------")
print(df.head())
print("------------ df.tail() ------------")
print(df.tail())

------------ df.head() ------------
    A  B
01  0  1
02  2  3
03  4  5
------------ df.tail() ------------
    A  B
01  0  1
02  2  3
03  4  5


In [23]:
# DataFrameの型を知る
df.shape

(3, 2)

In [22]:
# Index名、Column名は自分でつけることができる
df = pd.DataFrame(np.arange(6).reshape((3, 2)))
df.index= ["01", "02", "03"]
df.columns = ["A", "B"]
df

Unnamed: 0,A,B
1,0,1
2,2,3
3,4,5


In [21]:
# DataFrame生成時にIndex/Column名をつけることもできる
df = pd.DataFrame(np.arange(8).reshape((4, 2)),
                 columns=["A列", "B列"],
                 index=["1行目", "2行目", "3行目", "4行目"])
df

Unnamed: 0,A列,B列
1行目,0,1
2行目,2,3
3行目,4,5
4行目,6,7


In [20]:
# dict型のデータからDataFrameを作る
pd.DataFrame({"A列": [1, 2, 3], "B列": [6, 7, 8]})

Unnamed: 0,A列,B列
0,1,6
1,2,7
2,3,8


## DataFrameからデータ抽出

In [33]:
# データの抽出
df = pd.DataFrame(np.arange(12).reshape((4, 3)),
                 columns=["A", "B", "C"],
                 index=["1行目", "2行目", "3行目", "4行目"])
df

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [34]:
# 単一カラムを指定. 1次元のデータなので、Series型になる
df["A"]

1行目    0
2行目    3
3行目    6
4行目    9
Name: A, dtype: int64

In [35]:
# 複数カラムを指定して抽出
df[["A", "B"]]

Unnamed: 0,A,B
1行目,0,1
2行目,3,4
3行目,6,7
4行目,9,10


In [36]:
# もちろんIndexを指定して抽出もできr
df[:2]

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5


In [37]:
# 引数にlistを渡すのではなく、メソッドを使って抽出
df.loc[:, :]  # 全部

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5
3行目,6,7,8
4行目,9,10,11


In [38]:
# locメソッドは .loc[行, 列] のインデックスを指定
df.loc[:, "A"]

1行目    0
2行目    3
3行目    6
4行目    9
Name: A, dtype: int64

In [40]:
# = df[["A", "B"]]
df.loc[:, ["A", "B"]]

Unnamed: 0,A,B
1行目,0,1
2行目,3,4
3行目,6,7
4行目,9,10


In [41]:
# Index方向に抽出
df.loc["3行目", :]

A    6
B    7
C    8
Name: 3行目, dtype: int64

In [42]:
# もちろんIndex方向の抽出で複数条件を指定することも可能
df.loc[["1行目", "2行目"], :]

Unnamed: 0,A,B,C
1行目,0,1,2
2行目,3,4,5


In [44]:
# Index/Column両方の条件を指定してDataFrameを抽出
df.loc[["4行目"], ["B", "C"]]

Unnamed: 0,B,C
4行目,10,11


In [45]:
# 位置のIndexを直接指定して抽出するときは、iloc メソッドを使う
df.iloc[1, 1]

4

In [46]:
df.iloc[1:, 1]

2行目     4
3行目     7
4行目    10
Name: B, dtype: int64