### pandasライブラリー
pandasライブラリーは，データ分析の中核をなすモジュールです．ここにはデータ分析に適したデータ構造とそれを扱う分析ツールで構成されています．
私たちは贅沢にもこのデータサイエンス向けのモジュールを一般のオフィス業務に活用します．
pandasが提供するデータ構造にSeriesとDataFrameがあります．私たちは普段扱うデータをDataFrameに格納します．DataFrameを使うことによって，表計算ソフトやデータベースのような機能を手にすることができます．
そして一度正しい使い方を学習すれば，決して難しいものではありません．

pandasを使うには，次のimport文を実行します．

> <font color=green>import</font> pandas <font color=green>as</font> pd

このpandasの別名のpdについても慣用的に使われますので，そのまま踏襲しましょう．

In [1]:
import pandas as pd

*****
#### Seriesオブジェクト
Seriesオブジェクトは，インデックス付きの配列構造になっています．辞書配列に似ていますが，辞書配列を高機能にしたものと考えても良いでしょう．
Seriesオブジェクトを生成するには，pandas.Series()関数にリスト配列あるいは辞書配列を渡します．

> <font color=green>pandas.Series</font>(*data_list*)

例として，次のようにSeriesオブジェクトを生成します．
```Python
mySeries = pd.Series([10,20,30,40])
mySeries
```

In [2]:
mySeries = pd.Series([10,20,30,40])
mySeries

0    10
1    20
2    30
3    40
dtype: int64

生成されたSeriesオブジェクトの表記が2列になっていますが，左側の列が自動で付けられたインデックスになります．自動のインデックスは0からスタートする整数となります．
インデックスそindex属性によって参照することができます．
```Python
mySeries.index
```

In [3]:
mySeries.index

RangeIndex(start=0, stop=4, step=1)

配列値はvalues属性によって参照することができます．
```Python
mySeries.values
```

In [4]:
mySeries.values

array([10, 20, 30, 40], dtype=int64)

Seriesオブジェクト内の値については，リスト配列と同様に角括弧の中にインデックスを指定することによって参照や変更を行うことができます．
```Python
mySeries[2]
```

In [5]:
mySeries[2]

30

値を変更する例です．
```Python
mySeries[2] = 33
mySeries
```

In [6]:
mySeries[2] = 33
mySeries

0    10
1    20
2    33
3    40
dtype: int64

インデックスが連続する部分については，変数名の後に[m:n]を付けて参照します．
```Python
mySeries[2:4]
```

In [7]:
mySeries[2:4]

2    33
3    40
dtype: int64

今度は辞書配列を元にしてSeriesオブジェクトを生成してみましょう．
```Python
ourSeries = pd.Series({'Jan':31,'Feb':29,'Mar':31,'Apr':30,'May':31})
ourSeries
```

In [8]:
ourSeries = pd.Series({'Jan':31,'Feb':29,'Mar':31,'Apr':30,'May':31})
ourSeries

Apr    30
Feb    29
Jan    31
Mar    31
May    31
dtype: int64

既存のインデックスを指定して値を変更したり，存在しないインデックスを指定して値を追加することができます．
```Python
ourSeries['Feb'] = 28  # update
ourSeries['Jun'] = 30  # addition
ourSeries
```

In [9]:
ourSeries['Feb'] = 28  # update
ourSeries['Jun'] = 30  # addition
ourSeries

Apr    30
Feb    28
Jan    31
Mar    31
May    31
Jun    30
dtype: int64

Seriesオブジェクトは，DataFrameオブジェクトの基礎にもなっています．それではDetaFrameオブジェクトについて学習していきましょう．

*****
#### DataFrameオブジェクト
DataFrameオブジェクトは，Excelなどのスプレッドシートのデータ構造を実現しています．
従いまして，これまでスプレッドシートで行っていた作業をPythonに移植することが可能となります．
スプレッドシートによる作業の問題点は，データの変更履歴が残らないことです．何かの間違いがあっても発見することが難しく，また同じ作業を他人に肩代わりしてもらうことも困難になります．
Jupyter notebook上でDataFrameを操作することにより，その作業が同時に文書化されます．
オフィス業務にJupyter notebookが標準で使われるようになれば，そのメリットがさらに大きくなります．

DataFrameオブジェクトの生成には，pandas.DataFrame()関数に引数としてデータを渡すことに用って実現します．
DataFrameは行ラベルと列ラベルを持ちます．行ラベルは上下方向に付けるユニークなインデックスです．一般的には観測対象ごとにデータ行を増やしていくので行ラベルは各観測対象のIDにします．一方、列方向には各種属性データを展開するので，列ラベルは変量の名称にします．

ここで一つのサンプルデータを扱ってみましょう．このデータは5名の性別，年齢，血液型を記録しています．行ラベルは，左端の'person'でp001からp005とユニークなIDになっています．列ラベルは各変量の名称を英語にしたものになっています．

| person | gender | age | blood |
| :---: | :---: | :---: | :---: |
| p001 | female | 30 | A |
| p002 | female | 56 | O |
| p003 | female | 40 | A |
| p004 | male   | 36 | O |
| p005 | female | 25 | O |

元になるリストの2重配列を次のように定義します．
```Python
sampleData = {'gender':['female','female','female','male','female'],
              'age':[30,56,40,36,25],
              'blood':['A','O','A','O','O']}
```

In [10]:
sampleData = {'gender':['female','female','female','male','female'],
              'age':[30,56,40,36,25],
              'blood':['A','O','A','O','O']}

ここでは，元となるデータを辞書配列に記録します．辞書のキーが列ラベルになっています．辞書の値としてリストを記載することにより各変量の値を明示します．この辞書データには行ラベルになる情報が入っていませんが，DataFrameを生成するときに別途与えます．
DataFrameを生成する関数は次の通りです．

> <font color=green>pandas.DataFrame</font>(*whole_data*, <font color=green>columens</font>=*clomn_list*, <font color=green>index</font>=*index_list*)

ここで，引数の「columns」は列方向の並び順を定めています．
それではsampleDataを用いて新しい変数sampleDataFrameを定義します．
```Python
sampleDataFrame = pd.DataFrame(sampleData,columns=['gender','age','blood'],index=['p001','p002','p003','p004','p005'])
sampleDataFrame
```

In [11]:
sampleDataFrame = pd.DataFrame(sampleData,columns=['gender','age','blood'],index=['p001','p002','p003','p004','p005'])
sampleDataFrame

Unnamed: 0,gender,age,blood
p001,female,30,A
p002,female,56,O
p003,female,40,A
p004,male,36,O
p005,female,25,O


##### 行の参照
DataFrameのある行だけを取り出すときは，次のように幾つかの方法があります.
<font color=blue>
> sampleDataFrame.loc['p003']<br>
> sampleDataFrame.iloc[2]
</font>
ここでは，最初の記載方法を確認します．
```Python
sampleDataFrame.loc['p003']
```

In [12]:
sampleDataFrame.loc['p003']

gender    female
age           40
blood          A
Name: p003, dtype: object

##### 列の参照
DataFrameのある列だけを取り出したいときは次のように幾つかの方法があります．
<font color=blue>
> sampleDataFrame.age<br>
> sampleDataFrame['age']<br>
> sampleDataFrame.loc[:,'age']
</font>
最初の方法を利用するために変量の名称を英語にした方が便利なことが理解できます．
```Python
sampleDataFrame.age
```

In [13]:
sampleDataFrame.age

p001    30
p002    56
p003    40
p004    36
p005    25
Name: age, dtype: int64

##### ピンポイントの参照
さらにピンポイントで一つのデータを参照したい場合は次のようにします．
```Python
sampleDataFrame.age['p003']
```

In [14]:
sampleDataFrame.age['p003']

40

##### ピンポイントの変更
その値を変更したい場合は，通常の代入文と同じように記述すると「 A value is trying to be set on a copy of a slice from a DataFrame」というワーニングが発生します．

> <font color=red>sampleDataFrame.age['p003'] = 41</font>

これを回避するには，代わりにloc()メソッドでインデックスを指定して値の代入を実施すると無条件に実行されます．

> <font color=blue>sampleDataFrame.loc['p003','age'] = 41</font>

このように実施します．
```Python
sampleDataFrame.loc['p003','age'] = 41
sampleDataFrame
```

In [15]:
sampleDataFrame.loc['p003','age'] = 41
sampleDataFrame

Unnamed: 0,gender,age,blood
p001,female,30,A
p002,female,56,O
p003,female,41,A
p004,male,36,O
p005,female,25,O


##### 列の追加
データフレームに新しい列を追加するには，新しい列ラベルを各括弧で指定してリスト配列を代入します．
```Python
sampleDataFrame['height'] = [152.7,155.3,157.3,165.5,161.2]
sampleDataFrame
```

In [16]:
sampleDataFrame['height'] = [152.7,155.3,157.3,165.5,161.2]
sampleDataFrame

Unnamed: 0,gender,age,blood,height
p001,female,30,A,152.7
p002,female,56,O,155.3
p003,female,41,A,157.3
p004,male,36,O,165.5
p005,female,25,O,161.2


##### 行の追加
データフレームに行を追加する場合には，同じ列の構造を持った別のデータフレームを作成して，append()メソッドによって追加します．
ただし，append()メソッドは元のデータを変更するのではなく，新しいオブジェクトを生成することに注意してください．

まずは追加するデータフレームを定義します．
```Python
addData = {'gender':'female','age':23,'blood':'B','height':162.7}
addDataFrame = pd.DataFrame(addData,columns=['gender','age','blood','height'],index=['p006'])
addDataFrame
```

In [17]:
addData = {'gender':'female','age':23,'blood':'B','height':162.7}
addDataFrame = pd.DataFrame(addData,columns=['gender','age','blood','height'],index=['p006'])
addDataFrame

Unnamed: 0,gender,age,blood,height
p006,female,23,B,162.7


append()メソッドによってデータフレームsampleDataFrameに追加します．
```Python
sampleDataFrame = sampleDataFrame.append(addDataFrame)
sampleDataFrame
```

In [18]:
sampleDataFrame = sampleDataFrame.append(addDataFrame)
sampleDataFrame

Unnamed: 0,gender,age,blood,height
p001,female,30,A,152.7
p002,female,56,O,155.3
p003,female,41,A,157.3
p004,male,36,O,165.5
p005,female,25,O,161.2
p006,female,23,B,162.7


##### 行の削除
行を削除するには，drop()メソッドの引数にインデックスである行ラベルの値を渡します．
ただし，drop()メソッドは，元のデータフレームを変更しません．新しいオブジェクトが生成されるので，別の変数名に代入します．
```Python
df2 = sampleDataFrame.drop('p004')
df2
```

In [19]:
df2 = sampleDataFrame.drop('p004')
df2

Unnamed: 0,gender,age,blood,height
p001,female,30,A,152.7
p002,female,56,O,155.3
p003,female,41,A,157.3
p005,female,25,O,161.2
p006,female,23,B,162.7


##### 列の削除
列の削除にもdrop()メソッドを使用します．ただし，第2引数に「axis=1」を明記します．これにより列の削除が指定されます．引数axisのデフォルト値は0で行の削除がデフォルトになっています.
```Python
df3 = df2.drop('gender',axis=1)
df3
```

In [20]:
df3 = df2.drop('gender',axis=1)
df3

Unnamed: 0,age,blood,height
p001,30,A,152.7
p002,56,O,155.3
p003,41,A,157.3
p005,25,O,161.2
p006,23,B,162.7


念のためにsampleDataFrameの中身を確認すると，行や列は削除されていません．
```Python
sampleDataFrame
```

In [21]:
sampleDataFrame

Unnamed: 0,gender,age,blood,height
p001,female,30,A,152.7
p002,female,56,O,155.3
p003,female,41,A,157.3
p004,male,36,O,165.5
p005,female,25,O,161.2
p006,female,23,B,162.7


##### 行のインデックスによる絞り込み
行をインデックスで絞り込みたいときは，インデックスを範囲で指定します．
```Python
sampleDataFrame['p002':'p004']
```

In [22]:
sampleDataFrame['p002':'p004']

Unnamed: 0,gender,age,blood,height
p002,female,56,O,155.3
p003,female,41,A,157.3
p004,male,36,O,165.5


##### 行の値による絞り込み
行をどれかの変数の値によって絞り込みたい場合は，角括弧内で条件文を記載します．
```Python
sampleDataFrame[sampleDataFrame.blood=='O']
```

In [23]:
sampleDataFrame[sampleDataFrame.blood=='O']

Unnamed: 0,gender,age,blood,height
p002,female,56,O,155.3
p004,male,36,O,165.5
p005,female,25,O,161.2


##### 値によるソート
データフレームを値によってソートする場合は，sort_values()メソッドを使用します．
sort_values()メソッドの結果は新しいオブジェクトとして生成され，元のデータフレームは変更させません．
どの変量によってソートするかは引数「by」によって明示します．
```Python
sampleDataFrame.sort_values(by='age')
```

In [24]:
sampleDataFrame.sort_values(by='age')

Unnamed: 0,gender,age,blood,height
p006,female,23,B,162.7
p005,female,25,O,161.2
p001,female,30,A,152.7
p004,male,36,O,165.5
p003,female,41,A,157.3
p002,female,56,O,155.3


ソートはデフォルトで昇順となります．降順にしたい場合は引数として「ascending=False」を追加します．
```Python
sampleDataFrame.sort_values(by='age',ascending=False)
```

In [25]:
sampleDataFrame.sort_values(by='age',ascending=False)

Unnamed: 0,gender,age,blood,height
p002,female,56,O,155.3
p003,female,41,A,157.3
p004,male,36,O,165.5
p001,female,30,A,152.7
p005,female,25,O,161.2
p006,female,23,B,162.7


複数の変数によるソートを行う場合は，by引数を配列にします．昇順降順の組み合わせについてもascending引数を真偽値リストとして渡します．
```Python
sampleDataFrame.sort_values(by=['blood','age'],ascending=[False,True])
```

In [26]:
sampleDataFrame.sort_values(by=['blood','age'],ascending=[False,True])

Unnamed: 0,gender,age,blood,height
p005,female,25,O,161.2
p004,male,36,O,165.5
p002,female,56,O,155.3
p006,female,23,B,162.7
p001,female,30,A,152.7
p003,female,41,A,157.3


*****
#### データフレームの四則演算
DataFrameは行と列で構成されるので行列ににていますが，値に数値以外のデータを保有することができ，行列にはない柔軟性をもっています．
DataFrameに対して四則演算も定義されていますが，基本的には項目ごとの四則演算になります．しかし，演算する2つのオブジェクトが同じサイズのDataFrameでない場合の挙動についても知っておく必要があります．
四則演算は数値における二項演算子で表すこともできますが，サイズの異なる変則ケースに対応するためにメソッドで補足の引数を渡します．

| 演算   | メソッド | 二項演算子 | 説明 |
| :---:  | :---: | :---: | :---: |
| 足し算 | add | + | 要素ごとの足し算 |
| 引き算 | sub | - | 要素ごとの引き算 |
| 掛け算 | mul | * | 要素ごとの掛け算 |
| 割り算 | div | / | 要素ごとの割り算 |

どの演算も同じ挙動になります．掛け算は行列式の掛け算ではないことに注意してください．<br>
まず簡単なDataFrameを用意します．
```Python
df1 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],index=['R1','R2','R3'],columns=['C1','C2','C3'])
df1
```

In [27]:
df1 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],index=['R1','R2','R3'],columns=['C1','C2','C3'])
df1

Unnamed: 0,C1,C2,C3
R1,1,2,3
R2,4,5,6
R3,7,8,9


先ず，データフレームと単一の数値との二項演算について確認します．
```Python
df1 + 10
```

In [28]:
df1 + 10

Unnamed: 0,C1,C2,C3
R1,11,12,13
R2,14,15,16
R3,17,18,19


このように全ての要素に対して10が加算されました．同じことを掛け算で行ってみましょう．
```Python
df2 = df1 * 10
df2
```

In [29]:
df2 = df1 * 10
df2

Unnamed: 0,C1,C2,C3
R1,10,20,30
R2,40,50,60
R3,70,80,90


このように全ての要素が10倍になりました．

次に，同じサイズのDataFrameの二項演算を確認します．今作成したdf1とdf2を利用します．
```Python
df1 + df2
```

In [30]:
df1 + df2

Unnamed: 0,C1,C2,C3
R1,11,22,33
R2,44,55,66
R3,77,88,99


ここで注意すべきことは，2つのデータフレームは同じ行ラベル['R1', 'R2', 'R3']と列ラベル['C1', 'C2', 'C3']をもっていることです．
ラベルの異なるデータフレームの場合についても確認してみましょう．
新しいデータフレームを定義します．
```Python
df3 = pd.DataFrame([[100,200,300],[400,500,600],[700,800,900]],index=['R2','R3','R4'],columns=['C2','C3','C4'])
df3
```

In [31]:
df3 = pd.DataFrame([[100,200,300],[400,500,600],[700,800,900]],index=['R2','R3','R4'],columns=['C2','C3','C4'])
df3

Unnamed: 0,C2,C3,C4
R2,100,200,300
R3,400,500,600
R4,700,800,900


行レベルと列ラベルの一部に同じものがありますが新しいラベルも定義されています．このデータフレームを使って二項演算をしてみます．
```Python
df1 + df3
```

In [32]:
df1 + df3

Unnamed: 0,C1,C2,C3,C4
R1,,,,
R2,,105.0,206.0,
R3,,408.0,509.0,
R4,,,,


このように，両方のデータフレームに行ラベルと列ラベルが存在するものだけが計算されます．
どちらかの値が存在しない場合は計算結果として「NaN」が設定されます．pandasのなかでは欠損値をNaN（Not a number，非数）で表します．

そこで二項演算にオプションを追加するために二項演算子ではなくメソッドを使用します．
片方に欠損がある場合は，その欠損値を別な値で埋めるための引数「fill_value=0」を使って欠損値を0にして計算します．
```Python
df1.add(df3,fill_value=0)
```

In [33]:
df1.add(df3,fill_value=0)

Unnamed: 0,C1,C2,C3,C4
R1,1.0,2.0,3.0,
R2,4.0,105.0,206.0,300.0
R3,7.0,408.0,509.0,600.0
R4,,700.0,800.0,900.0


しかし，これでも['R1','C4']と['R4','C1']の値は「NaN」になっています．これは，そもそも両方のデータフレームともに値が存在しないからです．
どうしてもNaNを解消したい場合は，同じ行ラベルと列ラベルを持つ4行4列のゼロ値を持つデータフレームを作って加算すれば解決します．

> pd.DataFrame(0,index=['R1','R2','R3','R4'],columns=['C1','C2','C3','C4'])

このデータフレームを加算します．
```Python
df1.add(df3,fill_value=0).add(pd.DataFrame(0,index=['R1','R2','R3','R4'],columns=['C1','C2','C3','C4']),fill_value=0)
```

In [34]:
df1.add(df3,fill_value=0).add(pd.DataFrame(0,index=['R1','R2','R3','R4'],columns=['C1','C2','C3','C4']),fill_value=0)

Unnamed: 0,C1,C2,C3,C4
R1,1.0,2.0,3.0,0.0
R2,4.0,105.0,206.0,300.0
R3,7.0,408.0,509.0,600.0
R4,0.0,700.0,800.0,900.0


##### データフレームと一次配列との二項演算
次にデータフレームと計算する相手が一次配列の場合について確認します．
次の一次配列を使います．
```Python
list1 = [100,200,300]
list1
```

In [35]:
list1 = [100,200,300]
list1

[100, 200, 300]

データフレームdf1は3行3列で配列list1の要素数も3個です．
```Python
df1 + list1
```

In [36]:
df1 + list1

Unnamed: 0,C1,C2,C3
R1,101,202,303
R2,104,205,306
R3,107,208,309


この結果を見るとデータフレームと一次配列の単純な二項演算は次のようになっています．

$$
df1 \odot list1 = 
\left(
  \begin{array}{c c c}
    a_{11} & a_{12} & a_{13} \\
    a_{21} & a_{22} & a_{23} \\
    a_{31} & a_{32} & a_{33}
  \end{array}
\right)
\odot
\left(
  \begin{array}{c}
    b_{1} & b_{2} & b_{3}
  \end{array}
\right)
=
\left(
  \begin{array}{c c c}
    a_{11}\odot b_1 & a_{12}\odot b_2 & a_{13}\odot b_3 \\
    a_{21}\odot b_1 & a_{22}\odot b_2 & a_{23}\odot b_3 \\
    a_{31}\odot b_1 & a_{32}\odot b_2 & a_{33}\odot b_3
  \end{array}
\right)
$$

ここで$\odot$は任意の二項演算を表しています．
すなわち，行ごとに繰返し計算されます．

データフレームと一次配列との二項演算を列ごとに繰返し計算をしたい場合，すなわち，

$$
df1 \odot list1 = 
\left(
  \begin{array}{c c c}
    a_{11} & a_{12} & a_{13} \\
    a_{21} & a_{22} & a_{23} \\
    a_{31} & a_{32} & a_{33}
  \end{array}
\right)
\odot
\left(
  \begin{array}{c}
    b_{1} \\ b_{2} \\ b_{3}
  \end{array}
\right)
=
\left(
  \begin{array}{c c c}
    a_{11}\odot b_1 & a_{12}\odot b_1 & a_{13}\odot b_1 \\
    a_{21}\odot b_2 & a_{22}\odot b_2 & a_{23}\odot b_2 \\
    a_{31}\odot b_3 & a_{32}\odot b_3 & a_{33}\odot b_3
  \end{array}
\right)
$$

とするには，DataFremeのメソッドを使い軸指定の引数を設定します．
```Python
df1.add(list1,axis=0)
```
ここで<font color=blue>axis=0</font>によって加算する配列が縦ベクトルであると指定しています．

In [37]:
df1.add(list1,axis=0)

Unnamed: 0,C1,C2,C3
R1,101,102,103
R2,204,205,206
R3,307,308,309


また，<font color=blue>axis=1</font>によって加算する配列が横ベクトルの指定となります．これはデフォルト設定なので，二項演算子による計算と同じ結果になります．
```Python
df1.add(list1,axis=1)
```

In [38]:
df1.add(list1,axis=1)

Unnamed: 0,C1,C2,C3
R1,101,202,303
R2,104,205,306
R3,107,208,309


ここまでDataFrameの基本的な取扱い方法について説明してきました．
DataFrameにはデータ分析のための重要な機能が備わっていますが，それについては別途説明いたします．
*****