# Python - NumPyとPandas

2020/04/05

- 参考教材
    - SkillUp AI
        - <https://www.skillupai.com/python_jdla/>
            - 機械学習のためのPython入門講座

## Numpy

In [53]:
import numpy as np

- データをベクトル、行列として扱う
- 行列の計算ができる
- 数字の集まり、行と列に名前は付けない

- 写真、動画、音声などのデータの利用に向いている
- バイナリ関係

- 多次元、大量のベクトル・行列の演算が得意
- 中身がC,Fortran等で実装されている
- Pandas, Matplotlib等の多くのライブラリはNumpyに依存

## NumPyを使ってみる

### NumPy配列 - 初期化

In [3]:
# 一次元
a = np.array( [1,2,3] )

In [4]:
print(a)

[1 2 3]


- ポイント
    - 配列を引数に指定すること

- 一次元の場合はベクトルの扱い

In [5]:
# 二次元
b = np.array( 
                       [ [1,2,3] ,
                          [4,5,6] ]
                      )

In [6]:
print(b)

[[1 2 3]
 [4 5 6]]


- ポイント
    - 全体を囲む [　　] が必要
    - 「 , 」 でつないで複数の配列を列挙する

- 二次元以上の場合は行列の扱い

In [23]:
# ゼロ行列
zeros2x3 = np.zeros( (2,3) )

In [24]:
print( zeros2x3 )

[[0. 0. 0.]
 [0. 0. 0.]]


In [27]:
#  イチ行列
ones3x4 = np.ones( (3,4) )

In [28]:
print( ones3x4 )

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [37]:
# 0 〜 10 の整数
#   - arange  ...  a range : a　レンジ
print(np.arange(10))

[0 1 2 3 4 5 6 7 8 9]


In [38]:
# 開始値、終了値、間隔を指定して初期化する
print(np.arange(10,30,5))

[10 15 20 25]


In [41]:
print(np.arange(0 , 3 , 0.3))

[0.  0.3 0.6 0.9 1.2 1.5 1.8 2.1 2.4 2.7]


- ポイント
    - arangeは最後の数値は「含まれない」

In [55]:
# 開始値、終了値、等間隔の数列を用いて初期化する
print( np.linspace(0, 90, 10) )

[ 0. 10. 20. 30. 40. 50. 60. 70. 80. 90.]


In [57]:
print( np.linspace(10, 100, 10) )

[ 10.  20.  30.  40.  50.  60.  70.  80.  90. 100.]


In [58]:
print( np.linspace(0, 100, 10) )

[  0.          11.11111111  22.22222222  33.33333333  44.44444444
  55.55555556  66.66666667  77.77777778  88.88888889 100.        ]


- ポイント
    - linspaceは最後の数値を「含む」
    - 最後の引数は、配列の要素数を表す
    - 最後の引数で指定した数値に合わせて等間隔で割ってくれる
        - 割り切れない部分は小数点切り上げなど、自動判断

-いわゆる「線形補完」に当たる操作

### 特殊な定数(一例)

In [43]:
# 円周率
print( np.pi )

3.141592653589793


In [60]:
# ネイピア数
print( np.e )

2.718281828459045


In [73]:
# 無限大
print( np.inf )

inf


### NumPy配列 - 情報確認

In [7]:
# 次元数
a.ndim

1

In [8]:
b.ndim

2

In [9]:
# 要素数
a.size

3

In [10]:
b.size

6

In [11]:
# 行数、列数
a.shape

(3,)

- 3列

In [12]:
b.shape

(2, 3)

- 2行 3列

In [13]:
# 型確認
a.dtype

dtype('int64')

In [14]:
b.dtype

dtype('int64')

### 配列の形を変更する

#### 1次元配列を、指定した行列に変換

In [45]:
array = np.array([1,2,3,4,5,6])

In [46]:
print(array)

[1 2 3 4 5 6]


In [47]:
array2x3 = array.reshape(2,3)

In [48]:
print(array2x3)

[[1 2 3]
 [4 5 6]]


- ポイント
    - 割り切れない配列の要素数ではreshape不可
    - 配列の形を変えて、要素の順番は「そのまま」となる

#### 行列を1次元配列に変更 (= 行列をほどく)

In [50]:
print(array2x3)

[[1 2 3]
 [4 5 6]]


In [51]:
array1 = array2x3.ravel()

In [52]:
print(array1)

[1 2 3 4 5 6]


#### 行列の転置 (行と列を入れ替える)

In [61]:
array = np.array([1,2,3,4,5,6])

In [63]:
print(array)

[1 2 3 4 5 6]


In [62]:
array2x3 = array.reshape(2,3)

In [64]:
print(array2x3)

[[1 2 3]
 [4 5 6]]


In [65]:
print(array2x3.T)

[[1 4]
 [2 5]
 [3 6]]


In [67]:
print(array2x3.transpose())

[[1 4]
 [2 5]
 [3 6]]


- ポイント
    - 行と列を入れ替える : 転置
    - .T でも .transpose() でもどちらで同じ結果が得られる
    - 配列の形を変えて、要素の順番も「変わる」
        - reshape との挙動の違いに注意する

In [71]:
# 転置の場合
print(array2x3.T)

[[1 4]
 [2 5]
 [3 6]]


In [72]:
# reshapeの場合
print(array2x3.reshape(3,2))

[[1 2]
 [3 4]
 [5 6]]


### NumPy配列 - 数学的な演算

In [74]:
a = np.array([0,1,2,3,9])
b = np.array([2,4,6,0,np.inf])

In [75]:
print(a)
print(b)

[0 1 2 3 9]
[ 2.  4.  6.  0. inf]


In [77]:
# 足し算
print(a + 5)

[ 5  6  7  8 14]


In [78]:
print(a + b)

[ 2.  5.  8.  3. inf]


In [79]:
# 引き算
print(a - 2)

[-2 -1  0  1  7]


In [80]:
print(a - b)

[ -2.  -3.  -4.   3. -inf]


- ポイント
    - 配列同士の計算では次元数を合わせる
    - 配列に数値を演算すると、配列全ての要素に対して計算される
    - inf は無限大
        - 何を足しても inf
        - 何らかの数値に対して inf で引いたら -inf (マイナス方向に無限大)

In [83]:
# 平方根
c = np.array( [ 4,9,16,25 ])
print(c)
print(np.sqrt(c))

[ 4  9 16 25]
[2. 3. 4. 5.]


In [101]:
# 行列同士の計算
d =  np.array( [[1,2],[3,4]] )
e =  np.array( [[5,6],[7,8]] )
print(d)
print(e)

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]


In [102]:
# 足し算
print(d+e)

[[ 6  8]
 [10 12]]


In [103]:
# 行列の要素積
print(d * e)

[[ 5 12]
 [21 32]]


- ポイント
    - np.array　で作成した行列でないと、行列の要素積は整理しない（エラー）
        - [NG] d =  ( [[1,2],[3,4]] )
        - [OK] d =  np.array( [[1,2],[3,4]] )

In [105]:
# 行列の積 - 方法1
print(np.dot(d,e))

[[19 22]
 [43 50]]


In [107]:
# 行列の積 - 方法2
print(d.dot(e))

[[19 22]
 [43 50]]


- ポイント
    - np.dot(A,B)
    - 左の行列A と 右の行列B について、「Aの列数」と「Bの行数」が一致していること
        - 例
            - A
                - 1 2 3  
                  4 5 6
            - B
                - 1 2  
                  3 4  
                  5 6  

In [116]:
# 総和
f = np.array([1,2,3,4,5])
print(np.sum(f))

15
15


In [114]:
# 最大値・最小値
print(np.max(f))
print(np.min(f))

5
1


In [115]:
# 平均値・標準偏差
print(np.mean(f))
print(np.std(f))

3.0
1.4142135623730951


In [117]:
# 以下の方法でも同様
print(f.sum())
print(f.max())
print(f.min())
print(f.mean())
print(f.std())

15
5
1
3.0
1.4142135623730951


- ポイント
    - 以下の方法のいずれかで演算ができる
        - np.関数(Numpy配列)
            - np.sum(A)
        - Numpy配列.関数()
            - A.sum()

In [119]:
# 特定の 行　または 列 だけの演算をする場合
g =  np.array( [[1,2,3],[4,5,6],[7,8,9]] )
print(g)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [133]:
# 特定行を取り出して総和を求める
#  -> 配列の番号を指定すれば良い
print(g[0].sum())
print(np.sum(g[0]))
print(g[1].sum())
print(np.sum(g[1]))
print(g[2].sum())
print(np.sum(g[2]))

6
6
15
15
24
24


In [134]:
# 特定列の総和
#  -> 全ての列の総和を求めて、結果を配列で保持
print(g.sum( axis = 0 ))
print(np.sum(g, axis = 0))

[12 15 18]
[12 15 18]


In [136]:
# 特定行の総和
#  -> 全ての行の総和を求めて、結果を配列で保持
print(g.sum( axis = 1 ))
print(np.sum(g ,  axis = 1 ))

[ 6 15 24]
[ 6 15 24]


- ポイント
    - axis : 軸を意味する概念
        - axis = 0 : 行方向を指す。↓向き。つまり各列を指定する操作。
        - axis = 1 : 列方向を指す。→向き。つまり各行を指定する操作。

- その他の数学的計算
    - np.sin(),np.cos(),np.tan()
    - np.arcsin(),np.arccos(),np.arctan()
    - np.exp()
    - np.log(),np,log10()
    - abs()

### 1次元配列の参照

In [172]:
array = np.array( ['a','b','c','d','e'] )
print(array)

['a' 'b' 'c' 'd' 'e']


In [139]:
# 最初からの取り出し
print(array[0])

a


In [140]:
# 末尾からの取り出し
print(array[-1])

e


In [149]:
# 配列の長さを確認
print(len(array))

5


In [142]:
#  配列の長さが5の場合において、以下は同じ場所を参照する
print(array[2])
print(array[-3])

c
c


In [175]:
# 複数の値を指定して参照
print(array[ [0,3] ] )

['a' 'd']


- ポイント
    - 複数の配列の番号を指定する場合は、配列で指定すること

In [153]:
# 範囲を指定して参照
print(array[0:3])

['a' 'b' 'c']


In [155]:
print(array[0:3:2])

['a' 'c']


- ポイント
    - array[x:y] ... y の位置は含まない
    - array[x:y:z] ... z で値を取得する時の間隔を指定することもできる
        - z 個飛ばしで配列を参照する、という意味

### 2次元配列の参照

In [177]:
array = np.array( [ ['a','b','c','d','e'], ['f','g','h','i','j'] ] )
print(array)

[['a' 'b' 'c' 'd' 'e']
 ['f' 'g' 'h' 'i' 'j']]


In [168]:
# 1行目、3列目
print(array[1,3])

i


In [169]:
# 0行目の全ての値
print(array[0])
print(array[0,:])

['a' 'b' 'c' 'd' 'e']
['a' 'b' 'c' 'd' 'e']


In [185]:
# 最後の行の全ての値
print(array[-1])
print(array[-1,:])

['f' 'g' 'h' 'i' 'j']
['f' 'g' 'h' 'i' 'j']


In [167]:
# 0列目の全ての値
print(array[:,0])

['a' 'f']


In [183]:
# 0行目、1行目の全ての値
print(array[[0,1]])
print(array[[0,1],:])

[['a' 'b' 'c' 'd' 'e']
 ['f' 'g' 'h' 'i' 'j']]
[['a' 'b' 'c' 'd' 'e']
 ['f' 'g' 'h' 'i' 'j']]


In [178]:
# 0列目、2列目の全ての値
print(array[:,[0,2]])

[['a' 'c']
 ['f' 'h']]


In [187]:
# 2次元配列で、かつ　n x n の正方形状の配列になっている時、値を斜めに参照する方法
array_square = np.array( [ 
                                ['a','b','c','d','e'], 
                                ['f','g','h','i','j'] ,
                                ['k','l','m','n','o'] ,
                                ['p','q','r','s','t'] ,
                                ['u','v','w','x','y'] ,
                            ] )
print(array_square)

[['a' 'b' 'c' 'd' 'e']
 ['f' 'g' 'h' 'i' 'j']
 ['k' 'l' 'm' 'n' 'o']
 ['p' 'q' 'r' 's' 't']
 ['u' 'v' 'w' 'x' 'y']]


In [193]:
# 配列の長さ
print( len(array_square) )

5


In [319]:
# 値の範囲を確認する
print(
            range( len(array_square) )
         )

range(0, 5)


In [318]:
print( array_square[
                                    range(len(array_square) ), 
                                    range(len(array_square) ) 
                                  ]
        )

['a' 'g' 'm' 's' 'y']


## 条件を指定して配列の値を参照する

In [204]:
array = np.arange(20).reshape((4,5))
print(array)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


In [205]:
# 要素が3の倍数の時 1
# そうでなければ 0
print( np.where( (array > 0) & ( array%3 == 0 ), 1, 0 ) )

[[0 0 0 1 0]
 [0 1 0 0 1]
 [0 0 1 0 0]
 [1 0 0 1 0]]


In [213]:
# 2で割り切れる場合は、偶数
# 2で割り切れない場合は、奇数
print( np.where( array%2==0, "偶数", "奇数" ) )

[['偶数' '奇数' '偶数' '奇数' '偶数']
 ['奇数' '偶数' '奇数' '偶数' '奇数']
 ['偶数' '奇数' '偶数' '奇数' '偶数']
 ['奇数' '偶数' '奇数' '偶数' '奇数']]


- ポイント
    - np.where() に条件を書く
        - 条件文の中で配列名そのものは、配列内の各要素の値を指す
        - 複数条件をつける場合は「&:かつ」「|:または」

In [222]:
# 条件を満たす要素のインデックスを得る
array_result = np.where( array%2==0 )
print( array_result )

(array([0, 0, 0, 1, 1, 2, 2, 2, 3, 3]), array([0, 2, 4, 1, 3, 0, 2, 4, 1, 3]))


- ポイント
    - np.where()で条件のみ指定した場合、条件に一致するインデックスを返す
    - 返却される配列は、NumPy配列ではない点に注意
        - printすると「array([ ... ])」のように見える
        - np.array()を使うとNumPy配列に変換できる 

In [227]:
# 上記は見づらいので整形する

# NumPy配列に変換する
array_result = np.where( array%2==0 )
array_numpy = np.array(array_result)
print( array_numpy ) 

[[0 0 0 1 1 2 2 2 3 3]
 [0 2 4 1 3 0 2 4 1 3]]


In [228]:
# 転置する
print( array_numpy.T ) 

[[0 0]
 [0 2]
 [0 4]
 [1 1]
 [1 3]
 [2 0]
 [2 2]
 [2 4]
 [3 1]
 [3 3]]


In [229]:
# 転置して、配列に変換する
print( array_numpy.T.tolist() )

[[0, 0], [0, 2], [0, 4], [1, 1], [1, 3], [2, 0], [2, 2], [2, 4], [3, 1], [3, 3]]


- ポイント
    - np.where()で条件のみ指定すると、条件を満たす値のインデックスが得られる
    - ただし結果が見づらいので、加工すると良い
        - np.array()でNumPy配列に変換する
        - .Tで転置する
        - .tolist()で配列に変換する

## Pandas

In [6]:
# データを行名・列名で管理する
import pandas as pd

- DBテーブルのイメージ
- 行に日付・時間などを割り当てると、系列データにうまく対応できる

- ログ、アンケートなどのデータの利用に向いている
- テキスト関係

- 表形式のデータを扱う
    - 表のことをデータフレームという
- 配列と違い、行名、列名を取り扱う
    - 特に列名が重要となる

## Pandasを使ってみる

### Pandas データフレームの初期化

In [230]:
import pandas as pd
import numpy as np

In [324]:
df = pd.DataFrame(
                                    {
                                      'Age':[12,14,12,18],
                                      'Gender':['M','M','F','F'],
                                      'Height':[150,160,150,175],
                                      'Weight':[35,50,36,60]
                                    }
                                )

- ポイント
    - 辞書型を入れること
        - キーが列名
        - バリューが表の値(配列)

### データフレームの情報確認

In [236]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
Age       4 non-null int64
Gender    4 non-null object
Height    4 non-null int64
Weight    4 non-null int64
dtypes: int64(3), object(1)
memory usage: 256.0+ bytes


- ポイント
    - RangeIndex : 全体のデータ件数
    - non-null : 欠損値なし
    - int64 : int型
    - object : object型
    - memory usage : データフレームが使用しているメモリ容量

### データフレームの中身を参照

In [239]:
# 先頭から参照
df.head(2)

Unnamed: 0,Age,Gender,Height,Weight
0,12,M,150,35
1,14,M,160,50


In [240]:
# 末尾から参照
df.tail(2)

Unnamed: 0,Age,Gender,Height,Weight
2,12,F,150,36
3,18,F,175,60


In [243]:
# インデックスを参照
df.index

RangeIndex(start=0, stop=4, step=1)

In [244]:
# カラム名を参照
df.columns

Index(['Age', 'Gender', 'Height', 'Weight'], dtype='object')

In [252]:
# カラム名を指定して参照
df['Age']

0    12
1    14
2    12
3    18
Name: Age, dtype: int64

In [309]:
df.Age

0    12
1    14
2    12
3    18
Name: Age, dtype: int64

In [310]:
# 2列参照
df[ ['Age','Height'] ]

Unnamed: 0,Age,Height
0,12,150
1,14,160
2,12,150
3,18,175


In [325]:
# 同じ操作を「loc」を使って実行
df.loc[ : , ['Age','Height'] ]

Unnamed: 0,Age,Height
0,12,150
1,14,160
2,12,150
3,18,175


- ポイント
    - 列名を複数指定する場合は配列で渡すこと
    - 「loc」を使う場合は、任意行を意味する「 : 」を指定した上で、列名を指定する

In [247]:
# インデックス番号(=行番号)を指定して参照
df.iloc[3]

Age        18
Gender      F
Height    175
Weight     60
Name: 3, dtype: object

In [268]:
# インデックス名(=行名)を指定して参照
#  - インデックスが数値なら '' で囲まない(囲むとエラー)
#  - インデックスが文字なら '' で囲む必要がある
df.loc[3]

Age        18
Gender      F
Height    175
Weight     60
Name: 3, dtype: object

In [263]:
# インデックス名と列名を指定
df.loc[  3,'Age'  ]

18

In [266]:
# インデックス番号と列番号を指定
df.iloc[ 3,0 ]

18

In [327]:
# インデックスに名前をつけた状態で、列名、行名を参照する場合
df.index = [ 'tanaka' , 'yamada' , 'suzuki' , 'sato' ]
df.loc[  'suzuki','Age'  ]

12

#### 条件を指定してデータを参照する

In [329]:
# 特定列の値が、条件を満たす行を確認
df['Age'] > 12

tanaka    False
yamada     True
suzuki    False
sato       True
Name: Age, dtype: bool

In [331]:
# 特定列の値が、条件を満たす行をデータフレームで取り出す
df [ df['Age'] > 12 ]

Unnamed: 0,Age,Gender,Height,Weight
yamada,14,M,160,50
sato,18,F,175,60


- ポイント
    - 条件だけを書くと、条件を満たす部分が True 、そうでなければ False が返却される
    - この性質を利用して、データフレームの値を取り出すことができる
        - df[] の中に入れ子にする形で条件式を書く
            - df[  df[列名] 条件式 ]

In [332]:
# 「loc」を使用して条件式を書く
df.loc[
            df['Age'] > 12,
            ['Age','Height']
          ]

Unnamed: 0,Age,Height
yamada,14,160
sato,18,175


- ポイント
    - 「loc」 を使用することで、特定列の条件を満たす行を抜き出し、  
      さらに表示したい列も選択することができる

In [342]:
# 列内のユニークな値とその出現回数を表示
df['Gender'].value_counts()

M    2
F    2
Name: Gender, dtype: int64

In [343]:
df['Height'].value_counts()

150    2
175    1
160    1
Name: Height, dtype: int64

In [347]:
# データの集計と演算を行う
#   -> groupbyで指定したカラム名でグルーピングした後、mean()で平均を求める
df.groupby('Gender').mean()

Unnamed: 0_level_0,Age,Height,Weight
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,15.0,162.5,48.0
M,13.0,155.0,42.5


In [348]:
df.groupby(['Gender','Height']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Weight
Gender,Height,Unnamed: 2_level_1,Unnamed: 3_level_1
F,150,12,36
F,175,18,60
M,150,12,35
M,160,14,50


- ポイント
    - df.groupby()を使うと、グループ毎の集計が可能
    - 複数のカラムを指定してグルーピング可能

### Pandas データフレームの初期化 csvから読み込む

#### csvファイルの取得
- <https://github.com/pcsanwald/kaggle-titanic/blob/master/train.csv>

In [254]:
df = pd.read_csv('train.csv')

In [256]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
survived    891 non-null int64
pclass      891 non-null int64
name        891 non-null object
sex         891 non-null object
age         714 non-null float64
sibsp       891 non-null int64
parch       891 non-null int64
ticket      891 non-null object
fare        891 non-null float64
cabin       204 non-null object
embarked    889 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 76.7+ KB


In [255]:
df.head(5)

Unnamed: 0,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- ポイント
    - pd.read_csv('')
        - notebookのファイルと同じ階層にcsvがあればファイル名だけ指定
        - 他の場所にある場合は、相対パスか絶対パスで指定すること

### データフレームの基本操作

In [294]:
df = pd.DataFrame(
                                    {
                                      'Age':[12,14,12,18],
                                      'Gender':['M','M','F','F'],
                                      'Height':[150,160,150,175],
                                      'Weight':[35,50,36,60]
                                    }
                                )

#### indexに名前をつける

In [295]:
# 初期状態のindexを確認
df.index

RangeIndex(start=0, stop=4, step=1)

In [296]:
df

Unnamed: 0,Age,Gender,Height,Weight
0,12,M,150,35
1,14,M,160,50
2,12,F,150,36
3,18,F,175,60


In [297]:
# index に名前をつける
df.index = [ 'tanaka' , 'yamada' , 'suzuki' , 'sato' ]

In [298]:
df.index

Index(['tanaka', 'yamada', 'suzuki', 'sato'], dtype='object')

In [299]:
df

Unnamed: 0,Age,Gender,Height,Weight
tanaka,12,M,150,35
yamada,14,M,160,50
suzuki,12,F,150,36
sato,18,F,175,60


#### 特定の列、行の名前を変更する

In [300]:
df = df.rename(
                            columns = { 'Age' : 'nenrei' },
                            index = { 'sato' : 'saito' }
)

In [301]:
df

Unnamed: 0,nenrei,Gender,Height,Weight
tanaka,12,M,150,35
yamada,14,M,160,50
suzuki,12,F,150,36
saito,18,F,175,60


- ポイント
    - 変更したい部分を辞書型で { 変更前 : 変更後} と指定する

#### 列追加

In [303]:
df['City'] = ['Tokyo' , 'Aichi', 'Osaka', 'Fukuoka']

In [304]:
df

Unnamed: 0,nenrei,Gender,Height,Weight,City
tanaka,12,M,150,35,Tokyo
yamada,14,M,160,50,Aichi
suzuki,12,F,150,36,Osaka
saito,18,F,175,60,Fukuoka


#### 列削除

In [306]:
df = df.drop( columns = 'City')

In [307]:
df

Unnamed: 0,nenrei,Gender,Height,Weight
tanaka,12,M,150,35
yamada,14,M,160,50
suzuki,12,F,150,36
saito,18,F,175,60


- ポイント
    - 追加時 : df[] の中は列名になる
        - 行名ではないことに注意
        - データが足りない場合は、エラーになる
    - 削除時 : df.drop( columns = '' ) で列名を指定する
        - 「columns = ... 」 が必要な点に注意
        - 追加と削除で記述方法が異なる点に注意

#### 列の並び替え

In [336]:
# 指定した列名でソートする
df.sort_values( 'Age' , ascending = True)

Unnamed: 0,Age,Gender,Height,Weight
tanaka,12,M,150,35
suzuki,12,F,150,36
yamada,14,M,160,50
sato,18,F,175,60


In [339]:
df.sort_values( ['Age', 'Height'] , ascending = True)

Unnamed: 0,Age,Gender,Height,Weight
tanaka,12,M,150,35
suzuki,12,F,150,36
yamada,14,M,160,50
sato,18,F,175,60


- ポイント
    - 昇順 : ascending = True , 値の小さい順
        - デフォルトは昇順。指定しないと True の扱い
    - 降順 : ascending = False , 値の大きい順
    - 複数列を指定する場合は、配列で列名指定
        - 最初に指定した列名が基準となる
        - 最初に指定した列名が並び替えられた後に、次に指定した列名でソートされる

### データフレームの加工

In [356]:
df = pd.DataFrame(
                                    {
                                      'Age':[12,14,12,18],
                                      'Gender':['M','M','F','F'],
                                      'Height':[150,160,150,175],
                                      'Weight':[35,50,36,60]
                                    }
                                )

In [357]:
# 最大値
df.loc[:,'Weight'].max()

60

In [358]:
# 最小値
df.loc[:,'Weight'].min()

35

In [359]:
# 中央値
df.loc[:,'Weight'].median()

43.0

In [360]:
# 平均
df.loc[:,'Weight'].mean()

45.25

In [362]:
# 基本統計量を出す
# -> count , mean , std, min , 25% , 50% , 75%, max
#      -> 25% : 第1四分位数
#      -> 50% : 中央値
#      -> 75% : 第3四分位数
df.loc[:,'Weight'].describe()

count     4.000000
mean     45.250000
std      11.982626
min      35.000000
25%      35.750000
50%      43.000000
75%      52.500000
max      60.000000
Name: Weight, dtype: float64

In [361]:
# 足し算
print(df)
df['Age'] += 1
print(df)

   Age Gender  Height  Weight
0   12      M     150      35
1   14      M     160      50
2   12      F     150      36
3   18      F     175      60
   Age Gender  Height  Weight
0   13      M     150      35
1   15      M     160      50
2   13      F     150      36
3   19      F     175      60


### 欠損値の処理

- 存在しない値
    - NaNと表示される
- 欠損値を明示的に代入したい場合は np.nan を使う

In [363]:
df = pd.DataFrame(
                                    {
                                      'Age':[12,14,12,18],
                                      'Gender':['M','M','F','F'],
                                      'Height':[np.nan,160,150,175],
                                      'Weight':[35,50,np.nan,60]
                                    }
                                )

In [364]:
df

Unnamed: 0,Age,Gender,Height,Weight
0,12,M,,35.0
1,14,M,160.0,50.0
2,12,F,150.0,
3,18,F,175.0,60.0


#### 欠損値の存在確認

In [366]:
df.isnull()

Unnamed: 0,Age,Gender,Height,Weight
0,False,False,True,False
1,False,False,False,False
2,False,False,False,True
3,False,False,False,False


In [368]:
df.isnull().sum()

Age       0
Gender    0
Height    1
Weight    1
dtype: int64

- ポイント
    - df.isnull()欠損値がある箇所が True と表示される
    - df.isnull().sum() で 欠損値の数をカウントできる
        - 内部的に、True = 1, False = 0 の扱いになるため、合計を取ると  
          その答えが欠損値の数と見なすことができる

#### 欠損値を含む箇所を削除する場合

In [369]:
# 欠損値を含む行を削除
df.dropna()

Unnamed: 0,Age,Gender,Height,Weight
1,14,M,160.0,50.0
3,18,F,175.0,60.0


#### 欠損値を補完する場合

In [370]:
# 平均値で保管する
df.fillna( df.mean() )

Unnamed: 0,Age,Gender,Height,Weight
0,12,M,161.666667,35.0
1,14,M,160.0,50.0
2,12,F,150.0,48.333333
3,18,F,175.0,60.0


- ポイント
    - 現実的には、あまり全行、全列を消してしまうような操作はしない方が良い