# Pandas

## Pandasとは

　データ解析を行うためのPythonライブラリです。 
　データ解析を効率よく進めるための、データ構造とメソッドを提供します。
 
　ここでは、Pandas を使って、収集したデータの事前解析、改修行うデータクレンジングの手法を学習します。


## Pandasのデータ型

　Pandas は以下のデータ型を扱います。　最もよく使われるのは、DataFrameです。本書でも DataFrame を中心に解説します。

 
- Series

　リスト(1次元配列のデータ)。
 
　　　　![series.png](fig/series.png)
 
- DataFrame


　表(2次元配列データ)。
 
　　　　![series.png](fig/dataframe.png)
 
- Panel

　表の集まり(3次元データ)。
 
　　　　![series.png](fig/panel.png)



## DataFrameの基本操作


In [1]:
import pandas as pd

# 表が大きい時の表示範囲を制限
pd.set_option('display.max_columns', 9)
pd.set_option('display.max_rows', 10)

### DataFrame を作る

#### DataFrame はリストや辞書から作ることができます、


In [2]:
# リストから作る
#  リストの1要素が1行になる
df = pd.DataFrame(
    [[101, 205, 300], 
     [303, 111, 6]])

# 列名を付ける
df.columns = ('c1', 'c2', 'c3')
# 行名を付ける
df.index = ('r1', 'r2')

df

Unnamed: 0,c1,c2,c3
r1,101,205,300
r2,303,111,6


In [3]:
# 辞書から作る
#  キーが列名になる
df = pd.DataFrame(
    {'c1':[101, 303], 
     'c2':[205, 111], 
     'c3':[111, 6]})

df

Unnamed: 0,c1,c2,c3
0,101,205,111
1,303,111,6


#### CSV ファイルから作ることもできます。

In [4]:
# CSV -> DataFrame
df = pd.read_csv('sample.csv', encoding='shift_jis')

df

Unnamed: 0,c1,c2,c3,c4
0,101,205,300,324
1,303,111,6,23
2,23,1000,1112,324
3,23,45,3242,1
4,0,0,999,999
5,123,345,445,0
6,32,3424,23,3
7,4324,23,566,21
8,1,2,3456,4321
9,132,123,4,556


#### Webページから表部分だけをスクレイピングすることもできます。

In [5]:
# 気象庁、最新の気象データより
dfs = pd.read_html("https://www.data.jma.go.jp/obd/stats/data/mdrr/synopday/data1s.html")

# dfs[0], dfs[1], dfs[2]... に 1, 2, 3... 番目の表が入る。
dfs[0]

Unnamed: 0,0,1,2,3,...,29,30,31,32
0,地点,気圧,気圧,気圧,...,降雪の深さ合計,最深積雪,天気概況,天気概況
1,地点,現地,海面,最低海面,...,降雪の深さ合計,最深積雪,0600-1800,1800-翌0600
2,地点,平均,平均,値,...,降雪の深さ合計,最深積雪,0600-1800,1800-翌0600
3,札幌,,,1012.4],...,--],--],,
4,稚内,,,1016.0],...,--],--],,
...,...,...,...,...,...,...,...,...,...
30,盛岡,,,1007.2],...,--],--],,
31,大船渡,,,1006.2],...,--],--],,
32,宮古,,,1007.5],...,--],--],,
33,仙台,,,1005.9],...,--],--],,


#### その他

　Excel などよく使われるアプリケーションのデータを、直接読み込む仕組みも用意されています（要追加ライブラリ）

#### 要素のデータ型

　DataFrame内の各要素のデータ型は、列毎に同じ型になるよう自動的に型変換が行われます。

　明示的にある型に揃えたい場合は astype()メソッドを使います。

In [6]:
df = pd.DataFrame(
    [[1, 2.0],
    [3, 4]]
)
# 2列目は 2.0 があるので、4 -> 4.0 に型が変わります。
df

Unnamed: 0,0,1
0,1,2.0
1,3,4.0


In [7]:
# astype() で型を変更します。型名を引数とすると、全データが指定型に変わります。
df3 = df.astype('int')
df3

Unnamed: 0,0,1
0,1,2
1,3,4


In [8]:
# 列ごと型を変えたい場合は、{列:型, 列:型...} の辞書を引数に与えます
df2 = df.astype({0:'float', 1:'int'})
df2

Unnamed: 0,0,1
0,1.0,2
1,3.0,4


### 行、列、要素へのアクセス

　DataFrame内の各データへのアクセスのしかたです。

In [9]:
# 乱数でサンプルデータを作成
import random
random.seed(10)

df  = pd.DataFrame(
    [[random.random() for x in range(4)] 
      for y in range(7)],
    columns=list('ABCD'))

In [10]:
# 最初の5行を出力(引数を指定するとその行数)
df.head()

Unnamed: 0,A,B,C,D
0,0.571403,0.428889,0.578091,0.206098
1,0.813321,0.823589,0.653473,0.16023
2,0.520669,0.327773,0.249997,0.952817
3,0.996557,0.044556,0.860161,0.603191
4,0.381606,0.283618,0.674965,0.456831


#### 列、行、要素を指定するには

- 列  
df[列名] で列を Series 型のデータとして取得できます。  
df[[列名, 列名, ...]] とすると、DataFrame型のデータが取得できます。

- 行  
df[行番号:行番号] とスライス型で指定すると、DataFrame型のデータが取得できます。  
(注意1)一行だけの場合もスライス型で指定しなくてはいけません。  
(注意2)行番号で指定したときは、: の右の行は含みません。

- 要素  
行を取り出してから列を（または列を取り出してから行を)とりだします。  
一行で書くなら、df[行番号:行番号][列名] または df[列名][行番号:行番号] などの形式です。


In [11]:
# インデクスで指定すると行が取れる(Seriese型)
print(df['A'])
print()

# 複数列
print(df[['A','C']])
print()

# 一行でもDataFrameがほしい場合は[[]]を使う
print(df[['A']])
print()

# スライスで1行だけ(右側のインデックスは含まない)
print(df[0:1])
print()

# 行->列の順で取り出す
r_q = df[0:1]   # 行 0
print(r_q['A'])     # 列'A'
print()
# 一行でも書ける
print(df[0:1]['A'])
print()
# 列->行でも可
print(df['A'][0:1])
print()

0    0.571403
1    0.813321
2    0.520669
3    0.996557
4    0.381606
5    0.685861
6    0.982413
Name: A, dtype: float64

          A         C
0  0.571403  0.578091
1  0.813321  0.653473
2  0.520669  0.249997
3  0.996557  0.860161
4  0.381606  0.674965
5  0.685861  0.132978
6  0.982413  0.613327

          A
0  0.571403
1  0.813321
2  0.520669
3  0.996557
4  0.381606
5  0.685861
6  0.982413

          A         B         C         D
0  0.571403  0.428889  0.578091  0.206098

0    0.571403
Name: A, dtype: float64

0    0.571403
Name: A, dtype: float64

0    0.571403
Name: A, dtype: float64



#### 列を指定するには他に以下のような方法もあります。
 
- .loc を使う

　　　　　.loc[:, [列名, 列名,...]]の形で、列名でのアクセスが可能です。

- .iloc を使う

　　　　　.iloc[:, [列番号, 列番号,...]]の形で、列番号でのアクセスが可能です。

In [12]:
# .loc
print(df.loc[:, ['A', 'B']])
print()

# .iloc
print(df.iloc[:, [0, 1]])


          A         B
0  0.571403  0.428889
1  0.813321  0.823589
2  0.520669  0.327773
3  0.996557  0.044556
4  0.381606  0.283618
5  0.685861  0.661846
6  0.982413  0.969388

          A         B
0  0.571403  0.428889
1  0.813321  0.823589
2  0.520669  0.327773
3  0.996557  0.044556
4  0.381606  0.283618
5  0.685861  0.661846
6  0.982413  0.969388


#### 行を指定するには、他に以下のような方法もあります。

- .loc を使う  
行番号で指定します。1行のデータがseries 型で得られます。

- .iloc を使う  
行番号で指定します。1行のデータがseries 型で得られます。


(注) DataFrame では、行にも名前を付けることができます(index属性)。その場合は loc、iloc で動作が変わってきます。

In [13]:
# loc[行番号]
print(df.loc[0])
print()

# iloc[行番号]
print(df.iloc[0])
print()

A    0.571403
B    0.428889
C    0.578091
D    0.206098
Name: 0, dtype: float64

A    0.571403
B    0.428889
C    0.578091
D    0.206098
Name: 0, dtype: float64



#### 要素を指定するには、他に以下のような方法もあります。

- .atを使う  
.loc[行番号, 列名]の形で指定します。

- .iatを使う  
.iloc[行番号, 列番号]で指定します。

- .locを使う  
.loc[番号, 列名]の形で指定します。

- .iloc を使う  
.iloc[行番号, 列番号]で指定します。

　at/iat の方が loc/iloc よりも高速です。

In [14]:
# at
print(df.at[0, 'B'])
print()

# iat
print(df.iat[0, 1])
print()

# loc
print(df.loc[0, 'B'])
print()

# iloc
print(df.iloc[0, 1])
print()

0.4288890546751146

0.4288890546751146

0.4288890546751146

0.4288890546751146



### 条件を指定してのデータ取り出し

　loc[] を使って、条件を満たす行だけを選択することが可能です。

In [15]:
# 列 Aの値が0.5以上の行で、列 Aだけを表示
df1 = df.loc[df['A'] >= 0.5, ['A']]
print(df1)
print()

# 列 Bの値が列 Dより小さい行で、列 Bと列 Dだけを表示
df2 = df.loc[df['B'] < df['D'], ['B', 'D']]
print(df2)
print()

          A
0  0.571403
1  0.813321
2  0.520669
3  0.996557
5  0.685861
6  0.982413

          B         D
2  0.327773  0.952817
3  0.044556  0.603191
4  0.283618  0.456831
5  0.661846  0.767838



## データの保存

　to_csv() で DataFrame を CSV ファイルにセーブすることができます。

In [16]:
df.to_csv('outfile.csv', encoding='shift_jis')

## データの追加

　DataFrame に新たな列を追加するには、
 
- [新列名] に代入
- .insert() メソッドを使う
 
　行を追加するには
 
- .loc[新行名] に代入


In [17]:
df = pd.DataFrame(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]],
    columns=('A', 'B', 'C'))

print(df)
print()

# 列の追加
df['Y'] = 0   # 右辺値にはスカラー、リスト、Series が指定可
print(df)
print()

# 任意の列に挿入したいときは
# .insert(挿入位置, 新列名, 値)
df.insert(2, 'Z', 100)
print(df)
print()

# 行の挿入
df.loc[4] = 100
print(df)
print()


   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9

   A  B  C  Y
0  1  2  3  0
1  4  5  6  0
2  7  8  9  0

   A  B    Z  C  Y
0  1  2  100  3  0
1  4  5  100  6  0
2  7  8  100  9  0

     A    B    Z    C    Y
0    1    2  100    3    0
1    4    5  100    6    0
2    7    8  100    9    0
4  100  100  100  100  100



## DataFrame の結合

　複数の DataFrame をくっつけて一つの DataFrame にすることができます。

- 単純な連結  
複数の DataFrame を列方向、または行方向に単純につなげる場合は、pd.concat() を使います。
    
- 列の値でマージ  
2つの DataFrame を列の値をキーにして一つの DataFrameにまとめる場合は、pd.merge()を使います。
　　　　

In [18]:
df1 = pd.DataFrame(
    [['A0', 'B0', 'C0'],
    ['A1', 'B1', 'C1'],
    ['A2', 'B2', 'C2']],
    columns=('A', 'B', 'C'))
df2 = pd.DataFrame(
    [['b0', 'c0', 'd0'],
    ['b1', 'c1', 'd1'],
    ['b2', 'c2', 'd2'],
    ['b3', 'c3', 'd3']],
    columns=('B', 'C', 'D'))

In [19]:
# 行方向の連結
# 無い列の値は NaN になる。
df_cat = pd.concat([df1, df2])
print(df_cat)

     A   B   C    D
0   A0  B0  C0  NaN
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
0  NaN  b0  c0   d0
1  NaN  b1  c1   d1
2  NaN  b2  c2   d2
3  NaN  b3  c3   d3


In [20]:
# 列方向の連結
# 行が短い方には NaN が入る。
df_cat2 = pd.concat([df1, df2], axis=1)
print(df_cat2)

     A    B    C   B   C   D
0   A0   B0   C0  b0  c0  d0
1   A1   B1   C1  b1  c1  d1
2   A2   B2   C2  b2  c2  d2
3  NaN  NaN  NaN  b3  c3  d3


In [21]:
# マージ
# 共通の列名('B', 'C')をキーにして、2つの表をマージする。
# 結果の行名がconcatと違うことに注目。
df_merged = pd.merge(df1, df2, on=['B','C'], how='outer')
print(df_merged)

     A   B   C    D
0   A0  B0  C0  NaN
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  b0  c0   d0
4  NaN  b1  c1   d1
5  NaN  b2  c2   d2
6  NaN  b3  c3   d3


## 欠損値の扱い

　収集したデータの一部が欠けていることがよくあります。Pandas ではそうした欠損値を処理するため関数が用意されています。 
 

### 欠損値の有無を調べる

　DataFrame 中に欠損値があるかどうか調べるには、pd.DataFrame.isnull()メソッドを使います。
 
　.isnull()メソッドは、元のDataFrameと同じ形で NaN の場所が True であるような新しい DataFrame を返します。.isnull()メソッドの結果に対し、values 属性と in 演算子を使えば、元の DataFrame中に欠損値があったかどうかがわかります。また列(行)内に1個でも True があれば True を返す .any() メソッドを使えば、列(行)ごとに欠損値の有無を調べられます。

In [22]:
df = pd.DataFrame(
    [[1, None, 3],
    [4, 5, 6],
    [7, 8, 9]],
    columns=('A', 'B', 'C'))

print(df)
print()

# isnull()
is_null = df.isnull()
print(is_null)
print()

# values 属性で値を取り出し、in 演算子でFalseの有無を調べる
print(False in is_null.values)
print()

# どの列に NaN があるか？
print(is_null.any())
print()
# どの行に NaN があるか？
print(is_null.any(axis=1))
print()

   A    B  C
0  1  NaN  3
1  4  5.0  6
2  7  8.0  9

       A      B      C
0  False   True  False
1  False  False  False
2  False  False  False

True

A    False
B     True
C    False
dtype: bool

0     True
1    False
2    False
dtype: bool



### 欠損値を削除する

　欠損値を含む行または列を削除するには、pd.DataFrame.dropna() メソッドを使います。

In [23]:
# 行を削除
df_delna1 = df.dropna()
print(df_delna1)
print()

# 列を削除
df_delna2 = df.dropna(axis=1)
print(df_delna2)
print()

   A    B  C
1  4  5.0  6
2  7  8.0  9

   A  C
0  1  3
1  4  6
2  7  9



### 欠損値を穴埋めする

　欠損値を適当な値で埋め合わせするには、pd.DataFrame.fillna()メソッドを使います。

In [24]:
# 0 で穴埋め
df_fill1 = df.fillna(0)
print(df_fill1)


   A    B  C
0  1  0.0  3
1  4  5.0  6
2  7  8.0  9


## その他の処理

　DataFrame でよく使われるメソッドを挙げます。
 
- .sum() ：　合計

- .mean() ：　平均

- .max(), .min() ：　最大値、最小値

- .idxmax(), .idxmin() ：　最大値、最小値の行番号

- .sort_values() ：　並び替え

- .drop_duplicates() ：　重複行の削除

- .replace() ：　データの置換

- .values ：　要素をリストとして取り出す(属性値)


In [25]:
df = pd.DataFrame(
    [[1, 11, 6],
    [2, 12, 1],
    [3, 0, 9],
    [4, 5, 10]],
    columns=('A', 'B', 'C'))

print(df)


   A   B   C
0  1  11   6
1  2  12   1
2  3   0   9
3  4   5  10


In [26]:
# 列ごとの合計
sum = df.sum(axis=1)
print(sum)

0    18
1    15
2    12
3    19
dtype: int64


In [27]:
# 列ごとの平均
mean = df.mean()
print(mean)

A    2.5
B    7.0
C    6.5
dtype: float64


In [28]:
# 列ごとの最大値
max = df.max()
print(max)

A     4
B    12
C    10
dtype: int64


In [29]:
# 列ごとの最小値をとる行
idxmin = df.idxmin()
print(idxmin)

A    0
B    2
C    1
dtype: int64


In [30]:
# 行の並び替え
sorted = df.sort_values(by='A', ascending=False)
print(sorted)


   A   B   C
3  4   5  10
2  3   0   9
1  2  12   1
0  1  11   6


In [31]:
# 重複行削除
rm_dup = df.drop_duplicates()
print(rm_dup)

   A   B   C
0  1  11   6
1  2  12   1
2  3   0   9
3  4   5  10


In [32]:
# replace
df = pd.DataFrame(
    [['Ben', 10],
     ['tom', 25],
     ['Alicee', 10],
     ['Susiee', 10],
     ['john', 21]],
     columns=('Name', 'Age'))

df2 = df.replace(10, 20)
print(df2)
print()

# 変更対象の列の指定
# 辞書として指定{列名: {変更前1：変更後1, 変更前2:変更後2, ...}}
df3 = df2.replace({'Name': {'tom':'Tom', 'john':'John'}})
print(df3)
print()

# 正規表現でのreplace
df4 = df3.replace(r'ee$', 'e', regex=True)
print(df4)
print()


     Name  Age
0     Ben   20
1     tom   25
2  Alicee   20
3  Susiee   20
4    john   21

     Name  Age
0     Ben   20
1     Tom   25
2  Alicee   20
3  Susiee   20
4    John   21

    Name  Age
0    Ben   20
1    Tom   25
2  Alice   20
3  Susie   20
4   John   21



In [40]:
# DataFrame の要素, 列名,をリストとして取り出す。
print(df.values)

# values は　Series にも使える。
print(df['Name'].values)

[['Ben' 10]
 ['tom' 25]
 ['Alicee' 10]
 ['Susiee' 10]
 ['john' 21]]
['Ben' 'tom' 'Alicee' 'Susiee' 'john']
