# Pandasとは

## Pandasの機能

`pandas`は`numpy`をより扱いやすく拡張したもの。統計データや表形式のデータをうまく扱える。

In [None]:
import numpy as np
import pandas as pd

## Numpyとの関係

pandasのデータ型は`numpy`のデータ型を拡張している。そのため、pandasの中では、numpyの機能をそのまま利用している部分が存在する。

`numpy`のデータ型。

<https://docs.scipy.org/doc/numpy/reference/arrays.scalars.html>


`pandas`のデータ型。

<https://pandas.pydata.org/pandas-docs/stable/getting_started/basics.html#basics-dtypes>

# データの作成

Pandasには`Series`と`Dataframe`という2つの型が存在する。

## Series

`Series`は1次元のデータ。表の1列(横方向1列、縦方向に複数行)を表現する。

### Seriesの使い方

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

`.values`で`numpy`の配列が取得できる

In [None]:
data.values

numpy配列のような取得ができる。

In [None]:
data[1]

In [None]:
data[1:3]

### インデックスの使用

インデックスは、`Series`の要素にアクセスする方法を提供する。

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

`Series`のインデックスは以下で取得できる。`Index`オブジェクトで表現される。

In [None]:
data.index

インデックスには整数以外も用いることができる。

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

インデックスは順番に並んでいる必要がない

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=[2, 5, 3, 7])

In [None]:
data[5]

インデックスを用いた`pd.Series`は辞書のように扱える。

In [None]:
population = pd.Series({
  'California': 38332521,
  'Texas': 26448193,
  'New York': 19651127,
  'Florida': 19552860,
  'Illinois': 12882135
})
population

In [None]:
population['California']

In [None]:
population['Texas':'Florida']

### Seriesオブジェクトの作成

Pythonのリストから

In [None]:
pd.Series([2, 4, 6])

数値を1つ指定したときは、指定したインデックス分で埋められる。

In [None]:
pd.Series(5, index=[100, 200, 300])

Pythonの辞書から

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'})

インデックスを明示的に指定すると、インデックスは指定されたものを使用する。

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

## DataFrame

データフレームは2次元のデータで、表を表現する。

### DataFrameの使い方

In [None]:
population = pd.Series({
  'California': 38332521,
  'Texas': 26448193,
  'New York': 19651127,
  'Florida': 19552860,
  'Illinois': 12882135
})
population

In [None]:
area = pd.Series({
  'California': 423967,
  'Texas': 695662,
  'New York': 141297,
  'Florida': 170312,
  'Illinois': 149995
})
area

In [None]:
states = pd.DataFrame({
  'population': population,
  'area': area
})
states

### DataFrameのインデックス

`DataFrame`もインデックスを持つ。

In [None]:
states.index

`DataFrame`では、列があるので、その列もインデックスとして取得できる。

In [None]:
states.columns

`DataFrame`から1列を`Series`として取得できる。

In [None]:
states['area']

`DataFrame`は2次元のリストからも作成できる。

In [None]:
data = pd.DataFrame([
  [1.1, 1.3, 1.8, 1.6, 1.5],
  [2.3, 2.1, 2.6, 2.8, 2.7],
])
data

`numpy`の配列と異なり、1つ目のインデックスは**行ではなく**列を指す。

In [None]:
data[0]

2つ目のインデックスが行を指す。

In [None]:
data[0][0]

### DataFrameの作成

外部のCSVファイルを読み込んで。

In [None]:
pd.read_csv('sample_data/california_housing_test.csv')

Seriesオブジェクトから

In [None]:
population = pd.Series({
  'California': 38332521,
  'Texas': 26448193,
  'New York': 19651127,
  'Florida': 19552860,
  'Illinois': 12882135
})

pd.DataFrame(population, columns=['population'])

辞書のリストから。

In [None]:
pd.DataFrame([
  {'a': 1, 'b': 2},
  {'a': 3, 'b': 4},
  {'a': 5, 'b': 6},
])

欠損値があるときは`NaN`で埋められる。

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

`Series`の辞書から。

In [None]:
population = pd.Series({
  'California': 38332521,
  'Texas': 26448193,
  'New York': 19651127,
  'Florida': 19552860,
  'Illinois': 12882135
})

area = pd.Series({
  'California': 423967,
  'Texas': 695662,
  'New York': 141297,
  'Florida': 170312,
  'Illinois': 149995
})

pd.DataFrame({
  'population': population,
  'area': area
})

`numpy`配列から。

In [None]:
data = np.random.rand(3, 2)
data

In [None]:
pd.DataFrame(
  data,
  columns=['foo', 'bar'],
  index=['a', 'b', 'c']
)

# データの選択

### Series

In [None]:
data = pd.Series(
  [0.25, 0.5, 0.75, 1.0],
  index=['a', 'b', 'c', 'd']
)

data

In [None]:
data['b']

キーを含むかの検証。

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items())

インデックスを用いた値の変更

In [None]:
data['e'] = 1.25
data

インデックスによるスライス

In [None]:
data['a':'c']

自動的に割り当てられる整数を用いたスライス。
インデックスによるスライスでは、終点の項目を含むが、整数による取得では含まない点に注意。

In [None]:
data[0:2]

条件を用いたマスク

In [None]:
data[(data > 0.3) & (data < 0.8)]

インデックス属性

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

これは明示的なインデックスが使用されている。

In [None]:
data[1]

スライスのときは暗黙的な整数インデックスが使用される。

In [None]:
data[1:3]

`loc`を使うと常に明示的なインデックスを使える。

In [None]:
data.loc[1]

`iloc`を使うと暗黙的な整数インデックスが常に使用される。

In [None]:
data.loc[1:3]

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

### DataFrame

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
'New York': 141297, 'Florida': 170312,
'Illinois': 149995})

pop = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127, 'Florida': 19552860,
'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

In [None]:
data['area']

In [None]:
data.area

In [None]:
data['density'] = data['pop'] / data['area']
data

DataFrameをnumpy配列として取得

In [None]:
data.values

numpy配列形式で0番目を取り出すと行方向に取得される。

In [None]:
data.values[0]

DataFrameで名前を指定すると列が取得される。

In [None]:
data['area']

ilocを使用するとnumpyのスタイルで行列を取得できる。

In [None]:
data.iloc[:3, :2]

locを使うとpd.DataFrameのインデックス形式で取得する。

In [None]:
data.loc[:'Illinois', :'pop']

条件でフィルターできる。

In [None]:
data.loc[data['density'] > 100, ['pop', 'density']]

値を書き換えられる。

In [None]:
data.iloc[0, 2] = 90
data

行列を転置した表を取得できる。

In [None]:
data.T

## pandasにおける計算

In [None]:
data = pd.DataFrame(
  np.random.randint(0, 10, (3, 4)),
  columns=['A', 'B', 'C', 'D']
)

data

`numpy`の関数をそのまま適用できる。適用したあとはそのまま`pandas`の形式で計算される。

In [None]:
np.exp(data)

In [None]:
np.sin(data * np.pi / 4)

In [None]:
data['sinA'] = np.sin(data['A'])
data

# 欠損値の処理

## 欠損値とは

欠損値はデータの中で値が欠測などの理由で無い場所のことをいう。

In [None]:
data = pd.DataFrame({
  "col1": [1, 2, None, np.nan],
  "col2": [1.2, 2.3, None, np.nan],
  "col3": ['aaa', 'bbb', None, np.nan],
})
data

## 欠損値を探す

In [None]:
data.isna()

In [None]:
pd.isna(data)

In [None]:
data.notna()

In [None]:
pd.notna(data)

## 欠損値の削除

`dropna()`はデフォルトで欠損値のある行を削除する。

In [None]:
data.dropna()

In [None]:
aaa = data.dropna()
aaa.loc[0, 'col1'] = 5
aaa

`dropna`は元のDataFrameを破壊しない

In [None]:
data

In [None]:
df = pd.DataFrame(
  [[1, np.nan, 2],
  [2, 3, 5],
  [np.nan, 4, 6]]
)
df

In [None]:
df.dropna()

In [None]:
df.dropna(axis='columns')

In [None]:
df[3] = np.nan
df

全部値が無い列だけを削除する。`how`を使うと、1つでも値が無いor全部値が無いを制御できる。

In [None]:
df.dropna(axis='columns', how='all')

1行あたり3つの値があれば残す。

In [None]:
df.dropna(axis='rows', thresh=3)

## 欠損値を値で埋める

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.fillna(0)

スマートな埋込。1つ前の行の値を使って値を入れる。

In [None]:
data.fillna(method='ffill')

スマートな埋込。1つ後の行の値を使って値を入れる。

In [None]:
data.fillna(method='bfill')

DataFrameにおける`fillna`

In [None]:
df = pd.DataFrame(
  [[1, np.nan, 2],
  [2, 3, 5],
  [np.nan, 4, 6]]
)
df

In [None]:
df.fillna(method='ffill', axis=1)

# データセットの連結

データセットの連結では、行方向に連結するか、列方向に連結するかで`concat`か`merge`を用いる。

### concat

In [None]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [None]:
def make_df(cols, ind):
  return pd.DataFrame({c: [str(c) + str(i) for i in ind] for c in cols}, ind)

In [None]:
df1 = make_df('AB', [1, 2])
df1

In [None]:
df2 = make_df('AB', [3, 4])
df2

In [None]:
pd.concat([df1, df2])

In [None]:
df1.append(df2)

In [None]:
df3 = make_df('AB', [0, 1])
df3

In [None]:
df4 = make_df('CD', [0, 1])
df4

In [None]:
pd.concat([df3, df4], axis=1)

連結時に、片方にない列のあたいは欠損値となる。

In [None]:
df5 = make_df('ABC', [1, 2])
df5

In [None]:
df6 = make_df('BCD', [3, 4])
df6

単に`concat`すると無い部分は`NaN`で埋められる。

In [None]:
pd.concat([df5, df6])

連結方法の指定で、`inner`を指定すると両方のDataFrameにある列のみを使う。

In [None]:
pd.concat([df5, df6], join='inner')

### merge

In [None]:
df1 = pd.DataFrame({
  'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
  'group': ['Accounting', 'Engineering', 'Engineering', 'HR']
})
df1

In [None]:
df2 = pd.DataFrame({
  'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
  'hire_date': [2004, 2008, 2012, 2014]
})
df2

In [None]:
df3 = pd.merge(df1, df2)
df3

In [None]:
df4 = pd.DataFrame({
  'group': ['Accounting', 'Engineering', 'HR'],
  'supervisor': ['Carly', 'Guido', 'Steve']
})
df4

1対多の結合

In [None]:
pd.merge(df3, df4)

多対多の結合

In [None]:
df5 = pd.DataFrame({
    'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
    'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']
})

In [None]:
df5

In [None]:
pd.merge(df1, df5)

mergeするときに、特定のキーでマージできる。

In [None]:
pd.merge(df1, df2, on='employee')

結合方法を指定すると、無い列の処理を変更できる。

In [None]:
df6 = pd.DataFrame({
  'name': ['Peter', 'Paul', 'Mary'],
  'food': ['fish', 'beans', 'bread']},
  columns=['name', 'food']
)
df6

In [None]:
df7 = pd.DataFrame({
  'name': ['Mary', 'Joseph'],
  'drink': ['wine', 'beer']},
  columns=['name', 'drink']
)
df7

In [None]:
pd.merge(df6, df7)

`merge`の`how`のデフォルトは`inner`。

In [None]:
pd.merge(df6, df7, how='inner')

`outer`をつけると無いものは欠損値として連結が行われる。

In [None]:
pd.merge(df6, df7, how='outer')

In [None]:
pd.merge(df6, df7, how='left')

# 集約とグループ化

## 集約 最大･最小･平均 など

In [None]:
ser = pd.Series(np.random.rand(5))
ser

In [None]:
ser.sum()

In [None]:
ser.mean()

In [None]:
df = pd.DataFrame({
    'A': np.random.rand(5),
    'B': np.random.rand(5)
})

df

In [None]:
df.mean()

In [None]:
df.mean(axis='columns')

In [None]:
import pandas as pd
from sklearn import datasets

iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df.describe()

## グループ化

In [None]:
df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data': range(6)
}, columns=['key', 'data'])

df

この段階では計算が何も行われておらず、実際にどういう計算をしたいかを指定した時点で計算が行われる。

In [None]:
df.groupby('key')

In [None]:
df.groupby('key').sum()

In [None]:
df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'A', 'B', 'C'],
    'data1': range(6),
    'data2': np.random.randint(0, 10, 6)
}, columns = ['key', 'data1', 'data2'])
df

In [None]:
df.groupby('key').aggregate(['min', np.median, max])