# Pandas
Pandasとは､数表の形式で保存されたデータを効率的に処理する機能を収録したライブラリです｡
数表とは､一般的なデータベースで採用されている､「行」と「列」で構成されている形式です。

## Series
配列とそれに紐付くindexが付与されます。

In [1]:
# ライブラリのインポート
# pandasはpdという別名をつけるのが慣例です
import pandas as pd

### Seriesの生成

In [2]:
# リストからSeriesインスタンスを生成
obj = pd.Series([3,7,10,13])
obj

0     3
1     7
2    10
3    13
dtype: int64

In [3]:
# arrayからSeriesインスタンスを生成
import numpy as np
numpy_array = np.array([3,7,10,13]) # NumPy配列を作成
pd.Series(numpy_array) # NumPy配列を引数にとり、Seriesを作成

0     3
1     7
2    10
3    13
dtype: int64

### Seriesからの情報抽出

In [4]:
# indexを指定して要素を抽出
obj[1]

7

In [5]:
# データ配列を表示
# Seriesやこの後出てくるDataFrameでは、".values"によってデータ配列を取り出すことができます。
obj.values

array([ 3,  7, 10, 13])

In [6]:
# 各要素が条件を満たすかどうかをboolで返す
obj >= 5

0    False
1     True
2     True
3     True
dtype: bool

In [7]:
# 条件を満たす要素のみを抽出した配列を生成
obj[obj>=5]

1     7
2    10
3    13
dtype: int64

## DataFrame
Pythonのリストなどを値とする辞書型（ディクショナリ）から生成できます。

### DataFrameを生成

In [9]:
# DataFrameを定義
# バリューが同じ長さの配列となっている辞書を引数にとる
df = pd.DataFrame(
    {'名前': ['山田', '鈴木', '佐藤', '田中', '斉藤', '高橋'], # 長さ: 6
     '年齢': [20, 34, 50, 12, 62, 22], # 長さ: 6
     '性別':['男', '男', '女', '男', '女', '女'] # 長さ: 6
    }
)

df

Unnamed: 0,名前,年齢,性別
0,山田,20,男
1,鈴木,34,男
2,佐藤,50,女
3,田中,12,男
4,斉藤,62,女
5,高橋,22,女


### 情報の抽出

In [10]:
# indexを指定することで､特定の行のみを抽出
# 自動的にSeries型に変換されてしまう
df.iloc[2]

名前    佐藤
年齢    50
性別     女
Name: 2, dtype: object

In [11]:
# DataFrame型のまま抽出したいときは､括弧を2重にする
df.iloc[[2]]

Unnamed: 0,名前,年齢,性別
2,佐藤,50,女


In [14]:
# 列の名称を指定することで､特定の列のみを抽出する
# [行,列]の順番に指定をする必要があるため､行はスライシングで全部指定
# 自動的にSeries型に変換されてしまう
df.loc[:,'年齢']

# 単純にindexのように列名を指定することも可能
# 自動的にSeriesに変換されてしまう
df['年齢']

0    20
1    34
2    50
3    12
4    62
5    22
Name: 年齢, dtype: int64

In [15]:
# DataFrame型のまま抽出したいときは､括弧を2重にする
df.loc[:,['年齢']]

# DataFrame型のまま抽出したいときは､括弧を2重にする
df[['年齢']]

Unnamed: 0,年齢
0,20
1,34
2,50
3,12
4,62
5,22


In [16]:
# 特定の要素を抽出
# ilocメソッドで[行のindex,列のindex]の順番に指定
df.iloc[1,0]

# locメソッドで[行のindex,列の名称]を順番に指定
df.loc[1,'名前']

'鈴木'

### DataFrameの編集

#### 行の追加（削除）

In [18]:
# 追加したいDataFrameを定義
row = pd.DataFrame({'名前': ['渡辺'],
                    '年齢': [45],
                    '性別': '男'})
# 行の追加
# np.agrangeで0〜6の数字が並んだ配列を生成
df_2.index = np.arange(len(df_2))
df_2

Unnamed: 0,名前,年齢,性別
0,山田,20,男
1,鈴木,34,男
2,佐藤,50,女
3,田中,12,男
4,斉藤,62,女
5,高橋,22,女
6,渡辺,45,男


In [20]:
# 行を削除（行: axis=0, 列: axis=1）
df_3 = df_2.drop(2, axis=0)
df_3

Unnamed: 0,名前,年齢,性別,居住地
0,山田,20,男,東京
1,鈴木,34,男,大阪
3,田中,12,男,宮城
4,斉藤,62,女,富山
5,高橋,22,女,大分
6,渡辺,45,男,沖縄


#### 列の追加（削除）

In [19]:
# 新たな列を代入
df_2['居住地'] = ['東京', '大阪', '北海道', '宮城', '富山', '大分', '沖縄']
df_2

Unnamed: 0,名前,年齢,性別,居住地
0,山田,20,男,東京
1,鈴木,34,男,大阪
2,佐藤,50,女,北海道
3,田中,12,男,宮城
4,斉藤,62,女,富山
5,高橋,22,女,大分
6,渡辺,45,男,沖縄


In [21]:
# 列を削除（行: axis=0, 列: axis=1）
df_4 = df_2.drop('性別', axis=1)
df_4

Unnamed: 0,名前,年齢,居住地
0,山田,20,東京
1,鈴木,34,大阪
2,佐藤,50,北海道
3,田中,12,宮城
4,斉藤,62,富山
5,高橋,22,大分
6,渡辺,45,沖縄


In [22]:
# 列名を変更
df_4.columns = ['name', 'age', 'residence']
df_4

Unnamed: 0,name,age,residence
0,山田,20,東京
1,鈴木,34,大阪
2,佐藤,50,北海道
3,田中,12,宮城
4,斉藤,62,富山
5,高橋,22,大分
6,渡辺,45,沖縄
