## pandas
pandasは表計算ライブラリです。

公式ドキュメントURL

https://pandas.pydata.org/pandas-docs/version/0.22/

pandasの保持するデータ構造は「データフレーム」である（因みにNumpyは行列）

データフレームとはいわゆる下記のような「表形式」を指します

|　|姓|名|
|:--|--:|--:|
|1|ビート|たけし|
|2|明石家|さんま|
|3|島田|紳助|

姓名と書かれている部分がcolumn(列名)

1,2,3と書かれている部分がindex(行名)と言われます

# DF生成

In [2]:
"""読み込み
pandasはNumpyと共に使用されることが多いので、Numpyも読み込んでおきます
"""
import pandas as pd
import numpy as np

In [30]:
"""DF生成法1
columns,indexのデフォルトは、0から始まる連番
"""
df = pd.DataFrame([
        ["ビート","たけし"],
        ["明石家","さんま"],
        ["島田","紳助"]
    ])
df

Unnamed: 0,0,1
0,ビート,たけし
1,明石家,さんま
2,島田,紳助


In [31]:
"""DF生成法2
"""
df = pd.DataFrame(
    [
        ["ビート","たけし"],
        ["明石家","さんま"],
        ["島田","紳助"]
    ]
    ,index=["No1","No2","No3"]
    ,columns=["姓","名"]
)
df

Unnamed: 0,姓,名
No1,ビート,たけし
No2,明石家,さんま
No3,島田,紳助


In [32]:
"""DF生成法3
"""
df = pd.DataFrame(
    {
        "姓":["ビート","明石家","島田"],
        "名":["たけし","さんま","紳助"]
    },index=["No1","No2","No3"]
)
df

Unnamed: 0,姓,名
No1,ビート,たけし
No2,明石家,さんま
No3,島田,紳助


# DFへのアクセス

In [33]:
"""データフレーム情報取得
通常はnumpyと共に使用されることが多いので、ここでは、numpyを用いてデータフレーム内の値を生成しています
"""
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(100)),
    "国語の点数":np.random.randint(40,100,(100)),
    "英語の点数":np.random.randint(40,100,(100)),
})
df

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,90,42,88
1,40,92,40
2,54,61,93
3,61,99,70
4,78,97,56
5,48,74,59
6,58,71,51
7,80,67,84
8,65,62,90
9,69,60,88


In [34]:
"""先頭5行取得
"""
df.head()

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,90,42,88
1,40,92,40
2,54,61,93
3,61,99,70
4,78,97,56


In [35]:
"""末尾の5行
"""
df.tail()

Unnamed: 0,数学の点数,国語の点数,英語の点数
95,67,76,75
96,55,99,75
97,87,44,41
98,51,71,76
99,52,68,89


In [36]:
"""統計量の取得
"""
df.describe()

Unnamed: 0,数学の点数,国語の点数,英語の点数
count,100.0,100.0,100.0
mean,71.5,69.5,68.05
std,16.999406,17.134347,17.472272
min,40.0,40.0,40.0
25%,56.0,55.75,51.75
50%,70.5,68.5,68.5
75%,87.25,82.25,86.0
max,99.0,99.0,96.0


In [37]:
"""カラムの定義
"""
df.columns

Index(['数学の点数', '国語の点数', '英語の点数'], dtype='object')

In [38]:
"""インデックスの定義
"""
df.index

RangeIndex(start=0, stop=100, step=1)

In [39]:
"""特定列の取得
"""
df["数学の点数"]

0     90
1     40
2     54
3     61
4     78
5     48
6     58
7     80
8     65
9     69
10    63
11    61
12    51
13    94
14    98
15    88
16    98
17    87
18    54
19    49
20    92
21    84
22    42
23    90
24    90
25    77
26    79
27    60
28    67
29    88
      ..
70    91
71    64
72    80
73    66
74    91
75    85
76    70
77    50
78    94
79    84
80    76
81    57
82    40
83    41
84    95
85    43
86    90
87    56
88    70
89    88
90    68
91    94
92    60
93    99
94    79
95    67
96    55
97    87
98    51
99    52
Name: 数学の点数, Length: 100, dtype: int32

In [40]:
"""特定行の取得
"""
df[1:10]

Unnamed: 0,数学の点数,国語の点数,英語の点数
1,40,92,40
2,54,61,93
3,61,99,70
4,78,97,56
5,48,74,59
6,58,71,51
7,80,67,84
8,65,62,90
9,69,60,88


In [41]:
"""特定行列の取得
loc：データの取得にインデックス名とカラム名を用いる
"""
df.loc[
    1:10,
    ["数学の点数","英語の点数"]
]

Unnamed: 0,数学の点数,英語の点数
1,40,40
2,54,93
3,61,70
4,78,56
5,48,59
6,58,51
7,80,84
8,65,90
9,69,88
10,63,86


In [42]:
"""特定行列の取得
iloc：データの取得にインデックス番号とカラム番号を用いる
"""
df.iloc[
    1:10,
    [0,1]
]

Unnamed: 0,数学の点数,国語の点数
1,40,92
2,54,61
3,61,99
4,78,97
5,48,74
6,58,71
7,80,67
8,65,62
9,69,60


In [43]:
"""条件で取得
"""
df[df.数学の点数>=90]

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,90,42,88
13,94,60,55
14,98,82,42
16,98,78,46
20,92,73,47
23,90,67,50
24,90,94,52
30,96,90,93
38,94,99,48
43,94,88,88


In [44]:
"""条件で取得
特定列のみ
"""
df["国語の点数"][df.数学の点数>=90]

0     42
13    60
14    82
16    78
20    73
23    67
24    94
30    90
38    99
43    88
56    60
60    58
65    72
67    71
70    53
74    47
78    74
84    77
86    89
91    45
93    49
Name: 国語の点数, dtype: int32

# DFの追加と削除

## 行の追加

In [45]:
"""行の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
df1

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,42,76,49
1,69,84,64
2,60,56,91
3,79,66,40
4,63,77,93


In [46]:
df2 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(1)),
    "国語の点数":np.random.randint(40,100,(1)),
    "英語の点数":np.random.randint(40,100,(1)),
})
df2

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,71,51,62


In [47]:
df=df1.append(df2)
df

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,42,76,49
1,69,84,64
2,60,56,91
3,79,66,40
4,63,77,93
0,71,51,62


In [48]:
df=pd.concat([df1,df2])
df

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,42,76,49
1,69,84,64
2,60,56,91
3,79,66,40
4,63,77,93
0,71,51,62


## 列の追加

In [49]:
"""列の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
df1

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,79,42,62
1,83,58,71
2,80,78,50
3,97,88,81
4,84,81,73


In [50]:
df2 = pd.DataFrame({
    "理科の点数":np.random.randint(40,100,(5)),
})
df2

Unnamed: 0,理科の点数
0,87
1,96
2,56
3,42
4,79


In [51]:
df1["理科の点数"]=df2
df1

Unnamed: 0,数学の点数,国語の点数,英語の点数,理科の点数
0,79,42,62,87
1,83,58,71,96
2,80,78,50,56
3,97,88,81,42
4,84,81,73,79


In [52]:
df3 = pd.DataFrame({
    "社会の点数":np.random.randint(40,100,(5)),
})
df3

Unnamed: 0,社会の点数
0,70
1,41
2,71
3,97
4,61


In [53]:
df=pd.concat([df1,df3],axis=1)
df

Unnamed: 0,数学の点数,国語の点数,英語の点数,理科の点数,社会の点数
0,79,42,62,87,70
1,83,58,71,96,41
2,80,78,50,56,71
3,97,88,81,42,97
4,84,81,73,79,61


## 行列の削除

In [54]:
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
df

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,59,45,79
1,62,84,49
2,97,41,56
3,91,43,56
4,88,48,57


In [55]:
"""行の削除"""
df=df.drop(1)
df

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,59,45,79
2,97,41,56
3,91,43,56
4,88,48,57


In [56]:
"""列の削除
"""
del df["数学の点数"]
df

Unnamed: 0,国語の点数,英語の点数
0,45,79
2,41,56
3,43,56
4,48,57


# ファイルへの読み書き
csvデータをpandasのデータフレームとして扱うことができます

In [58]:
"""読み込み
"""
df=pd.read_csv("./data/test_read.csv",engine='python',encoding='utf8')
df

Unnamed: 0,姓,名
0,明石家,サンマ
1,ビート,たけし
2,島田,紳助


In [59]:
"""1行目をヘッダーとして扱わない
"""
df=pd.read_csv("./data/test_read.csv",engine='python',header=None,encoding='utf8')
df

Unnamed: 0,0,1
0,姓,名
1,明石家,サンマ
2,ビート,たけし
3,島田,紳助


In [60]:
"""書き込み
"""
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(50)),
    "国語の点数":np.random.randint(40,100,(50)),
    "英語の点数":np.random.randint(40,100,(50)),
})
df.to_csv("./data/test_write.csv",encoding='utf8')

## DFの応用
便利な使い方を紹介します

In [61]:
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
df

Unnamed: 0,数学の点数,国語の点数,英語の点数
0,59,75,85
1,69,58,81
2,48,75,53
3,81,98,77
4,99,80,66


### 統計量

In [68]:
"""それぞれの列の最小値を取得
"""
df.agg("min")

数学の点数    48
国語の点数    58
英語の点数    53
dtype: int32

In [70]:
"""それぞれの列の統計量を取得
"""
df.agg(["min","max","sum","mean","median","std"])

Unnamed: 0,数学の点数,国語の点数,英語の点数
min,48.0,58.0,53.0
max,99.0,98.0,85.0
sum,356.0,386.0,362.0
mean,71.2,77.2,72.4
median,69.0,75.0,77.0
std,19.753481,14.307341,12.953764


### 結合

inner join

left join

right join

を行う。

In [77]:
df1 = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']
    },index=[0, 1, 2, 3]
)
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [78]:
df2 = pd.DataFrame(
    {
        'B': ['B2', 'B3', 'B6', 'B7'],
        'D': ['D2', 'D3', 'D6', 'D7'],
        'F': ['F2', 'F3', 'F6', 'F7']
    },index=[2, 3, 6, 7]
)
df2

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [82]:
"""inner join
"""
pd.merge(df1, df2, on='B')

Unnamed: 0,A,B,C,D_x,D_y,F
0,A2,B2,C2,D2,D2,F2
1,A3,B3,C3,D3,D3,F3


In [83]:
"""left join
"""
pd.merge(df1, df2,how="left", on='B')

Unnamed: 0,A,B,C,D_x,D_y,F
0,A0,B0,C0,D0,,
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,D2,F2
3,A3,B3,C3,D3,D3,F3


In [84]:
"""right join
"""
pd.merge(df1, df2,how="right", on='B')

Unnamed: 0,A,B,C,D_x,D_y,F
0,A2,B2,C2,D2,D2,F2
1,A3,B3,C3,D3,D3,F3
2,,B6,,,D6,F6
3,,B7,,,D7,F7


### groupby

特定の列をグループ化させます

In [88]:
df = pd.DataFrame(
    {
        'sex': ['man', 'man', 'wooman', 'wooman', 'man', 'man', 'wooman'],
        'height': [170,175,155,149,160,165,170],
        'weight': [70,70,50,55,55,60,56],
    }
)
df

Unnamed: 0,sex,height,weight
0,man,170,70
1,man,175,70
2,wooman,155,50
3,wooman,149,55
4,man,160,55
5,man,165,60
6,wooman,170,56


In [90]:
"""性別でグループ化し、height/weightの平均値を求める
"""
df.groupby('sex').mean()

Unnamed: 0_level_0,height,weight
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
man,167.5,63.75
wooman,158.0,53.666667


In [91]:
"""性別でグループ化し、height/weightの統計量を求める
"""
df.groupby('sex').agg(["min","max","sum","mean","median","std"])

Unnamed: 0_level_0,height,height,height,height,height,height,weight,weight,weight,weight,weight,weight
Unnamed: 0_level_1,min,max,sum,mean,median,std,min,max,sum,mean,median,std
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
man,160,175,670,167.5,167.5,6.454972,55,70,255,63.75,65,7.5
wooman,149,170,474,158.0,155.0,10.816654,50,56,161,53.666667,55,3.21455


# Series
ここまでは、DFについてみてきましたが、pandasのデータ構造には、Seriesというものがあります

これは「DFの任意の列」と解釈されます

In [93]:
"""Seriesの生成
"""
s = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'])
s

Aさん    60
Bさん    55
Cさん    90
Dさん    99
Eさん    73
dtype: int64

In [94]:
"""Seriesの生成+Name
"""
s = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="算数の点数")
s

Aさん    60
Bさん    55
Cさん    90
Dさん    99
Eさん    73
Name: 算数の点数, dtype: int64

In [47]:
"""データ取得
"""
print(s["Aさん"])

60


In [95]:
"""データ追加
"""
s_add = pd.Series({'Fさん': 100})
s_new=s.append(s_add)
s_new

Aさん     60
Bさん     55
Cさん     90
Dさん     99
Eさん     73
Fさん    100
dtype: int64

In [96]:
"""行の追加
"""
s_new=pd.concat([s,s_add])
s_new

Aさん     60
Bさん     55
Cさん     90
Dさん     99
Eさん     73
Fさん    100
dtype: int64

In [97]:
"""列の追加
"""
s1 = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="算数の点数")
s2 = pd.Series([65, 59, 60, 90, 83], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="国語の点数")

s=pd.concat([s1,s2],axis=1)
s

Unnamed: 0,算数の点数,国語の点数
Aさん,60,65
Bさん,55,59
Cさん,90,60
Dさん,99,90
Eさん,73,83


つまり、Pandasでは

+ Series：１次元
+ DataFrame：２次元