## pandas
pandasは数値計算ライブラリです。

公式ドキュメントURL(PDFになっている) 

https://pandas.pydata.org/pandas-docs/version/0.22/

pandasの保持するデータ構造は「データフレーム」である（因みにNumpyは行列）

データフレームとはいわゆる下記のような「表形式」を指します

|　|姓|名|
|:--|--:|--:|
|1|ビート|たけし|
|2|明石家|さんま|
|3|島田|紳助|

姓名と書かれている部分がcolumn(列名)

1,2,3と書かれている部分がindex(行名)と言われます

# DF生成

In [41]:
"""読み込み
pandasはNumpyと共に使用されることが多い
"""
import pandas as pd
import numpy as np

#乱数固定
np.random.seed(7)

In [3]:
"""DF生成法1
columns,indexのデフォルトは、0から始まる連番
"""
df = pd.DataFrame([[1,2],[3,4]])
print(df)

   0  1
0  1  2
1  3  4


In [4]:
"""DF生成法2
"""
df = pd.DataFrame(
    {
        "姓":["ビート","明石家","島田"],
        "名":["たけし","さんま","紳助"]
    },index=["1","2","3"]
)
print(df)

     姓    名
1  ビート  たけし
2  明石家  さんま
3   島田   紳助


In [5]:
"""DF生成法3
"""
df = pd.DataFrame(
    [
        ["ビート","たけし"],
        ["明石家","さんま"],
        ["島田","紳助"]
    ]
    ,index=["1","2","3"]
    ,columns=["姓","名"]
)
print(df)

     姓    名
1  ビート  たけし
2  明石家  さんま
3   島田   紳助


# DFへのアクセス

In [6]:
"""データフレーム情報取得
通常はnumpyと共に使用されることが多いので、ここでは、numpyを用いてデータフレーム内の値を生成しています
"""
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(100)),
    "国語の点数":np.random.randint(40,100,(100)),
    "英語の点数":np.random.randint(40,100,(100)),
})
print(df)

    数学の点数  国語の点数  英語の点数
0      87     51     91
1      44     98     95
2      65     87     95
3      94     56     97
4      43     52     52
5      59     69     52
6      63     83     85
7      79     81     76
8      68     49     47
9      97     52     61
10     54     43     98
11     63     86     81
12     48     54     78
13     65     60     55
14     86     93     83
15     82     55     99
16     66     99     58
17     48     75     68
18     79     88     56
19     78     44     45
20     44     83     75
21     88     48     53
22     47     66     72
23     84     98     93
24     40     94     63
25     51     83     71
26     95     87     73
27     98     63     85
28     46     53     80
29     59     90     92
..    ...    ...    ...
70     95     82     76
71     72     57     65
72     61     45     84
73     76     55     91
74     75     89     94
75     73     94     82
76     43     52     68
77     99     81     47
78     67     80     89
79     73     68

In [7]:
"""先頭5行取得
"""
print(df.head())

   数学の点数  国語の点数  英語の点数
0     87     51     91
1     44     98     95
2     65     87     95
3     94     56     97
4     43     52     52


In [8]:
"""末尾の5行
"""
print(df.tail())

    数学の点数  国語の点数  英語の点数
95     90     61     56
96     58     70     81
97     61     83     51
98     95     68     82
99     43     96     72


In [9]:
"""統計量の取得
"""
print(df.describe())

            数学の点数       国語の点数       英語の点数
count  100.000000  100.000000  100.000000
mean    67.600000   70.190000   71.600000
std     18.175352   17.106733   16.818701
min     40.000000   40.000000   40.000000
25%     49.750000   53.750000   56.000000
50%     67.000000   69.000000   73.000000
75%     82.500000   83.250000   85.000000
max     99.000000   99.000000   99.000000


In [10]:
"""カラムの定義
"""
print(df.columns)

Index(['数学の点数', '国語の点数', '英語の点数'], dtype='object')


In [11]:
"""インデックスの定義
"""
print(df.index)

RangeIndex(start=0, stop=100, step=1)


In [12]:
"""特定列の取得
"""
print(df["数学の点数"])

0     87
1     44
2     65
3     94
4     43
5     59
6     63
7     79
8     68
9     97
10    54
11    63
12    48
13    65
14    86
15    82
16    66
17    48
18    79
19    78
20    44
21    88
22    47
23    84
24    40
25    51
26    95
27    98
28    46
29    59
      ..
70    95
71    72
72    61
73    76
74    75
75    73
76    43
77    99
78    67
79    73
80    59
81    67
82    44
83    59
84    73
85    99
86    70
87    97
88    77
89    49
90    69
91    57
92    71
93    42
94    59
95    90
96    58
97    61
98    95
99    43
Name: 数学の点数, Length: 100, dtype: int32


In [13]:
"""特定行の取得
"""
print(df[1:10])

   数学の点数  国語の点数  英語の点数
1     44     98     95
2     65     87     95
3     94     56     97
4     43     52     52
5     59     69     52
6     63     83     85
7     79     81     76
8     68     49     47
9     97     52     61


In [42]:
"""特定行列の取得
"""
print(df.loc[
    1:10,
    ["数学の点数","英語の点数"]
])

    数学の点数  英語の点数
1      82     94
2      98     98
3      88     61
4      42     78
5      79     83
6      96     96
7      50     77
8      48     65
9      69     44
10     44     69


In [43]:
"""条件で取得
"""
print(df[df.数学の点数>=90])

    数学の点数  国語の点数  英語の点数
2      98     51     98
6      96     76     96
12     92     82     72
17     97     57     75
25     90     43     40
37     95     99     68
38     94     40     81
49     91     89     55


# 追加と削除

In [44]:
"""行の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
print(df1)

   数学の点数  国語の点数  英語の点数
0     87     59     54
1     44     63     63
2     65     79     48
3     94     68     65
4     43     97     86


In [45]:
df2 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(1)),
    "国語の点数":np.random.randint(40,100,(1)),
    "英語の点数":np.random.randint(40,100,(1)),
})
print(df2)

   数学の点数  国語の点数  英語の点数
0     82     66     48


In [46]:
df=df1.append(df2)
print(df)

   数学の点数  国語の点数  英語の点数
0     87     59     54
1     44     63     63
2     65     79     48
3     94     68     65
4     43     97     86
0     82     66     48


In [47]:
"""列の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
print(df1)

   数学の点数  国語の点数  英語の点数
0     79     84     46
1     78     40     59
2     44     51     84
3     88     95     45
4     47     98     96


In [48]:
df2 = pd.DataFrame({
    "理科の点数":np.random.randint(40,100,(5)),
})
print(df2)

   理科の点数
0     64
1     95
2     93
3     88
4     99


In [49]:
df1["理科の点数"]=df2
print(df1)

   数学の点数  国語の点数  英語の点数  理科の点数
0     79     84     46     64
1     78     40     59     95
2     44     51     84     93
3     88     95     45     88
4     47     98     96     99


In [50]:
"""行の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
df2 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(1)),
    "国語の点数":np.random.randint(40,100,(1)),
    "英語の点数":np.random.randint(40,100,(1)),
})
df=pd.concat([df1,df2])
print(df)

   数学の点数  国語の点数  英語の点数
0     40     78     75
1     74     44     43
2     96     86     48
3     49     49     59
4     54     63     88
0     41     40     56


In [23]:
"""列の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
df2 = pd.DataFrame({
    "理科の点数":np.random.randint(40,100,(5)),
})
df=pd.concat([df1,df2],axis=1)
print(df)

   数学の点数  国語の点数  英語の点数  理科の点数
0     96     84     58     62
1     93     95     96     58
2     74     60     61     45
3     52     83     90     79
4     44     89     97     95


In [24]:
"""行列の削除
"""
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
print(df)

   数学の点数  国語の点数  英語の点数
0     45     56     86
1     45     82     78
2     46     94     53
3     71     86     42
4     69     44     52


In [25]:
"""行の削除"""
df=df.drop(1)
print(df)

   数学の点数  国語の点数  英語の点数
0     45     56     86
2     46     94     53
3     71     86     42
4     69     44     52


In [26]:
"""列の削除
"""
del df["数学の点数"]
print(df)

   国語の点数  英語の点数
0     56     86
2     94     53
3     86     42
4     44     52


# ファイルへの読み書き
csvデータをpandasのデータフレームとして扱うことができます

In [51]:
"""読み込み
"""
df=pd.read_csv("./data/test_read.csv",engine='python',encoding='utf8')
print(df)

     姓    名
0  明石家  サンマ
1  ビート  たけし
2   島田   紳助


In [31]:
"""1行目をヘッダーとして扱わない
"""
df=pd.read_csv("./data/test_read.csv",engine='python',header=None,encoding='utf8')
print(df)

     0    1
0    姓    名
1  明石家  サンマ
2  ビート  たけし
3   島田   紳助


In [52]:
"""書き込み
"""
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(50)),
    "国語の点数":np.random.randint(40,100,(50)),
    "英語の点数":np.random.randint(40,100,(50)),
})
df.to_csv("./data/test_write.csv",encoding='utf8')

# Series
ここまでは、DFについてみてきましたが、pandasのデータ構造には、Seriesというものがあります

これは「DFの任意の列」と解釈されます

In [34]:
"""Seriesの生成
"""
s = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'])
print(s)

Aさん    60
Bさん    55
Cさん    90
Dさん    99
Eさん    73
dtype: int64


In [35]:
"""Seriesの生成
"""
s = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="算数の点数")
print(s)

Aさん    60
Bさん    55
Cさん    90
Dさん    99
Eさん    73
Name: 算数の点数, dtype: int64


In [36]:
"""データ取得
"""
print(s["Aさん"])

60


In [37]:
"""データ追加
"""
s_add = pd.Series({'Fさん': 100})
s=s.append(s_add)
print(s)

Aさん     60
Bさん     55
Cさん     90
Dさん     99
Eさん     73
Fさん    100
dtype: int64


In [38]:
"""行の追加
"""
s1 = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'])
s2 = pd.Series({'Fさん': 100})

s=s1.append(s2)
print(s)

Aさん     60
Bさん     55
Cさん     90
Dさん     99
Eさん     73
Fさん    100
dtype: int64


In [39]:
"""行の追加
"""
s1 = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'])
s2 = pd.Series({'Fさん': 100})

s=pd.concat([s1,s2])
print(s)
print(type(s))

Aさん     60
Bさん     55
Cさん     90
Dさん     99
Eさん     73
Fさん    100
dtype: int64
<class 'pandas.core.series.Series'>


In [40]:
"""列の追加
"""
s1 = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="算数の点数")
s2 = pd.Series([65, 59, 60, 90, 83], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="国語の点数")

s=pd.concat([s1,s2],axis=1)
print(s)
print(type(s))

     算数の点数  国語の点数
Aさん     60     65
Bさん     55     59
Cさん     90     60
Dさん     99     90
Eさん     73     83
<class 'pandas.core.frame.DataFrame'>


## 大規模なデータはデータベースで扱おう
pandasのデータフレームは何かと便利ですが、「**メモリ**」を食います。大規模なデータ分析はCSVを用いるのでなく、データベースという専用のデータ格納システムに保存してあります。**データベースの講座**は、順次公開していきます