## pandas
pandasは数値計算ライブラリです。

公式ドキュメントURL(PDFになっている) 

https://pandas.pydata.org/pandas-docs/version/0.22/

pandasの保持するデータ構造は「データフレーム」である（因みにNumpyは行列）

データフレームとはいわゆる下記のような「表形式」を指します

|　|姓|名|
|:--|--:|--:|
|1|ビート|たけし|
|2|明石家|さんま|
|3|島田|紳助|

姓名と書かれている部分がcolumn(列名)

1,2,3と書かれている部分がindex(行名)と言われます

# DF生成

In [3]:
"""読み込み
pandasはNumpyと共に使用されることが多い
"""
import pandas as pd
import numpy as np

In [4]:
"""DF生成法1
columns,indexのデフォルトは、0から始まる連番
"""
df = pd.DataFrame([[1,2],[3,4]])
print(df)

   0  1
0  1  2
1  3  4


In [5]:
"""DF生成法2
"""
df = pd.DataFrame(
    {
        "姓":["ビート","明石家","島田"],
        "名":["たけし","さんま","紳助"]
    },index=["1","2","3"]
)
print(df)

     姓    名
1  ビート  たけし
2  明石家  さんま
3   島田   紳助


In [6]:
"""DF生成法3
"""
df = pd.DataFrame(
    [
        ["ビート","たけし"],
        ["明石家","さんま"],
        ["島田","紳助"]
    ]
    ,index=["1","2","3"]
    ,columns=["姓","名"]
)
print(df)

     姓    名
1  ビート  たけし
2  明石家  さんま
3   島田   紳助


# DFへのアクセス

In [7]:
"""データフレーム情報取得
通常はnumpyと共に使用されることが多いので、ここでは、numpyを用いてデータフレーム内の値を生成しています
"""
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(100)),
    "国語の点数":np.random.randint(40,100,(100)),
    "英語の点数":np.random.randint(40,100,(100)),
})
print(df)

    数学の点数  国語の点数  英語の点数
0      46     72     64
1      55     50     67
2      80     58     45
3      57     72     72
4      88     49     57
5      70     56     86
6      99     59     92
7      85     43     48
8      46     71     67
9      46     49     41
10     55     72     83
11     54     83     85
12     69     97     73
13     48     60     79
14     49     74     74
15     87     57     48
16     92     41     76
17     49     72     56
18     56     81     82
19     41     72     95
20     90     53     94
21     71     87     85
22     57     94     40
23     72     81     44
24     67     94     80
25     70     74     51
26     91     71     85
27     82     86     59
28     78     73     83
29     90     92     57
..    ...    ...    ...
70     62     54     49
71     92     60     67
72     58     72     92
73     66     42     54
74     84     69     79
75     90     80     74
76     63     41     99
77     85     67     80
78     57     81     97
79     52     74

In [8]:
"""先頭5行取得
"""
print(df.head())

   数学の点数  国語の点数  英語の点数
0     46     72     64
1     55     50     67
2     80     58     45
3     57     72     72
4     88     49     57


In [9]:
"""末尾の5行
"""
print(df.tail())

    数学の点数  国語の点数  英語の点数
95     45     73     94
96     41     76     91
97     55     95     90
98     67     79     61
99     76     97     51


In [10]:
"""統計量の取得
"""
print(df.describe())

            数学の点数      国語の点数       英語の点数
count  100.000000  100.00000  100.000000
mean    67.070000   72.57000   70.590000
std     17.778806   16.77375   18.047689
min     40.000000   41.00000   40.000000
25%     51.500000   58.75000   54.000000
50%     65.500000   72.00000   74.000000
75%     85.000000   87.25000   85.000000
max     99.000000   99.00000   99.000000


In [11]:
"""カラムの定義
"""
print(df.columns)

Index(['数学の点数', '国語の点数', '英語の点数'], dtype='object')


In [12]:
"""インデックスの定義
"""
print(df.index)

RangeIndex(start=0, stop=100, step=1)


In [13]:
"""特定列の取得
"""
print(df["数学の点数"])

0     46
1     55
2     80
3     57
4     88
5     70
6     99
7     85
8     46
9     46
10    55
11    54
12    69
13    48
14    49
15    87
16    92
17    49
18    56
19    41
20    90
21    71
22    57
23    72
24    67
25    70
26    91
27    82
28    78
29    90
      ..
70    62
71    92
72    58
73    66
74    84
75    90
76    63
77    85
78    57
79    52
80    79
81    63
82    45
83    43
84    52
85    44
86    69
87    86
88    49
89    95
90    60
91    40
92    74
93    47
94    94
95    45
96    41
97    55
98    67
99    76
Name: 数学の点数, Length: 100, dtype: int32


In [14]:
"""特定行の取得
"""
print(df[1:10])

   数学の点数  国語の点数  英語の点数
1     55     50     67
2     80     58     45
3     57     72     72
4     88     49     57
5     70     56     86
6     99     59     92
7     85     43     48
8     46     71     67
9     46     49     41


In [15]:
"""特定行列の取得
"""
print(df.loc[
    1:10,
    ["数学の点数","英語の点数"]
])

    数学の点数  英語の点数
1      55     67
2      80     45
3      57     72
4      88     57
5      70     86
6      99     92
7      85     48
8      46     67
9      46     41
10     55     83


In [16]:
"""条件で取得
"""
print(df[df.数学の点数>=90])

    数学の点数  国語の点数  英語の点数
6      99     59     92
16     92     41     76
20     90     53     94
26     91     71     85
29     90     92     57
30     91     98     70
32     98     96     80
35     94     88     75
44     98     47     62
48     98     62     79
67     96     69     65
71     92     60     67
75     90     80     74
89     95     67     96
94     94     58     58


In [17]:
"""条件で取得
"""
print(df["国語の点数"][df.数学の点数>=90])

6     59
16    41
20    53
26    71
29    92
30    98
32    96
35    88
44    47
48    62
67    69
71    60
75    80
89    67
94    58
Name: 国語の点数, dtype: int32


# 追加と削除

## 行の追加

In [18]:
"""行の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
print(df1)

   数学の点数  国語の点数  英語の点数
0     53     45     86
1     93     43     72
2     76     55     92
3     70     84     47
4     41     83     58


In [19]:
df2 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(1)),
    "国語の点数":np.random.randint(40,100,(1)),
    "英語の点数":np.random.randint(40,100,(1)),
})
print(df2)

   数学の点数  国語の点数  英語の点数
0     95     92     95


In [20]:
df=df1.append(df2)
print(df)

   数学の点数  国語の点数  英語の点数
0     53     45     86
1     93     43     72
2     76     55     92
3     70     84     47
4     41     83     58
0     95     92     95


In [21]:
df=pd.concat([df1,df2])
print(df)

   数学の点数  国語の点数  英語の点数
0     53     45     86
1     93     43     72
2     76     55     92
3     70     84     47
4     41     83     58
0     95     92     95


## 列の追加

In [28]:
"""列の追加
"""
df1 = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
print(df1)

   数学の点数  国語の点数  英語の点数
0     88     46     94
1     97     64     79
2     87     78     70
3     61     54     70
4     46     98     40


In [29]:
df2 = pd.DataFrame({
    "理科の点数":np.random.randint(40,100,(5)),
})
print(df2)

   理科の点数
0     71
1     96
2     92
3     82
4     63


In [30]:
df1["理科の点数"]=df2
print(df1)

   数学の点数  国語の点数  英語の点数  理科の点数
0     88     46     94     71
1     97     64     79     96
2     87     78     70     92
3     61     54     70     82
4     46     98     40     63


In [31]:
df3 = pd.DataFrame({
    "社会の点数":np.random.randint(40,100,(5)),
})
print(df3)

   社会の点数
0     95
1     54
2     76
3     79
4     49


In [32]:
df=pd.concat([df1,df3],axis=1)
print(df)

   数学の点数  国語の点数  英語の点数  理科の点数  社会の点数
0     88     46     94     71     95
1     97     64     79     96     54
2     87     78     70     92     76
3     61     54     70     82     79
4     46     98     40     63     49


In [33]:
## 行列の削除

In [35]:
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(5)),
    "国語の点数":np.random.randint(40,100,(5)),
    "英語の点数":np.random.randint(40,100,(5)),
})
print(df)

   数学の点数  国語の点数  英語の点数
0     48     87     71
1     58     57     99
2     48     63     78
3     57     47     43
4     88     86     44


In [36]:
"""行の削除"""
df=df.drop(1)
print(df)

   数学の点数  国語の点数  英語の点数
0     48     87     71
2     48     63     78
3     57     47     43
4     88     86     44


In [37]:
"""列の削除
"""
del df["数学の点数"]
print(df)

   国語の点数  英語の点数
0     87     71
2     63     78
3     47     43
4     86     44


# ファイルへの読み書き
csvデータをpandasのデータフレームとして扱うことができます

In [38]:
"""読み込み
"""
df=pd.read_csv("./data/test_read.csv",engine='python',encoding='utf8')
print(df)

     姓    名
0  明石家  サンマ
1  ビート  たけし
2   島田   紳助


In [39]:
"""1行目をヘッダーとして扱わない
"""
df=pd.read_csv("./data/test_read.csv",engine='python',header=None,encoding='utf8')
print(df)

     0    1
0    姓    名
1  明石家  サンマ
2  ビート  たけし
3   島田   紳助


In [40]:
"""書き込み
"""
df = pd.DataFrame({
    "数学の点数":np.random.randint(40,100,(50)),
    "国語の点数":np.random.randint(40,100,(50)),
    "英語の点数":np.random.randint(40,100,(50)),
})
df.to_csv("./data/test_write.csv",encoding='utf8')

# Series
ここまでは、DFについてみてきましたが、pandasのデータ構造には、Seriesというものがあります

これは「DFの任意の列」と解釈されます

In [45]:
"""Seriesの生成
"""
s = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'])
print(s)

Aさん    60
Bさん    55
Cさん    90
Dさん    99
Eさん    73
dtype: int64


In [46]:
"""Seriesの生成+Name
"""
s = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="算数の点数")
print(s)

Aさん    60
Bさん    55
Cさん    90
Dさん    99
Eさん    73
Name: 算数の点数, dtype: int64


In [47]:
"""データ取得
"""
print(s["Aさん"])

60


In [48]:
"""データ追加
"""
s_add = pd.Series({'Fさん': 100})
s_new=s.append(s_add)
print(s_new)

Aさん     60
Bさん     55
Cさん     90
Dさん     99
Eさん     73
Fさん    100
dtype: int64


In [49]:
"""行の追加
"""
s_new=pd.concat([s,s_add])
print(s_new)
print(type(s_new))

Aさん     60
Bさん     55
Cさん     90
Dさん     99
Eさん     73
Fさん    100
dtype: int64
<class 'pandas.core.series.Series'>


In [40]:
"""列の追加
"""
s1 = pd.Series([60, 55, 90, 99, 73], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="算数の点数")
s2 = pd.Series([65, 59, 60, 90, 83], index=['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],name="国語の点数")

s=pd.concat([s1,s2],axis=1)
print(s)
print(type(s))

     算数の点数  国語の点数
Aさん     60     65
Bさん     55     59
Cさん     90     60
Dさん     99     90
Eさん     73     83
<class 'pandas.core.frame.DataFrame'>


つまり、Pandasでは

+ Series：１次元
+ DataFrame：２次元

## 大規模なデータはデータベースで扱おう
pandasのデータフレームは何かと便利ですが、「**メモリ**」を食います。大規模なデータ分析はCSVを用いるのでなく、データベースという専用のデータ格納システムに保存してあります。**データベースの講座**は、順次公開していきます