# pandasのデータフレーム

In [0]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from pandas import Series, DataFrame

### ２次元の array を DataFrame に変換する例です。

In [26]:
from numpy.random import randint
dices = randint(1, 7, (5, 2))
dices

array([[3, 2],
       [4, 3],
       [1, 6],
       [2, 3],
       [1, 5]])

columns オプションで、各列の column 名を指定します。

In [27]:
diceroll = DataFrame(dices, columns=['dice1', 'dice2'])
diceroll

Unnamed: 0,dice1,dice2
0,3,2
1,4,3
2,1,6
3,2,3
4,1,5


### Series オブジェクトから DataFrame を作成する例です。

In [28]:
city = Series(['Tokyo', 'Osaka', 'Nagoya', 'Okinawa'], name='City')
city

0      Tokyo
1      Osaka
2     Nagoya
3    Okinawa
Name: City, dtype: object

In [29]:
temp = Series([25.0, 28.2, 27.3, 30.9], name='Temperature')
temp

0    25.0
1    28.2
2    27.3
3    30.9
Name: Temperature, dtype: float64

In [30]:
humid = Series([44, 42, np.nan, 62], name='Humidity')
humid

0    44.0
1    42.0
2     NaN
3    62.0
Name: Humidity, dtype: float64

各列の column 名と対応する Series オブジェクトのディクショナリを与えて、DataFrame を生成します。

In [31]:
cities = DataFrame({'City':city, 'Temperature':temp, 'Humidity':humid})
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,
3,Okinawa,30.9,62.0


### Series オブジェクトの代わりに、リストから DataFrame を作成する例です。

In [32]:
data = {'City': ['Tokyo','Osaka','Nagoya','Okinawa'],
        'Temperature': [25.0, 28.2, 27.3, 30.9],
        'Humidity': [44,42, np.nan, 62]}
cities = DataFrame(data)
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,
3,Okinawa,30.9,62.0


### 空の DataFrame に行を追加する例です。

はじめに、column 名だけを指定した DataFrame を作成します。

In [33]:
diceroll = DataFrame(columns=['dice1', 'dice2'])
diceroll

Unnamed: 0,dice1,dice2


対応するデータを Series オブジェクトとして用意します。この際、index オプションで column 名に対応する名前を付けておきます。

In [34]:
oneroll = Series(randint(1, 7, 2), index=['dice1', 'dice2'])
oneroll

dice1    4
dice2    1
dtype: int64

用意した DataFrame の append メソッドで、Series オブジェクトを追加します。

In [35]:
diceroll = diceroll.append(oneroll, ignore_index=True)
diceroll

Unnamed: 0,dice1,dice2
0,4,1


### 2個のサイコロを 1000 回振った結果をシュミレーションする例です。

In [36]:
diceroll = DataFrame(columns=['dice1', 'dice2'])
for i in range(1000):
    diceroll = diceroll.append(
        Series(randint(1, 7, 2), index=['dice1', 'dice2']),
        ignore_index = True)
diceroll[:5]

Unnamed: 0,dice1,dice2
0,4,3
1,2,1
2,5,3
3,2,2
4,5,4


DataFrameのdescribeメソッドで、基本的な統計値を確認することができます。

整数値型のデータは、カテゴリー変数としての統計値が表示されます。

In [37]:
diceroll.describe()

Unnamed: 0,dice1,dice2
count,1000,1000
unique,6,6
top,6,3
freq,179,184


数値型（浮動小数点型）データの列を含む場合は、該当列について、数値型データとしての統計値が表示されます。

In [38]:
cities.describe()

Unnamed: 0,Temperature,Humidity
count,4.0,3.0
mean,27.85,49.333333
std,2.439262,11.015141
min,25.0,42.0
25%,26.725,43.0
50%,27.75,44.0
75%,28.875,53.0
max,30.9,62.0


### DataFrame の append メソッドで、2つの DataFrame を結合する例です。

In [41]:
diceroll1 = DataFrame(randint(1, 7, (5, 2)),
                      columns=['dice1', 'dice2'])
diceroll1

Unnamed: 0,dice1,dice2
0,5,5
1,3,2
2,1,2
3,3,4
4,1,4


In [42]:
diceroll2 = DataFrame(randint(1, 7, (3, 2)),
                      columns=['dice1', 'dice2'])
diceroll2

Unnamed: 0,dice1,dice2
0,4,5
1,6,6
2,1,4


In [43]:
diceroll3 = diceroll1.append(diceroll2)
diceroll3

Unnamed: 0,dice1,dice2
0,5,5
1,3,2
2,1,2
3,3,4
4,1,4
0,4,5
1,6,6
2,1,4


ignore_index=True を指定すると、index は通し番号になるように再割当てが行われます。

In [44]:
diceroll4 = diceroll1.append(diceroll2, ignore_index=True)
diceroll4

Unnamed: 0,dice1,dice2
0,5,5
1,3,2
2,1,2
3,3,4
4,1,4
5,4,5
6,6,6
7,1,4


### DataFrame に列を追加する例です。

配列の index 記法で、まだ存在しない column 名を指定すると、新しい列が用意されます。

In [45]:
diceroll = DataFrame()
diceroll['dice1'] = randint(1, 7, 5)
diceroll

Unnamed: 0,dice1
0,3
1,2
2,5
3,3
4,3


In [46]:
diceroll['dice1']

0    3
1    2
2    5
3    3
4    3
Name: dice1, dtype: int64

In [47]:
diceroll['dice2'] = randint(1, 7, 5)
diceroll

Unnamed: 0,dice1,dice2
0,3,5
1,2,3
2,5,3
3,3,2
4,3,1


pd.concat 関数で複数の Series を列として結合できます。（axis=1 は列方向での結合を意味します。）

In [48]:
dice1 = Series(randint(1, 7, 5),name='dice1')
dice2 = Series(randint(1, 7, 5),name='dice2')
diceroll = pd.concat([dice1, dice2], axis=1)
diceroll

Unnamed: 0,dice1,dice2
0,2,3
1,5,4
2,6,6
3,6,2
4,6,2


pd.concat 関数で既存の DataFrame に Series を追加することもできます。

In [49]:
dice3 = Series(randint(1, 7, 5),name='dice3')
diceroll = pd.concat([diceroll, dice3], axis=1)
diceroll

Unnamed: 0,dice1,dice2,dice3
0,2,3,6
1,5,4,6
2,6,6,3
3,6,2,1
4,6,2,5


## 練習問題

(1) $0\le x\le 1$の範囲を等分した `num` 個の点ついて、「$\sin(2\pi x)$ + 正規分布の乱数（標準偏差0.3）」を計算した array を返す関数 `create_dataset(num)` を作成してください。

```
from numpy.random import normal

def create_dataset(num):
# この部分のコードを作成すること。
    return data_y
```

(2) (1)の関数について、$x$ の値と、対応する「$y = \sin(2\pi x)$ + 正規分布の乱数（平均0, 標準偏差0.3）」の値を列に持つ DataFrame を返すように修正してください。（列の名前は、それぞれ `'x'` および `'y'` とします。）

例えば、次のような実装方法が考えられます。複数の方法を試してみてください。

- 列 `'x'` と列 `'y'` に対応する array オブジェクト `data_x, data_y` を用意した後、これらを列に持つ DataFrame を定義する。（ディクショナリー形式のオプションで列を指定する。）
- 列 `'x'` と列 `'y'` に対応する array オブジェクト `data_x, data_y` を用意した後、空の DataFrame を作成して、`df['x']=data_x` のように列名指定でデータを追加する。
- 列 `'x'` と列 `'y'` を個別の Series オブジェクトとして作成した後、`pd.concat()` で結合する。

(3) (2)の関数を用いて、`num=1000` のデータフレームを作成した後、`describe()` メソッドでデータの統計情報を確認してください。