# データフレームからのデータの抽出

In [0]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from pandas import Series, DataFrame

### DataFrame から特定の列を Series として取り出す例です。

In [2]:
from numpy.random import randint
dices = randint(1, 7, (5, 2))
diceroll = DataFrame(dices, columns=['dice1', 'dice2'])
diceroll

Unnamed: 0,dice1,dice2
0,1,4
1,4,1
2,6,4
3,2,4
4,3,2


配列の index に column 名を指定して取り出します。

In [3]:
diceroll['dice1']

0    1
1    4
2    6
3    2
4    3
Name: dice1, dtype: int64

column 名を属性に指定して取り出します。

In [4]:
diceroll.dice1

0    1
1    4
2    6
3    2
4    3
Name: dice1, dtype: int64

### 複数の列を DataFrame として取り出す例です。

In [5]:
data = {'City': ['Tokyo', 'Osaka', 'Nagoya', 'Okinawa'],
                 'Temperature': [25.0, 28.2, 27.3, 30.9],
                 'Humidity': [44, 42, np.nan, 62]}
cities = DataFrame(data)
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,
3,Okinawa,30.9,62.0


In [6]:
cities[['City', 'Humidity']]

Unnamed: 0,City,Humidity
0,Tokyo,44.0
1,Osaka,42.0
2,Nagoya,
3,Okinawa,62.0


次のように、単一の列を DataFrame として取り出すこともできます。

In [7]:
cities[['City']]

Unnamed: 0,City
0,Tokyo
1,Osaka
2,Nagoya
3,Okinawa


次は Series として取り出す場合です。

In [8]:
cities['City']

0      Tokyo
1      Osaka
2     Nagoya
3    Okinawa
Name: City, dtype: object

### DataFrame から行を指定して取り出す例です。

配列のスライス記法で取り出す行を指定します。

In [9]:
cities[0:2]

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0


In [10]:
cities[2:3]

Unnamed: 0,City,Temperature,Humidity
2,Nagoya,27.3,


In [11]:
cities[1:]

Unnamed: 0,City,Temperature,Humidity
1,Osaka,28.2,42.0
2,Nagoya,27.3,
3,Okinawa,30.9,62.0


特定の条件を満たす行だけを取り出すこともできます。

In [12]:
cities[cities['Temperature']>28]

Unnamed: 0,City,Temperature,Humidity
1,Osaka,28.2,42.0
3,Okinawa,30.9,62.0


### 行と列の両方を指定して取り出す例です。

In [13]:
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,
3,Okinawa,30.9,62.0


`loc` メソッドを使用して、行と列を名前で指定します。

In [14]:
cities.loc[[0, 2], ['City', 'Humidity']]

Unnamed: 0,City,Humidity
0,Tokyo,44.0
2,Nagoya,


`iloc` メソッドを使用して、行と列を番号で指定します。

In [15]:
cities.iloc[[0, 2], [0, 1]]

Unnamed: 0,City,Temperature
0,Tokyo,25.0
2,Nagoya,27.3


### DataFrame の行ごとに処理をする例です。

In [16]:
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,
3,Okinawa,30.9,62.0


iterrows メソッドは、各行の index とその行を表わす Series オブジェクトを順に返します。

In [17]:
for index, line in cities.iterrows():
    print ('Index:', index)
    print (line, '\n')

Index: 0
City           Tokyo
Temperature       25
Humidity          44
Name: 0, dtype: object 

Index: 1
City           Osaka
Temperature     28.2
Humidity          42
Name: 1, dtype: object 

Index: 2
City           Nagoya
Temperature      27.3
Humidity          NaN
Name: 2, dtype: object 

Index: 3
City           Okinawa
Temperature       30.9
Humidity            62
Name: 3, dtype: object 



### データフレームを変更する例です。

DataFrame から抽出したオブジェクトを変更する際は、明示的にコピーを作成します。

In [18]:
humidity = cities['Humidity'].copy()
humidity[2] = 50
humidity

0    44.0
1    42.0
2    50.0
3    62.0
Name: Humidity, dtype: float64

コピーを変更しても元の DataFrame が変更されることはありません。

In [19]:
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,
3,Okinawa,30.9,62.0


DataFrame の特定要素を変更する際は、loc メソッドで要素を指定します。

In [20]:
cities.loc[2, 'Humidity'] = 50
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,50.0
3,Okinawa,30.9,62.0


30より大きい値の Temperature を30に揃える処理の例です。

In [21]:
for index, line in cities.iterrows():
    if line['Temperature'] > 30:
        cities.loc[index, 'Temperature'] = 30
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.2,42.0
2,Nagoya,27.3,50.0
3,Okinawa,30.0,62.0


条件による行の指定と組み合わせることもできます。

In [22]:
cities.loc[(cities['Temperature']>27)&(cities['Temperature']<29), 'Temperature'] = 28
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.0,42.0
2,Nagoya,28.0,50.0
3,Okinawa,30.0,62.0


### dropna メソッドで欠損値を含む行を削除する例です。

In [23]:
cities.loc[2, 'Humidity'] = np.nan
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.0,42.0
2,Nagoya,28.0,
3,Okinawa,30.0,62.0


In [24]:
cities = cities.dropna()
cities

Unnamed: 0,City,Temperature,Humidity
0,Tokyo,25.0,44.0
1,Osaka,28.0,42.0
3,Okinawa,30.0,62.0


## 練習問題

(1) 次の関数 `create_dataset()` を用いて、`num=10` 個のデータからなるデータフレーム `data` を作成します。その後、`iterrows` メソッドを利用して、データポイント $(x,\,y)$ の $y$ 値と関数 $\sin(2\pi x)$ の平方根平均二乗誤差
$\sqrt{\frac{\sum\{\sin(2\pi x) - y\}^2}{\rm num}}$
を計算してください。

ヒント：この例では、平方根平均二乗誤差は約0.3になります。

In [0]:
from numpy.random import normal

def create_dataset(num):
    data_x = np.linspace(0, 1, num)
    data_y = np.sin(2*np.pi*data_x) + normal(loc=0, scale=0.3, size=num)
    return DataFrame({'x': data_x, 'y': data_y})

(2) (1)の DataFrame から列 `'x'` だけを取り出した Series オブジェクトを変数 x に格納してください。`name` プロパティは、`'x'` とします。

さらに、$x^2$ （各要素を2乗した値）を要素とする Series オブジェクトを作成して、変数 `x2` に格納してください。`name` プロパティは、`'x2'` とします。

同様に、$x^3$、$x^4$ を要素とする Series オブジェクトを変数 `x3, x4` に格納します。

(3) (2)で作成した `x, x2, x3, x4` を結合して、`x, x2, x3, x4` を列に持った DataFrame `dataset` を作成してください。

ヒント：結果は、次のような DataFrame になります。

![figure01.png](https://github.com/enakai00/numpy-pandas-tutorial/raw/master/Solutions/figure01.png)