# Python言語によるビジネスアナリティクス
## 実務家のための最適化，統計分析，機械学習（近代科学社）

##  Pandas

Pandasの機能は豊富すぎて網羅するとわかりにくくなる．ここではデータ解析でよく使うテクニックだけを紹介する．

まずpandasモジュール（パッケージ）をインポートする．慣例に従い *pd* という別名をつけておく．

In [4]:
import pandas as pd

次に，データを読む．urlを直接入れてWeb経由でも読むことができる．

ここでは UCI機械学習レポジトリ https://archive.ics.uci.edu/ml/datasets.html からiris（あやめ）のデータを直接読んでみる．

ブラウザでurl http://logopt.com/data/iris.data/ をみてデータを確認すると，列の名前（ヘッダー）がついておらずデータだけがカンマ区切りで並んでいるようだ．

これはcsv (comma-separated valueの略）ファイルと呼ばれるタイプのテキストファイルなので，read_csv関数で読むことができる．返値はデータを表形式で保管するデータ構造であるデータフレームである．（ここでは *df* という名前の変数に保管しておく．）

ついでに列名をnames引数で指定してあげよう．これは列名を表す文字列のリストとして与える．教科書「 Python言語によるビジネスアナリティクスの84ページに書いてあるように，データは順に「'がく片長','がく片幅','花びら長','花びら幅', '種類'」である．


In [5]:
df = pd.read_csv('http://logopt.com/data/iris.data', names=['がく片長','がく片幅','花びら長','花びら幅', '種類'])

In [9]:
df.head(5) # headメソッドで最初の5つだけを表示（最後を表示するにはtailを使う；やってみよう！）

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅,種類
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### 問題

ワインに関するデータセットから，wineデータを読み込んで，wineという名前でデータフレームに保管せよ．

元データはこちらに格納されている．

http://logopt.com/data/wine.data

列名は https://archive.ics.uci.edu/ml/datasets/Wine で解説されているが，必要ならば以下のリストを用いて，列名を設定して読み込め．

``` python 
L = [ 'Alcohol', 'Malic','Ash', 'Alcalinity', 'Magnesium', 'Phenols', 'Flavanoids', 'Nonflavanoid', 'Proanthocyanins', 'Color', 'Hue', 'OD280', 'OD315', 'Proline']  
```

さらに，最後の5つのデータを表示させて確認せよ．

In [15]:
import pandas as pd
df = pd.read_csv("http://logopt.com/data/wine.data", names= [ 'Alcohol', 'Malic','Ash', 'Alcalinity', 'Magnesium', 'Phenols', 'Flavanoids', 'Nonflavanoid', 'Proanthocyanins', 'Color', 'Hue', 'OD280', 'OD315', 'Proline']) 
df.head()                 

Unnamed: 0,Alcohol,Malic,Ash,Alcalinity,Magnesium,Phenols,Flavanoids,Nonflavanoid,Proanthocyanins,Color,Hue,OD280,OD315,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


### 問題

車の燃費に関するデータセットから，Auto MPGデータを読み込んで，carという名前でデータフレームに保管せよ．

元データはこちらに格納されている．

http://logopt.com/data/auto-mpg.data

データを確認してみると，このデータはカンマ(,)区切り（これがread_csv関数の規定値）ではなく，空白で区切られている．

このような場合には，read_csvの引数の delim_whitespace をTrueに設定しておく必要がある．

列名は https://archive.ics.uci.edu/ml/datasets/Auto+MPG で解説されているが，必要ならば以下のリストを用いて，列名を設定して読み込め．

``` python 
L = ['mpg', 'cylinders', 'displacement', 'horsepower','weight', 'acceleration','year','origin', 'name'] 
```

さらに，最初と最後の5つのデータを表示させて確認せよ．

In [17]:
import pandas as pd
df = pd.read_csv("http://logopt.com/data/auto-mpg.data",delim_whitespace =True,names= ['mpg', 'cylinders', 'displacement', 'horsepower','weight', 'acceleration','year','origin', 'name'] )
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


### データフレームの属性

pandasのデータフレームは，Excelの表のようなものなので，行と列でアクセスできる．

行に付加されたラベルを**インデックス(index)**とよぶ．一番左端 $0,1,2,3.\ldots$ と表示されている太字の列がインデックスである．
これは**index属性**でアクセスできる．

In [18]:
df = pd.read_csv('http://logopt.com/data/iris.data', names=['がく片長','がく片幅','花びら長','花びら幅', '種類'])
print(df.index) #インデックスは0から149までの整数であることが表示される． 
df.head()

RangeIndex(start=0, stop=150, step=1)


Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅,種類
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


列の名前は，番上に表示されている太字の行であり，これは**columns属性**でアクセスできる．

In [19]:
df.columns

Index(['がく片長', 'がく片幅', '花びら長', '花びら幅', '種類'], dtype='object')

データ自身は，データフレームの**values属性**に保管されている．これはNumPyの多次元配列(ndarray)である(type関数を用いて確認してみる）．
したがって，データの最初の行を表示させるには，df.values[0]とすればよい．
0行4列目（最初のアヤメの名前）を表示させるには，df.values[0][4]とすればよい．

In [20]:
print( type(df.values) ) #values属性はNumPyのn次元配列である．
df.values[0][4] #0行4列目の要素は 'Iris-sentosa'である．

<class 'numpy.ndarray'>


'Iris-setosa'

データの概要を知るためのメソッドが**describe()**である．（メソッドなので関数と同じように最後に ()を付けるのを忘れずに．）

In [21]:
df.describe() #count（データ数），mean（平均），std（標準偏差），min（最小値）など

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### 問題

車の燃費データに対して，アヤメのデータと同じように，インデックス，列の名前とデータの概要を表示せよ．

さらに，その情報を用いて燃費(MPG: Mile Per Gallon)の平均と標準偏差を答えよ．


In [25]:
import pandas as pd
df = pd.read_csv("http://logopt.com/data/auto-mpg.data",delim_whitespace =True,names= ['mpg', 'cylinders', 'displacement', 'horsepower','weight', 'acceleration','year','origin', 'name'] )
print(df.columns)
df.describe()


Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'year', 'origin', 'name'],
      dtype='object')


Unnamed: 0,mpg,cylinders,displacement,weight,acceleration,year,origin
count,398.0,398.0,398.0,398.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,2970.424623,15.56809,76.01005,1.572864
std,7.815984,1.701004,104.269838,846.841774,2.757689,3.697627,0.802055
min,9.0,3.0,68.0,1613.0,8.0,70.0,1.0
25%,17.5,4.0,104.25,2223.75,13.825,73.0,1.0
50%,23.0,4.0,148.5,2803.5,15.5,76.0,1.0
75%,29.0,8.0,262.0,3608.0,17.175,79.0,2.0
max,46.6,8.0,455.0,5140.0,24.8,82.0,3.0


### 列へのアクセス

列は辞書と同じようにアクセスできる．

たとえば，'がく片幅'と名付けられた列を切り出すには，** df['がく片幅'] ** とすればよい．

この記法の短縮版として，データフレームの属性としてアクセスする方法もある．

たとえば，

``` python
 df.がく片幅
```

とすると同じ結果が返される．

切り出された列は**シリーズ(series)**とよばれ，NumPyの配列と同じような性質をもつ．

たとえば，'がく片長'と名付けられた列のi番目からj-1番目までを切り出したい場合には，

```python
 df['がく片長'][i:j] 
```

とすればよい．

In [28]:
df = pd.read_csv('http://logopt.com/data/iris.data', names=['がく片長','がく片幅','花びら長','花びら幅', '種類'])
df['がく片長'][:10]  #列名が'がく片長'の列の最初の9個のデータから成るシリーズ（series：インデックスとデータの組）

0    5.1
1    4.9
2    4.7
3    4.6
4    5.0
5    5.4
6    4.6
7    5.0
8    4.4
9    4.9
Name: がく片長, dtype: float64

In [29]:
df.がく片長[:3]

0    5.1
1    4.9
2    4.7
Name: がく片長, dtype: float64

### 行列の要素（Excelのセルに相当）へのアクセス

行と列を指定して要素を抽出するには，**loc**，**iloc**，**ix**属性を用いる．

文法はいずれも同じで，以下の通り．

```python
 df.iloc[行の切り出し,列の切り出し]  #番号でのアクセス
 df.loc[行の切り出し,列の切り出し]   #ラベルを用いたアクセス
 df.ix[行の切り出し,列の切り出し]    #混合型（混乱するので使用すべきでない！）
```

行と列はラベルもしくは番号でアクセスできる．**ラベル**とは，行に対してはインデックス，列に対しては列名を指す．

* ilocは番号によるアクセスを行う．

切り出しは，リストと同様に，番号 $i:j$ とすると $i$番目から$j-1$番目までが抽出される．

* locはラベルによるアクセスを行う．

切り出しは，リストやilocと異なり，境界も含んだものになる．すなわち，$i:j$ とするとラベル $i$からラベル $j$ までが抽出される．

* ixはラベルと番号の両方でアクセス可能である．

ただし，インデックスが整数の場合には，インデックス（ラベル）が優先される．

つまり，番号 $i:j$ とすると $i$番目から$j$番目（注意！最後の要素が含まれる！）までが抽出される．

インデックスが整数の場合には，**リストと異なり最後の要素が含まれる**!! 

しばしば混乱を招くので**ixは使わない方が良い！** （教科書ではixだけ説明しているが．．．）

切り出しを行うかわりに，抽出したい列名のリストを用いて，$[ 'がく片長', '花びら幅'  ]$ などと切り出しをしてもよい． 


通常のスライシングと同様に，すべての行もしくは列を抽出したい場合には，$ : $ と記述すればよい．

たとえば，1列目から2列目までから成るデータフレームを切り出すには，

```python
 df.iloc[ : , 1:3]  
```

とすればよい．


In [30]:
df = pd.read_csv('http://logopt.com/data/iris.data', names=['がく片長','がく片幅','花びら長','花びら幅', '種類'])
df.iloc[1:5,1:4] #1行目から4行目まで，1列目から3列目までを抽出

Unnamed: 0,がく片幅,花びら長,花びら幅
1,3.0,1.4,0.2
2,3.2,1.3,0.2
3,3.1,1.5,0.2
4,3.6,1.4,0.2


In [31]:
df.loc[1:5, 'がく片長':'花びら幅' ] #行をインデックスで，}列を列名で指定（最後が含まれることに注意！）

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4


In [32]:
df.loc[1:5, ['がく片長','花びら幅'] ]  #列をリストで指定

Unnamed: 0,がく片長,花びら幅
1,4.9,0.2
2,4.7,0.2
3,4.6,0.2
4,5.0,0.2
5,5.4,0.4


### 問題

1. iloc属性を用いて5番目から8番目までの行の2,3列目を抽出せよ．

2. loc属性を用いて'種類'だけの列から成るシリーズを抽出せよ．

3. インデックスが $2,6,4$ の行と'がく片長','花びら幅','花びら長'の列から成るデータフレームを抽出せよ．


In [33]:
df = pd.read_csv('http://logopt.com/data/iris.data', names=['がく片長','がく片幅','花びら長','花びら幅', '種類'])
df.iloc[5:9,2:4]

Unnamed: 0,花びら長,花びら幅
5,1.7,0.4
6,1.4,0.3
7,1.5,0.2
8,1.4,0.2


In [35]:
df.loc[1:5, ['種類'] ]

Unnamed: 0,種類
1,Iris-setosa
2,Iris-setosa
3,Iris-setosa
4,Iris-setosa
5,Iris-setosa


In [42]:
df = pd.read_csv('http://logopt.com/data/iris.data', names=['がく片長','がく片幅','花びら長','花びら幅', '種類'])
df.loc[[2,4,6], ['がく片長','花びら幅','花びら長']]

Unnamed: 0,がく片長,花びら幅,花びら長
2,4.7,0.2,1.3
4,5.0,0.2,1.4
6,4.6,0.3,1.4


# データの並べ替え

車の燃費データを列'mpg'の昇順に並べ替えてみよう．そのためには，データフレームのsort_valuesメソッドを用いる．

```python
 car.sort_values('mpg')
```

これだと燃費の悪い順に並ぶので，良い順に並べてみよう．そのためには，引数の ascending を False に設定すればよい（規定値はTrueで昇順）．

以下に示すようにマツダのファミリア(glc はgreat little carの略称）が最もよいことが分かる．


In [34]:
L = ['mpg', 'cylinders', 'displacement', 'horsepower','weight', 'acceleration','year','origin', 'name']
car = pd.read_csv('http://logopt.com/data/auto-mpg.data', delim_whitespace=True, names=L)
car.sort_values('mpg',ascending=False).head()


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
322,46.6,4,86.0,65.0,2110.0,17.9,80,3,mazda glc
329,44.6,4,91.0,67.0,1850.0,13.8,80,3,honda civic 1500 gl
325,44.3,4,90.0,48.0,2085.0,21.7,80,2,vw rabbit c (diesel)
394,44.0,4,97.0,52.0,2130.0,24.6,82,2,vw pickup
326,43.4,4,90.0,48.0,2335.0,23.7,80,2,vw dasher (diesel)


### 問題

車の燃費データを加速(acceleration)の良い順（大きいほど良い）に並べてみよう．どの車が一番加速が良いか？

また，一番重たい(weight)車は何か調べてみよう．


In [49]:
L = ['mpg', 'cylinders', 'displacement', 'horsepower','weight', 'acceleration','year','origin', 'name']
car = pd.read_csv('http://logopt.com/data/auto-mpg.data', delim_whitespace=True, names=L)
car.sort_values('acceleration',ascending=False).head() 


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
299,27.2,4,141.0,71.0,3190.0,24.8,79,2,peugeot 504
394,44.0,4,97.0,52.0,2130.0,24.6,82,2,vw pickup
326,43.4,4,90.0,48.0,2335.0,23.7,80,2,vw dasher (diesel)
59,23.0,4,97.0,54.0,2254.0,23.5,72,2,volkswagen type 3
300,23.9,8,260.0,90.0,3420.0,22.2,79,1,oldsmobile cutlass salon brougham


In [50]:
car.sort_values('weight',ascending=False).head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
44,13.0,8,400.0,175.0,5140.0,12.0,71,1,pontiac safari (sw)
103,11.0,8,400.0,150.0,4997.0,14.0,73,1,chevrolet impala
42,12.0,8,383.0,180.0,4955.0,11.5,71,1,dodge monaco (sw)
90,12.0,8,429.0,198.0,4952.0,11.5,73,1,mercury marquis brougham
95,12.0,8,455.0,225.0,4951.0,11.0,73,1,buick electra 225 custom


# データの抽出

データフレームからデータを条件によってフィルタリングしたいことがままある．

これは，NumPyのインデックス配列の概念と同じようにして行うことができる．

たとえば，アヤメのデータに対して「がく片長」が7以上のときTrue，そうでないときFalseのシリーズ（これはNumPyの配列と同じ機能をもつ）は，

``` python 
df.がく片長 >=7.0 
```

で生成される．この配列をインデックスとしてアヤメのデータフレーム df からデータを切り出すことによって，「がく片長」が7以上のデータのみを抽出することができる．

これから，がく片長」が7以上のアヤメは1つを除いてバージニカであることが分かる．

In [51]:
df[ df.がく片長 >=7.0 ]

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅,種類
50,7.0,3.2,4.7,1.4,Iris-versicolor
102,7.1,3.0,5.9,2.1,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
109,7.2,3.6,6.1,2.5,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
125,7.2,3.2,6.0,1.8,Iris-virginica
129,7.2,3.0,5.8,1.6,Iris-virginica


### 論理条件による抽出 & (and)

今度は「がく片長」だけでなく「花びら長」も考慮して区別しきれなかった2種類のアヤメを判別しよう．

「がく片長」が7以上で**かつ**「花びら長」が5以上のアヤメをデータフレームdfから抽出するには，and をあらわす**&** を用いる．

各条件式を( ) で括るのを忘れないように！

この2つの条件を満たすのはバージニカだけのようだ．

In [52]:
df[ (df.がく片長 >=7.0) & (df.花びら長>=5.0)  ]

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅,種類
102,7.1,3.0,5.9,2.1,Iris-virginica
105,7.6,3.0,6.6,2.1,Iris-virginica
107,7.3,2.9,6.3,1.8,Iris-virginica
109,7.2,3.6,6.1,2.5,Iris-virginica
117,7.7,3.8,6.7,2.2,Iris-virginica
118,7.7,2.6,6.9,2.3,Iris-virginica
122,7.7,2.8,6.7,2.0,Iris-virginica
125,7.2,3.2,6.0,1.8,Iris-virginica
129,7.2,3.0,5.8,1.6,Iris-virginica
130,7.4,2.8,6.1,1.9,Iris-virginica


### 論理条件による抽出 | (or)

今度は「がく片長」が4.8未満または「花びら長」が1.3未満のものを抽出してみよう．

「または」は or をあらわす**|** を用いる．

各条件式を( ) で括るのを忘れないように！

この2つの条件を満たすのはセントーサだけのようだ．

In [53]:
df[ (df.がく片長 <4.8) | (df.花びら長 < 1.3) ]

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅,種類
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
22,4.6,3.6,1.0,0.2,Iris-setosa
29,4.7,3.2,1.6,0.2,Iris-setosa
35,5.0,3.2,1.2,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa


### 問題

1. 花びら幅が 0.5 より小さいアヤメを抽出したデータフレームを生成せよ．

2. 花びら幅が 0.5 未満でかつ花びら長が1.5未満のアヤメを抽出せよ．

3. 種類が 'Iris-setosa'のアヤメだけを抽出したデータフレームを生成し，データの概要のdescribeメソッドを用いて表示せよ．
同様の操作を他の2種類のアヤメに対しても行え．これから各アヤメの種類の特徴が分かるか考察せよ．


In [54]:
df[ (df.花びら幅 <0.5)  ]

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅,種類
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [57]:
df[ (df.花びら幅 <0.5) & (df.花びら長 < 1.5) ]

Unnamed: 0,がく片長,がく片幅,花びら長,花びら幅,種類
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa


# グループ化

上では種類が 'Iris-setosa'のアヤメだけを抽出して，それに対する平均などを計算して分析を行った．

これをすべてのアヤメの種類に対して一度にできたら便利そうだ．

それを行う方法が**グループ化**であり，メソッド名は**groupby**だ．

列「種類」に対してグループ化を行い，グループ内のデータに対する平均をとるには，meanメソッドを用いればよい．

（より詳細な分析をしたい場合には describeメソッドを使えばよい．）

In [None]:
df.groupby('種類').mean()
df.groupby('種類').describe()

### 問題

以下の国別のアルコール摂取量のデータを用いて，大陸(continent)別のビール，蒸留酒，ワインの摂取量の平均を求めよ．

In [None]:
drinks = pd.read_csv('http://logopt.com/data/drinks.csv')
drinks.head()

# 行と列の削除

前に学んだ iloc や locを用いても行や列の削除を行うことができるが，1行だけとか1列だけを削除したい場合には ** dropメソッド **を用いる方が簡単だ．


例として，大陸別の飲酒データから，大陸（continent)を表す列を削除してみよう．

ここでdropメソッドの重要な引数として**axis**がある．これは軸を表し，**axis=0**のときが行の削除で，**axis=1**のときが列の削除になる．


In [None]:
drinks = pd.read_csv('http://logopt.com/data/drinks.csv')
drinks.head()

In [None]:
drinks.drop('continent', axis=1).head() #　大陸(continent)の列を削除

In [None]:
drinks.drop(2, axis=0).head() #インデックス２の行を削除

### 問題

* アヤメのデータを読み込み「がく片長」の列を削除した新しいデータフレームを生成せよ．

* 上のデータフレームから3番目と5番目の行を削除せよ．（ヒント：元のデータデータフレームに削除を適用するためには，dropメソッドinplace引数をTrueに設定する．既定値はinplace=Falseである．）


# 欠損値の処理

実際のデータでは，値が入っていない欠損値を含む場合が多い．欠損値はpandasでは**NaN**(Not A Number）と名付けられた特殊な値で表される．これは，numpyのnanオブジェクトであり，read_csv関数でデータを読んだときに，値が入っていない場合には，自動的にNaNが代入される．

例としてUFO（未確認飛行物体）の目撃情報のデータを読んでみよう．

In [None]:
ufo = pd.read_csv('http://logopt.com/data/ufo.csv')
ufo.tail()

データには多くの**NaN**（欠損値）を含まれる．

欠損値のある行を削除するには ** dropnaメソッド ** を用いる．


In [None]:
ufo.dropna().tail()

欠損値を適当な値で置き換えたい場合には**fillnaメソッド**を用いる．

たとえば，欠損値を'Unknown'で置き換えたい場合には，以下のようにする．


In [None]:
ufo.fillna('Unknown').tail()

### 問題

* 上のUFOデータに対して，町(City列）の欠損値を'場所不明'に，色（Colors Reported列）の欠損値を'たぶん白'に置き換えよ．

（ヒント１：元のデータデータフレームに欠損値処理の結果を適用するためには，inplace引数をTrueに設定する．既定値はinplace=Falseである．）

（ヒント２：特定の列を選択する方法については，だいぶ前に学んだはず．）


# データ型の変更と文字列の操作

データフレームの各列は，同じデータ型をもつ必要がある（NumPyの配列だからだ）．

データ型のチェックは，デーフレームの**dtypes属性**をみればよい．

データ型を変更したいときには，**astypeメソッド**を用いる．引数は変更したいデータの型を入れる（整数ならint，浮動小数点数ならfloatなど）．

例として国別の飲酒量のデータを用いる．

In [None]:
drinks = pd.read_csv('http://logopt.com/data/drinks.csv')
drinks.dtypes

beer_servingの列は整数になっているが，astypeメソッドを用いて，データ型を浮動小数点数**float**に変えてみよう．

In [None]:
drinks['beer_servings'] = drinks.beer_servings.astype(float)
drinks.dtypes

read_csv関数で読み込むときに，データ型を指定することもできる．

引数の**dtype**に列名をキー，データ型を値とした辞書で指定する．

In [None]:
drinks = pd.read_csv('http://bit.ly/drinksbycountry', dtype={'beer_servings':float, 'spirit_servings':float})
drinks.dtypes

データに文字列の操作を行いたいときには，**str**を付加してから，文字列のメソッドを書く．

たとえば，国名(country)を大文字に変換したいときには，**str.upper()**とする．

In [None]:
drinks['country'] = drinks.country.str.upper()
drinks.head()

### 問題

1. 国別の飲酒量のデータdrinks.csvを，すべての数値を浮動小数点数として読み込め．
2. 国別の飲酒量のデータdrinks.csvを読み込み，大陸列にある'Asia'を'アジア'に置換せよ．
（ヒント：文字列の置換はreplaceメソッドを用いる．）



# 日付時刻型 datetime の使用法

日付や時刻は**datetime**オブジェクトとして管理すると楽だ．

まずは未確認飛行物体のデータufoを読み込んでTime列のデータ型を確認してみよう．

データ型のチェックは，上で学んだように**dtypes属性**をみればよい．

In [None]:
ufo = pd.read_csv('http://logopt.com/data/ufo.csv')
ufo.dtypes

Time列のデータ型は一般の object となっているようだ．

これを日付時刻型 datetime に変換するには，pandasの**pd.to_datetime関数**を用いる．

変換した列を新たに DateTime 列に保管しておく．

In [None]:
ufo['DateTime'] = pd.to_datetime(ufo.Time) 
ufo.head()

In [None]:
ufo.dtypes #データ型を確認

In [None]:
# 日付時刻列の最大値と最小値の差を計算（結果は timedelta 型）し，それを日に換算して表示
time_delta = ufo.DateTime.max() - ufo.DateTime.min()
time_delta.days

### 　問題

* 未確認飛行物体のデータufoに対して，日付時刻列 DateTime から年を抽出した列　Year を生成せよ．
（ヒント：日付時刻型のから年を計算するには，** dt.year**とすればよい．）

* 未確認飛行物体のデータufoに対して，日付時刻列 DateTime から曜日を抽出した列 WeekDay を生成せよ．
（ヒント：日付時刻型のから曜日を求めるには**dt.weekday**とすればよい．）

* 未確認飛行物体のデータufoに対して，2000年以降のデータだけを抽出せよ．
（ヒント：2000年ちょうどの日付時刻は ** ts = pd.to_datetime('1/1/2000')** で得られる．）

### データフレームの生成法

ここでは，他のPythonオブジェクトからデータフレームやシリーズを生成する方法について述べる．

もっと簡単なのは，辞書から生成する方法である．

辞書のキーが列名：リストとして与えた値が行になる．


In [None]:
D = {'name':['Pikacyu', 'Mickey', 'Kitty'], 'color':['Yellow', 'Black', 'White']}
pd.DataFrame(D)

リストのリスト（入れ子のリスト）として与えることもできるが，列名は別途**columns**で与える必要がある．

In [None]:
L = [ ['Pikacyu', 'Yellow'], ['Mickey', 'Black'], ['Kitty', 'White']]
pd.DataFrame(L, columns=['name','color'])

NumPyの配列からもデータフレームを生成できる．

例として2つのサイコロを5回づつ振ったときの目をランダムに生成した配列に代入し，そこからデータフレームを生成する．

In [None]:
import numpy as np
Dice = np.random.randint(1,6, size=(5,2))
dicedf = pd.DataFrame(Dice, columns=[ 'dice1', 'dice2'] )
dicedf

同様に，コインを5回投げたときの表裏を0,1で表した配列を生成する．

In [None]:
Coin = np.random.randint(0,2, size=(5,2)) # 引数の（low, high）はhighを含まないことに注意
coindf = pd.DataFrame(Coin, columns=[ 'coin1', 'coin2'] )
coindf

2つのデータフレームを**concat**を用いて合体させる．列方向で合併したいので，**axis=1**と設定する．

In [None]:
pd.concat( [dicedf, coindf], axis =1 )

###  ピボットテーブル

ビデオゲームのセールスデータ"http://logopt.com/data/vgsales.csv" をピボットテーブルを用いて集計する．

pandasの**pivot_table**関数は，引数としてデータフレーム，集計する値(values)，行（index），列(columns），集計関数(aggfunc)を与えると，ピボットテーブルを返す．

例としてビデオゲームのデータに対して，行を年('Year')，列をジャンル('Genre')とし，世界中での売り上げ('Global_Sales')を合計（'sum')したピボットテーブルを生成する．

集計の方法は引数**aggfunc**で与える．規定値はNumPyの**mean**（平均）である．


In [None]:
import pandas as pd
sales = pd.read_csv("http://logopt.com/data/vgsales.csv")
sales.head()

In [None]:
pivot = pd.pivot_table(sales, values="Global_Sales",index="Year", columns="Genre", aggfunc="sum")
pivot.head() # ピボットテーブル自身がデータフレームオブジェクトなので，最初の5行だけ表示するにはheadメソッドが使える．

In [None]:
%matplotlib inline
pivot.plot() #ピボットテーブル自身がデータフレームオブジェクトなので，plotメソッドで描画もできる．

### 問題

ポケモンデータ http://logopt.com/data/Pokemon.csv" に対して，メインタイプ（'Type 1')と世代('Generation')別の攻撃力（'Attack'）と守備力（'Defence'）の平均を集計せよ．

（ヒント：pivot_tableで，集計値に複数の値を設定するには，引数**values**にデータフレームの列名をリストとして与える．）


In [None]:
import pandas as pd
poke = pd.read_csv("http://logopt.com/data/Pokemon.csv",index_col=0)
poke.head()

### 問題

映画のデータ "http://logopt.com/data/movie_metadata.csv" に対して，主演俳優の列（'actor_1_name'）がジョニー・デップ（'Johnny Depp'）のものを抽出し，年度（'title_year'）別の予算（'budget'）と興行収入（'gross'）を線グラフで表示せよ．

ヒント：行には年度を，列には何も指定しないでピボットテーブルを生成し，plotメソッドでグラフを生成する．

In [None]:
import pandas as pd
movie = pd.read_csv("http://logopt.com/data/movie_metadata.csv")
movie.head()