
# Data Analysis with *pandas*
# Pandasを用いたデータ解析

 The *pandas* library provides high-level data structures and manipulation tools designed to make data analysis fast and easy in Python. It is one of the critical ingredients enabling Python to be a powerful and productive data analysis environment.

 Pandasは、Python でデータ解析を素早く簡単に行うために、高レベルのデータ構造を扱える分析ツールを提供し、Python をパワフルで生産性の高いデータ分析環境にしている。

Let's first import the necessary packages we will be using in this lab. From pandas we will mainly use two primary objects: *Series* and *DataFrame*.

まず、これから使用する必要なライブラリをインポートする。Pandasで主に使用する2つのオブジェクトはシリーズ（Series）とデータフレーム（DataFrame）である。

In [None]:
# Pandas関連ライブラリを読み込む　Pandas related libraries
from pandas import Series, DataFrame
import pandas as pd

#Numpy関連ライブラリ　Numpy related
import numpy as np
from numpy.random import randn #random number generator
np.random.seed(12345) #set seed
np.set_printoptions(precision=4) #set print precision

## Introduction to *pandas* data structures

## *Pandas* のデータ構造

First we study the two most important data structures in pandas: *Series* and *DataFrame*. They provide a solid basis for most applications.

Pandas を始めるためには、まずシリーズ（*Series*）とデータフレーム（*DataFrame*）という2つの最も重要なデータ構造に慣れる必要がある。これらは万能ではないが、ほとんどのアプリケーションにとって信頼できる使いやすい基盤となる。

### シリーズ（Series）
A *Series* is a one-dimensional array-like object containing an array of data (of any NumPy data type) and an associated array of data labels, called its *index*. The simplest Series is formed from only an array of data:

シリーズは1次元の配列のようなオブジェクトである。シリーズは、（NumPy が持つデータ型の）データ配列と，それに関連付けられたインデック（*index*）というデータラベルの配列を持つ。最もシンプルなシリーズは1つのデータ配列で構成される。

In [None]:
obj = Series([5, 6, 12, -5, 6.7])
obj

Unnamed: 0,0
0,5.0
1,6.0
2,12.0
3,-5.0
4,6.7


The string representation of a Series displayed interactively shows the index on the left and the values on the right. Since we did not specify an index for the data, a default one consisting of the integers 0 through N - 1 (where N is the length of the data) is created. You can get the array representation and index object of the Series via its values and index attributes, respectively:

コンソールに出力されているシリーズの文字列表現では、インデックスが左側、データ値が右側に表示される。ここでは、データに対するインデックスを指定しなかったため、0 からN－1（N はデータの長さ）のデフォルトのインデックスが作られている。以下の通り、values 属性とindex 属性を使うと、シリーズが持つデータ配列とインデックスオブジェクトをそれぞれ取得することができる。


In [None]:
obj.values

array([ 5. ,  6. , 12. , -5. ,  6.7])

In [None]:
obj.index

RangeIndex(start=0, stop=5, step=1)

We can also create a Series with an index identifying each data point:

各データを特定するためのインデックス付きのシリーズを作成することもできる。

In [None]:
obj2 = Series([1, 7, -3, -2], index=['d', 'b', 'a', 'c'])
obj2

Unnamed: 0,0
d,1
b,7
a,-3
c,-2


In [None]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

We can use values in the index when selecting single values or a set of values:

NumPy の配列のように、1つの値や複数の値を参照するときにインデックスを使って指定することができる。

In [None]:
obj2['a']

-3

In [None]:
obj2['d'] = 6 #assign different value to cell with index 'd'
obj2[['c', 'a', 'd']]

Unnamed: 0,0
c,-2
a,-3
d,6


## **TASK 1-1**:
Create a Series object *my_obj* with values [1, 10, 100, 1000] and index ['A', 'B', 'C', 'D'].

(1) Display the whole object

(2) Display its values

(3) Display its index

(4) Assign a value of 10000 to cell with index 'B'

(5) Display the set of values corresponding to indexes ['B', 'D']


値が [1, 10, 100, 1000]、インデックスが ['A', 'B', 'C', 'D']というシリーズ *my_obj* を作成せよ。

(1) 作成したオブジェクト全体を表示せよ

(2) 作成したオブジェクトの**値**だけを表示せよ

(3) 作成したオブジェクトの**インデックス**だけを表示せよ

(4) インデックス 'B' に対応するセルに10000という値を代入せよ

(5) インデックス ['B', 'D'] に対応する値を表示せよ


In [None]:
#1
my_obj = pd.Series([1, 10, 100, 1000], index=['A', 'B', 'C', 'D'])
my_obj

Unnamed: 0,0
A,1
B,10
C,100
D,1000


In [None]:
#2
my_obj.values

array([   1,   10,  100, 1000])

In [None]:
#3
my_obj.index

Index(['A', 'B', 'C', 'D'], dtype='object')

In [None]:
#4
my_obj['B'] = 10000

In [None]:
#5
my_obj[['B','D']]

Unnamed: 0,0
B,10000
D,1000


NumPy array operations, such as filtering with a boolean array, scalar multiplication, or applying math functions, will preserve the index-value link:

条件指定によるフィルタリング、数値の掛け算、数学関数の適用、などのNumPy の配列操作を行った場合も、インデックスとデータ値との関連は保持される。

In [None]:
#show what we have in obj2
obj2

Unnamed: 0,0
d,6
b,7
a,-3
c,-2


To get all values in obj2 greater than 0 we can use:

以下の通り（論理条件指定によるフィルタリングを用いて）、シリーズ obj2の0より大きい値をすべて取得することができる。

In [None]:
obj2[obj2 > 0]

Unnamed: 0,0
d,6
b,7


In [None]:
obj2 > 0

Unnamed: 0,0
d,True
b,True
a,False
c,False


Scalar multiplication works like:

スカラー掛け算:

In [None]:
obj2 * 2

Unnamed: 0,0
d,12
b,14
a,-6
c,-4


Applying math functions:

数学関数の適用:

In [None]:
np.exp(obj2)

Unnamed: 0,0
d,403.428793
b,1096.633158
a,0.049787
c,0.135335


## **TASK 1-2**:
Create a Series object *p* with values [1, 2, 3, 4, 5] and index=[1, 2, 3, 4, 5].

(1) Display sin(p)

(2) Display the set of values of sin(p) which are less than 0

値が [1, 2, 3, 4, 5]、インデックスが [1, 2, 3, 4, 5]というシリーズ *p* を作成せよ。

(1) sin(p)を表示せよ

(2) sin(p)の0より小さい値だけを表示せよ


In [None]:
p = Series([1,2,3,4,5], index=[1,2,3,4,5])
#p = Series(range(1,6), np.arange(1,6)) #range or np.arange can be used with longer consecutive data
p

Unnamed: 0,0
1,1
2,2
3,3
4,4
5,5


In [None]:
#1
np.sin(p)

Unnamed: 0,0
1,0.841471
2,0.909297
3,0.14112
4,-0.756802
5,-0.958924


In [None]:
#2
np.sin(p)[np.sin(p)<0]

Unnamed: 0,0
4,-0.756802
5,-0.958924


Another way to think about a Series is as a fixed-length, ordered dictionary, as it is a mapping of index values to data values. It can be substituted into many functions that expect a dictionary:

シリーズを、インデックスとデータ値がマッピングされた固定長の順序付きディクショナリとして考えることができる。

In [None]:
'b' in obj2 #is there an index value 'b' in obj2

True

In [None]:
'e' in obj2

False

In case you are not familiar with dictionaries, check the following examples which show all of their usage that we would need here.

In [None]:
tel = {} #create an empty dictionary (we will store telephone numbers in it)

In [None]:
tel = {'Yamada' : 4098, 'Sato' : 4139}
tel

{'Yamada': 4098, 'Sato': 4139}

In [None]:
#check Yamada's tel number; Yamadaの電話番号を調べたい場合は
tel['Yamada']

4098

In [None]:
tel['Suzuki'] = 4127 #Add a new item 新しい項目の追加
tel

{'Yamada': 4098, 'Sato': 4139, 'Suzuki': 4127}

In [None]:
tel.keys()

dict_keys(['Yamada', 'Sato', 'Suzuki'])

In [None]:
tel.values()

dict_values([4098, 4139, 4127])

In [None]:
del tel['Suzuki'] #delete an item
tel

{'Yamada': 4098, 'Sato': 4139}

In [None]:
tel['Sato'] = 7777 #set a new value for existing item
tel

{'Yamada': 4098, 'Sato': 7777}

In [None]:
tel['Shimizu'] #we get an error for key which does not exist

KeyError: 'Shimizu'

In [None]:
'Sato' in tel #check if a certain key exists

True

In [None]:
'Shimizu' in tel

False

If we have data contained in a Python dictionary, you can create a Series from it by passing the dict:

Python のディクショナリ形式のデータがある場合は、それを使って次のようにシリーズを作成することができる。

In [None]:
sdata = {'Sapporo': 35000,
         'Tokyo': 71000,
         'Okayama': 16000,
         'Hiroshima': 5000} # 辞書形式のデータ data in a dictionary form
obj3 = Series(sdata)
obj3

Unnamed: 0,0
Sapporo,35000
Tokyo,71000
Okayama,16000
Hiroshima,5000


When only passing a dict, the index in the resulting Series will be the dict's keys in the specified order:

前の例のように1 つのディクショナリだけを渡した場合は、作成されるシリーズのインデックスはディクショナリのキーの順になる。

In [None]:
sdata = {'Sapporo': 35000,
         'Tokyo': 71000,
         'Okayama': 16000,
         'Hiroshima': 5000}
city = ['Kyoto', 'Sapporo', 'Okayama', 'Tokyo']
obj4 = Series(sdata, index=city)
obj4

Unnamed: 0,0
Kyoto,
Sapporo,35000.0
Okayama,16000.0
Tokyo,71000.0


In this case, 3 values found in *sdata* were placed in the appropriate locations, but since no value for 'Kyoto' was found, it appears as **NaN** (not a number) which is considered in pandas to mark missing or *NA* values. The *isnull* and *notnull* functions in pandas can be used to detect missing data:

この例の場合は、*sdata* の中に見つかった3つのデータは正しくインデックスと対応付けられているが、 'Kyoto' に対応するデータは見つからないため、**NaN**（not a number、非数）となっている。NaN は、pandas では欠損値（missing value）、またはNA 値として扱われる。pandas のisnull 関数とnotnull 関数は欠損値を特定するために使える。

In [None]:
pd.isnull(obj4)

Unnamed: 0,0
Kyoto,True
Sapporo,False
Okayama,False
Tokyo,False


In [None]:
pd.notnull(obj4)

Unnamed: 0,0
Kyoto,False
Sapporo,True
Okayama,True
Tokyo,True


*Series* also has these as instance methods:

シリーズは、isnull 関数とnotnull 関数をインスタンスメソッドとしても持っている。

In [None]:
obj4.isnull()

Unnamed: 0,0
Kyoto,True
Sapporo,False
Okayama,False
Tokyo,False


An important *Series* feature for many applications is that it automatically aligns differently indexed data in arithmetic operations:

多くのアプリケーションにとって重要なシリーズの機能に、算術演算をするときに別々にインデックス付けされたデータが自動的に整形される、というものがある。

In [None]:
obj3

Unnamed: 0,0
Sapporo,35000
Tokyo,71000
Okayama,16000
Hiroshima,5000


In [None]:
obj4

Unnamed: 0,0
Kyoto,
Sapporo,35000.0
Okayama,16000.0
Tokyo,71000.0


In [None]:
obj3 + obj4

Unnamed: 0,0
Hiroshima,
Kyoto,
Okayama,32000.0
Sapporo,70000.0
Tokyo,142000.0


Both the Series object itself and its index have a name attribute:

シリーズのオブジェクト自身とそのインデックスはname 属性を持つ。

In [None]:
obj4.name = 'population'
obj4.index.name = 'city'
obj4

Unnamed: 0_level_0,population
city,Unnamed: 1_level_1
Kyoto,
Sapporo,35000.0
Okayama,16000.0
Tokyo,71000.0


A Series's index can be altered in place by assignment:

シリーズのインデックスは、後から代入して置き換えることができる。

In [None]:
obj

Unnamed: 0,0
0,5.0
1,6.0
2,12.0
3,-5.0
4,6.7


In [None]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan', 'Doug']
obj

Unnamed: 0,0
Bob,5.0
Steve,6.0
Jeff,12.0
Ryan,-5.0
Doug,6.7


## **TASK 1-3**:

(1) Create a Series object *c1* from a dictionary c = {'Tokyo': 100000, 'Hiroshima': 50000, 'Yokohama': 60000}.

(2) Create another Series object *c2* from *c1*'s data, but using as index ['Tokyo', 'Hiroshima', 'Fukuoka'].

(3) Create c3 = c1+c2.

(4) Display all these Series.

(5) See if there is an index 'Yokohama' in c1. How about in c2?

(6) Show if there are any NaN values in c3.

(7) Change the index of c3 to ['B1', 'A1', 'Z1', 'F1'].



(1) ディクショナリ c = {'Tokyo': 100000, 'Hiroshima': 50000, 'Yokohama': 60000} を使って、シリーズ *c1* を作成せよ。

(2) *c1* のデータとインデックス['Tokyo', 'Hiroshima', 'Fukuoka']を使って、新しいシリーズ *c2* を作成せよ。

(3) c3 = c1+c2 を作成せよ。

(4) 作成したシリーズ c1、c2 と c3 を表示して,中身を確認せよ。

(5) シリーズ c1 には、 'Yokohama'というインデックスが存在するかどうかを調べよ。次には、 同じことをc2に対しても調べよ。

(6) c3 には欠損値があるかどうかを調べよ。

(7) c3 のインデックスを ['B1', 'A1', 'Z1', 'F1']に書き換えよ。

In [None]:
#1
c = {'Tokyo': 100000, 'Hiroshima': 50000, 'Yokohama': 60000}
c1 = pd.Series(c)

In [None]:
#2
c2 = pd.Series(c1.values, index=['Tokyo', 'Hiroshima', 'Fukuoka'])

In [None]:
#3
c3 = c1+c2

In [None]:
#4
c1

Unnamed: 0,0
Tokyo,100000
Hiroshima,50000
Yokohama,60000


In [None]:
c2

Unnamed: 0,0
Tokyo,100000
Hiroshima,50000
Fukuoka,60000


In [None]:
c3

Unnamed: 0,0
Fukuoka,
Hiroshima,100000.0
Tokyo,200000.0
Yokohama,


In [None]:
#5
'Yokohama' in c1

True

In [None]:
'Yokohama' in c2

False

In [None]:
#6
pd.isnull(c3)

Unnamed: 0,0
Fukuoka,True
Hiroshima,False
Tokyo,False
Yokohama,True


In [None]:
#7
c3.index = ['B1', 'A1', 'Z1', 'F1']
c3

Unnamed: 0,0
B1,
A1,100000.0
Z1,200000.0
F1,


### DataFrame
A *DataFrame* represents a tabular, spreadsheet-like data structure containing an ordered collection of columns, each of which can be a different value type (numeric, string, boolean, etc.). The DataFrame has both a row and column index; it can be thought of as a dict of Series (one for all sharing the same index).

**データフレーム**(DataFrame)はテーブル形式のスプレッドシート風のデータ構造を持ち、順序付けられた列を持っている。各列には別々の型（数値型、文字列型、ブール型、など）を持たせることができる。データフレームは行と列の両方にインデックスを持っている。データフレームはシリーズ型の値を持つディクショナリと考えることもできる（この場合は、各シリーズのインデックスを全体で共有しているとみなせる）。

There are many different ways to construct a DataFrame. One of the most common is from a dict of equal-length lists or NumPy arrays:

データフレームを作成するには、さまざまな方法がある。しかし、最も一般的な方法は、同じ長さを持つリスト型の値を持ったディクショナリかNumPy の配列を使う方法である。

In [None]:
data = {'city': ['Sapporo', 'Sapporo', 'Sapporo', 'Nara', 'Nara'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

The resulting DataFrame will have its index assigned automatically as with Series, and
the columns are placed in sorted order:

上記のように作成されるデータフレームには、シリーズと同じように自動的にインデックスが割り当てられる。そして、列はソートされた順番に配置される。

In [None]:
frame

Use method **head(n)** to display only the first *n* rows of a DataFrame (this is useful when the data is very big).

データフレームの最初の *n* 行だけを表示するには、メソッド **head(n)** を使う（特に大きいデータを扱う時には便利である）。

In [None]:
frame.head(3)

If you specify a sequence of columns, the DataFrame's columns will be exactly what you pass:

列の順番を指定すると、データフレームの列は指定した通りに作成される。

In [None]:
DataFrame(data, columns=['year', 'city', 'pop'])

As with Series, if you pass a column that isn't contained in data, it will appear with *NA* values in the result:

シリーズと同様に、指定した列がデータを持っていない場合は、その列は結果としてNA 値が割り当てられる。

In [None]:
frame2 = DataFrame(data, columns=['year', 'city', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
frame2

In [None]:
frame2.columns

A column in a DataFrame can be retrieved as a Series either by dict-like notation or by attribute:

データフレームの列はディクショナリ風の参照や、属性指定をすることで、シリーズとして取り出すことができる。

In [None]:
frame2['city']

In [None]:
frame2.year

Note that the returned Series have the same index as the DataFrame, and their name attribute has been appropriately set.

Rows can also be retrieved by position or name by a couple of methods, such as the *loc* indexing field:

取り出したシリーズはデータフレームの持っていたインデックスと同じインデックスを持ち、name 属性も適切に設定されている。

行も同じように取り出すことができる。この場合、*loc* というインデックス参照をするためのフィールドを使って、行位置やname 属性を指定して取り出す。

In [None]:
frame2.loc['three'] # locには[]を使うこと．()ではない．note [] after loc, not()
#frame2.iloc[2] # iloc[]を使って整数で指定することもできる．integer-based index location (2nd row strarting from 0)

Columns can be modified by assignment. For example, the empty 'debt' column could be assigned a scalar value or an array of values:

列の値を修正することができる。次の例のように、NA 値になっていた'dept' 列にスカラー値や配列を代入できる。

In [None]:
frame2['debt'] = 16.5
frame2

In [None]:
frame2['debt'] = np.arange(5.)
frame2

When assigning lists or arrays to a column, the value's length must match the length of the DataFrame. If you assign a Series, it will be instead conformed exactly to the DataFrame's index, inserting missing values in any holes:

列にリストや配列を代入するときは、それらの長さはデータフレームの列の長さと一致している必要がある。シリーズを代入する場合は、データフレームのインデックスと一致するように代入が行われ、データフレームのインデックスに対応するものがない場合は、欠損値が挿入される。

In [None]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Assigning a column that doesn't exist will create a new column.

存在しない列に代入を行うと、新しい列が作成される。

In [None]:
frame2['eastern'] = (frame2.city == 'Sapporo')
frame2

The **del** keyword will delete columns as with a dict:

また、**del** キーワードを使うと、ディクショナリと同じように列を消すことができる。

In [None]:
del frame2['eastern']
frame2.columns

**NB** *The column returned when indexing a DataFrame is a view on the underlying data, not a copy. Thus, any in-place modifications to the Series will be reflected in the DataFrame. The column can be explicitly copied using the Series's **copy** method.*

**注意** データフレームをインデックスで参照して取得できる列は、データフレームの内部に持っているデータへの参照であり、コピーではない。つまり、取得したシリーズに対して置き換えなどの修正を行うと、データフレームにも反映されてしまう。明示的にシリーズのcopy メソッドを使うと，列のコピーを取得することができる。

Of course you can always transpose a *DataFrame*:

データフレームを転置することができる。

In [None]:
frame2.T

If DataFrame's index or column have a name attribute, it will be shown also when output to the console.  

データフレームのインデックスや列がname属性を持っている場合は、これらもコンソールに出力される。

In [None]:
frame2.index.name = 'year'
frame2.columns.name = 'city'
frame2

Like Series, the *values* attribute returns the data contained in the DataFrame as a 2D ndarray:

シリーズと同じように、*values* 属性を参照すると、データフレームの中のデータが2次元のndarrayとして返される。

In [None]:
frame2.values

In [None]:
aa = frame2.values

In [None]:
type(aa)

In [None]:
aa[1]

## **TASK 1-4**:

(1) Create a DataFrame using the following command:

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ')).

(2) Show column 'W'.

(3) Create a new column 'New' in df, which is the sum of columns 'X' and 'Z'.

(4) Get the data in the row indexed 'C'.

(5) Delete column 'Y'.

(6) Add new column 'XPos' which has values TRUE if the corresponding values in column 'X' are positive and FALSE otherwise.


(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ'))

(2) 列 'W'を表示せよ。

(3) 列'X'と列'Z'の和である、新しい列'New'をdf内に作成せよ。

(4) インデックスが'C'という行のデータを取得して、表示せよ。

(5) 列 'Y'を削除せよ。

(6) dfに新しい列 'XPos'を追加せよ。ただし、'XPos'の値は以下の通り設定せよ：対応する列 'X'の値が正であればTRUEを、負であればFALSEに設定せよ。

In [None]:
#1
df = pd.DataFrame(randn(5,4), index=list('ABCDE'), columns=list('WXYZ'))

In [None]:
#2
df['W']

Unnamed: 0,W
A,-0.204708
B,1.965781
C,0.769023
D,0.274992
E,-2.001637


In [None]:
#3
df['New'] = df['X'] + df['Z']

In [None]:
#4
df.loc['C']

In [None]:
#5
del df['Y']

In [None]:
#6
df['XPos'] = df['X'] > 0
df

## Essential functionality

## Pandas の重要な機能

Here we will work through the fundamental mechanics of interacting with the data contained in a Series or DataFrame.

ここでは、シリーズやデータフレームに保持されたデータを扱うための基本的な方法について学ぶ。


### Dropping entries from an axis

### 軸から要素を削除する

Dropping one or more entries from an axis is easy if you have an index array or list without those entries. The *drop* method will return a new object with the indicated value or values deleted from an axis:

特定の軸（列や行などの軸）から、1 つかそれ以上の要素（列や行）を削除するには、削除したい要素を指定するインデックスの配列かリストを**drop** メソッドに渡す。**drop** メソッドは指定した要素が軸から削除された新しいオブジェクトを作成する。



In [None]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
new_obj = obj.drop('c')
new_obj # item c is deleted in new_obj; new_objでは，'c'に対する要素が削除された

**NB** Note that c is not deleted from the original object obj

**注意** 元のオブジェクトobjでは，'c'に対する要素が削除されないことに注意！


In [None]:
obj  # the original obj is not changed; 元のobjでは，'c'に対する要素が削除されていない

In order to change the original object it is necessary to set *inplace=True* as below (by default *inplace=False* ).

元のオブジェクトに影響を与えるために，以下のとおり*inplace=True*を指定する必要がある（デフォルトでは *inplace=False* になっている）．

In [None]:
obj.drop('c', inplace=True)
obj # now finally c is deleted from obj; やっと，objでは'c'に対する要素が削除された

In [None]:
obj.drop(['b', 'd'])

In [None]:
obj

In [None]:
obj.drop(['b', 'd'],inplace=True)
obj

With DataFrame, index values can be deleted from either axis:

データフレームでは、インデックスの要素を、どちらの軸からも削除することができる。

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Sapporo', 'Kobe', 'Hiroshima', 'Fukuoka'],
                 columns=['one', 'two', 'three', 'four'])
data

In [None]:
a = data.drop(['Kobe', 'Sapporo'])
a

**NB** As with Series, if we don't set inplace=True, the original DataFrame will not be changed!

**注意** シリーズの場合と同じように，inplace=Trueを指定しない限り，元のデータフレームには影響がない！

In [None]:
data

Now if we want to drop a column we need to set axis=1 (the default axis=0 acts on the rows):

列を削除するには、axis=1を指定する（デフォールトの axis=0 は行に対応する）。

In [None]:
data.drop('two', axis=1)

In [None]:
data.drop(['two', 'four'], axis=1)

## **TASK 1-5**:

(1) Create a DataFrame using the following command.

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ')).

(2) Drop from df the row with index 'C'.

(3) Drop from df columns with indexes 'Y' and 'Z' using only one line of code.


(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ'))

(2) df からインデックス 'C'の行を削除せよ。

(3) df からインデックス 'Y' と 'Z'の列を削除せよ（一行のコードを使用する）。



In [None]:
#1
df = pd.DataFrame(randn(5,4), index=list('ABCDE'), columns=list('WXYZ'))

In [None]:
#2
df.drop('C')

In [None]:
#3
df.drop(['Y','Z'],axis=1)

### Indexing, selection, and filtering

### インデックス参照、選択、フィルタリング

Series indexing (obj[...]) works analogously to NumPy array indexing, except you can use the Series's index values instead of only integers:



シリーズのインデックス参照（obj[...]）は、NumPy の配列のインデックス参照と同じように機能する。ただし、シリーズでは、整数値の指定だけではなく、シリーズのインデックス値を指定した参照もできる。以下、いくつかの例を示す。

In [None]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

In [None]:
obj['b']

In [None]:
obj[1]

In [None]:
obj[2:4]

In [None]:
obj[['b', 'a', 'd']]

In [None]:
obj[[1, 3]]

In [None]:
obj[obj < 2]

**NB** *Slicing* with labels behaves differently than normal Python slicing in that the endpoint is inclusive:

**注意** ラベルを使ったスライシングは通常のPython のスライシングとは振る舞いが違い、終点が含まれることに注意。

In [None]:
obj

In [None]:
obj['b':'c']

*Setting* using these methods works just as you would expect:

インデックス参照をして一部を取り出した上で値を設定すると、期待通りの振る舞いになる。

In [None]:
obj['b':'c'] = 5
obj

Indexing into a DataFrame is for retrieving one or more columns:

データフレームに対してインデックス参照をすると、データフレームから1 つ以上の列を取り出すことができる。

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Sapporo', 'Kobe', 'Hiroshima', 'Fukuoka'],
                 columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

In [None]:
data[['three', 'one']]

Indexing like this has a few special cases. First selecting rows by slicing or a boolean array:

このようなインデックス参照には、少し特殊なケースがある。まず、スライシングや真偽値の配列を使って、取得する行を選択するケースを見てみよう。

In [None]:
data

In [None]:
data[:2]

In [None]:
data

In [None]:
data[data['three'] > 5] #shows only rows where column 'three' is > 5; 列 'three' の値が > 5の行だけを選ぶ

Another use case is in indexing with a boolean DataFrame, such as one produced by a scalar comparison:

別の使用例として、真偽値を持ったデータフレームを使ってインデックス参照をする場合がある。真偽値を持ったデータフレームというのは、たとえば、データフレームとスカラー値を比較して生成したデータフレームである。

In [None]:
data

In [None]:
data < 5

In [None]:
data[data < 5] = 0

In [None]:
data

## **TASK 1-6**:

(1) Create a DataFrame using the following command

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ')).

(2) Show only rows where column 'Y' is positive

(3) Assign value 1 to each cell in df which is positive


(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ'))

(2) 列'Y'の値が正であるdfの行を表示せよ。

(3) dfの全ての正の要素に 1 を代入せよ。

In [None]:
#1
df = pd.DataFrame(randn(5,4), index=list('ABCDE'), columns=list('WXYZ'))

In [None]:
#2
df[df['Y'] > 0]

In [None]:
#3
df[df > 0] = 1
df

### Selection (slicing) by Label

### ラベルを使ったスライシング

For DataFrame label-indexing on the rows, the special indexing field **loc** is introduced. It enables you to select a subset of the rows and columns from a DataFrame with NumPy-like notation plus axis labels.


データフレームの行・列のラベルを使ったインデックス参照（スライシング）には、**loc** フィールドを使う。これによって、NumPy のようにそれぞれの軸のラベルを指定して、データフレームから行や列の一部分を選択することができる。

In [None]:
data

In [None]:
data.loc['Kobe', ['two', 'three']]

In [None]:
data.loc[['Kobe', 'Hiroshima'], ['three', 'one', 'two']] # rows Kobe & Hiroshima and columns 2,0,1

In [None]:
data.loc[['Kobe', 'Hiroshima'],:] # ':' means all columns;  ':'は「すべての列」という意味

**NB**  Again, note that contrary to usual Python slices, with *loc* both the start and the stop are included!

**注意**　*loc*を使ったスライシングは通常のPython のスライシングとは振る舞いが違い、終点が含まれることに注意!

In [None]:
data.loc['Kobe' : 'Fukuoka', 'two':]

In [None]:
data.loc[data['three'] > 9, 'two':'four']

# 注意：真偽値の結果は「行」のインデックスに対応するので
# 条件が真になった行が選択される
# note that the boolean condition results in an indexing for the ROWS
# the rows for which the condition is TRUE are selected

## **TASK 1-7**:

(1) Create a DataFrame using the following command

df = pd.DataFrame(randn(6,5), list('ABCDEF'), columns = list('VWXYZ')).

(2) Show only 2nd and 3rd columns of row 'C'

(3) Show the part of df which is between columns 'W' and 'Y' and between rows 'B' and 'D'

(4) Show only that part of rows 'B' and 'E' for which row 'A' is negative


(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(randn(6,5), list('ABCDEF'), columns = list('VWXYZ')).

(2) 行'C'の2番目と3番目の列だけを表示せよ。

(3) 列'W'と'Y'の間と、行'B'と'D'の間にある df の部分を表示せよ。

(4) 行 'A'の値が負である要素に対応する、行 'B'と'E'の部分を表示せよ。

In [None]:
#1
df = pd.DataFrame(randn(6,5), list('ABCDEF'), columns = list('VWXYZ'))

In [None]:
#2
df.loc['C',['W','X']]

In [None]:
#3
df.loc['B':'D','W':'Y']

In [None]:
#4
df.loc[df['A'] < 0,['B','E']]

### Selection (slicing) by Position

### 整数インデックス（位置）を使ったスライシング

Purely integer-based indexing is also available using the special indexing field **iloc**. The semantics follow closely Python and NumPy slicing: counting starts from 0, the start position is included, while the upper bound is excluded.



データフレームの行・列の整数の順番番号を使ったインデックス参照（スライシング）もあり、**iloc** フィールドを使う。この場合、通常のPython や NumPy のスライシングと振る舞いが同じで、0から数えて、終点が含まれないことに注意。

In [None]:
df1 = pd.DataFrame(randn(6,4),index=list(range(6)), columns=list('ABCD'))
df1

In [None]:
df1.iloc[:3] # select first 3 rows; 最初の3行を選択

In [None]:
df1.iloc[1:5, 2:4]

In [None]:
df1.iloc[[1, 3, 5], [1, 3]]

In [None]:
df1.iloc[1:3, :]

## **TASK 1-8**:

(1) Create some DataFrame of size 5 $\times$ 6

(2) Show only the part including the first 3 rows and the last 2 columns

(3) Show rows 2, 4, 0 (in that order) excluding the 0-th and last columns


(1) 5行 $\times$ 6列のデータフレームを作成せよ。

(2) 最初の3行と最後の2列からなる部分を表示せよ。

(3) 最初と最後の列の要素を含まず、行　2, 4, 0 を（この順番で）表示せよ。

In [None]:
#1
df = pd.DataFrame(randn(5,6),index=list(range(5)), columns=list('ABCDEF'))

In [None]:
#2
df.iloc[:3,3:]

Unnamed: 0,D,E,F
0,-1.021228,-0.577087,0.124121
1,1.34381,-0.713544,-0.831154
2,0.560145,-1.265934,0.119827


In [None]:
#3
df.iloc[[2,4,0],1:5]

Unnamed: 0,B,C,D,E
2,-1.860761,-0.860757,0.560145,-1.265934
4,0.28635,0.377984,-0.753887,0.331286
0,0.476985,3.248944,-1.021228,-0.577087


### Arithmetic and data alignment

### 算術演算とインデックスの統合

When adding together objects, if any index pairs are not the same, the respective index in the result will be the union of the index pairs.



Pandas では、インデックスが異なるオブジェクトを加算した場合、加算結果のオブジェクトのインデックスは、加算前のインデックスのペアの和集合になる。

In [None]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1

Unnamed: 0,0
a,7.3
c,-2.5
d,3.4
e,1.5


In [None]:
s2

Unnamed: 0,0
a,-2.1
c,3.6
e,-1.5
f,4.0
g,3.1


In [None]:
s1 + s2

Unnamed: 0,0
a,5.2
c,1.1
d,
e,0.0
f,
g,


The internal data alignment introduces NA values in the indices that don't overlap. Missing values propagate in arithemtic computations.

内部のデータ合わせにより、重複していないインデックスではNA 値が割り当てられている。NA 値は算術演算後も保持される．

In the case of DataFrame, alignment is performed on both the rows and the columns:

データフレームの場合、インデックスの統合は行と列の両方で行われる。

In [None]:
df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                index=['Sapporo', 'Tokyo', 'Kobe'])
df2 = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                index=['Hiroshima', 'Sapporo', 'Tokyo', 'Okayama'])
df1

Unnamed: 0,b,c,d
Sapporo,0.0,1.0,2.0
Tokyo,3.0,4.0,5.0
Kobe,6.0,7.0,8.0


In [None]:
df2

Unnamed: 0,b,d,e
Hiroshima,0.0,1.0,2.0
Sapporo,3.0,4.0,5.0
Tokyo,6.0,7.0,8.0
Okayama,9.0,10.0,11.0


Adding these together returns a DataFrame whose index and columns are the unions of the ones in each DataFrame:

これらのデータフレームを加算した結果のデータフレームでは、インデックスと列がそれぞれのデータフレームの和集合になっている。

In [None]:
df1 + df2

Unnamed: 0,b,c,d,e
Hiroshima,,,,
Kobe,,,,
Okayama,,,,
Sapporo,3.0,,6.0,
Tokyo,9.0,,12.0,


#### Arithmetic methods with fill values

#### 算術メソッドと値の置換

In arithmetic operations between differently-indexed objects, you might want to fill with special values, like 0, when an axis label is found in one object but not the other:

インデックスが異なるオブジェクト間の算術演算において、一方のオブジェクトには軸ラベルがあり、もう一方にはその軸ラベルがない場合に、0などの特別な値で不足している値を置換したいことがある。

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Adding these together results in NA values in the locations that don't overlap. Using the *add* method on df1, we can pass df2 and an argument to *fill_value* to fill the missing values:

これらのデータフレームを加算すると、軸ラベルが重複しないところではNA 値になってしまう。この場合、df1 の**add** メソッドを使うときに、df2 と**fill_value** という引数を渡すと次のような結果になる。

In [None]:
df1.add(df2, fill_value=0)

# 他にも sub/div/mul がある
# also exist methods sub/div/mul for -/*

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


## TASK 1-9:

(1) Create two DataFrames of different size and add them, filling the cells of the smaller one with -1 before the addition

(2) Do the same, but use multiplication (method *mul*) this time

(1) 2つ異なるデータフレームを作成して、重複しないところに-1を入れて、足算結果を表示せよ。

(2) 上記と同じ設定で、今回は掛算を行う（**mul**メソッドを使う）.

In [None]:
#1
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1.add(df2, fill_value=-1)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,3.0
1,9.0,11.0,13.0,15.0,8.0
2,18.0,20.0,22.0,24.0,13.0
3,14.0,15.0,16.0,17.0,18.0


In [None]:
#2
df1.mul(df2, fill_value=-1)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,4.0,9.0,-4.0
1,20.0,30.0,42.0,56.0,-9.0
2,80.0,99.0,120.0,143.0,-14.0
3,-15.0,-16.0,-17.0,-18.0,-19.0


#### Operations between DataFrame and Series

#### データフレームとシリーズでの演算


As with NumPy arrays, arithmetic between DataFrames and Series is well-defined.

NumPy の配列と同じように、データフレームとシリーズの間での算術も定義されている。まず、NumPy の2次元配列とその一部の行との差分について復習しよう。

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [None]:
arr[0]

array([0., 1., 2., 3.])

In [None]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

This is referred to as *broadcasting*. Operations between a DataFrame and a Series are similar:

各行から[ 0., 1., 2., 3.]が引かれている．この動作は**ブロードキャスト**と呼ばれる。データフレームとシリーズの間でもも同じようにブロードキャストが行われる。デフォルトでは、データフレームとシリーズでの算術においては、シリーズのインデックスと同じデータフレームの列に適用され、ブロードキャストは行方向に行われる。

In [None]:
frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list('abc'),
                  index=['Hiroshima', 'Sapporo', 'Tokyo', 'Okayama'])
series = frame.iloc[0]
frame

Unnamed: 0,a,b,c
Hiroshima,0.0,1.0,2.0
Sapporo,3.0,4.0,5.0
Tokyo,6.0,7.0,8.0
Okayama,9.0,10.0,11.0


In [None]:
series

Unnamed: 0,Hiroshima
a,0.0
b,1.0
c,2.0


In [None]:
frame - series

Unnamed: 0,a,b,c
Hiroshima,0.0,0.0,0.0
Sapporo,3.0,3.0,3.0
Tokyo,6.0,6.0,6.0
Okayama,9.0,9.0,9.0


If an index value is not found in either the DataFrame's columns or the Series's index, the objects will be reindexed to form the union.

インデックスの値がデータフレームの列やシリーズのインデックスに見つからなかった場合は、両方のオブジェクトは再インデックス付けされ、インデックスの和集合が形成される。

In [None]:
series2 = Series(range(3), index=['a', 'c', 'd'])
series2

Unnamed: 0,0
a,0
c,1
d,2


In [None]:
frame

Unnamed: 0,a,b,c
Hiroshima,0.0,1.0,2.0
Sapporo,3.0,4.0,5.0
Tokyo,6.0,7.0,8.0
Okayama,9.0,10.0,11.0


In [None]:
frame + series2

Unnamed: 0,a,b,c,d
Hiroshima,0.0,,3.0,
Sapporo,3.0,,6.0,
Tokyo,6.0,,9.0,
Okayama,9.0,,12.0,


If you want to instead broadcast over the columns, matching on the rows, you have to use one of the arithmetic methods. For example:

インデックスを行にマッチングさせて、ブロードキャストを列方向に行いたい場合は、算術用のメソッドを使う必要がある。

In [None]:
series3 = frame['b']
frame

Unnamed: 0,a,b,c
Hiroshima,0.0,1.0,2.0
Sapporo,3.0,4.0,5.0
Tokyo,6.0,7.0,8.0
Okayama,9.0,10.0,11.0


In [None]:
series3

Unnamed: 0,b
Hiroshima,1.0
Sapporo,4.0
Tokyo,7.0
Okayama,10.0


In [None]:
frame.sub(series3, axis=0)

Unnamed: 0,a,b,c
Hiroshima,-1.0,0.0,1.0
Sapporo,-1.0,0.0,1.0
Tokyo,-1.0,0.0,1.0
Okayama,-1.0,0.0,1.0


The axis number is the axis to match on. In this case we mean to match on the DataFrame's row index and broadcast across.

指定した軸の値は、インデックスをマッチさせたい軸を示す。この例では、データフレームの行インデックスにマッチさせて（axis = 0）ブロードキャストをさせている。

## **TASK 1-10**:

(1) Create a DataFrame using the following command

df = pd.DataFrame(np.arange(30.).reshape((6, 5)), index = list('ABCDEF'), columns = list('abcde')).

(2) Create a Series *s1* from the sum of the second and third columns of df and subtract it from each column of df

(3) Create a Series *s2* from the sum of the first and fifth rows of df and subtract it from each row of df


(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(np.arange(30.).reshape((6, 5)), index = list('ABCDEF'), columns = list('abcde'))

(2) データフレーム df の2列目と3列目の和から成るシリーズ　s1 を作成して、dfとs1の（列ごとの）差分を表示せよ。

(3) データフレーム df の1行目と5行目の和から成るシリーズ　s2 を作成して、dfとs2の（行ごとの）差分を表示せよ。



In [None]:
#1
df = pd.DataFrame(np.arange(30.).reshape((6, 5)), index = list('ABCDEF'), columns = list('abcde'))

In [None]:
#2
s1 = df['b'] + df['c']
df - s1

In [None]:
#3
s2 = df.iloc[0] + df.iloc[4]
df - s2

### Function application and mapping

### 関数の適用とマッピング

NumPy universal functions (*ufunc*: element-wise array methods) work also with pandas objects:


NumPy のufunc（配列の各要素に適用されるメソッド）は、pandas のオブジェクトでも機能する。

In [None]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Hiroshima', 'Sapporo', 'Tokyo', 'Okayama'])
frame

Unnamed: 0,b,d,e
Hiroshima,0.069877,0.246674,-0.011862
Sapporo,1.004812,1.327195,-0.919262
Tokyo,-1.549106,0.022185,0.758363
Okayama,-0.660524,0.86258,-0.010032


In [None]:
np.abs(frame) #absolute value 絶対値

Unnamed: 0,b,d,e
Hiroshima,0.069877,0.246674,0.011862
Sapporo,1.004812,1.327195,0.919262
Tokyo,1.549106,0.022185,0.758363
Okayama,0.660524,0.86258,0.010032


Another frequent operation is applying a function on 1D arrays to each column or row. DataFrame's *apply* method can be used in this case:

その他によく使う演算に、1次元配列に適用可能な関数を行や列に対して適用する、というものがある。この場合、データフレームの **apply** メソッドが便利である。

In [None]:
def f(x):  # 関数定義．xは1次元配列．define the function; x is 1D array
    return x.max() - x.min()

#f = lambda x: x.max() - x.min() # ラムダ式を使った場合．define the function using lambda

In [None]:
frame.apply(f)  # fを各列に適用．デフォルトでは列方向（axis=0）．applies f column-wise; default axis is 0

Unnamed: 0,0
b,2.553918
d,1.30501
e,1.677625


In [None]:
frame.apply(f, axis=1) # fを各行に適用．applies f row-wise

Unnamed: 0,0
Hiroshima,0.258536
Sapporo,2.246456
Tokyo,2.30747
Okayama,1.523104


Many of the most common array statistics (like sum and mean) are DataFrame methods, so using *apply* is not necessary.

The function passed to *apply* need not return a scalar value, it can also return a Series with multiple values:

配列に対する一般的な集計処理（sum やmean など）は、データフレームでも使うことができる。したがって、applyメソッドを使わなくともよい．

**apply** メソッドに渡す関数は、スカラー値を返す必要はない。複数の値を持ったシリーズを返すこともできる。

In [None]:
frame

Unnamed: 0,b,d,e
Hiroshima,0.069877,0.246674,-0.011862
Sapporo,1.004812,1.327195,-0.919262
Tokyo,-1.549106,0.022185,0.758363
Okayama,-0.660524,0.86258,-0.010032


In [None]:
def f(x):
    return Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.549106,0.022185,-0.919262
max,1.004812,1.327195,0.758363


Element-wise Python functions can be used, too. Suppose you wanted to compute a formatted string from each floating point value in **frame**. This can be done with *applymap*:

各要素に適用されるPython の関数も使うことができる。例えば、データフレーム frame が実数の表の場合、各値からフォーマットされた文字列を計算してみよう。これには、**applymap** メソッドが便利である。

In [None]:
frame

Unnamed: 0,b,d,e
Hiroshima,0.069877,0.246674,-0.011862
Sapporo,1.004812,1.327195,-0.919262
Tokyo,-1.549106,0.022185,0.758363
Okayama,-0.660524,0.86258,-0.010032


In [None]:
def format (x):
    return '%.2f' % x
#format = lambda x: '%.2f' % x
frame.applymap(format)

  frame.applymap(format)


Unnamed: 0,b,d,e
Hiroshima,0.07,0.25,-0.01
Sapporo,1.0,1.33,-0.92
Tokyo,-1.55,0.02,0.76
Okayama,-0.66,0.86,-0.01


The reason for the name *applymap* is that Series has a *map* method for applying an element-wise function:

**applymap** というメソッド名は、シリーズには要素ごとに関数を適用する map メソッドに由来する．

In [None]:
frame['e'].map(format)

Unnamed: 0,e
Hiroshima,-0.01
Sapporo,-0.92
Tokyo,0.76
Okayama,-0.01


## **TASK 1-11**:

(1) Create a DataFrame using the following command

df = pd.DataFrame(np.arange(20.).reshape((5,4)), index = list('ABCDE'), columns = list('wxyz')).

(2) Apply a function to df which formats its cells to display df's value with precision 3 signs after the decimal point

(3) Apply a function to df which calculates and outputs the sum of each row (use NumPy's *sum* method with *apply*)

(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(np.arange(20.).reshape((5,4)), index = list('ABCDE'), columns = list('wxyz')).

(2) フォーマット用関数を使って、dfの各要素を小数点以下3桁まで表示せよ。

(3) dfに各行の和を計算する関数を適用し、表示せよ（**apply** では NumPy の **sum** メソッドを使用）。



In [None]:
#1
df = pd.DataFrame(np.arange(20.).reshape((5,4)), index = list('ABCDE'), columns = list('wxyz'))

In [None]:
#2
def format (x):
    return '%.3f' % x
df.applymap(format)

In [None]:
#3
df.apply(np.sum, axis=1)

### Sorting

### ソート

Sorting a data set by some criterion is another important built-in operation. To sort lexicographically by row or column *index*, use the *sort_index* method, which returns a new, sorted object:



データを一定の基準でソートする機能も、pandas に標準で組み込まれている重要な機能である。行や列の**インデックス**を辞書順でソートするためには、sort_index メソッドを使う。このメソッドは新しいソート済みのオブジェクトを戻す。

In [None]:
obj = Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

Unnamed: 0,0
a,1
b,2
c,3
d,0


With a DataFrame, you can sort by index on either axis:

データフレームでは、インデックスを軸ごとにソートできる。

In [None]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                  columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [None]:
frame.sort_index() # 行のインデックスをソート．デフォルトでは行方向．sort row indexes; default axis = 0

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [None]:
frame.sort_index(axis=1) # 列のインデックスをソート．sort column indexes

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


The index is sorted in ascending order by default, but can be sorted in descending order, too:

インデックスはデフォルトでは昇順（ascending）でソートされるが、降順（descending）にすることもできる。

In [None]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


To sort a Series by its values, use its *sort_values* method:

シリーズを値によってソートしたいときは、**sort_values** メソッドを使う。

In [None]:
obj = Series([4, 7, -3, 2])
obj.sort_values()

Unnamed: 0,0
2,-3
3,2
0,4
1,7


Any missing values are sorted to the end of the Series by default:

デフォルトでは、欠損値はシリーズの末尾にソートされる。

In [None]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

Unnamed: 0,0
4,-3.0
5,2.0
0,4.0
2,7.0
1,
3,


On DataFrame, you may want to sort by the values in one or more columns. To do so, pass one or more column names to the ***by*** option:

データフレームの列を指定してソートをしたい場合には、以下の通り、sort_values メソッドの ***by*** オプションに、1つ以上の列の名前を指定する。

In [None]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [None]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


### Ranking

### ランク

***Ranking*** is closely related to sorting, assigning ***ranks*** from one through the number of valid data points in an array. It is similar to the indirect sort indices produced by *numpy.argsort*, except that ties are broken according to a rule. The *rank* methods for
Series and DataFrame are given below (by default *rank* breaks ties by assigning each group the mean rank).



**ランク**はソートに似ており、配列のデータから妥当な数値を**ランク**として割り当てる。ランクは**numpy.argsort** による間接的なインデックスのソートに似ているが、異なる点は、ランクが**タイ**（同点）であった場合に、ルールに従ってランクが決まることである。シリーズとデータフレームでは、**rank** メソッドが用意されたいる。デフォルトでは、タイになったグループは、各グループに平均値を割り当ててランクを決める。

**Tie-breaking methods in rank**

'average' : (default) assign the average rank to each entry in the equal group.

'min' : use the minimum rank for the whole group.

'max' : use the maximum rank for the whole group.

'first' : assign ranks in the order the values appear in the data.




**タイになったときのランク割り当てルール**

'average' :  デフォルトのルール。タイになったグループの各要素にランクの平均値を割り当てる。

'min' :  タイになったグループ全体の最小ランクを各要素に割り当てる。

'max' :  タイになったグループ全体の最大ランクを各要素に割り当てる。

'first' :  データが出現した順番に従ってランクを割り当てる。

In [None]:
obj = Series([7, -5, 7, 4, 2, 0, 4])
obj

Unnamed: 0,0
0,7
1,-5
2,7
3,4
4,2
5,0
6,4


In [None]:
obj.rank()

Unnamed: 0,0
0,6.5
1,1.0
2,6.5
3,4.5
4,3.0
5,2.0
6,4.5


If we want to assign ranks according to the order they are observed in the data:

観測された順番に従ってランクを割り当てることもできる。

In [None]:
obj.rank(method='first')

Unnamed: 0,0
0,6.0
1,1.0
2,7.0
3,4.0
4,3.0
5,2.0
6,5.0


Naturally, you can rank in descending order, too:

降順にランクを付けることもできる。

In [None]:
obj.rank(ascending=False, method='max')

Unnamed: 0,0
0,2.0
1,7.0
2,2.0
3,4.0
4,5.0
5,6.0
6,4.0


DataFrame can compute ranks over the rows or the columns:

データフレームでは、行と列のどちらでもランクを計算することができる。

In [None]:
frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                   'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [None]:
frame.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


## **TASK 1-12**:

(1) Create a DataFrame using the following command

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('ZXWY')).

(2) Sort the frame column indexes in descending order

(3) Sort the frame in ascending order by the values of its second column

(4) Computer the rank of df over its rows

(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('ZXWY'))

(2) データフレームの列インデックスを降順でソートせよ。

(3) データフレームの2列目の値によって、昇順でソートせよ。

(4) データフレームの行ごとのランクを求めよ。

In [None]:
#1
df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('ZXWY'))
df

Unnamed: 0,Z,X,W,Y
A,-0.032664,-0.929006,-0.482573,-0.036264
B,1.09539,0.980928,-0.589488,1.5817
C,-0.528735,0.457002,0.929969,-1.569271
D,-1.022487,-0.402827,0.220487,-0.193401
E,0.669158,-1.648985,-2.252797,-1.166832


In [None]:
#2
df.sort_index(axis=1, ascending=False)

In [None]:
#3
df.sort_values(by='X')

Unnamed: 0,Z,X,W,Y
E,0.669158,-1.648985,-2.252797,-1.166832
A,-0.032664,-0.929006,-0.482573,-0.036264
D,-1.022487,-0.402827,0.220487,-0.193401
C,-0.528735,0.457002,0.929969,-1.569271
B,1.09539,0.980928,-0.589488,1.5817


In [None]:
#4
df.rank(axis=0)

Unnamed: 0,Z,X,W,Y
A,3.0,2.0,3.0,4.0
B,5.0,5.0,2.0,5.0
C,2.0,4.0,5.0,1.0
D,1.0,3.0,4.0,3.0
E,4.0,1.0,1.0,2.0


## Summarizing and computing descriptive statistics

## 要約統計量の集計と計算

Pandas objects are equipped with a set of common mathematical and statistical methods. Most of these fall into the category of *reductions* or *summary statistics*, methods that extract a single value (like the sum or mean) from a Series or a Series of values from the rows or columns of a DataFrame. They are all built to exclude missing data. Consider a small DataFrame:



Pandas のオブジェクトでは、一般的な数学的、統計的なメソッドが使える。これらのメソッドのほとんどは、**集約**や**要約統計量**である。これらのメソッドでは、シリーズから1つの値（合計値や平均値など）を計算し、またデータフレームの全ての行や列から1つのシリーズを計算する（各行・各列に対応する値を1つのシリーズにまとめる）。純粋なNumPyの配列と違い、これらのメソッドは欠損値を除外するように作られている。以下の例を見てみよう。

In [None]:
df = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


Calling DataFrame's *sum* method returns a Series containing column sums:

データフレームの**sum** メソッドは、列の合計値を含むシリーズを返す。

In [None]:
df.sum()

Unnamed: 0,0
one,9.25
two,-5.8


Passing axis=1 sums over the rows instead:

行に対して合計値を求める場合は、axis=1を使う。

In [None]:
df.sum(axis=1)

Unnamed: 0,0
a,1.4
b,2.6
c,0.0
d,-0.55


Ignoring NaNs can be disabled using the *skipna* option:

上記の例のように、列や行のすべてが NaN である場合を除いて、NaN 値は計算から除外される。これは **skipna** オプションを指定することで無効にすることもできる。

In [None]:
df.mean(axis=1, skipna=False)

Unnamed: 0,0
a,
b,1.3
c,
d,-0.275


Method *cumsum* provides the cumulative sum over each column (default, axis=0) or row (axis=1).

**cumsum** メソッドは、列ごとの累積和（デフォールト、axis=0）と、行ごとの累積和（axis=1）を計算する。

In [None]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [None]:
df.cumsum() # 各列の累積和 cummulative sum over each column

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [None]:
df.cumsum(axis=1) # 各業の累積和 cummulative sum over each row

Unnamed: 0,one,two
a,1.4,
b,7.1,2.6
c,,
d,0.75,-0.55


Some summary statistics, like correlation and covariance, are computed from pairs of
arguments. The *corr* method of Series computes the correlation of the overlapping, non-NA, aligned-by-index values in two Series. Relatedly, *cov* computes the covariance:

**相関**や**共分散**などの統計値は、変数のペアから求められる。シリーズの **corr** メソッドは、2つのシリーズのインデックス順に並んだ（NAではない）値から、相関を求める。同様に、 **cov** メソッドは共分散を求める。

In [None]:
obj1 = Series([5, 6, 12, -5, 6.7])
obj2 = Series([3, 2, 7, -2, 2.7])
obj1.corr(obj2), obj1.cov(obj2)

(0.9640401040381738, 19.088)

DataFrame's *corr* and *cov* methods, on the other hand, return a full correlation or
covariance matrix as a DataFrame, respectively:

一方、データフレームの **corr** メソッドと **cov** メソッドは、相関と共分散の行列をデータフレーム形式で戻す。

In [None]:
df = pd.DataFrame(randn(5,4),index=list('ABCDE'),columns=list('WXYZ'))
df.corr() # 相関 correlation
#df.cov() # 共分散 covariance

Unnamed: 0,W,X,Y,Z
W,1.0,-0.466404,-0.594141,-0.627766
X,-0.466404,1.0,0.851531,0.595205
Y,-0.594141,0.851531,1.0,0.548168
Z,-0.627766,0.595205,0.548168,1.0


Method *describe* produces multiple summary statistics in one shot:

**describe** メソッドは、複数の要約統計量を同時に表示できる。

In [None]:
df.describe() # 列で計算．works for columns; use df.T.describe() for row statistics
#df.T.describe() # 行で計算するには転置する．for row statistics

Unnamed: 0,W,X,Y,Z
count,5.0,5.0,5.0,5.0
mean,-0.206153,-0.167917,0.070636,-0.712611
std,0.879898,1.329971,0.714464,0.79433
min,-1.33261,-2.304234,-0.652469,-1.218302
25%,-0.726213,-0.503087,-0.622274,-1.157719
50%,-0.023493,0.222896,0.051316,-0.955869
75%,0.050009,0.670216,0.723642,-0.921169
max,1.001543,1.074623,0.852965,0.690002


Also, the method *info()* is useful to provide basic information about the DataFrame, and especially to see the number of entries we have, etc.

また、 メソッド **info()** を使えば、データフレームについての様々な情報を表示することができる（例えば列や行の数等）。

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A to E
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   W       5 non-null      float64
 1   X       5 non-null      float64
 2   Y       5 non-null      float64
 3   Z       5 non-null      float64
dtypes: float64(4)
memory usage: 200.0+ bytes


### Unique Values and Value Counts

### 一意な値と計数

Another class of related methods extracts information about the values contained in a one-dimensional Series. To illustrate these, consider the following example.

The first function is *unique*, which returns an array of the unique values in a Series. The unique values are not necessarily returned in sorted order, but could be sorted if needed  with *.sort()*.



他のよく使うメソッドには、1次元のシリーズに含まれる値の情報を抽出するものがある。次の例でこれを見てみよう。

**unique** メソッドを使って、シリーズの中の一意な値を配列として取り出すことができる。結果はソートされていないが、必要であれば **.sort()** を使って、後からソートできる。

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
uniques = obj.unique()
uniques
#uniques.sort()

array(['c', 'a', 'd', 'b'], dtype=object)

Relatedly, *value_counts* computes a Series containing value frequencies (the Series is sorted by value in descending order):

また、**value_counts** メソッドを使って、シリーズに含まれる値の頻度を求めることができる（結果は値の降順でソートされている）。

In [None]:
obj.value_counts()

Unnamed: 0,count
c,3
a,3
b,2
d,1


## **TASK 1-13**

(1) Create a DataFrame using the following command

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ')).

(2) Calculate the mean of each row of df

(3) Calculate the cummulative sum of each column of df

(4) Show the summary statistics of df usinf the describe method. What is the median of column 'X'?



(1) 次のコマンドを使って、データフレームを作成せよ。

df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ'))

(2) データフレームdfの各行の平均値を求めよ。

(3) 行ごとの累積を求めよ。

(4) describe メソッドを使って、複数の要約統計量を計算せよ。結果から、列 'X' の中央値を求めよ。


In [None]:
#1
df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ'))
df

In [None]:
#2
df.mean(axis=1)

In [None]:
#3
df.cumsum()

In [None]:
#4
df.describe()

## Reading and Writing Data in Text Format

## テキスト形式のデータの読み書き

Pandas has a number of functions for reading tabular data as a DataFrame object. Let's start with a small comma-separated values (CSV) text file. When using Google Colab first you need to mount the Google drive as shown below. Data files are assumed to be in folder data in MyDrive (if you are not using Colab change appropriately the paths for reading/writing below).


Pandas には、テーブル形式のデータをデータフレーム（DataFrame）オブジェクトとして読み込む関数がいくつか用意されている。まずは、最もよく使われる、カンマ区切り（CSV）の小さなテキストファイルから始めよう。
Google Colabを使う場合，まず以下の通りGoogle　ドライブをマウントする必要があります。マウントされたら（あるいはColabを使わない場合，これ以下のセルにはデータを読み書きする場所のPathを適当に書き換えてください！）

In [None]:
#Run this cell to mount the Google drive;  Google ドライブをマウントするには、このセルを実行してください。
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# csvファイルの表示

!cat /content/drive/MyDrive/HUBigData/data/ex1.csv
# Linuxではcatコマンドを使う．use cat for Linux; data/ex1.csv

#!type data\ex1.csv
# Windowsではtypeコマンドを使う．use type for Windows

a,b,c,d,Hello
1,2,3,4,Data
5,6,7,8,Analysis
9,10,11,12,Lab


Since this is comma-delimited, we can use the **read_csv** function to read it into a DataFrame:

このファイルはカンマ区切りなので、pandas の **read_csv** 関数で読み込んでデータフレームに変換できる。

In [None]:
df = pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex1.csv')
df

Alternatively, we can use *read_table* and specify the delimiter:

また、**read_table** 関数を使って、区切り文字を指定して読み込むことも可能である。

In [None]:
pd.read_table('/content/drive/MyDrive/HUBigData/data/ex1.csv', sep=',')

A file will not always have a header row. Consider this file:

もちろん、ファイルにヘッダ行がない場合もよくある。

In [None]:
#!type data\ex2.csv
!cat /content/drive/MyDrive/HUBigData/data/ex2.csv

To read this in, you have a couple of options. You can allow pandas to assign default
column names, or you can specify names yourself:

このファイルを読み込むときには、いくつかのオプションが使える。pandasのデフォルトの列名を割り当てることもできるし、自分で列名を指定することもできる。

In [None]:
pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex2.csv', header=None)

In [None]:
pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex2.csv', names=['a', 'b', 'c', 'd', 'words'])

Suppose you wanted the **words** column to be the index of the returned DataFrame.
You can either indicate you want the column at index 4 or name it 'words' using the
*index_col* argument:

もし、**words** 列をデータフレームのインデックスにしたい場合、**index_col**という引数に対して、名前の配列（names）のインデックス番号4 を指定するか、あるいは 'words' という列の名前を指定すればよい。

In [None]:
names = ['a', 'b', 'c', 'd', 'words']
pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex2.csv', names=names, index_col='words')
#pd.read_csv('ex2.csv', names=names, index_col=names[-1])

In some cases, a table might not have a fixed delimiter, using whitespace or some other
pattern to separate fields. In these cases, you can pass a *regular expression*  (a string formed according to the regular expression language) as a delimiter for read_table. Consider a text file that looks like this:

テーブル形式のデータに、決まった区切り文字がない場合もある。たとえば、フィールドを分割するのに、空白文字（ホワイトスペース）やそれ以外の何らかのパターンが使われている場合がある。このとき、**read_table** に正規表現（*regular expression*）を与えて区切り文字を指定できる。次のようなテキストファイルを考えてみよう。

In [None]:
#!type data\ex3.csv
!cat /content/drive/MyDrive/HUBigData/data/ex3.csv

#list(open('data/ex3.txt'))

While you could do some munging by hand, in this case fields are separated by a variable
amount of whitespace. This can be expressed by the regular expression \s+, so we have
then:

データを手でいじることもできるが、この場合、フィールドの区切りは何文字かの空白文字となっている。このような区切りは　\s+ という正規表現で表すことができるので、次のように処理できる。

In [None]:
result = pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex3.txt', sep='\s+')
#result = pd.read_table('/content/drive/MyDrive/HUBigData/data/ex3.txt', sep='\s+')
result

Because there was one fewer column name than the number of data rows, *read_csv* infers that the first column should be the DataFrame's index in this special case.

The parser functions have many additional arguments to help you handle the wide variety of exception file formats that occur (check the manual). For example, you can skip specified rows of a file with *skiprows*:

ヘッダ行にある列数がデータ行の列数よりも1つ少なくなっているため、**read_csv** は、これは1つ目の列がデータフレームのインデックスになっている特別な場合なのだろうと推測する。**read_csv** などのこういったパーサ関数には、実際に存在するさまざまな種類の例外的なファイル形式を取り扱うのを手助けしてくれる、追加の引数がたくさん用意されている。たとえば、**skiprows** を使うと次のようなファイルの0行目、2行目、3行目を読み飛ばせる。

In [None]:
#!type data\ex4.csv
!cat /content/drive/MyDrive/HUBigData/data/ex4.csv

pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex4.csv', skiprows=[0, 2, 3])

## **MINI-QUIZ  14**:

(1) Read into a DataFrame df the text file cars.txt where the data is separated by spaces

(2) Assign row names (index) suitable for the data (e.g. use the last column as row index)

(3) Use the value_counts method to show the frequencies of the values in the 'cylinders' column

(4) Find what is the maximum number of cylinders using only one line of code

    Hint： use the value_counts and index methods

(1) データが空白で区切られたテキストファイルcars.txtをデータフレーム df に読み込む。

(2) 内容にあった行名（インデックス）を割り当てよ(例えば、データの最後の列を行のインデックスとして使う)。

(3) value_counts メソッドを使って、'cylinders' 列に含まれる値の頻度を調べよ。

(4) 何シリンダーが一番多いのか一行のコードで書け。

    ヒント：value_counts と index メソッドを使う。


In [168]:
#1
!cat /content/drive/MyDrive/HUBigData/data/cars.txt
df = pd.read_table('/content/drive/MyDrive/HUBigData/data/cars.txt', sep='\s+')
df

mpg  cylinders  displacement  horsepower weight acceleration model_year  origin car_name
26.0   4   97.00      46.00      1950.      21.0   73  2	"volkswagen super beetle"
11.0   8   400.0      150.0      4997.      14.0   73  1	"chevrolet impala"
12.0   8   400.0      167.0      4906.      12.5   73  1	"ford country"
13.0   8   360.0      170.0      4654.      13.0   73  1	"plymouth custom suburb"
12.0   8   350.0      180.0      4499.      12.5   73  1	"oldsmobile vista cruiser"
18.0   6   232.0      100.0      2789.      15.0   73  1	"amc gremlin"
20.0   4   97.00      88.00      2279.      19.0   73  3	"toyota carina"
21.0   4   140.0      72.00      2401.      19.5   73  1	"chevrolet vega"
22.0   4   108.0      94.00      2379.      16.5   73  3	"datsun 610"
18.0   3   70.00      90.00      2124.      13.5   73  3	"mazda rx3"


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,car_name
0,26.0,4,97.0,46.0,1950.0,21.0,73,2,volkswagen super beetle
1,11.0,8,400.0,150.0,4997.0,14.0,73,1,chevrolet impala
2,12.0,8,400.0,167.0,4906.0,12.5,73,1,ford country
3,13.0,8,360.0,170.0,4654.0,13.0,73,1,plymouth custom suburb
4,12.0,8,350.0,180.0,4499.0,12.5,73,1,oldsmobile vista cruiser
5,18.0,6,232.0,100.0,2789.0,15.0,73,1,amc gremlin
6,20.0,4,97.0,88.0,2279.0,19.0,73,3,toyota carina
7,21.0,4,140.0,72.0,2401.0,19.5,73,1,chevrolet vega
8,22.0,4,108.0,94.0,2379.0,16.5,73,3,datsun 610
9,18.0,3,70.0,90.0,2124.0,13.5,73,3,mazda rx3


In [171]:
#2
df.index = df.car_name
df

Unnamed: 0_level_0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,car_name
car_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
volkswagen super beetle,26.0,4,97.0,46.0,1950.0,21.0,73,2,volkswagen super beetle
chevrolet impala,11.0,8,400.0,150.0,4997.0,14.0,73,1,chevrolet impala
ford country,12.0,8,400.0,167.0,4906.0,12.5,73,1,ford country
plymouth custom suburb,13.0,8,360.0,170.0,4654.0,13.0,73,1,plymouth custom suburb
oldsmobile vista cruiser,12.0,8,350.0,180.0,4499.0,12.5,73,1,oldsmobile vista cruiser
amc gremlin,18.0,6,232.0,100.0,2789.0,15.0,73,1,amc gremlin
toyota carina,20.0,4,97.0,88.0,2279.0,19.0,73,3,toyota carina
chevrolet vega,21.0,4,140.0,72.0,2401.0,19.5,73,1,chevrolet vega
datsun 610,22.0,4,108.0,94.0,2379.0,16.5,73,3,datsun 610
mazda rx3,18.0,3,70.0,90.0,2124.0,13.5,73,3,mazda rx3


In [172]:
#3
df.cylinders.value_counts()

Unnamed: 0_level_0,count
cylinders,Unnamed: 1_level_1
4,4
8,4
6,1
3,1


In [175]:
#4
df.cylinders.max()

8

## Handling missing data

## 欠損値の取り扱い

Handling missing values is an important part of the file parsing process. Missing data is usually either not present (empty string) or marked by some *sentinel* value. By default, pandas uses a set of commonly occurring sentinels, such as NA and NULL:


欠損値の取り扱いは、ファイルを読み込む上で重要であり、特別な意味を持つことも多い。欠損値は通常、値が存在しない（空文字列）か、あるいは何らかの記号が使われている。デフォルトでは、pandas はNA や NULL などの一般によく使われる記号（文字列）を使う。

In [176]:
#!type data\ex5.csv
!cat /content/drive/MyDrive/HUBigData/data/ex5.csv

result = pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex5.csv')
result

something,a,b,c,d,words
one,1,2,3,4,NA
two,5,6,,8,analysis
three,9,10,11,12,lab


Unnamed: 0,something,a,b,c,d,words
0,one,1,2,3.0,4,
1,two,5,6,,8,analysis
2,three,9,10,11.0,12,lab


The *isnull* and *notnull* functions can be used to detect missing data:

欠損値を特定するためには、**isnull** 関数と**notnull** 関数を使う。

In [177]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,words
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


The *na_values* option can take either a list or set of strings to consider missing values:

na_values オプションには、欠損値と見なす文字列のリストまたはセットを指定する。

In [178]:
result = pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex5.csv', na_values=['NULL','lab'])
result

Unnamed: 0,something,a,b,c,d,words
0,one,1,2,3.0,4,
1,two,5,6,,8,analysis
2,three,9,10,11.0,12,


### Writing data out to text format

### テキスト形式での保存

Data can also be exported to delimited format. Let's consider again the data from the CSV file we read above:

データを区切り文字で区切られた形式でエクスポートすることもできる。先ほど読み取ったCSVファイルを例に使ってみよう。

In [179]:
data = pd.read_csv('/content/drive/MyDrive/HUBigData/data/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,words
0,one,1,2,3.0,4,
1,two,5,6,,8,analysis
2,three,9,10,11.0,12,lab


Using DataFrame's *to_csv* method, we can write the data out to a comma-separated file:

データフレームの **to_csv** メソッドを用いて、データをコンマ区切りのファイルに書き込む。

In [181]:
data.to_csv('/content/drive/MyDrive/HUBigData/data/out.csv')

#!type data\out.csv
!cat /content/drive/MyDrive/HUBigData/data/out.csv

,something,a,b,c,d,words
0,one,1,2,3.0,4,
1,two,5,6,,8,analysis
2,three,9,10,11.0,12,lab


Other delimiters can be used, of course (writing to sys.stdout so it just prints the text
result):

もちろん、他の区切り文字も使える（ここでは、テキストの出力を見たいだけなので **sys.stdout** に書き出している）。

In [182]:
import sys
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|words
0|one|1|2|3.0|4|
1|two|5|6||8|analysis
2|three|9|10|11.0|12|lab


Missing values appear as empty strings in the output. You might want to denote them
by some other sentinel value:

欠損値は出力では空文字列になるが、別の標識で示したほうがよい場合もある。

In [183]:
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,words
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,analysis
2,three,9,10,11.0,12,lab


With no other options specified, both the row and column labels are written. Both of
these can be disabled:

オプションで何も指定されていなければ、行と列の両方のラベルが書き出されるが、どちらも無効にすることができる。

In [184]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,analysis
three,9,10,11.0,12,lab


You can also write only a subset of the columns, and in an order of your choosing:

一部の列だけを、指定した順番で書き出すこともできる。

In [185]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


## **TASK 1-15**:

Create a DataFrame with some data in it and save it to CSV file without writing the column and row labels (use '#' as delimiter).


データフレームを作成して、 CSV ファイルに保存せよ。しかし、行と列のラベルを書き込まず、区切り文字としては '#' を使用すること。


In [186]:
df = pd.DataFrame(randn(5,4), index = list('ABCDE'), columns = list('WXYZ'))
df.to_csv(sys.stdout, index=False, header=False, sep='#')

0.3536071020745295#0.7021101714787903#-0.27456920456686057#-0.13914218812159282
0.10765722150117704#-0.6065451253347981#-0.4170644082280242#-0.017007036826230656
-1.2241452841933789#-1.8008399134993083#1.6347362046100804#0.9890083019292392
0.457940143094366#0.5551544103208773#1.3067197249272955#-0.44055357019668373
-0.30135027988037755#0.49879148991260985#-0.8239910398915533#1.3205658426320692
