<a href="https://colab.research.google.com/github/zaku2590/classGCI/blob/main/GCI2025S_%E7%AC%AC4%E5%9B%9E_Python%E3%81%AB%E3%82%88%E3%82%8B%E3%83%86%E3%82%99%E3%83%BC%E3%82%BF%E5%8A%A0%E5%B7%A5%E5%87%A6%E7%90%86%E3%81%AE%E5%9F%BA%E7%A4%8E%EF%BC%88Pandas%EF%BC%89.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 第4回 Pythonによるデータ加工処理の基礎（Pandas）

実際にデータ分析を行う際には、データを把握し、整える前処理を行う必要があります。この回では、Pandasというデータ分析でよく使うライブラリについて、基本的な使い方を紹介していきます。この後の回でも使用するライブラリなので、ここでしっかりと基礎を押さえておきましょう。

なお、より詳細について学びたい場合は公式ドキュメント([https://pandas.pydata.org/](https://pandas.pydata.org/))を参照してください。  
(※Colabから上のURLをクリックすると、確認画面が表示される場合があります。その際は、リンク先のページに進んでください。)


***

## 1 Pandasの概要

Pandasとは、Pythonのデータを数表として扱う機能を提供するライブラリです。データフレーム形式でさまざまなデータを加工することができ、データの結合や切り取り、表計算、時系列データの取り扱いなどが可能です。また、簡単なグラフ化も同時にできます。

Pandasは、データサイエンスの分野でよく使われるライブラリで、機械学習を行う前にデータの整形を行う前処理のツールとして使用することが多いです。

### 1.1 ライブラリの読み込み

Pandasを利用するためには、ライブラリを読み込む必要があります。読み込むための構文は主に次の2つです。

（1） `import` ライブラリ名 `as` 別名

（2） `from` ライブラリ名 `import` 機能名

(1)は、ライブラリ全体を読み込むために使用します。

(2)は階層化しているライブラリで特定の機能をもつモジュールを読み込むことができます。

目的に応じて使い分けましょう。

In [None]:
import pandas as pd

これは、Pandasというライブラリを `pd` という別名で読み込んでいます。Pandasは一般的に `pd` という別名を与えて読み込みます。Pandasは、機能が階層化されているため、以降では、 `pd.機能名` または `pd.機能名.機能名...`とすることで必要な機能を呼び出すことができます。

In [None]:
from pandas import Series, DataFrame

これは、Pandasの `Series` と `DataFrame` という機能を読み込んでいます。このようにすることで、`pd.Series` または `pd.DataFrame`とする必要があったものを簡単に `Series` または `DataFrame`のように書くことができます。

#### この回で使うライブラリの読み込み


In [None]:
# 以下のライブラリを使うので、あらかじめ読み込んでおいてください
import numpy as np
import numpy.random as random
import pandas as pd
from pandas import Series, DataFrame

***

## 2 Pandasのデータ構造

Pandasではよく使われるデータ構造として `Series` と `DataFrame` があります。`Series` は一次元、`DataFrame` は基本的に2次元のデータ列を扱うためのオブジェクトです。

### 2.1 Seriesオブジェクト

`Series`オブジェクトは1次元のデータ列です。`Series`は前の回で学習した1次元のNumpyの`array`にラベルがついたようなオブジェクトです。

In [None]:
# 例
series = Series([1,1,2,3,5,8,13])
print(series)

0     1
1     1
2     2
3     3
4     5
5     8
6    13
dtype: int64


In [None]:
# indexをアルファベットでつける
series_i = Series(
    [1,1,2,3,5,8,13],
    index=['a', 'b', 'c', 'd', 'e', 'f','g'])
print(series_i)

a     1
b     1
c     2
d     3
e     5
f     8
g    13
dtype: int64


`Series`オブジェクトは要素（上右列）を特定するインデックス（上左列）からなります。例では [1,1,2,3,5,8,13] を要素にもつ `Series` オブジェクトを作成しました。`dtype`はデータの型を表します。この例のように値だけを指定した場合、インデックスは先頭から0、1、2…のようになります。

インデックスには任意の数値や文字を指定することができます。

要素とインデックスは、それぞれ次のように、`values`属性と`index`属性を指定することで、別々に取り出すこともできます。`values`属性で返された要素はNumpyの`array`形式となります。

In [None]:
print('要素:', series_i.values)
print('インデックス:', series_i.index)

要素: [ 1  1  2  3  5  8 13]
インデックス: Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')


### 2.2 DataFrameオブジェクト

`DataFrame`オブジェクトは基本的に2次元のデータ列です。下記は、`ID`、`City`、`Birth_year`、`Name`の4つの列を持つデータ構造を示した例です。`print`関数で表示すると、そのデータは表形式で表示されます。

In [None]:
data = {'ID':['100','101','102','103','104'],
            'City':['Tokyo','Osaka','Kyoto','Hokkaido','Tokyo'],
            'Birth_year':[1990,1989,1992,1997,1982],
            'Name':['Hiroshi','Akiko','Yuki','Satoru','Steve']}

df = DataFrame(data)

print(df)

    ID      City  Birth_year     Name
0  100     Tokyo        1990  Hiroshi
1  101     Osaka        1989    Akiko
2  102     Kyoto        1992     Yuki
3  103  Hokkaido        1997   Satoru
4  104     Tokyo        1982    Steve


一番左列に表示されている`0, 1, 2, 3, 4`の値は、`Index`の値です。一番上行に表示されている`ID`、`City`、`Birth_year`、`Name`の値は、`Column`の値です。



In [None]:
df.head()

Unnamed: 0,ID,City,Birth_year,Name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve


`DataFrame`オブジェクトも`Series`オブジェクトと同様に、`Index`として文字を指定したりすることができます。

In [None]:
df_i = DataFrame(data,index=['a','b','c','d','e'])
print(df_i)

    ID      City  Birth_year     Name
a  100     Tokyo        1990  Hiroshi
b  101     Osaka        1989    Akiko
c  102     Kyoto        1992     Yuki
d  103  Hokkaido        1997   Satoru
e  104     Tokyo        1982    Steve


要素とインデックスとカラムは、それぞれ次のように、`values`属性と`index`属性と`columns`属性を指定することで、別々に取り出すこともできます。`values`属性で返された要素はNumpyのarray形式となります。

In [None]:
print('要素:', df_i.values)
print('インデックス:', df_i.index)
print('カラム:', df_i.columns)

要素: [['100' 'Tokyo' 1990 'Hiroshi']
 ['101' 'Osaka' 1989 'Akiko']
 ['102' 'Kyoto' 1992 'Yuki']
 ['103' 'Hokkaido' 1997 'Satoru']
 ['104' 'Tokyo' 1982 'Steve']]
インデックス: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
カラム: Index(['ID', 'City', 'Birth_year', 'Name'], dtype='object')


#### Jupyter環境におけるデータ表示

Jupyterでは、データの変数をそのまま次のように記述することで表示することもできます。
この場合、Jupyter環境によって、これが`DataFrame`オブジェクトであることが認識され、罫線などが付いた見やすい表示になります。

In [None]:
df_i

Unnamed: 0,ID,City,Birth_year,Name
a,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
c,102,Kyoto,1992,Yuki
d,103,Hokkaido,1997,Satoru
e,104,Tokyo,1982,Steve


また、大きな`DataFrame`を表示しようとすると一部省略されて表示されることがあります。以下で最大表示列数または最大表示行数を指定することができます。

In [None]:
#最大表示列数の指定
pd.set_option('display.max_columns', 50)
#最大表示行数の指定
pd.set_option('display.max_rows', 50)

***

## 3 データの読み込みと対話
データを解析するには、対象のデータをPythonで扱えるように読み込む必要があります。 データはCSV形式データやデータベースとして扱うのが一般的です。またインターネットには、研究用のデータが圧縮されたZIP形式で提供されているものもあります。 まずは、こうしたデータを読み込む方法から習得しましょう。

### 3.1 インターネットなどで配布されている対象データの読み込み
ここでは対象のデータが、ZIP形式ファイルとしてWebで公開されており、それをダウンロードして利用するという状況を想定します。ブラウザからあらかじめダウンロードしておくこともできますが、Pythonでは、直接読み込んでデータを保存することもできるため、ここでは、Pythonのプログラムでダウンロードする方法を説明します。

#### サンプルデータのダウンロード

次に、このディレクトリにサンプルデータをダウンロードします。ここでは、カリフォルニア大学アーバイン校（UCI）が提供しているサンプルデータを利用します。 ここではファイルをPythonのプログラムでダウンロードすることにします。

#### ZIPファイルとファイルをダウンロードするためのライブラリ
まずは、ZIPファイルやファイルをダウンロードするためのライブラリをインポートします。ZIPファイルを読み込んだり、Webから直接ダウンロードしたりするには、次のように「`requests`」「`zipfile`」「`io`」の3つのライブラリを使います。

- `requests` … Webのデータを送受信します
- `zipfile` … ZIP形式ファイルを読み書きします
- `io` … ファイルを読み書きします

In [None]:
# webからデータを取得したり、zipファイルを扱うためのライブラリ
import requests, zipfile
import io

#### ZIPファイルをダウンロードして展開する
ここで利用するファイルは、次のファイルです。ZIP形式でまとめられています。

https://s3.ap-northeast-1.amazonaws.com/lecture-handouts.weblab/%E7%AC%AC4%E5%9B%9E/student.zip

このファイルをダウンロードして展開するには、次のPythonプログラムをJupyter環境のセルに入力して実行します。すると、現在のカレントディレクトリに展開されます。  
（※ファイルをローカルにダウンロードする場合は、URLをコピー＆ペーストしてください。）

In [None]:
# データがあるurlの指定
url = 'https://s3.ap-northeast-1.amazonaws.com/lecture-handouts.weblab/%E7%AC%AC4%E5%9B%9E/student.zip'

# データをurlから取得する
r = requests.get(url, stream=True)

# zipfileを読み込み展開する
z = zipfile.ZipFile(io.BytesIO(r.content))
z.extractall()

Webからデータをダウンロードするには、`requests.get`を使います。このダウンロードしたデータを、`io.BytesIO`を使ってバイナリストリームとしてZipFileオブジェクトに与え、最後に`extractall()`を実行すると、ダウンロードしたZIP形式データを展開できます。 ダウンロードが終了したら、データがちゃんとダウンロードされ、展開されているかチェックしましょう。次のように`ls`コマンドを実行すると、カレントディレクトリのファイル一覧を表示できます。

In [None]:
ls

[0m[01;34msample_data[0m/  student-mat.csv  student-merge.R  student-por.csv  student.txt


無事に展開されると、「student.txt」「student-mat.csv」「student-merge.R」「student-por.csv」という4つのファイルが配置されます。これらのデータのうち、「student-mat.csv」のデータを使います。

### 3.2 データの読み込みと確認

まずは、「student-mat.csv」が、どのようなデータであるのかを観察していきます。

#### データをDataFrameとして読み込む
まずは、対象のデータを読み取り、Pandasの`DataFrame`オブジェクトとして扱います。次のように`pd.read_csv`の引数にファイル名student-mat.csvファイルを記載して実行すると、そのファイルが読み込まれ、`DataFrame`オブジェクトとなります。

In [None]:
student_data_math = pd.read_csv('student-mat.csv')

#### データを確認する
データを読み込んだら、実際のデータの中身を見てみましょう。`head`を使うと、データの先頭から一部をサンプルとして参照できます。括弧のなかに何も指定しない場合は先頭の5行が表示されますが、括弧のなかに行数を指定した場合は、指定した行数だけ表示されます。たとえば、`head(10)`とすれば、10行分表示されます。

In [None]:
student_data_math.head()

Unnamed: 0,school;sex;age;address;famsize;Pstatus;Medu;Fedu;Mjob;Fjob;reason;guardian;traveltime;studytime;failures;schoolsup;famsup;paid;activities;nursery;higher;internet;romantic;famrel;freetime;goout;Dalc;Walc;health;absences;G1;G2;G3
0,"GP;""F"";18;""U"";""GT3"";""A"";4;4;""at_home"";""teacher..."
1,"GP;""F"";17;""U"";""GT3"";""T"";1;1;""at_home"";""other"";..."
2,"GP;""F"";15;""U"";""LE3"";""T"";1;1;""at_home"";""other"";..."
3,"GP;""F"";15;""U"";""GT3"";""T"";4;2;""health"";""services..."
4,"GP;""F"";16;""U"";""GT3"";""T"";3;3;""other"";""other"";""h..."


#### カンマで区切ってデータを読む
データが入っているのはわかりますが、このままではデータが大変扱いにくいです。よくデータを見てみると、ダウンロードしたデータの区切り文字は「;」（セミコロン）となっています。ほとんどのCSV形式ファイルでは「,」（カンマ）がデータの区切り文字として使われるのが慣例なのですが、ダウンロードしたデータは「;」が区切りでありデータの区切りを正しく識別できないので、このようにデータがつながってしまうのです。

区切り文字を変えるには、read_csvのパラメータとして`sep='区切り文字'`を指定します。「;」を区切り文字にするため、次のようにして、データを再度読み込みましょう。

In [None]:
# データの読み込み
# 区切りに";"がついているので注意
student_data_math = pd.read_csv('student-mat.csv', sep=';')
student_data_math.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes,yes,no,no,4,3,2,1,2,5,4,6,10,10


データが正しく区切られました。

なお、read_csvの解説を見ると最初から「;」が設定されていることが多いのですが、まだ何も知らない見たこともないデータに対して、区切り文字を「;」にすればよいかどうかは、普通はわかりません。データ分析の実務では、試行錯誤をしながら区切り文字を探すことも多いので、今回は上記のような流れで実施してみました。

なお、このread_csvについては、sep以外にもパラメータがいくつかあり、区切り文字のほか、データ名（アドレス含む）、ヘッダーがあるかないかを指定することもできます。どんなパラメータが設定できるのかは、次のように実行すると確認できます。

In [None]:
?pd.read_csv

#### 3.3 データの性質を確認する
先ほど読み込んだデータを見てみると、schoolやageなど学生の属性情報が入っているというのはわかります。しかし、いくつデータがあるのか、どんなデータの種類があるのかまだわかりません。

データの個数や型を確認するには、次のように`info`を使うと、すべての変数について、`null`でないデータの個数や変数の型などがわかります。

In [None]:
# すべてのカラムの情報等チェック
student_data_math.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 33 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   school      395 non-null    object
 1   sex         395 non-null    object
 2   age         395 non-null    int64 
 3   address     395 non-null    object
 4   famsize     395 non-null    object
 5   Pstatus     395 non-null    object
 6   Medu        395 non-null    int64 
 7   Fedu        395 non-null    int64 
 8   Mjob        395 non-null    object
 9   Fjob        395 non-null    object
 10  reason      395 non-null    object
 11  guardian    395 non-null    object
 12  traveltime  395 non-null    int64 
 13  studytime   395 non-null    int64 
 14  failures    395 non-null    int64 
 15  schoolsup   395 non-null    object
 16  famsup      395 non-null    object
 17  paid        395 non-null    object
 18  activities  395 non-null    object
 19  nursery     395 non-null    object
 20  higher    

また`describe`を使うことで量的データに関して基本的な統計量を算出することができます。

In [None]:
# 基本統計量をチェック
student_data_math.describe()

Unnamed: 0,age,Medu,Fedu,traveltime,studytime,failures,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
count,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0
mean,16.696203,2.749367,2.521519,1.448101,2.035443,0.334177,3.944304,3.235443,3.108861,1.481013,2.291139,3.55443,5.708861,10.908861,10.713924,10.41519
std,1.276043,1.094735,1.088201,0.697505,0.83924,0.743651,0.896659,0.998862,1.113278,0.890741,1.287897,1.390303,8.003096,3.319195,3.761505,4.581443
min,15.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,3.0,0.0,0.0
25%,16.0,2.0,2.0,1.0,1.0,0.0,4.0,3.0,2.0,1.0,1.0,3.0,0.0,8.0,9.0,8.0
50%,17.0,3.0,2.0,1.0,2.0,0.0,4.0,3.0,3.0,1.0,2.0,4.0,4.0,11.0,11.0,11.0
75%,18.0,4.0,3.0,2.0,2.0,0.0,5.0,4.0,4.0,2.0,3.0,5.0,8.0,13.0,13.0,14.0
max,22.0,4.0,4.0,4.0,4.0,3.0,5.0,5.0,5.0,5.0,5.0,5.0,75.0,19.0,19.0,20.0


## 4 DataFrameの基本操作

以下では、DataFrameオブジェクトの取り扱いについて基本的なデータ操作から学んでみましょう。

#### 4.0 転置

行列の転置のように、行と列を入れ替える場合には、`.T`属性を参照します。

In [None]:
# 転置
df.T

Unnamed: 0,0,1,2,3,4
ID,100,101,102,103,104
City,Tokyo,Osaka,Kyoto,Hokkaido,Tokyo
Birth_year,1990,1989,1992,1997,1982
Name,Hiroshi,Akiko,Yuki,Satoru,Steve


### 4.1 データの選択と代入
列や行の選択を行う方法は複数存在します。

#### 特定列のみを取り出す

特定の列だけを指定したいときは、データの後にその列名を指定します。複数の列を指定したいときは、それらをリスト形式で指定します。

In [None]:
# 列名の指定（1つの場合）
df['Birth_year']

Unnamed: 0,Birth_year
0,1990
1,1989
2,1992
3,1997
4,1982


In [None]:
# このように記述することも可能
df.Birth_year

Unnamed: 0,Birth_year
0,1990
1,1989
2,1992
3,1997
4,1982


In [None]:
# 列名の指定(複数の場合)
df[['ID', 'Birth_year']]

Unnamed: 0,ID,Birth_year
0,100,1990
1,101,1989
2,102,1992
3,103,1997
4,104,1982


参照した列は代入を行うことができます。特に、存在しない列に代入を行うと新しい列が作成されます。

In [None]:
# 新しい列の作成
df['Score'] = np.arange(5)*10
df

Unnamed: 0,ID,City,Birth_year,Name,Score
0,100,Tokyo,1990,Hiroshi,0
1,101,Osaka,1989,Akiko,10
2,102,Kyoto,1992,Yuki,20
3,103,Hokkaido,1997,Satoru,30
4,104,Tokyo,1982,Steve,40


#### 特定行のみを取り出す

特定の行だけを指定したいときは、`:`を用いて行指定をします。このとき、`:`の前後には取得したい行の、最初の行のインデックスを左に、最後の行のインデックス+1を右に指定します。

In [None]:
# 行名の指定
df[0:3]

Unnamed: 0,ID,City,Birth_year,Name,Score
0,100,Tokyo,1990,Hiroshi,0
1,101,Osaka,1989,Akiko,10
2,102,Kyoto,1992,Yuki,20


`Index`が文字であっても同様に指定することができます。

In [None]:
# 行名の指定
df_i['a':'c']

Unnamed: 0,ID,City,Birth_year,Name
a,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
c,102,Kyoto,1992,Yuki


#### df.locの利用
`df.loc[]`はラベルを指定することでNumpyのように特定の行や列を取り出すことができます。

In [None]:
# 行名の指定（1つの場合）
df.loc[0]

Unnamed: 0,0
ID,100
City,Tokyo
Birth_year,1990
Name,Hiroshi
Score,0


In [None]:
# 行名の指定（複数の場合）
df.loc[0:3]

Unnamed: 0,ID,City,Birth_year,Name,Score
0,100,Tokyo,1990,Hiroshi,0
1,101,Osaka,1989,Akiko,10
2,102,Kyoto,1992,Yuki,20
3,103,Hokkaido,1997,Satoru,30


In [None]:
# 列名の指定（1つの場合）
df.loc[:, 'Birth_year']

Unnamed: 0,Birth_year
0,1990
1,1989
2,1992
3,1997
4,1982


In [None]:
# 列名の指定（複数の場合）
df.loc[:, ['ID','Birth_year']]

Unnamed: 0,ID,Birth_year
0,100,1990
1,101,1989
2,102,1992
3,103,1997
4,104,1982


In [None]:
# 0から3行かつ'ID'または'Birth_year'の列を指定
df.loc[0:3, ['ID','Birth_year']]

Unnamed: 0,ID,Birth_year
0,100,1990
1,101,1989
2,102,1992
3,103,1997


#### df.ilocの利用
`df.iloc[]`は、整数`Index`を指定することで`df.loc[]`と同じ要領で特定の行や列を取り出すことができます。  

`df.iloc[0:4, [0,2]]` はインデックス位置で範囲を指定するため、0行目から**3行目**までが選択されます。一方、`df.loc[0:4]` はインデックスのラベルで範囲を指定するため、0行目から**4行目**までが選択されます。この違いに注意してください。

In [None]:
# 0から3行かつ'ID'または'Birth_year'の列を指定
df.iloc[0:4, [0,2]]

Unnamed: 0,ID,Birth_year
0,100,1990
1,101,1989
2,102,1992
3,103,1997


#### df.at, df.iatの利用
`df.at[]`と`df.iat[]`は，単独の要素を取得する時に用います。`df.loc[]`や`df.iloc[]`と同じ要領で特定の要素を取り出すことができます。

In [None]:
# 0行目の'ID'を取得
df.at[0,'ID']

'100'

以上の`df.loc[]`,`df.iloc[]`,`df.at[]`,`df.iat[]`は`=`を用いて値を代入することができます。

In [None]:
df.at[0,'Birth_year'] = 2000
df

Unnamed: 0,ID,City,Birth_year,Name,Score
0,100,Tokyo,2000,Hiroshi,0
1,101,Osaka,1989,Akiko,10
2,102,Kyoto,1992,Yuki,20
3,103,Hokkaido,1997,Satoru,30
4,104,Tokyo,1982,Steve,40


### 4.2 特定の条件のデータの抽出

`DataFrame`オブジェクトでは、Numpyのように特定の条件を満たすデータだけを取り出したり、複数のデータを結合したりすることもできます。

次の例は、データのうち、`City`が`Tokyo`のみのデータを抽出する例です。この処理は、`df['City'] == 'Tokyo'`が`True`であるデータをすべて`df`から抽出するもので、フィルターの役割を果たしています。

In [None]:
#　条件（フィルター）
df[df['City'] == 'Tokyo']

Unnamed: 0,ID,City,Birth_year,Name,Score
0,100,Tokyo,2000,Hiroshi,0
4,104,Tokyo,1982,Steve,40


ここで指定している条件である`df['City'] == 'Tokyo'`は、`dtype`が`bool`である`Series`オブジェクトです。

In [None]:
print(df['City'] == 'Tokyo')

0     True
1    False
2    False
3    False
4     True
Name: City, dtype: bool


条件を複数指定したいときは、条件式を`()` でくくります。 論理積 (and) は `&`、論理和 (or) は `|`を用います。

In [None]:
# 'Birth_year'が1990以上かつ1995未満
df[(df['Birth_year'] >= 1990) & (df['Birth_year'] < 1995)]

Unnamed: 0,ID,City,Birth_year,Name,Score
2,102,Kyoto,1992,Yuki,20


次のように`isin(リスト)`を使うこともできます。

In [None]:
#　'City'が'Tokyo'または'Osaka'
df[df['City'].isin(['Tokyo','Osaka'])]

Unnamed: 0,ID,City,Birth_year,Name,Score
0,100,Tokyo,2000,Hiroshi,0
1,101,Osaka,1989,Akiko,10
4,104,Tokyo,1982,Steve,40


### 4.3 値のソート

`Series`オブジェクトや`DataFrame`オブジェクトのデータは、ソートすることもできます。値だけではなく、`Index`をベースにソートできます。

まずはソート対象のサンプルデータを次のように定義します。ソートの効果がわかりやすくなるよう、わざとデータを適当な順で並べてあります。

In [None]:
# データの準備
data = {'ID':['100','101','102','103','104'],
            'City':['Tokyo','Osaka','Kyoto','Hokkaido','Tokyo'],
            'Birth_year':[1990,1989,1992,1997,1982],
            'Name':['Hiroshi','Akiko','Yuki','Satoru','Steve']}

df_i2 = DataFrame(data,index=['e','b','a','d','c'])
df_i2

Unnamed: 0,ID,City,Birth_year,Name
e,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
a,102,Kyoto,1992,Yuki
d,103,Hokkaido,1997,Satoru
c,104,Tokyo,1982,Steve


`Index`でソートするには、次のように`sort_index`メソッドを実行します。

In [None]:
# indexによるソート
df_i2.sort_index()

Unnamed: 0,ID,City,Birth_year,Name
a,102,Kyoto,1992,Yuki
b,101,Osaka,1989,Akiko
c,104,Tokyo,1982,Steve
d,103,Hokkaido,1997,Satoru
e,100,Tokyo,1990,Hiroshi


値でソートする場合には、次のように`sort_values`メソッドを使います。また、デフォルトは昇順ですが`ascending`を指定することによって降順にすることも可能です。

In [None]:
# 値によるソート
df_i2.sort_values(by='Birth_year', ascending=False)

Unnamed: 0,ID,City,Birth_year,Name
d,103,Hokkaido,1997,Satoru
a,102,Kyoto,1992,Yuki
e,100,Tokyo,1990,Hiroshi
b,101,Osaka,1989,Akiko
c,104,Tokyo,1982,Steve


### 4.4 nan（null）の判定

データ分析ではデータが欠損しており、該当のデータが存在しないことがあります。それらをそのまま計算すると、平均などを求めたときに正しい値が得られないので、除外するなどの操作が必要です。欠損値などのデータは`nan`という特別な値で格納されるので、その扱いについて補足します。

#### 条件に合致したデータの比較

まずは`nan`の話ではなく、ふつうに条件検索する例から説明します。
次の例は、`df_i2`の全要素を対象に、`Tokyo`という文字列があるかどうかを`isin`で調べる例です。その結果は、それぞれのセルに`True`か`False`が返されます。入っていれば（条件を満たしていれば）`True`、入っていなければ（条件を満たしていなければ）`False`が設定されます。この操作が、条件に合致するデータを探すときの基本です。

In [None]:
# 値があるかどうかの確認
df_i2.isin(['Tokyo'])

Unnamed: 0,ID,City,Birth_year,Name
e,False,True,False,False
b,False,False,False,False
a,False,False,False,False
d,False,False,False,False
c,False,True,False,False


#### nanとnullの例

次の例は、`Name`列の値をわざと`nan`に設定した例です。`nan`かどうかを判定するには`isnull`メソッドを使います。

In [None]:
#　欠損値の取り扱い
# name をすべてnanにする
df_i2['Name'] = np.nan
df_i2.isnull()

Unnamed: 0,ID,City,Birth_year,Name
e,False,False,False,True
b,False,False,False,True
a,False,False,False,True
d,False,False,False,True
c,False,False,False,True


そして`nan`であるものの総数を求めるには、`sum`メソッドを呼びます。Nameが5になっているのは、上記の結果でわかるように、Trueが5つあるため、それをカウントしているからです。

In [None]:
# nullを判定し、合計する
df_i2.isnull().sum()

Unnamed: 0,0
ID,0
City,0
Birth_year,0
Name,5


### 4.5 データの結合
私たちがよく扱うデータとしてはそれぞれの列に重複しない項目名がついており、縦方向に行として各項目をもったデータが追加されていったものが多いです。ここではよく使用する方法について説明していきます。

データの結合で主に使用するものには`pd.merge` `DataFrame.join` `pd.concat` `DataFrame.append` などがあります。それぞれの詳細な使用方法は公式ドキュメント([https://pandas.pydata.org/docs/user_guide/merging.html](https://pandas.pydata.org/docs/user_guide/merging.html))を参照してください。

次に提示する`data1`（以下、データ1）と`data2`（以下、データ2）の2つのデータを使います。

In [None]:
# データ1の準備
data1 = {
    'id': ['100', '101', '102', '103', '104', '106', '108', '110', '111','113'],
    'city': ['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo', 'Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'],
    'birth_year': [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
    'name': ['Hiroshi', 'Akiko', 'Yuki', 'Satoru', 'Steve', 'Mituru', 'Aoi', 'Tarou', 'Suguru','Mitsuo']
}
df1 = DataFrame(data1)
df1

Unnamed: 0,id,city,birth_year,name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve
5,106,Tokyo,1991,Mituru
6,108,Osaka,1988,Aoi
7,110,Kyoto,1990,Tarou
8,111,Hokkaido,1995,Suguru
9,113,Tokyo,1981,Mitsuo


In [None]:
# データ2の準備
data2 = {
    'id': ['100', '101', '102', '105', '107'],
    'math': [50, 43, 33, 76, 98],
    'english': [90, 30, 20, 50, 30],
    'sex': ['M','F','F','M','M'],
    'index_num': [0, 1, 2, 3, 4]
}
df2 = DataFrame(data2)
df2

Unnamed: 0,id,math,english,sex,index_num
0,100,50,90,M,0
1,101,43,30,F,1
2,102,33,20,F,2
3,105,76,50,M,3
4,107,98,30,M,4


ここでは、この2つのデータを結合する方法を見ていきましょう。 データ1とデータ2を結合する方法は、次の4パターンが考えられます。

①内部結合（INNER JOIN） 両方にキーがあるときに結合します。

②左外部結合（LEFT JOIN） 左側にあるデータのキーがある時に結合します。

③右外部結合（RIGHT JOIN） 右側にあるデータのキーがある時に結合します。

④完全外部結合（FULL JOIN） どちらかにキーがあるときに結合します。

![](https://mathwords.net/wp-content/uploads/2017/06/tablejoin1.png)

引用元：https://mathwords.net/wp-content/uploads/2017/06/tablejoin1.png

#### `pd.merge`を使用
`pd.merge`は項目名のうち一つをキーに指定して結合するときによく使用します。

##### 内部結合
merge関数の結合方法のデフォルトは内部結合です。`on`引数でキーを指定することができますが、指定しなかった場合は両方の`DataFrame`に同じ名前で含まれるカラム`id`をキーとして内部結合します。なお、`key`は複数指定することもでき、その場合はカラム名をリストで渡します。

In [None]:
# データのマージ（内部結合。キーは自動的に認識される）
pd.merge(df1, df2)

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,50,90,M,0
1,101,Osaka,1989,Akiko,43,30,F,1
2,102,Kyoto,1992,Yuki,33,20,F,2


In [None]:
# データのマージ（内部結合。onで明示的に指定可能）
pd.merge(df1, df2, on = 'id')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,50,90,M,0
1,101,Osaka,1989,Akiko,43,30,F,1
2,102,Kyoto,1992,Yuki,33,20,F,2


`id`の値が両方の`Dataframe`オブジェクトに存在するもののみが表示されました。

なお、`left_on`や`right_on`引数を使うと、キーを個別に指定できます。さらに，`left_index`や`right_index`引数を用いると`Index`で指定して結合できます。次の例は、左側のデータの`Index`と、右側のデータのindex_numカラムをキーとして指定するものです。

In [None]:
# Indexとindex_num によるマージ
pd.merge(df1, df2, left_index = True, right_on = 'index_num')

Unnamed: 0,id_x,city,birth_year,name,id_y,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,100,50,90,M,0
1,101,Osaka,1989,Akiko,101,43,30,F,1
2,102,Kyoto,1992,Yuki,102,33,20,F,2
3,103,Hokkaido,1997,Satoru,105,76,50,M,3
4,104,Tokyo,1982,Steve,107,98,30,M,4


ここで重複のある`id`は左側のデータは`id_x`右側のデータは`id_y`と変わっています。この値は`suffixes`を指定することで変更することができます

In [None]:
# suffixesを指定
pd.merge(df1, df2, left_index = True, right_on = 'index_num', suffixes=('_1','_2'))

Unnamed: 0,id_1,city,birth_year,name,id_2,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,100,50,90,M,0
1,101,Osaka,1989,Akiko,101,43,30,F,1
2,102,Kyoto,1992,Yuki,102,33,20,F,2
3,103,Hokkaido,1997,Satoru,105,76,50,M,3
4,104,Tokyo,1982,Steve,107,98,30,M,4


##### 左外部結合
左外部結合は`how`引数に`left`を指定します。次の例は、左側のテーブル（ひとつめの引数）に合わせて、`Dataframe`オブジェクトのデータを結合するものです。左側に対応するデータが右（ふたつめの引数）にない場合は、`NaN`になります。

In [None]:
# データのマージ（left）
pd.merge(df1, df2, how = 'left')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,50.0,90.0,M,0.0
1,101,Osaka,1989,Akiko,43.0,30.0,F,1.0
2,102,Kyoto,1992,Yuki,33.0,20.0,F,2.0
3,103,Hokkaido,1997,Satoru,,,,
4,104,Tokyo,1982,Steve,,,,
5,106,Tokyo,1991,Mituru,,,,
6,108,Osaka,1988,Aoi,,,,
7,110,Kyoto,1990,Tarou,,,,
8,111,Hokkaido,1995,Suguru,,,,
9,113,Tokyo,1981,Mitsuo,,,,


##### 完全外部結合
これまでの例はどちらのデータにも存在するデータで結合しています。今回は、どちらかのデータに存在する列で結合しています。全結合では`how`引数に`outer`を指定します。結合する値がない場合は、`NaN`になります。

In [None]:
# データのマージ（完全外部結合）
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Tokyo,1990.0,Hiroshi,50.0,90.0,M,0.0
1,101,Osaka,1989.0,Akiko,43.0,30.0,F,1.0
2,102,Kyoto,1992.0,Yuki,33.0,20.0,F,2.0
3,103,Hokkaido,1997.0,Satoru,,,,
4,104,Tokyo,1982.0,Steve,,,,
5,105,,,,76.0,50.0,M,3.0
6,106,Tokyo,1991.0,Mituru,,,,
7,107,,,,98.0,30.0,M,4.0
8,108,Osaka,1988.0,Aoi,,,,
9,110,Kyoto,1990.0,Tarou,,,,


#### `DataFrame.join`を使用
`DataFrame.join`は`index`をキーに指定する場合に使用します。使用方法は`pd.merge`に似ています。詳細な使用方法は公式ドキュメント([https://pandas.pydata.org/docs/user_guide/merging.html](https://pandas.pydata.org/docs/user_guide/merging.html))を参照してください。

#### `pd.concat`を使用
`pd.concat`は、データ同士をキーを指定せずに結合する時に使用します。

##### 縦に結合
デフォルトでは縦に単純に接続します。`pd.concat`はよく、同じカラムをもつデータを縦方向に積み上げるときに用います。

In [None]:
# データ3の準備
data3 = {
    'id': ['117', '118', '119', '120', '125'],
    'city': ['Chiba', 'Kanagawa', 'Tokyo', 'Fukuoka', 'Okinawa'],
    'birth_year': [1990, 1989, 1992, 1997, 1982],
    'name': ['Suguru', 'Kouichi', 'Satochi', 'Yukie', 'Akari']
}
df3 = DataFrame(data3)
df3

Unnamed: 0,id,city,birth_year,name
0,117,Chiba,1990,Suguru
1,118,Kanagawa,1989,Kouichi
2,119,Tokyo,1992,Satochi
3,120,Fukuoka,1997,Yukie
4,125,Okinawa,1982,Akari


In [None]:
# concat 縦結合
pd.concat([df1,df3])

Unnamed: 0,id,city,birth_year,name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve
5,106,Tokyo,1991,Mituru
6,108,Osaka,1988,Aoi
7,110,Kyoto,1990,Tarou
8,111,Hokkaido,1995,Suguru
9,113,Tokyo,1981,Mitsuo


上では`index`がそのまま結合されていましたが、`ignore_index=True`とすることで、上から順番に`index`を付け直すことが可能です。

In [None]:
pd.concat([df1, df3], ignore_index=True)

Unnamed: 0,id,city,birth_year,name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steve
5,106,Tokyo,1991,Mituru
6,108,Osaka,1988,Aoi
7,110,Kyoto,1990,Tarou
8,111,Hokkaido,1995,Suguru
9,113,Tokyo,1981,Mitsuo


`pd.concat`で縦に結合する場合カラム名に紐付けられて接合が行われます。カラム名が異なる場合、結合する値がない場合には`NaN`が入ります。`sort`引数は`True`とすることで`Column`が並べ替えられますが、`False`とすることで並べ替えられずに結合することができます。

In [None]:
# sort = Trueの場合
pd.concat([df1, df2], sort=True)

Unnamed: 0,birth_year,city,english,id,index_num,math,name,sex
0,1990.0,Tokyo,,100,,,Hiroshi,
1,1989.0,Osaka,,101,,,Akiko,
2,1992.0,Kyoto,,102,,,Yuki,
3,1997.0,Hokkaido,,103,,,Satoru,
4,1982.0,Tokyo,,104,,,Steve,
5,1991.0,Tokyo,,106,,,Mituru,
6,1988.0,Osaka,,108,,,Aoi,
7,1990.0,Kyoto,,110,,,Tarou,
8,1995.0,Hokkaido,,111,,,Suguru,
9,1981.0,Tokyo,,113,,,Mitsuo,


##### 横に結合
横に結合するためには`axis`引数に軸を指定します。「`axis=0`が行」「`axis=1`が列」です。そのため、ここでは`axis=1`に指定する必要があります。この場合、`index`で紐付けられて、`column`はそのまま結合されます。なお、`axis=0`と指定すると縦に結合します。この`axis`引数は他の場面でも使うので、覚えておいてください。

In [None]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,id,city,birth_year,name,id.1,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,100.0,50.0,90.0,M,0.0
1,101,Osaka,1989,Akiko,101.0,43.0,30.0,F,1.0
2,102,Kyoto,1992,Yuki,102.0,33.0,20.0,F,2.0
3,103,Hokkaido,1997,Satoru,105.0,76.0,50.0,M,3.0
4,104,Tokyo,1982,Steve,107.0,98.0,30.0,M,4.0
5,106,Tokyo,1991,Mituru,,,,,
6,108,Osaka,1988,Aoi,,,,,
7,110,Kyoto,1990,Tarou,,,,,
8,111,Hokkaido,1995,Suguru,,,,,
9,113,Tokyo,1981,Mitsuo,,,,,


#### <練習問題 1>

下記のデータテーブルに対して、`city`がTokyoであるか`birth_year`が1990より大きいデータを出力してみましょう。

In [None]:
# データ4の準備
data4 = {
    'id': ['0', '1', '2', '3', '4', '6', '8', '11', '12', '13'],
    'city': ['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo', 'Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'],
    'birth_year': [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
    'name': ['Hiroshi', 'Akiko', 'Yuki', 'Satoru', 'Steve', 'Mituru', 'Aoi', 'Tarou', 'Suguru', 'Mitsuo']
}
df4 = DataFrame(data4)
df4

Unnamed: 0,id,city,birth_year,name
0,0,Tokyo,1990,Hiroshi
1,1,Osaka,1989,Akiko
2,2,Kyoto,1992,Yuki
3,3,Hokkaido,1997,Satoru
4,4,Tokyo,1982,Steve
5,6,Tokyo,1991,Mituru
6,8,Osaka,1988,Aoi
7,11,Kyoto,1990,Tarou
8,12,Hokkaido,1995,Suguru
9,13,Tokyo,1981,Mitsuo


In [None]:
# write me!

#### <練習問題  2>

下記の2つのデータテーブルに対して、`id`の値が同じもの同士で内部結合してみましょう。

In [None]:
# データ4の準備
data4 = {
    'id': ['0', '1', '2', '3', '4', '6', '8', '11', '12', '13'],
    'city': ['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo', 'Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'],
    'birth_year': [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
    'name': ['Hiroshi', 'Akiko', 'Yuki', 'Satoru', 'Steve', 'Mituru', 'Aoi', 'Tarou', 'Suguru', 'Mitsuo']
}
df4 = DataFrame(data4)
df4

Unnamed: 0,id,city,birth_year,name
0,0,Tokyo,1990,Hiroshi
1,1,Osaka,1989,Akiko
2,2,Kyoto,1992,Yuki
3,3,Hokkaido,1997,Satoru
4,4,Tokyo,1982,Steve
5,6,Tokyo,1991,Mituru
6,8,Osaka,1988,Aoi
7,11,Kyoto,1990,Tarou
8,12,Hokkaido,1995,Suguru
9,13,Tokyo,1981,Mitsuo


In [None]:
# データ5の準備
data5 = {
    'id': ['0', '1', '3', '6', '8'],
    'math' : [20, 30, 50, 70, 90],
    'english': [30, 50, 50, 70, 20],
    'sex': ['M', 'F', 'F', 'M', 'M'],
    'index_num': [0, 1, 2, 3, 4]
}
df5 = DataFrame(data5)
df5

Unnamed: 0,id,math,english,sex,index_num
0,0,20,30,M,0
1,1,30,50,F,1
2,3,50,50,F,2
3,6,70,70,M,3
4,8,90,20,M,4


In [None]:
# write me!

#### <練習問題 3>
<練習問題 2>のデータを使って、`df4`に対して、以下のデータを縦結合してみましょう。

In [None]:
# データの準備
data6 = {
    'id': ['70', '80', '90', '120', '150'],
    'city': ['Chiba', 'Kanagawa', 'Tokyo', 'Fukuoka', 'Okinawa'],
    'birth_year': [1980, 1999, 1995, 1994, 1994],
    'name': ['Suguru', 'Kouichi', 'Satochi', 'Yukie', 'Akari']
}
df6 = DataFrame(data6)
df6

Unnamed: 0,id,city,birth_year,name
0,70,Chiba,1980,Suguru
1,80,Kanagawa,1999,Kouichi
2,90,Tokyo,1995,Satochi
3,120,Fukuoka,1994,Yukie
4,150,Okinawa,1994,Akari


In [None]:
# write me!

### 4.6 データの削除
`DataFrame`オブジェクトで列や行を削除するためには主に`pd.drop`を使います。

#### 列や行の削除

ある特定の列や行を削除するには`drop`メソッドを実行します。`axis`引数に軸を指定します。

・行削除の場合：1つ目の引数に削除したい行の`Index`をリストとして指定します。`axis=0`を指定します。

・列の削除の場合：1つ目の引数に削除したい列名をリストとして指定します。`axis=1`を指定します。

 次の例は、`Birth_year`列を削除する例です。

In [None]:
# データの列の削除
df.drop(['Birth_year'], axis = 1)

Unnamed: 0,ID,City,Name,Score
0,100,Tokyo,Hiroshi,0
1,101,Osaka,Akiko,10
2,102,Kyoto,Yuki,20
3,103,Hokkaido,Satoru,30
4,104,Tokyo,Steve,40


なお、上記で列を削除しても元のデータの列が削除されたわけではないので、注意しましょう。置き換えたい場合は、あらためて`df = df.drop(['Birth_year'],axis=1)`のように設定します。もしくは、オプションの`inplace=True`を指定すると、元のデータを置き換えることもできます。

また、`axis`を用いないで方向を指定することもできます。その場合、行を削除したい時には`index`引数に削除したい`Index`のリストを、列を削除したい場合は`column`引数に削除したい`Column`のリストを指定します。

In [None]:
# データの行の削除
df.drop(index=[0,2])

Unnamed: 0,ID,City,Birth_year,Name,Score
1,101,Osaka,1989,Akiko,10
3,103,Hokkaido,1997,Satoru,30
4,104,Tokyo,1982,Steve,40


ここで、行が削除されたことによって`Index`が連続ではなくなってしまいました。そこで、新しく`Index`を振り直す手段として`DataFrame.reset_index`を用いてみましょう。

In [None]:
df.drop(index=[0,2]).reset_index()

Unnamed: 0,index,ID,City,Birth_year,Name,Score
0,1,101,Osaka,1989,Akiko,10
1,3,103,Hokkaido,1997,Satoru,30
2,4,104,Tokyo,1982,Steve,40


上では元々の`Index`が新しく`column`となっていることがわかります。元々の`Index`を削除する場合には`drop=True`とします。

### 4.7 階層型インデックス

データを複数軸で集計したいとき、設定すると便利なのが**階層型インデックス**です。
今までは、1つのインデックスだけを扱いましたが、複数の軸で階層的にインデックスを設定したいこともあります。階層的にインデックスを設定することで、高次元のデータを低次元で扱うことが可能になり、各階層ごとに集計に便利です。

次に示すデータセットは、インデックスを2段構造で設定した例です。インデックスを設定するには、`index`引数にその値を指定します。この例では、1階層目のインデックスとして`a`と`b`、2階層目のインデックスとして`1`と`2`を設定しています。

また、列の側につけるカラムとして、1階層目に`Osaka`、`Tokyo`、`Osaka`、2階層目に`Blue`、`Red`、`Red`を設定しています。


In [None]:
# 3列3行のデータを作成し、インデックスとカラムを設定
hier_df= DataFrame(
    np.arange(9).reshape((3,3)),
    index = [
        ['a','a','b'],
        [1,2,2]
    ],
    columns = [
        ['Osaka','Tokyo','Osaka'],
        ['Blue','Red','Red']
    ]
)
hier_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Osaka,Tokyo,Osaka
Unnamed: 0_level_1,Unnamed: 1_level_1,Blue,Red,Red
a,1,0,1,2
a,2,3,4,5
b,2,6,7,8


これらのインデックスやカラムには、名前をつけることもできます。

In [None]:
# indexに名前を付ける
hier_df.index.names =['key1','key2']
# カラムに名前を付ける
hier_df.columns.names =['city','color']
hier_df

Unnamed: 0_level_0,city,Osaka,Tokyo,Osaka
Unnamed: 0_level_1,color,Blue,Red,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,2,6,7,8


#### カラムの絞り込み

ここでたとえば、カラムの`city`が`Osaka`のデータだけを見たいとしましょう。次のようにすると、グループの絞り込みができます。

In [None]:
hier_df['Osaka']

Unnamed: 0_level_0,color,Blue,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,2
a,2,3,5
b,2,6,8


#### インデックスを軸にした集計

次はインデックスを軸にした集計の例です。以下の例は、`key2`を軸に合計を計算する例です。

In [None]:
# 階層ごとの要約統計量：行合計
hier_df.groupby(level= 'key2', axis = 0).sum()

  hier_df.groupby(level= 'key2', axis = 0).sum()


city,Osaka,Tokyo,Osaka
color,Blue,Red,Red
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,0,1,2
2,9,11,13


同様にして、`color`を軸に平均を計算する場合は、次のようにします。列方向に平均をとる場合は、`mean`メソッドに対して`axis`引数を1に設定します。

In [None]:
# 列平均
hier_df.groupby(level= 'color', axis = 1).mean()

  hier_df.groupby(level= 'color', axis = 1).mean()


Unnamed: 0_level_0,color,Blue,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0.0,1.5
a,2,3.0,4.5
b,2,6.0,7.5


#### インデックスの要素の削除

ある`Index`を削除したい場合は、`drop`メソッドを使います。`drop`メソッドを使うと、`Index`の要素を削除できます。次の例では、`key1`の`b`を削除しています。

In [None]:
hier_df.drop(['b'])

Unnamed: 0_level_0,city,Osaka,Tokyo,Osaka
Unnamed: 0_level_1,color,Blue,Red,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5


#### <練習問題 4>

次のデータに対して、`Kyoto`の列だけ抜き出してみましょう。

In [None]:
hier_df1 = DataFrame(
    np.arange(12).reshape((3,4)),
    index = [['c','d','d'],[1,2,1]],
    columns = [
        ['Kyoto','Nagoya','Hokkaido','Kyoto'],
        ['Yellow','Yellow','Red','Blue']
    ]
)

hier_df1.index.names = ['key1','key2']
hier_df1.columns.names = ['city','color']
hier_df1

Unnamed: 0_level_0,city,Kyoto,Nagoya,Hokkaido,Kyoto
Unnamed: 0_level_1,color,Yellow,Yellow,Red,Blue
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
c,1,0,1,2,3
d,2,4,5,6,7
d,1,8,9,10,11


In [None]:
# write me!

#### <練習問題 5>

<練習問題 4>のデータに対して、`city`をまとめて列同士の平均値を出してください。

In [None]:
# write me!

#### <練習問題 6>

<練習問題 4>のデータに対して、`key2`ごとに行の合計値を算出してみましょう。


In [None]:
# write me!

### 4.8 データの操作と変換
次に、データの操作と変換（ピボット操作、データの重複があった場合の処理、マッピング、ビン分割など）について扱っていきましょう。

#### ピボット操作
まずは、データのピボット操作について学びます。ピボット操作とは、行を列に、列を行にする操作です。もう一度、これまで使ってきた階層テーブル`hier_df`を例に考えます。

In [None]:
# hier_dfを用意
hier_df= DataFrame(
    np.arange(9).reshape((3, 3)),
    index = [
        ['a', 'a', 'b'],
        [1, 2, 2]
    ],
    columns = [
        ['Osaka', 'Tokyo', 'Osaka'],
        ['Blue','Red','Red']
    ]
)
hier_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Osaka,Tokyo,Osaka
Unnamed: 0_level_1,Unnamed: 1_level_1,Blue,Red,Red
a,1,0,1,2
a,2,3,4,5
b,2,6,7,8


次のように`stack`メソッドを実行すると、列が行に入れ替わった`DataFrame`オブジェクトを再構成できます。

In [None]:
#　ピボット操作で「Blue、Red」の列を行に変更
hier_df.stack()

  hier_df.stack()


Unnamed: 0,Unnamed: 1,Unnamed: 2,Osaka,Tokyo
a,1,Blue,0,
a,1,Red,2,1.0
a,2,Blue,3,
a,2,Red,5,4.0
b,2,Blue,6,
b,2,Red,8,7.0


`unstack`メソッドを使うと、逆の操作が可能です。

In [None]:
# unstackメソッドで、「Blue、Red」の行を列に変更
hier_df.stack().unstack()

  hier_df.stack().unstack()


Unnamed: 0_level_0,Unnamed: 1_level_0,Osaka,Osaka,Tokyo,Tokyo
Unnamed: 0_level_1,Unnamed: 1_level_1,Blue,Red,Blue,Red
a,1,0,2,,1.0
a,2,3,5,,4.0
b,2,6,8,,7.0


上記のデータ操作では、列にあったものを行に持ってきたり、行であったものを列に持ってきたりしています。これらのテクニックは、データのモデリング前の処理として使うことも多く便利ですので、ぜひ理解して使えるようにしてください。

#### 重複データの除去
次は、重複があるデータの処理です。データ分析をしていると、データに重複があることもありますし、自分で実際に集計等していて重複が混じることもあり、そのチェックをするという意味で重要です。

まず例として、重複があるデータを準備します。

In [None]:
#　重複があるデータ
dupli_data = DataFrame({
        'col1': [1, 1, 2, 3, 4, 4, 6, 6],
        'col2': ['a', 'b', 'b', 'b', 'c', 'c', 'b', 'b']
})
print('・元のデータ')
dupli_data

・元のデータ


Unnamed: 0,col1,col2
0,1,a
1,1,b
2,2,b
3,3,b
4,4,c
5,4,c
6,6,b
7,6,b


重複の判定には`duplicated`メソッドを使います。それぞれの行が確認され、重複があるときは、`True`となります。ただし、重複のあるデータでも1回目では`False`となり、2回目から`True`になります。

In [None]:
#　重複判定
dupli_data.duplicated()

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,True
6,False
7,True


`drop_duplicates`メソッドを使うと、重複したデータを削除した結果のデータが返されます。

In [None]:
#　重複削除
dupli_data.drop_duplicates()

Unnamed: 0,col1,col2
0,1,a
1,1,b
2,2,b
3,3,b
4,4,c
6,6,b


#### マッピング処理
次に、マッピング処理を説明します。共通のキーとなるデータに対して、一方の（参照）テーブルからそのキーに対応するデータを引っ張ってくる機能です。以下は、都道府県名と地域名を対応付けた参照データです。

Tokyo（東京）→Kanto（関東）

Hokkaido（北海道）→Hokkaido（北海道）

Osaka（大阪）→Kansai（関西）

Kyoto（京都）→Kansai（関西）

まず次のように参照データを作ります。

In [None]:
# 参照データ
city_map ={
    'Tokyo': 'Kanto',
    'Hokkaido': 'Hokkaido',
    'Osaka': 'Kansai',
    'Kyoto':'Kansai'
}
city_map

{'Tokyo': 'Kanto',
 'Hokkaido': 'Hokkaido',
 'Osaka': 'Kansai',
 'Kyoto': 'Kansai'}

次の例は、`df1`の`city`カラムをベースとして、上の参照データ`city_map`から対応する地域名データを持ってきて、新しく一番右に`region`というカラムとして追加するものです。

In [None]:
#　参照データを結合
# もし対応するデータがなかったら、NaNになる。
df1['region'] = df1['city'].map(city_map)
df1

Unnamed: 0,id,city,birth_year,name,region
0,100,Tokyo,1990,Hiroshi,Kanto
1,101,Osaka,1989,Akiko,Kansai
2,102,Kyoto,1992,Yuki,Kansai
3,103,Hokkaido,1997,Satoru,Hokkaido
4,104,Tokyo,1982,Steve,Kanto
5,106,Tokyo,1991,Mituru,Kanto
6,108,Osaka,1988,Aoi,Kansai
7,110,Kyoto,1990,Tarou,Kansai
8,111,Hokkaido,1995,Suguru,Hokkaido
9,113,Tokyo,1981,Mitsuo,Kanto


このように新しい`region`というカラムをつけることで、この単位で集計が可能になります。

##### 無名関数とmapを組み合わせる

次は、無名関数と`map`を使って、カラムの中の一部のデータを取り出す処理をする例です。具体的には、`birth_year`の上3桁を取得します。関数適応やループなどを使って要素を1つ1つ取り出して処理するより便利なので、まとめて処理したい場合は、このようなやり方を検討することをおすすめします。

In [None]:
#　birth_year の上3つの数字・文字を取り出す
df1['up_three_digits'] = df1['birth_year'].map(lambda x: str(x)[0:3])
df1

Unnamed: 0,id,city,birth_year,name,region,up_three_digits
0,100,Tokyo,1990,Hiroshi,Kanto,199
1,101,Osaka,1989,Akiko,Kansai,198
2,102,Kyoto,1992,Yuki,Kansai,199
3,103,Hokkaido,1997,Satoru,Hokkaido,199
4,104,Tokyo,1982,Steve,Kanto,198
5,106,Tokyo,1991,Mituru,Kanto,199
6,108,Osaka,1988,Aoi,Kansai,198
7,110,Kyoto,1990,Tarou,Kansai,199
8,111,Hokkaido,1995,Suguru,Hokkaido,199
9,113,Tokyo,1981,Mitsuo,Kanto,198


#### ビン分割

最後にビン分割について説明します。これは、ある離散的な範囲にデータを分割して集計したい場合に、便利な機能です。具体的には、上のデータの`birth_year`に対して、5年区切りで集計をしたい場合など、ある特定の分割をして計算をしたいときに使います。

たとえば以下のように、1980、1985、1990、1995、2000のように5年単位でビン分割するためのリストを用意し、Pandasの`cut`関数を使うと、そのように分割できます。`cut`関数では、1つ目の引数に分割するデータ、2つ目の引数に分割する境界値を、それぞれ指定します。

In [None]:
#　分割の粒度
birth_year_bins = [1980, 1985, 1990, 1995, 2000]

# ビン分割の実施
birth_year_cut_data = pd.cut(df1.birth_year, birth_year_bins)
birth_year_cut_data

Unnamed: 0,birth_year
0,"(1985, 1990]"
1,"(1985, 1990]"
2,"(1990, 1995]"
3,"(1995, 2000]"
4,"(1980, 1985]"
5,"(1990, 1995]"
6,"(1985, 1990]"
7,"(1985, 1990]"
8,"(1990, 1995]"
9,"(1980, 1985]"


なお、上記のプログラムでは、「1980～1985」の区切りの中には1980は含まれませんが、1985は含まれています。つまり、指定した基準は、「～より後で、～以前」という区切り方として使われます。この動作は、cut関数に`left`オプションや`right`オプションを指定することで変更できます。

上記の結果を使って、それぞれの数を集計したい場合は、`value_counts`関数を使います。

In [None]:
# 集計結果
pd.value_counts(birth_year_cut_data)

  pd.value_counts(birth_year_cut_data)


Unnamed: 0_level_0,count
birth_year,Unnamed: 1_level_1
"(1985, 1990]",4
"(1990, 1995]",3
"(1980, 1985]",2
"(1995, 2000]",1


labelsパラメータを指定することで、それぞれのビンに名前をつけることもできます。

In [None]:
# 名前をつける
group_names = ['early1980s', 'late1980s', 'early1990s', 'late1990s']
birth_year_cut_data = pd.cut(df1.birth_year, birth_year_bins, labels = group_names)
pd.value_counts(birth_year_cut_data)

  pd.value_counts(birth_year_cut_data)


Unnamed: 0_level_0,count
birth_year,Unnamed: 1_level_1
late1980s,4
early1990s,3
early1980s,2
late1990s,1


上記では、ビン分割のリストを用意しましたが、あらかじめ分割数を指定したい場合は、以下のように設定できます。この場合、最大値と最小値の間を等間隔で分割することができます。なお、データによってはきれいに割り切れず小数点以下がでてくるので注意しましょう。

In [None]:
# 数字で分割数指定可能。ここでは2つに分割
pd.cut(df1.birth_year, 2)

Unnamed: 0,birth_year
0,"(1989.0, 1997.0]"
1,"(1980.984, 1989.0]"
2,"(1989.0, 1997.0]"
3,"(1989.0, 1997.0]"
4,"(1980.984, 1989.0]"
5,"(1989.0, 1997.0]"
6,"(1980.984, 1989.0]"
7,"(1989.0, 1997.0]"
8,"(1989.0, 1997.0]"
9,"(1980.984, 1989.0]"


また`qcut`関数を使うと、分位点での分割もできます。`qcut`関数を使うことで、ほぼ同じサイズのビンを作成することができます。

In [None]:
pd.value_counts(pd.qcut(df1.birth_year, 2))

  pd.value_counts(pd.qcut(df1.birth_year, 2))


Unnamed: 0_level_0,count
birth_year,Unnamed: 1_level_1
"(1980.999, 1990.0]",6
"(1990.0, 1997.0]",4


ここでは対象としたデータが、1981、1982、1988、1989、1990、1990、1991、1992、1995、1997と、ちょうど中央値にあたる値が2つあるため、6つと4つで分割されました。

このビン分割、はじめ何に使うのかイメージがわきにくいかもしれませんが、具体的には、顧客の購買金額合計を分けて、それぞれの顧客層（優良顧客など）を分析をしたい場合など、マーケティング分析にも使えます。

#### <練習問題 7>

数学の成績を示すデータである「student-mat.csv」を読み込み、年齢（`age`）を2倍にしたカラムを末尾に追加してみましょう。

In [None]:
# 例）
student_data_math = pd.read_csv('student-mat.csv', sep=';')

In [None]:
# write me!

#### <練習問題 8>

<練習問題 7>と同じデータで、「`absences`」のカラムについて、以下の3つのビンに分けてそれぞれの人数を数えてみましょう。なお、`cut`のデフォルトの挙動は右側が閉区間です。今回は、`cut`関数に対して`right=False`のオプションを指定して、右側を開区間としてください。

In [None]:
#　分割の粒度
absences_bins = [0,1,5,100]

In [None]:
# write me!

#### <練習問題 9>

<練習問題 7>と同じデータで、「`absences`」のカラムについて、`qcut`を用いて3つのビンに分けてみましょう。

In [None]:
# write me!

### 4.9 データの集約とグループ演算

ここでは、あるカラムを軸にして集計する処理を学びます。
さらに`groupby`メソッドを使うと、ある特定の列を軸とした集計ができます。以前使った`df1`データを対象に、集約やグループ演算をしたいと思います。

In [None]:
# データを用意（確認）、ただし、region付き
df1

Unnamed: 0,id,city,birth_year,name,region,up_three_digits
0,100,Tokyo,1990,Hiroshi,Kanto,199
1,101,Osaka,1989,Akiko,Kansai,198
2,102,Kyoto,1992,Yuki,Kansai,199
3,103,Hokkaido,1997,Satoru,Hokkaido,199
4,104,Tokyo,1982,Steve,Kanto,198
5,106,Tokyo,1991,Mituru,Kanto,199
6,108,Osaka,1988,Aoi,Kansai,198
7,110,Kyoto,1990,Tarou,Kansai,199
8,111,Hokkaido,1995,Suguru,Hokkaido,199
9,113,Tokyo,1981,Mitsuo,Kanto,198


以下のように`groupby`メソッドでグループ化してから`size`メソッドを使うと、それぞれの`city`の値がいくつかあるのかを計算できます。

In [None]:
# サイズ情報
df1.groupby('city').size()

Unnamed: 0_level_0,0
city,Unnamed: 1_level_1
Hokkaido,2
Kyoto,2
Osaka,2
Tokyo,4


次は、`city`を軸として、`birth_year`の平均値を算出する例です。

In [None]:
# cityを軸に、birth_yearの平均値を求める
df1.groupby('city')['birth_year'].mean()

Unnamed: 0_level_0,birth_year
city,Unnamed: 1_level_1
Hokkaido,1996.0
Kyoto,1991.0
Osaka,1988.5
Tokyo,1986.0


軸は複数設定することもできます。たとえば、region、cityを2軸として、birth_yearの平均値を求めると、次のようになります。

In [None]:
df1.groupby(['region', 'city'])['birth_year'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,birth_year
region,city,Unnamed: 2_level_1
Hokkaido,Hokkaido,1996.0
Kansai,Kyoto,1991.0
Kansai,Osaka,1988.5
Kanto,Tokyo,1986.0


なお、`groupby`メソッドに`as_index = False`パラメータを設定すると、インデックスが設定されなくなります。そのままテーブルとして扱いたいときに便利です。

In [None]:
df1.groupby(['region', 'city'], as_index = False)['birth_year'].mean()

Unnamed: 0,region,city,birth_year
0,Hokkaido,Hokkaido,1996.0
1,Kansai,Kyoto,1991.0
2,Kansai,Osaka,1988.5
3,Kanto,Tokyo,1986.0


他にも`groupby`メソッドには、イテレータという、反復的に値を取り出す機能があり、次のように、結果の要素をPythonの`for`などでループ処理できて便利です。

以下の例は、groupはregionの名前取り出し、subdfはそのregionのみの行をすべて抽出するというものです。

In [None]:
for group, subdf in df1.groupby('region'):
    print('==========================================================')
    print('Region Name:{0}'.format(group))
    print(subdf)

Region Name:Hokkaido
    id      city  birth_year    name    region up_three_digits
3  103  Hokkaido        1997  Satoru  Hokkaido             199
8  111  Hokkaido        1995  Suguru  Hokkaido             199
Region Name:Kansai
    id   city  birth_year   name  region up_three_digits
1  101  Osaka        1989  Akiko  Kansai             198
2  102  Kyoto        1992   Yuki  Kansai             199
6  108  Osaka        1988    Aoi  Kansai             198
7  110  Kyoto        1990  Tarou  Kansai             199
Region Name:Kanto
    id   city  birth_year     name region up_three_digits
0  100  Tokyo        1990  Hiroshi  Kanto             199
4  104  Tokyo        1982    Steve  Kanto             198
5  106  Tokyo        1991   Mituru  Kanto             199
9  113  Tokyo        1981   Mitsuo  Kanto             198


データに対して、複数の計算をまとめて行いたいときには、`agg`メソッドを使うと便利です。`agg`メソッドの引数には、実行したい関数名のリストを渡します。以下は、カウント、平均、最大、最小を計算する例です。

なお、以下の例では、student-mat.csvを使って計算しています。このデータがあるファイルディレクトリに移動して、データを読み込んで実行してください。

In [None]:
student_data_math = pd.read_csv('student-mat.csv', sep = ';')

In [None]:
# 列に複数の関数を適応
functions = ['count','mean','max','min']
grouped_student_math_data1 = student_data_math.groupby(['sex','address'])
grouped_student_math_data1[['age','G1']].agg(functions)

Unnamed: 0_level_0,Unnamed: 1_level_0,age,age,age,age,G1,G1,G1,G1
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,max,min,count,mean,max,min
sex,address,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
F,R,44,16.977273,19,15,44,10.295455,19,6
F,U,164,16.664634,20,15,164,10.707317,18,4
M,R,44,17.113636,21,15,44,10.659091,18,3
M,U,143,16.517483,22,15,143,11.405594,19,5


#### <練習問題 10>

<練習問題 7>で使用した「student-mat.csv」を使って、pandasの集計処理をしてみましょう。まずは、学校（`school`）を軸にして、`G1`の平均点をそれぞれ求めてみましょう。

In [None]:
# write me!

#### <練習問題 11>

<練習問題 7>で使用した「student-mat.csv」を使って、学校（`school`）と性別（`sex`）を軸にして、`G1`、`G2`、`G3`の平均点をそれぞれ求めてみましょう。

In [None]:
# write me!

#### <練習問題 12>

<練習問題 7>で使用した「student-mat.csv」を使って、学校（`school`）と性別（`sex`）を軸にして、`G1`、`G2`、`G3`の最大値、最小値をまとめて算出してみましょう。

In [None]:
# write me!

## 5 欠損データと異常値の取り扱いの基礎
ゴール：欠損データと異常値に対する基本的な対処方法を知る

データを扱っていると必ずといっていいほど、欠損しているデータや異常値データの存在があります。この節では、基礎の基礎レベルで欠損データや異常データについての判定や扱い方について学ぶことにします。もっと深く学びたい方は、ぜひ参考文献『欠損データの統計科学』（岩波書店刊）などを読んでください。

### 5.1 欠損データの扱い方
まずは、欠損データの取り扱いについてです。データの欠損は、入力忘れ、無回答、システム上の問題などさまざまな要因があります。「ない」データについては、無視をするのがいいのか、除外をするのがいいのか、もっともらしい値を入れるのがいいのか、それが問題です。アプローチによっては、大きなバイアスのある結果を与え、誤った意思決定につながり、大きな損失につながる可能性もあります。慎重に扱っていきましょう。

この節では、次のようなデータをサンプルとして扱います。値を`NaN`（`NA`）にした部分が欠損データであるとして、以下、説明を続けます。

In [None]:
# データの準備
import numpy as np
from numpy import nan as NA
import pandas as pd


df = pd.DataFrame(np.random.rand(10, 4))

# NAにする
df.iloc[1,0] = NA
df.iloc[2:3,2] = NA  # 行2のみが選択されます。スライス[2:3]は終了インデックス3が含まれないため、df.iloc[2, 2]と同じ。
df.iloc[5:,3] = NA

In [None]:
df

Unnamed: 0,0,1,2,3
0,0.261758,0.245354,0.512553,0.964554
1,,0.084479,0.24134,0.44079
2,0.908718,0.36554,,0.492653
3,0.854766,0.433896,0.529693,0.224341
4,0.528069,0.519778,0.902743,0.446101
5,0.015609,0.678696,0.159325,
6,0.956312,0.346852,0.623777,
7,0.041173,0.486839,0.880616,
8,0.995865,0.17478,0.481652,
9,0.63417,0.88201,0.086014,


以下では、この擬似的な欠損データに対して、削除や0や直前の数字、平均値等で穴埋めをしていきます。今回は、これらの単純な方法のみ紹介しますが、他の方法として、最尤推定法で推定したり、回帰代入やSciPyで実施したスプライン補間などもあります。注意が必要なのは、これらの方法がバイアスを生む可能性があることです。ここで紹介する方法がベストであるとはいえません。深く学びたい方はぜひ『欠損データの統計科学』（岩波書店刊）などを読んで、欠損データを埋める方法への理解を深めてください。

#### リストワイズ削除
NaNがある行をすべて取り除くには、`dropna`メソッドを使います。これを**リストワイズ削除**といいます。
以下は、先ほどのデータにおいて、`dropna`メソッドを適用し、すべてのカラムにデータがある行だけを抽出したものです。`NaN`がある行は除外されます。

In [None]:
df.dropna()

Unnamed: 0,0,1,2,3
0,0.261758,0.245354,0.512553,0.964554
3,0.854766,0.433896,0.529693,0.224341
4,0.528069,0.519778,0.902743,0.446101


#### ペアワイズ削除
この結果からわかるように、リストワイズ削除では元々10行あったデータが極端に少なくなって、データが全く使えないという状況が考えられます。このとき、欠損している列のデータを無視して、利用可能なデータのみ（例：列の0番目と1番目のみ存在）を使う方法があります。これを**ペアワイズ削除**といいます。ペアワイズ削除では、使いたい列を取り出してから`dropna`メソッドを適用します。

In [None]:
df[[0,1]].dropna()

Unnamed: 0,0,1
0,0.261758,0.245354
2,0.908718,0.36554
3,0.854766,0.433896
4,0.528069,0.519778
5,0.015609,0.678696
6,0.956312,0.346852
7,0.041173,0.486839
8,0.995865,0.17478
9,0.63417,0.88201


#### fillnaで埋める
他の処理として、`fillna`（値）で、`NaN`になっている箇所をある値で埋める方法もあります。たとえば`NaN`を0として扱うケースです。次のように`fillna(0)`とすると、`NaN`が0に置き変わります。

In [None]:
df.fillna(0)

Unnamed: 0,0,1,2,3
0,0.261758,0.245354,0.512553,0.964554
1,0.0,0.084479,0.24134,0.44079
2,0.908718,0.36554,0.0,0.492653
3,0.854766,0.433896,0.529693,0.224341
4,0.528069,0.519778,0.902743,0.446101
5,0.015609,0.678696,0.159325,0.0
6,0.956312,0.346852,0.623777,0.0
7,0.041173,0.486839,0.880616,0.0
8,0.995865,0.17478,0.481652,0.0
9,0.63417,0.88201,0.086014,0.0


#### 前の値で埋める
`ffill`メソッドを適用すると、直前の行の値で埋めることができます。具体的には、2行1列目（インデックス「1」/カラム「0」の値）は先ほど

`df.iloc[1,0] = NA`

で`NA`にしましたが、直前の1行1列目の値は、0.283969でしたので、この値で埋めることができます。この処理は金融の時系列データの処理などで使うことができ、便利です。

In [None]:
df.fillna(method = 'ffill')

  df.fillna(method = 'ffill')


Unnamed: 0,0,1,2,3
0,0.261758,0.245354,0.512553,0.964554
1,0.261758,0.084479,0.24134,0.44079
2,0.908718,0.36554,0.24134,0.492653
3,0.854766,0.433896,0.529693,0.224341
4,0.528069,0.519778,0.902743,0.446101
5,0.015609,0.678696,0.159325,0.446101
6,0.956312,0.346852,0.623777,0.446101
7,0.041173,0.486839,0.880616,0.446101
8,0.995865,0.17478,0.481652,0.446101
9,0.63417,0.88201,0.086014,0.446101


他に、平均値で穴埋めする方法もあります。これを**平均値代入法**といい、`mean`メソッドを使います。なお、注意点として、時系列データを扱う際、この方法は未来情報を含むことがある（過去に欠損したデータを、未来のデータを使った平均値で埋める）ので、気を付けましょう。


In [None]:
# 各カラムの平均値(確認用)
df.mean()

Unnamed: 0,0
0,0.577382
1,0.421822
2,0.490857
3,0.513688


In [None]:
df.fillna(df.mean())

Unnamed: 0,0,1,2,3
0,0.261758,0.245354,0.512553,0.964554
1,0.577382,0.084479,0.24134,0.44079
2,0.908718,0.36554,0.490857,0.492653
3,0.854766,0.433896,0.529693,0.224341
4,0.528069,0.519778,0.902743,0.446101
5,0.015609,0.678696,0.159325,0.513688
6,0.956312,0.346852,0.623777,0.513688
7,0.041173,0.486839,0.880616,0.513688
8,0.995865,0.17478,0.481652,0.513688
9,0.63417,0.88201,0.086014,0.513688


他にも色々とオプションがあるので、`?df.fillna`等で調べてみてください。

欠損データについて、ここではサンプルデータにおいて、一定の値を機械的に置換しました。ただし、これらの方法はいつも使えるというわけではありません。データの状況、背景等を考え、適切に対処することが重要です。

#### <練習問題 13>

以下のデータに対して、1列でも`NaN`がある場合は削除し、その結果を表示してください。

In [None]:
# データの準備
import numpy as np
from numpy import nan as NA
import pandas as pd


df2 = pd.DataFrame(np.random.rand(15,6))

# NAにする
df2.iloc[2,0] = NA
df2.iloc[5:8,2] = NA
df2.iloc[7:9,3] = NA
df2.iloc[10,5] = NA


df2

Unnamed: 0,0,1,2,3,4,5
0,0.576782,0.422309,0.23799,0.651758,0.394587,0.97479
1,0.33758,0.894398,0.391065,0.358698,0.761282,0.024702
2,,0.612111,0.101411,0.541369,0.65573,0.731975
3,0.160058,0.463002,0.45174,0.954327,0.962967,0.562179
4,0.738068,0.430149,0.586537,0.239399,0.595831,0.277249
5,0.273631,0.816075,,0.774886,0.782287,0.337039
6,0.299585,0.522067,,0.373443,0.513539,0.522682
7,0.958978,0.205816,,,0.240563,0.594634
8,0.260211,0.653315,0.203315,,0.152016,0.831759
9,0.515829,0.781782,0.232566,0.907104,0.312089,0.370731


In [None]:
# write me!

#### <練習問題 14>

<練習問題 13>で準備したデータに対して、`NaN`を0で埋めてください。

In [None]:
# write me!

#### <練習問題 15>

<練習問題 13>で準備したデータに対して、`NaN`をそれぞれの列の平均値で埋めてください。

In [None]:
# write me!

### 5.2 異常データの扱い方
キーワード：異常値、箱ひげ図、パーセンタイル、VaR（Value At Risk）

次は、異常値（外れ値）についてです。異常値データの扱いは、そのままにして何もしないのか、異常値を除去するか、もっともらしい値に置き換えて使うかが問題になります。
そもそも異常値とは一体何でしょうか。実は、統一的な見解というものはなく、そのデータを扱うアナリストや意思決定者が判断することもあります。ビジネスの現場では、不正アクセスのパターン（セキュリティ分野）や機械の故障、金融リスク管理（VaR）など、さまざまな分野で使われており、それぞれ色々な方法でアプローチされています。

異常値検出のアプローチには、単純に箱ひげ図などを書いて、あるパーセンタイル以上のデータを異常値としてみなす方法、正規分布を利用する方法、データの空間的な近さに基づく方法などがあります。他には以降の回で学ぶ機械学習（教師なし学習も含む）を用いた方法もあります。

ここでは特に練習問題はありませんが、興味のある方はぜひ『データ分析プロセス(シリーズ Useful R 2)』の第3章（共立出版 刊、ISBN:978-4320123656）、
『入門 機械学習による異常検知―Rによる実践ガイド』（コロナ社 刊、ISBN:978-4339024913）、『異常検知と変化検知』（講談社刊、ISBN:978-4061529083）などで学んでください。

また、異常値の分野に関連して、極端な値を研究する極値統計学という分野もあります。データの中で大きな値をとる極値データの挙動について、さまざまな研究がなされており、稀ではありますがそれが起きれば非常に大きな影響を及ぼす現象（自然現象、災害など）を研究します。気象学だけではなく、ファイナンスや情報通信の分野でも応用されているので、興味のある方は『極値統計学 (ISMシリーズ:進化する統計数理)』（近代科学社 刊、ISBN:978-4764905153）などを参照してみてください。

以上で、欠損値と異常値の扱いについてはこれで終わりになります。データ分析において、データの前処理が8割だとよく言われ、欠損データや異常値データには、たびたび遭遇します。また、世の中には実にさまざまな形式のデータが存在し、それらを整えるだけでも大変な作業です。ここで紹介したテクニックも重要ですが、それらに対してどのように対処していくのか戦略を立てることも重要です。参考文献『バッドデータハンドブック』（オライリージャパン刊、ISBN:978-4873116402）にも、ぜひ目を通してみてください。

***

## 6 総合問題

### ■総合問題 1 データ操作

数学の成績を示すデータである「student-mat.csv」を使って、以下の問いに答えてください。

(1) 上記のデータに対して、年齢（`age`）×性別（`sex`）で`G1`の平均点を算出し、縦軸が年齢（`age`）、横軸が性別（`sex`）となるような表（テーブル）を作成しましょう。

(2) (1)で表示した結果テーブルについて、NaNになっている行（レコード）をすべて削除した結果を表示しましょう。

In [None]:
# (1) write me!

In [None]:
# (2) write me!

**謝辞**：以下2つのデータセットの利用に関して
1. https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student.zip
2. https://archive.ics.uci.edu/ml/machine-learning-databases/00381/PRSA_data_2010.1.1-2014.12.31.csv

引用元：Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [[http://archive.ics.uci.edu/ml](http://archive.ics.uci.edu/ml)]. Irvine, CA: University of California, School of Information and Computer Science.

- 1のデータセットの引用について追記：  
P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp.5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7.
[http://www3.dsi.uminho.pt/pcortez/student.pdf](http://www3.dsi.uminho.pt/pcortez/student.pdf)
- 2のデータセットの引用について追記：  
Liang, X., Zou, T., Guo, B., Li, S., Zhang, H., Zhang, S., Huang, H. and Chen, S. X. (2015). Assessing Beijing's PM2.5 pollution: severity, weather impact, APEC and winter heating. Proceedings of the Royal Society A, 471, 20150257.