# pandas - part5 - DataFrameのソート

* `DataFrame` の`sort_values` メソッドでデータの並び順を変更できる
* `sort_values` メソッドの`ascending` 引数に`False` を指定すると並びを降順にできる

In [123]:
!wget https://gist.githubusercontent.com/murayama333/a7b0df7374f64b87cc62e41e4cf1176f/raw/8a0e03a6941f7b3503ae26ff2efad437020fa9ba/books.csv

--2021-01-04 04:09:08--  https://gist.githubusercontent.com/murayama333/a7b0df7374f64b87cc62e41e4cf1176f/raw/8a0e03a6941f7b3503ae26ff2efad437020fa9ba/books.csv
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 133 [text/plain]
Saving to: ‘books.csv.2’


2021-01-04 04:09:08 (5.91 MB/s) - ‘books.csv.2’ saved [133/133]



In [124]:
import pandas as pd
books = pd.read_csv("books.csv", index_col=0)
books

Unnamed: 0_level_0,title,price,category_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Python Book,3000,1
2,HTML Book,1000,1
3,PHP Book,2000,1
4,Hello English,1000,2
5,Guitar Magazine,1000,4


In [125]:
books.sort_values("price")

Unnamed: 0_level_0,title,price,category_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,HTML Book,1000,1
4,Hello English,1000,2
5,Guitar Magazine,1000,4
3,PHP Book,2000,1
1,Python Book,3000,1


* `books.sort_values("price")` によって`price`の小さなものから順（昇順）に出力できる

In [126]:
books.sort_values("price", ascending=False)

Unnamed: 0_level_0,title,price,category_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Python Book,3000,1
3,PHP Book,2000,1
2,HTML Book,1000,1
4,Hello English,1000,2
5,Guitar Magazine,1000,4


* `books.sort_values("price", ascending=False)` によって `price` の大きなものから順（降順）に出力できる

In [127]:
books.sort_values(["price", "category_id"], ascending=[False, False])

Unnamed: 0_level_0,title,price,category_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Python Book,3000,1
3,PHP Book,2000,1
5,Guitar Magazine,1000,4
4,Hello English,1000,2
2,HTML Book,1000,1


* 引数をリストにすることで複数項目でソートできる
> ここでは `books.sort_values(["price", "category_id"], ascending=[False, False])` によって `price` の大きなものでまずソートし、それから`category_id`の大きなものから順に出力しています。

# pandas - part6 - DataFrameのグループ化

* `DataFrame` の `groupby` メソッドでデータをグループ化できる
* `groupby` メソッドでグループ化すると`count`関数や `sum` 関数などでデータを要約できる


In [128]:
import pandas as pd
books = pd.read_csv("books.csv", index_col=0)
books

Unnamed: 0_level_0,title,price,category_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Python Book,3000,1
2,HTML Book,1000,1
3,PHP Book,2000,1
4,Hello English,1000,2
5,Guitar Magazine,1000,4


In [129]:
books.groupby(["category_id"]).count()

Unnamed: 0_level_0,title,price
category_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3,3
2,1,1
4,1,1


* `books.groupby(["category_id"])` によって `category_id` でグループ化している
* `count`メソッドはグループごとの件数を返す

In [130]:
books.groupby(["price"]).count()

Unnamed: 0_level_0,title,category_id
price,Unnamed: 1_level_1,Unnamed: 2_level_1
1000,3,3
2000,1,1
3000,1,1


* `books.groupby(["price"])` によって `price` でグループ化している

In [131]:
books.groupby("category_id").sum()

Unnamed: 0_level_0,price
category_id,Unnamed: 1_level_1
1,6000
2,1000
4,1000


* `books.groupby(["category_id"])` によって `category_id` でグループ化している
* `count`メソッドはグループごとの件数を返す

In [132]:
books.groupby("category_id").describe()

Unnamed: 0_level_0,price,price,price,price,price,price,price,price
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
category_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,3.0,2000.0,1000.0,1000.0,1500.0,2000.0,2500.0,3000.0
2,1.0,1000.0,,1000.0,1000.0,1000.0,1000.0,1000.0
4,1.0,1000.0,,1000.0,1000.0,1000.0,1000.0,1000.0


* `describe` メソッドでグループ化した結果の要約を出力できる

## Pivotテーブル

In [133]:
books.pivot(index=["category_id"], columns=["title"], values=["price"])

Unnamed: 0_level_0,price,price,price,price,price
title,Guitar Magazine,HTML Book,Hello English,PHP Book,Python Book
category_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,,1000.0,,2000.0,3000.0
2,,,1000.0,,
4,1000.0,,,,


In [134]:
books.pivot(index=["category_id", "title"], columns=[], values=["price"])

Unnamed: 0_level_0,Unnamed: 1_level_0,price
category_id,title,Unnamed: 2_level_1
1,Python Book,3000
1,HTML Book,1000
1,PHP Book,2000
2,Hello English,1000
4,Guitar Magazine,1000


* `DataFrame` のpivotメソッドでpivotテーブルを作成できる
* `pivot`メソッドにはをもとにインデックス（引数の `index`）、カラム（引数の `columns`）、表示するデータ（引数の `values`）を指定する

# pandas - part7 - DataFrameの結合

* `DataFrame` の `join` メソッドによって複数の `DataFrame` を結合できる
* `DataFrame` の結合には内部結合と外部結合がある
* `join` メソッドはデフォルトで2つのDataFrameのインデックスを使って結合する


In [135]:
import pandas as pd
books = pd.read_csv("books.csv", index_col=0)
books

Unnamed: 0_level_0,title,price,category_id
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Python Book,3000,1
2,HTML Book,1000,1
3,PHP Book,2000,1
4,Hello English,1000,2
5,Guitar Magazine,1000,4


In [136]:
!wget https://gist.githubusercontent.com/murayama333/0b3977addd3988609b8c805ff6185d2b/raw/970fb6b7e8c9cec1b55d0f4b5a460b0db1817d5e/categories.csv

--2021-01-04 04:09:09--  https://gist.githubusercontent.com/murayama333/0b3977addd3988609b8c805ff6185d2b/raw/970fb6b7e8c9cec1b55d0f4b5a460b0db1817d5e/categories.csv
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 42 [text/plain]
Saving to: ‘categories.csv.3’


2021-01-04 04:09:09 (2.09 MB/s) - ‘categories.csv.3’ saved [42/42]



In [137]:
categories = pd.read_csv("categories.csv", index_col=0)
categories

Unnamed: 0_level_0,name
id,Unnamed: 1_level_1
1,Programming
2,English
3,History


> ここではbooksデータと結合するcategoriesデータを取得しています。

In [138]:
books.join(categories)

Unnamed: 0_level_0,title,price,category_id,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Python Book,3000,1,Programming
2,HTML Book,1000,1,English
3,PHP Book,2000,1,History
4,Hello English,1000,2,
5,Guitar Magazine,1000,4,


* `DataFrame` の `join` メソッドで2つの `DataFrame` を結合できる
* `join` メソッドはデフォルトでインデックスをもとに結合する
> ここでは、`books` のインデックス（`id`）と `categories` のインデックス（`id`）で結合していますが、好ましい結果ではありません。`books` の `category_id` と `categories`のインデックス（`id`）で結合できるようにします。


In [139]:
books.join(categories, on="category_id")

Unnamed: 0_level_0,title,price,category_id,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Python Book,3000,1,Programming
2,HTML Book,1000,1,Programming
3,PHP Book,2000,1,Programming
4,Hello English,1000,2,English
5,Guitar Magazine,1000,4,


* `join` メソッドは `on` 引数で結合する列（この場合、`categories`の`category_id`）を指定できる

In [140]:
books.join(categories, on="category_id", how="inner")

Unnamed: 0_level_0,title,price,category_id,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Python Book,3000,1,Programming
2,HTML Book,1000,1,Programming
3,PHP Book,2000,1,Programming
4,Hello English,1000,2,English


* `join` メソッドの`how`引数で結合方法を指定できる
* `how="inner"` とすることで内部結合としている

In [141]:
books.join(categories, on="category_id", how="left")

Unnamed: 0_level_0,title,price,category_id,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Python Book,3000,1,Programming
2,HTML Book,1000,1,Programming
3,PHP Book,2000,1,Programming
4,Hello English,1000,2,English
5,Guitar Magazine,1000,4,


* `how="left"` とすることで左外部結合としている

In [142]:
books.join(categories, on="category_id", how="right")

Unnamed: 0,title,price,category_id,name
1.0,Python Book,3000.0,1,Programming
2.0,HTML Book,1000.0,1,Programming
3.0,PHP Book,2000.0,1,Programming
4.0,Hello English,1000.0,2,English
,,,3,History


* `how="right"` とすることで右外部結合としている

In [143]:
books.join(categories, on="category_id", how="outer")

Unnamed: 0,title,price,category_id,name
1.0,Python Book,3000.0,1,Programming
2.0,HTML Book,1000.0,1,Programming
3.0,PHP Book,2000.0,1,Programming
4.0,Hello English,1000.0,2,English
5.0,Guitar Magazine,1000.0,4,
,,,3,History


* `how="outer"` とすることで外部結合としている

In [144]:
books_categories = books.join(categories, on="category_id", how="inner")
books_categories

Unnamed: 0_level_0,title,price,category_id,name
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Python Book,3000,1,Programming
2,HTML Book,1000,1,Programming
3,PHP Book,2000,1,Programming
4,Hello English,1000,2,English


In [145]:
books_categories[["name", "price"]].groupby("name").sum().sort_values("price", ascending=False)

Unnamed: 0_level_0,price
name,Unnamed: 1_level_1
Programming,6000
English,1000


* 結合した`DataFrame`に対してもこれまで通り操作できる

# pandas - part8 - 欠損値の補完

* `pandas` ではデータに欠損値がある場合にデータを補完できるようになっている
* `DataFrame` の `dropna` メソッドは欠損値を含むデータを行単位で削除する
*  DataFrame` の `fillna` メソッドは欠損値を補完する

In [146]:
!wget https://gist.githubusercontent.com/murayama333/46e519a144d1d7a32275128f006c49c9/raw/8ec2cf4ef7cdc7e1308dd6494ad12cf91907899e/scores_miss.csv

--2021-01-04 04:09:09--  https://gist.githubusercontent.com/murayama333/46e519a144d1d7a32275128f006c49c9/raw/8ec2cf4ef7cdc7e1308dd6494ad12cf91907899e/scores_miss.csv
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 149 [text/plain]
Saving to: ‘scores_miss.csv.2’


2021-01-04 04:09:09 (8.12 MB/s) - ‘scores_miss.csv.2’ saved [149/149]



In [147]:
!cat scores_miss.csv

id,math,english,science,area
1,93,72,95,A
2,62,80,68,B
3,,50,,C
4,64,56,52,C
5,82,,99,A
6,73,78,68,B
7,82,82,,B
8,90,80,,A
9,94,88,98,
10,24,70,38,C


In [148]:
import pandas as pd
scores_miss = pd.read_csv("scores_miss.csv", index_col=0)
scores_miss

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,,50.0,,C
4,64.0,56.0,52.0,C
5,82.0,,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,,B
8,90.0,80.0,,A
9,94.0,88.0,98.0,
10,24.0,70.0,38.0,C


> ここではいくつかのデータがNaNとなっている点を確認してください。NaNはNot a Number（非数）を意味します。

In [156]:
import numpy as np

np.nan

nan

> NaN定数はNumpyオブジェクトの `np.nan` で実装されています。

In [149]:
scores_miss.dropna()

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
4,64.0,56.0,52.0,C
6,73.0,78.0,68.0,B
10,24.0,70.0,38.0,C


* `DataFrame` の `dropna` メソッドは欠損値を含む行データを削除する

In [150]:
scores_miss.fillna(0)

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,0.0,50.0,0.0,C
4,64.0,56.0,52.0,C
5,82.0,0.0,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,0.0,B
8,90.0,80.0,0.0,A
9,94.0,88.0,98.0,0
10,24.0,70.0,38.0,C


* `DataFrame` の `fillna` メソッドは引数に指定したデータを欠損値に代入する


In [151]:
scores_miss.fillna(method="ffill")

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,62.0,50.0,68.0,C
4,64.0,56.0,52.0,C
5,82.0,56.0,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,68.0,B
8,90.0,80.0,68.0,A
9,94.0,88.0,98.0,A
10,24.0,70.0,38.0,C


* `DataFrame` の `fillna` メソッドの引数に`method="ffill"`を指定すると一つ前のデータで欠損値を補完できる


In [160]:
scores_miss.mean().round()

math       74.0
english    73.0
science    74.0
dtype: float64

In [162]:
scores_miss.fillna(scores_miss.mean().round())

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,74.0,50.0,74.0,C
4,64.0,56.0,52.0,C
5,82.0,73.0,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,74.0,B
8,90.0,80.0,74.0,A
9,94.0,88.0,98.0,
10,24.0,70.0,38.0,C


* `DataFrame`のmeanメソッドによって平均値を求めて、欠損値に代入することもできる

> この場合、平均値を算出できないarea`列は補完されていない点に注意してください。


In [154]:
scores_miss2 = scores_miss.copy()
scores_miss2

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,,50.0,,C
4,64.0,56.0,52.0,C
5,82.0,,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,,B
8,90.0,80.0,,A
9,94.0,88.0,98.0,
10,24.0,70.0,38.0,C


* `DataFrame` の `copy` メソッドで `DataFrame` をコピーできる

In [163]:
scores_miss2["math"] = scores_miss["math"].fillna(50)
scores_miss2["english"] = scores_miss["english"].fillna(50)
scores_miss2["science"] = scores_miss["science"].fillna(50)
scores_miss2["area"] = scores_miss["area"].fillna("D")
scores_miss2

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,50.0,50.0,50.0,C
4,64.0,56.0,52.0,C
5,82.0,50.0,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,50.0,B
8,90.0,80.0,50.0,A
9,94.0,88.0,98.0,D
10,24.0,70.0,38.0,C


In [164]:
scores_miss3 = scores_miss.copy()
scores_miss3

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,,50.0,,C
4,64.0,56.0,52.0,C
5,82.0,,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,,B
8,90.0,80.0,,A
9,94.0,88.0,98.0,
10,24.0,70.0,38.0,C


In [167]:
scores_miss3.loc[scores_miss3.index == 3, "math"] = 50
scores_miss3.loc[scores_miss3.index == 3, "science"] = 50
scores_miss3.loc[scores_miss3.index == 5, "english"] = 50
scores_miss3.loc[scores_miss3.index == 7, "science"] = 50
scores_miss3.loc[scores_miss3.index == 8, "science"] = 50
scores_miss3.loc[scores_miss3.index == 9, "area"] = "D"
scores_miss3

Unnamed: 0_level_0,math,english,science,area
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,93.0,72.0,95.0,A
2,62.0,80.0,68.0,B
3,50.0,50.0,50.0,C
4,64.0,56.0,52.0,C
5,82.0,50.0,99.0,A
6,73.0,78.0,68.0,B
7,82.0,82.0,50.0,B
8,90.0,80.0,50.0,A
9,94.0,88.0,98.0,D
10,24.0,70.0,38.0,C


* `loc`プロパティなどを使って個別のデータを補完しても良い