#  Pandasの応用

- **[2.1 DataFrameの連結・結合の概観](#2.1-DataFrameの連結・結合の概観)**
    - **[2.1.1 連結・結合について](#2.1.1-連結・結合について)**
<br><br>
- **[2.2 DataFrameの連結](#2.2-DataFrameの連結)**
    - **[2.2.1 インデックス、カラムが一致しているDataFrame同士の連結](#2.2.1-インデックス、カラムが一致しているDataFrame同士の連結)**
    - **[2.2.2 インデックス、カラムが一致していないDataFrame同士の連結](#2.2.2-インデックス、カラムが一致していないDataFrame同士の連結)**
<br><br>
- **[2.3 DataFrameの結合](#2.3-DataFrameの結合)**
    - **[2.3.1 結合の種類](#2.3.1-結合の種類)**
    - **[2.3.2 内部結合の基本](#2.3.2-内部結合の基本)**
    - **[2.3.3 外部結合の基本](#2.3.3-外部結合の基本)**
    - **[2.3.4 同名でない列をKeyにして結合する](#2.3.4-同名でない列をKeyにして結合する)**
    - **[2.3.5 インデックスをKeyにして結合する](#2.3.5-インデックスをKeyにして結合する)**
<br><br>
- **[2.4 DataFrameを用いたデータ分析](#2.4-DataFrameを用いたデータ分析)**
    - **[2.4.1 一部の行を得る](#2.4.1-一部の行を得る)**
    - **[2.4.2 計算処理を適用する](#2.4.2-計算処理を適用する)**
    - **[2.4.3 要約統計量を得る](#2.4.3-要約統計量を得る)**
    - **[2.4.4 DataFrameの行間または列間の差を求める](#2.4.4-DataFrameの行間または列間の差を求める)**
    - **[2.4.5 グループ化](#2.4.5-グループ化)**
<br><br>
- **[2.5 添削問題](#2.5-添削問題)**

***

## 2.1 DataFrameの連結・結合の概観

### 2.1.1 連結・結合について

PandasではDataFrameに対して **<font color=#AA0000>連結</font>** 、 **<font color=#AA0000>結合</font>** という操作ができます。DataFrame同士を一定の方向についてそのままつなげる操作を **連結** 、特定の **Key** を参照してつなげる操作を **結合** と言います。
<br><br>
 **横方向に連結した場合** 
 
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/concat.png" style="width:800px;">

 **"fruits"をKeyにして結合した場合** 

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/merge.png" style="width:800px;">

#### 問題

- 以下の操作は連結、結合どちらの操作でしょうか。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/concat_merge_q.png" style="width:800px;">


- 連結
- 結合

#### ヒント

- そのままつなげているか、何かのラベルを基準（Key）にしてつなげているかを判断しましょう。

#### 解答例

- 連結

***

## 2.2 DataFrameの連結

### 2.2.1 インデックス、カラムが一致しているDataFrame同士の連結

DataFrame同士を一定の方向についてそのままつなげる操作を **連結** と呼びます。まずはインデックス、またはカラムが一致しているDataFrame同士の連結について扱います。`pandas.concat("DataFrameのリスト", axis=0)`とすることでリストの先頭から順に縦方向に連結します。`axis=1`を指定することで横方向に連結されます。 **縦方向に連結するときは同じカラムについて連結** され、**横方向に連結するときは同じインデックスについて連結** されます。連結方向のカラムはそのまま連結してしまうので、カラムに重複が出てしまう場合があることに注意しましょう。

#### 問題

- DataFrame型の変数`df_data1`と`df_data2`を縦方向に連結し`df1`に代入してください。
- DataFrame型の変数`df_data1`と`df_data2`を横方向に連結し`df2`に代入してください。

In [None]:
import numpy as np
import pandas as pd

# 指定のインデックスとカラムを持つDataFrameを乱数によって作成する関数
def make_random_df(index, columns, seed):
    np.random.seed(seed)
    df = pd.DataFrame()
    for column in columns:
        df[column] = np.random.choice(range(1, 101), len(index))
    df.index = index
    return df

#インデックス、カラムが一致しているDataFrameの作成
columns = ["apple", "orange", "banana"]
df_data1 = make_random_df(range(1, 5), columns, 0)
df_data2 = make_random_df(range(1, 5), columns, 1)

# df_data1とdf_data2を縦方向に連結しdf1に代入してください


# df_data1とdf_data2を横方向に連結しdf2に代入してください


print(df1)
print(df2)

#### ヒント

- `pandas.concat("DataFrameのリスト", axis=0)`とすることでリストの先頭から順に縦方向に連結します。
- `axis=1`を指定することで横方向に連結されます。

#### 解答例

In [None]:
import numpy as np
import pandas as pd

# 指定のインデックスとカラムを持つDataFrameを乱数によって作成する関数
def make_random_df(index, columns, seed):
    np.random.seed(seed)
    df = pd.DataFrame()
    for column in columns:
        df[column] = np.random.choice(range(1, 101), len(index))
    df.index = index
    return df

#インデックス、カラムが一致しているDataFrameの作成
columns = ["apple", "orange", "banana"]
df_data1 = make_random_df(range(1, 5), columns, 0)
df_data2 = make_random_df(range(1, 5), columns, 1)

# df_data1とdf_data2を縦方向に連結しdf1に代入してください
df1 = pd.concat([df_data1, df_data2], axis=0)

# df_data1とdf_data2を横方向に連結しdf2に代入してください
df2 = pd.concat([df_data1, df_data2], axis=1)

print(df1)
print(df2)

***

### 2.2.2 インデックス、カラムが一致していないDataFrame同士の連結

インデックスやカラムが一致していないDataFrame同士を連結する場合、 **共通のインデックスやカラムでない行や列に** `NaN` **を持つセルが作成** されます。`pandas.concat("DataFrameのリスト", axis=0)`とすることでリストの先頭から順に縦方向に連結します。`axis=1`を指定することで横方向に連結されます。

#### 問題

- インデックスやカラムが一致していないDataFrame同士を連結したときの挙動を確認してください。
- DataFrame型の変数`df_data1`と`df_data2`を縦方向に連結し`df1`に代入してください。
- DataFrame型の変数`df_data1`と`df_data2`を横方向に連結し`df2`に代入してください。

In [None]:
import numpy as np
import pandas as pd

# 指定のインデックスとカラムを持つDataFrameを乱数によって作成する関数
def make_random_df(index, columns, seed):
    np.random.seed(seed)
    df = pd.DataFrame()
    for column in columns:
        df[column] = np.random.choice(range(1, 101), len(index))
    df.index = index
    return df

columns1 = ["apple", "orange", "banana"]
columns2 = ["orange", "kiwifruit", "banana"]
# インデックスが1,2,3,4, カラムがcolumns1のDataFrameを作成
df_data1 = make_random_df(range(1, 5), columns1, 0)
# インデックスが1,3,5,7, カラムがcolumns2のDataFrameを作成
df_data2 = make_random_df(np.arange(1, 8, 2), columns2, 1)

# df_data1とdf_data2を縦方向に連結しdf1に代入してください


# df_data1とdf_data2を横方向に連結しdf2に代入してください


print(df1)
print(df2)

#### ヒント

- `pandas.concat("DataFrameのリスト", axis=0)`とすることでリストの先頭から順に縦方向に連結します。
- `axis=1`を指定することで横方向に連結されます。


#### 解答例

In [None]:
import numpy as np
import pandas as pd

# 指定のインデックスとカラムを持つDataFrameを乱数によって作成する関数
def make_random_df(index, columns, seed):
    np.random.seed(seed)
    df = pd.DataFrame()
    for column in columns:
        df[column] = np.random.choice(range(1, 101), len(index))
    df.index = index
    return df

columns1 = ["apple", "orange", "banana"]
columns2 = ["orange", "kiwifruit", "banana"]
# インデックスが1,2,3,4, カラムがcolumns1のDataFrameを作成
df_data1 = make_random_df(range(1, 5), columns1, 0)
# インデックスが1,3,5,7, カラムがcolumns2のDataFrameを作成
df_data2 = make_random_df(np.arange(1, 8, 2), columns2, 1)

# df_data1とdf_data2を縦方向に連結しdf1に代入してください
df1 = pd.concat([df_data1, df_data2], axis=0)

# df_data1とdf_data2を横方向に連結しdf2に代入してください
df2 = pd.concat([df_data1, df_data2], axis=1)

print(df1)
print(df2)

***

### 2.2.3 連結する際のラベルの指定

連結ではそのままDataFrame同士をつなげてしまうので、ラベルに重複が生じてしまう場合があります。例えば以下の例1の連結では、`"apple", "orange", "banana"`がラベルとして重複していることが確認できます。この場合、pd.concat( )にkeysで指定したラベルを追加することでラベルの重複を避けることができます。連結後のDataFrameでは複数のラベルが使用されている **MultiIndex** となります。例2の場合、新たに`"X"`と`"Y"`のカラムが既存のカラムの上位に追加されていることが確認できます。この場合、`df["X"]`で`"X"`のラベルがついているカラムを参照でき、`df["X", "apple"]`とすることで`"X"`カラムの中の`"apple"`カラムを参照できます。

<br>
 **例1.concat_df=pd.concat([df_data1,df_data2],axis=1)** 
 
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/concat.png" style="width:800px;">

<br>
 **例2.concat_df=pd.concat([df_data1,df_data2],axis=1,keys=["X", "Y"])** 
 
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/concat_key.png" style="width:800px;">


#### 問題

- DataFrame型の変数`df_data1`と`df_data2`を横方向に連結し、かつkeysに`"X", "Y"`を指定してMultiIndexにして`df`に代入してください。
- `df`の`"Y"`ラベルの`"banana"`を`Y_banana`に代入してください。

In [None]:
import numpy as np
import pandas as pd

# 指定のインデックスとカラムを持つDataFrameを乱数によって作成する関数
def make_random_df(index, columns, seed):
    np.random.seed(seed)
    df = pd.DataFrame()
    for column in columns:
        df[column] = np.random.choice(range(1, 101), len(index))
    df.index = index
    return df

columns = ["apple", "orange", "banana"]
df_data1 = make_random_df(range(1, 5), columns, 0)
df_data2 = make_random_df(range(1, 5), columns, 1)

# df_data1とdf_data2を横方向に連結し、Keysに"X", "Y"を指定してMultiIndexにしてdfに代入してください


#  dfの"Y"ラベルの"banana"をY_bananaに代入してください。


print(df)
print()
print(Y_banana)

#### ヒント

- `pandas.concat()`で`keys`を使って新しいラベルのリストを指定しましょう。

#### 解答例

In [None]:
import numpy as np
import pandas as pd

# 指定のインデックスとカラムを持つDataFrameを乱数によって作成する関数
def make_random_df(index, columns, seed):
    np.random.seed(seed)
    df = pd.DataFrame()
    for column in columns:
        df[column] = np.random.choice(range(1, 101), len(index))
    df.index = index
    return df

columns = ["apple", "orange", "banana"]
df_data1 = make_random_df(range(1, 5), columns, 0)
df_data2 = make_random_df(range(1, 5), columns, 1)

# df_data1とdf_data2を横方向に連結し、keysに"X", "Y"を指定してMultiIndexにしてdfに代入してください
df = pd.concat([df_data1, df_data2], axis=1, keys=["X", "Y"])

#  dfの"Y"ラベルの"banana"をY_bananaに代入してください。
Y_banana = df["Y", "banana"]

print(df)
print()
print(Y_banana)

***

## 2.3 DataFrameの結合

### 2.3.1 結合の種類

連結の次は **結合** について扱います。結合のことを **マージ** とも呼びます。結合は、 **Key** と呼ばれる列を指定し、2つのデータベースの **Key** 内の値が一致する行を横につなげる操作です。結合には大きく分けて **<font color=#AA0000>内部結合</font>** と **<font color=#AA0000>外部結合</font>** の2つの方法があります。例を見ながら確認して行きましょう。
以下の2つのDataFrameを`"fruits"`のカラムで結合することを考えます。
<br><br>
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/merge_example.png" style="width:400px;">

 **内部結合** 

Key列に共通の値がない行は破棄されます。また、他に同じカラムを持っており、それらの値が一致していない行を残す、もしくは破棄するなどの指定ができます。2つのDataFrameの`"fruits"`カラムデータのうち、共通のものしか残って無いことが確認できます。
<br><br>
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/inner_merge.png" style="width:400px;">

 **外部結合** 

Key列に共通の値がない行も残ります。共通でない列については`NaN`で埋められたセルが作成されます。`"kiwifruit","mango"`の行方向のデータに`NaN`が挿入されていることが確認できます。
<br><br>
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/outer_merge.png" style="width:400px;">


#### 問題

外部結合がふさわしいのは以下のうちどの場合でしょう。

- 同時期に異なる2地点で観測された時系列データを、時刻をKeyにして結合する
- 注文履歴と顧客IDを、顧客IDをKeyにして結合する
- 注文履歴と顧客IDを、注文履歴をKeyにして結合する
- 上記のすべて

#### ヒント

- 外部結合は、結合の結果なるべく多くの要素を含んだ方がよい場合に行うのが望ましいです。

#### 解答

同時期に異なる2地点で観測された時系列データを、時刻をKeyにして結合する

***

### 2.3.2 内部結合の基本

`df1`, `df2`の二つのDataFrameに対して、`pandas.merge(df1, df2, on=Keyとなるカラム, how="inner")`とすることで内部結合されたDataFrameが作成されます。この場合、`df1`が左側に寄せられます。Key列で値が一致しない行は破棄されます。Key列以外の値の一致しない共通の列は残され、左側のDataFrameに属していたカラムには`_x`、右側に属していたカラムには`_y`が接尾詞としてつけられます。特に指定をしない限りDataFrameのインデックスは処理に関与しません。

#### 問題

- 内部結合の挙動を確認してください。
- DataFrame型の変数`df1`と`df2`をカラム`"fruits"`をKeyに内部結合して作成したDataFrameを`df3`に代入してください。

In [None]:
import numpy as np
import pandas as pd

data1 = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "amount": [1, 4, 5, 6, 3]}
df1 = pd.DataFrame(data1)

data2 = {"fruits": ["apple", "orange", "banana", "strawberry", "mango"],
        "year": [2001, 2002, 2001, 2008, 2007],
        "price": [150, 120, 100, 250, 3000]}
df2 = pd.DataFrame(data2)

# df1, df2の中身を確認してください
print(df1)
print()
print(df2)
print()

# df1とdf2を"fruits"をKeyに内部結合して作成したDataFrameをdf3に代入してください


# 出力
# 内部結合を行った時の挙動を確認しましょう
print(df3)

#### ヒント

- `df1`, `df2`の二つのDataFrameに対して、`pandas.merge(df1, df2, on=Keyとなるカラム, how="inner")`とすることで内部結合されたDataFrameが作成されます。
- 両方のDataFrameのカラムに"year"が含まれていますが、接尾辞が自動でつけられて区別されます。

#### 解答例

In [None]:
import numpy as np
import pandas as pd

data1 = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "amount": [1, 4, 5, 6, 3]}
df1 = pd.DataFrame(data1)

data2 = {"fruits": ["apple", "orange", "banana", "strawberry", "mango"],
        "year": [2001, 2002, 2001, 2008, 2007],
        "price": [150, 120, 100, 250, 3000]}
df2 = pd.DataFrame(data2)

# df1, df2の中身を確認してください
print(df1)
print()
print(df2)
print()

# df1とdf2を"fruits"をKeyに内部結合して作成したDataFrameをdf3に代入してください
df3 = pd.merge(df1, df2, on="fruits", how="inner")

# 出力
# 内部結合を行った時の挙動を確認しましょう
print(df3)

***

### 2.3.3 外部結合の基本

`df1`, `df2`の二つのDataFrameに対して、`pandas.merge(df1, df2, on=Keyとなるカラム, how="outer")`とすることで外部結合されたDataFrameが作成されます。この場合、`df1`が左側に寄せられます。Key列で値の一致しない行は残され、`NaN`で埋められた列が作成されます。Key列以外の値の一致しない共通の列は残され、左側のDataFrameに属していたカラムには`_x`、右側に属していたカラムには`_y`が接尾詞としてつけられます。特に指定をしない限りDataFrameのインデックスは処理に関与しません。

#### 問題

- 外部結合の挙動を確認してください。
- DataFrame型の変数`df1`と`df2`をカラム`"fruits"`をKeyに外部結合して作成したDataFrameを`df3`に代入してください。

In [None]:
import numpy as np
import pandas as pd

data1 = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "amount": [1, 4, 5, 6, 3]}
df1 = pd.DataFrame(data1)

data2 = {"fruits": ["apple", "orange", "banana", "strawberry", "mango"],
        "year": [2001, 2002, 2001, 2008, 2007],
        "price": [150, 120, 100, 250, 3000]}
df2 = pd.DataFrame(data2)

# df1, df2の中身を確認してください
print(df1)
print()
print(df2)
print()

# df1とdf2を"fruits"をKeyに外部結合して作成したDataFrameをdf3に代入してください

# 出力
# 外部結合を行った時の挙動を確認しましょう
print(df3)

#### ヒント

- `df1`, `df2`の二つのDataFrameに対して、`pandas.merge(df1, df2, on=Keyとなるカラム, how="outer")`とすることで外部結合されたDataFrameが作成されます。

#### 解答例

In [None]:
import numpy as np
import pandas as pd

data1 = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "amount": [1, 4, 5, 6, 3]}
df1 = pd.DataFrame(data1)

data2 = {"fruits": ["apple", "orange", "banana", "strawberry", "mango"],
        "year": [2001, 2002, 2001, 2008, 2007],
        "price": [150, 120, 100, 250, 3000]}
df2 = pd.DataFrame(data2)

# df1, df2の中身を確認してください
print(df1)
print()
print(df2)
print()

# df1とdf2を"fruits"をKeyに外部結合して作成したDataFrameをdf3に代入してください
df3 = pd.merge(df1, df2, on="fruits", how="outer")

# 出力
# 外部結合を行った時の挙動を確認しましょう
print(df3)

***

### 2.3.4 同名でない列をKeyにして結合する

2つのDataFrameのうち、片方が注文情報をもつ`order_df`（左）、もう片方が顧客情報をもつ`customer_df`（右）であるとします。注文情報では購入顧客のIDを示すカラムを`"customer_id"`としているのに対して、顧客情報では顧客のIDを示すカラムを`"id"`としているとします。注文情報に顧客情報のデータを取り込みたいので`"customer_id"`をKeyとしたいのですが、`customer_df`では対応するカラムが`"id"`となっており、対応させたい列同士のカラムが一致していません。このような場合はそれぞれのカラムを指定する必要があります。`pandas.merge(左側DF, 右側DF, left_on="左側DFのカラム", right_on="右側DFのカラム", how="結合方法")` **と指定することでカラムの異なるDF同士の列について対応させて結合することができます。** （DFとはDataFrameの略です。）
<br><br>
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/different_key.png" style="width:400px;">


#### 問題

- 注文情報`order_df`と顧客情報`customer_df`を結合してください。`order_df`の`"customer_id"`を用いて`customer_df`の`"id"`を参照してください。結合方法は内部結合で結合してください。

In [None]:
import pandas as pd

# 注文情報
order_df = pd.DataFrame([[1000, 2546, 103],
                         [1001, 4352, 101],
                         [1002, 342, 101]],
                         columns=["id", "item_id", "customer_id"])
# 顧客情報
customer_df = pd.DataFrame([[101, "Tanaka"],
                           [102, "Suzuki"],
                           [103, "Kato"]],
                           columns=["id", "name"])

# order_dfを元に"id"をcustomer_dfに結合してorder_dfに代入してください


print(order_df)

#### ヒント

- `pandas.merge("左側DF", "右側DF", left_on="左側DFのカラム", right_on="右側DFのカラム", how="結合方法")`と指定することでカラムの異なるDataFrame同士の列について対応させて結合することができます。

#### 解答例

In [None]:
import pandas as pd

# 注文情報
order_df = pd.DataFrame([[1000, 2546, 103],
                         [1001, 4352, 101],
                         [1002, 342, 101]],
                         columns=["id", "item_id", "customer_id"])
# 顧客情報
customer_df = pd.DataFrame([[101, "Tanaka"],
                           [102, "Suzuki"],
                           [103, "Kato"]],
                           columns=["id", "name"])

# order_dfを元に"id"をcustomer_dfに結合してorder_dfに代入してください
order_df = pd.merge(order_df, customer_df, left_on="customer_id", right_on="id", how="inner")

print(order_df)

***

### 2.3.5 インデックスをKeyにして結合する

DataFrame同士の結合に用いるKeyがインデックスの場合、前節のleft_on="左側DataFrameのカラム", right_on="右側DataFrameのカラム"の代わりにleft_index=True, right_index=Trueで指定します。

#### 問題

- 注文情報`order_df`と顧客情報`customer_df`を結合してください。`order_df`の`"customer_id"`を用いて`customer_df`のインデックスを参照してください。結合方法は内部結合で結合してください。

In [None]:
import pandas as pd

# 注文情報
order_df = pd.DataFrame([[1000, 2546, 103],
                         [1001, 4352, 101],
                         [1002, 342, 101]],
                         columns=["id", "item_id", "customer_id"])
# 顧客情報
customer_df = pd.DataFrame([["Tanaka"],
                           ["Suzuki"],
                           ["Kato"]],
                           columns=["name"])
customer_df.index = [101, 102, 103]

# customer_dfを元に"name"をorder_dfに結合してorder_dfに代入してください


print(order_df)

#### ヒント

- 結合の際に左側のDataFrameのインデックスをKeyにする場合は`left_index=True`、右側のDataFrameのインデックスをKeyにする場合は`right_index=True`と指定します。

#### 解答例

In [None]:
import pandas as pd

# 注文情報
order_df = pd.DataFrame([[1000, 2546, 103],
                         [1001, 4352, 101],
                         [1002, 342, 101]],
                         columns=["id", "item_id", "customer_id"])
# 顧客情報
customer_df = pd.DataFrame([["Tanaka"],
                           ["Suzuki"],
                           ["Kato"]],
                           columns=["name"])
customer_df.index = [101, 102, 103]

# customer_dfを元に"name"をorder_dfに結合してorder_dfに代入してください
order_df = pd.merge(order_df, customer_df, left_on="customer_id", right_index=True, how="inner")

print(order_df)

***

## 2.4 DataFrameを用いたデータ分析

### 2.4.1 一部の行を得る

Pandasで扱うデータ量が膨大なとき、画面に全てを出力するのは不可能です。DataFrame型の変数`df`に対して、`df.head()`は **冒頭の5行のみを含むDataFrameを返します。** 同様に`df.tail()`は **末尾5行のみを含むDataFrameを返します。** 整数値を指定することで冒頭または末尾の任意の行数分のDataFrameを得ることができます。`head()`と`tail()`メソッドはSeries型の変数でも使うことができます。

#### 問題

- DataFrame型の変数`df`の冒頭3行を取得し、`df_head`に代入してください。
- DataFrame型の変数`df`の末尾3行を取得し、`df_tail`に代入してください。

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの冒頭3行を取得し、df_headに代入してください


# dfの末尾3行を取得し、df_tailに代入してください


# 出力
print(df_head)
print(df_tail)

#### ヒント

- DataFrame型の変数`df`に対して、`df.head()`は冒頭の5行のみを含むDataFrameを返します。
- 同様に`df.tail()`は末尾5行のみを返します。整数値を指定することで冒頭または末尾の任意の行数分のDataFrameを得ることができます。

#### 解答例

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの冒頭3行を取得し、df_headに代入してください
df_head = df.head(3)

# dfの末尾3行を取得し、df_tailに代入してください
df_tail = df.tail(3)

# 出力
print(df_head)
print(df_tail)

***

### 2.4.2 計算処理を適用する

PandasとNumpyは相性がよく、データの受け渡しを柔軟に行うことができます。 **Numpyで用意されている関数にSeriesやDataFrameを渡すと、全ての要素に対して計算処理を適用することができます。** Numpy配列を受け取る関数にDataFrameを渡した場合は、 **列単位でまとめて計算処理がされます。**

また、PandasではNumpyのように **ブロードキャストがサポートされている** ため、Pandas同士やPandasと整数同士の計算も「+ - * /」を用いて柔軟に処理することができます。

#### 問題

- `df`の各要素を2倍し、`double_df`に代入してください。
- `df`の各要素を2乗し、`square_df`に代入してください。
- `df`の各要素の平方根を計算し、`sqrt_df`に代入してください。

In [None]:
import numpy as np
import pandas as pd
import math
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの各要素を2倍し、double_dfに代入してください


# dfの各要素を2乗し、square_dfに代入してください


# dfの各要素の平方根を計算し、sqrt_dfに代入してください



# 出力
print(double_df)
print(square_df)
print(sqrt_df)

#### ヒント

- PandasではNumpyのようにブロードキャストがサポートされているため、Pandas同士やPandasと整数同士の計算も「+ - * /」を用いて柔軟に処理することができます。

#### 解答例

In [None]:
import numpy as np
import pandas as pd
import math
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの各要素を2倍し、double_dfに代入してください
double_df = df * 2 # double_df = df + dfもOK

# dfの各要素を2乗し、square_dfに代入してください
square_df = df * df #square_df = df**2 でもOK

# dfの各要素の平方根を計算し、sqrt_dfに代入してください
sqrt_df = np.sqrt(df)


# 出力
print(double_df)
print(square_df)
print(sqrt_df)

***

### 2.4.3 要約統計量を得る

列ごとの平均値、最大値、最小値などの統計的情報をまとめたものを **<font color=#AA0000>要約統計量</font>** と呼びます。DataFrame型の変数`df`に対して、`df.describe()`は`df`の列ごとの **個数** 、 **平均値** 、 **標準偏差** 、 **最小値** 、**四分位数** 、 **最大値** を含むDataFrameを返します。得られたDataFrameのインデックスは統計量の名前になります。

#### 問題

- DataFrame型の変数`df`の要約統計量のうち、`"mean"`, `"max"`, `"min"`を取り出して`df_des`に代入してください。

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの要約統計量のうち、"mean", "max", "min"を取り出してdf_desに代入してください


print(df_des)

#### ヒント

- DataFrame型の変数`df`に対して、`df.describe()`は`df`の列ごとの個数、平均値、標準偏差、最小値、四分位数、最大値を含むをDataFrame返します。
- `df`のインデックス参照は`df.loc["インデックスのリスト"]`で行います。

#### 解答例

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの要約統計量のうち、"mean", "max", "min"を取り出してdf_desに代入してください
df_des = df.describe().loc[["mean", "max", "min"]]

print(df_des)

***

### 2.4.4 DataFrameの行間または列間の差を求める

行間の差を求める操作は特に時系列分析で用いられる機能です。DataFrame型の変数`df`に対して、`df.diff("行または列の間隔", axis="方向")`と指定することで行間または列間の差を計算したDataFrameが作成されます。第1引数が正の場合は前の行との差、負の場合は後の行との差を求めます。`axis`は`0`の場合が列方向、`1`の場合が行方向です。

#### 問題

- DataFrame型の変数`df`の各行について、2行後の行との差を計算したDataFrameを`df_diff`に代入してください。

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの各行について、2行後の行との差を計算したDataFrameをdf_diffに代入してください


# dfとdf_diffの中身を比較して処理内容を確認してください
print(df)
print(df_diff)

#### ヒント

- DataFrame型の変数`df`に対して、`df.diff("行または列の間隔", axis="方向")`と指定することで行間または列間の差を計算したDataFrameが作成されます。
- 第1引数が正の場合は前の行との差、負の場合は後の行との差を求めます。
- `axis`は`0`の場合が列方向、`1`の場合が行方向です。

#### 解答例

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfの各行について、2行後の行との差を計算したDataFrameをdf_diffに代入してください
df_diff = df.diff(-2, axis=0)

# dfとdf_diffの中身を比較して処理内容を確認してください
print(df)
print(df_diff)

***

### 2.4.5 グループ化

データベースやDataFrameに対して、ある特定の列について同じ値を持つ行を集約するすることを **<font color=#AA0000>グループ化</font>** と呼びます。DataFrame型の変数`df`に対して`df.groupby("カラム")`とすることで指定したカラムの列についてグループ化することが可能です。この際、GroupByオブジェクトが返されますが、 **グループ化された結果を直接表示することはできません。** GroupByオブジェクトに対して、各グループの平均値を求める`mean()`や和を求める`sum()` などの演算を行うことができます。

#### 問題

- DataFrame型の変数`prefecture_df`には一部の都道府県の名前、面積（整数値）、人口（整数値）、属する地域名が含まれます。
- `prefecture_df`を地域(Region)についてグループ化し、`grouped_region`に代入してください
- `prefecture_df`に出てきた地域ごとの、面積(Area)と人口(Population)の平均を`mean_df`に代入してください。

In [None]:
import pandas as pd

# 一部の都道府県に関するDataFrameを作成
prefecture_df = pd.DataFrame([["Tokyo", 2190, 13636, "Kanto"], ["Kanagawa", 2415, 9145, "Kanto"],
                              ["Osaka", 1904, 8837, "Kinki"], ["Kyoto", 4610, 2605, "Kinki"],
                              ["Aichi", 5172, 7505, "Chubu"]], 
                             columns=["Prefecture", "Area", "Population", "Region"])
# 出力
print(prefecture_df)

# prefecture_dfを地域(Region)についてグループ化し、grouped_regionに代入してください


# prefecture_dfに出てきた地域ごとの、面積(Area)と人口(Population)の平均をmean_dfに代入してください


# 出力
print(mean_df)

#### ヒント

- DataFrame型の変数`df`に対して`df.groupby("カラム")`とすることで指定したカラムの列についてグループ化することが可能です。この際、GroupByオブジェクトが返されます。
- GroupByオブジェクトに対して、各グループの平均値を求める`mean()`や和を求める`sum()` などの演算を行うことができます。

#### 解答例

In [2]:
import pandas as pd

# 一部の都道府県に関するDataFrameを作成
prefecture_df = pd.DataFrame([["Tokyo", 2190, 13636, "Kanto"], ["Kanagawa", 2415, 9145, "Kanto"],
                              ["Osaka", 1904, 8837, "Kinki"], ["Kyoto", 4610, 2605, "Kinki"],
                              ["Aichi", 5172, 7505, "Chubu"]], 
                             columns=["Prefecture", "Area", "Population", "Region"])
# 出力
print(prefecture_df)

# prefecture_dfを地域(Region)についてグループ化し、grouped_regionに代入してください
grouped_region = prefecture_df.groupby("Region")

# prefecture_dfに出てきた地域ごとの、面積(Area)と人口(Population)の平均をmean_dfに代入してください
mean_df = grouped_region.mean()

# 出力
print(mean_df)

  Prefecture  Area  Population Region
0      Tokyo  2190       13636  Kanto
1   Kanagawa  2415        9145  Kanto
2      Osaka  1904        8837  Kinki
3      Kyoto  4610        2605  Kinki
4      Aichi  5172        7505  Chubu
          Area  Population
Region                    
Chubu   5172.0      7505.0
Kanto   2302.5     11390.5
Kinki   3257.0      5721.0


## 2.5 添削問題

この章で学んだことを活用しましょう。

#### 問題

`df1`と`df2`はそれぞれ野菜もしくは果物についての`DataFrame`です。`"Name", "Type", "Price"`はそれぞれ名前、野菜か果物か、値段を表します。<br>
あなたは野菜および果物をそれぞれ3種類ずつ購入したいと思っています。なるべく費用を安くしたいので、以下の手順で最小費用を求めてください。
- `df1`と`df2`を縦に結合する
- そこから野菜のみ、および果物のみをそれぞれ抽出し、`"Price"`でソート
- 野菜および果物について、それぞれ安いものを上から3つ選び、合計金額を出力する

In [None]:
import pandas as pd

# それぞれのDataFrameの定義

df1 = pd.DataFrame([["apple", "Fruit", 120],
                    ["orange", "Fruit", 60],
                    ["banana", "Fruit", 100],
                    ["pumpkin", "Vegetable", 150],
                    ["potato", "Vegetable", 80]],
                    columns=["Name", "Type", "Price"])

df2 = pd.DataFrame([["onion", "Vegetable", 60],
                    ["carrot", "Vegetable", 50],
                    ["beens", "Vegetable", 100],
                    ["grape", "Fruit", 160],
                    ["kiwifruit", "Fruit", 80]],
                    columns=["Name", "Type", "Price"])

# ここに解答を記述してください


#### ヒント

- DataFrame型の変数`df`に対して`df.sort_value(by="カラムの名前")`とすることで、そのカラムの値でソートできます
- `sum(df[a:b]["Price"])`で、`df[a]~df[b - 1]`の範囲の`"Price"`の和を求められます

#### 解答例

In [1]:
import pandas as pd

# それぞれのDataFrameの定義

df1 = pd.DataFrame([["apple", "Fruit", 120],
                    ["orange", "Fruit", 60],
                    ["banana", "Fruit", 100],
                    ["pumpkin", "Vegetable", 150],
                    ["potato", "Vegetable", 80]],
                    columns=["Name", "Type", "Price"])

df2 = pd.DataFrame([["onion", "Vegetable", 60],
                    ["carrot", "Vegetable", 50],
                    ["beens", "Vegetable", 100],
                    ["grape", "Fruit", 160],
                    ["kiwifruit", "Fruit", 80]],
                    columns=["Name", "Type", "Price"])

# ここに解答を記述してください

# 結合

df3 = pd.concat([df1, df2], axis=0)

# 果物のみを抽出し、Priceでソート

df_fruit = df3.loc[df3["Type"] == "Fruit"]
df_fruit = df_fruit.sort_values(by="Price")

# 野菜のみを抽出し、Priceでソート

df_veg = df3.loc[df3["Type"] == "Vegetable"]
df_veg = df_veg.sort_values(by="Price")

# それぞれの上3つの要素のPriceの合計金額

print(sum(df_fruit[:3]["Price"]) + sum(df_veg[:3]["Price"]))

430


- ここで用いたDataFrameの機能は、「結合」、「ソート」、「参照」です。DataFrameの操作に不安を覚えた方はこれまでのセッションを振り返ってみましょう。
- 回答の最後の行は、`df_fruit[行指定][列指定].sum()`を用いることでも合計を計算することができます。この方法でも是非やってみましょう。

***