## 3.6 データ検索・結合

### 共通処理

In [None]:
# 日本語化ライブラリ導入
!pip install japanize-matplotlib | tail -n 1

In [None]:
# ライブラリのimport

# NumPy用ライブラリ
import numpy as np

# Matplotlib中のpyplotライブラリのインポート
import matplotlib.pyplot as plt

# matplotlib日本語化対応ライブラリのインポート
import japanize_matplotlib

# pandas用ライブラリ
import pandas as pd

# データフレーム表示用関数
from IPython.display import display

# Seaborn
import seaborn as sns

In [None]:
# 表示オプション調整

# NumPy表示形式の設定
np.set_printoptions(
    suppress=True, precision=4, floatmode='fixed'
)

# グラフのデフォルトフォント指定
plt.rcParams["font.size"] = 14

# サイズ設定
plt.rcParams['figure.figsize'] = (6, 6)

# 方眼表示ON
plt.rcParams['axes.grid'] = True

# データフレームでの表示精度
pd.options.display.float_format = '{:.4f}'.format

# データフレームですべての項目を表示
pd.set_option("display.max_columns",None)

### 3.6.2 CSVデータ読み込み・確認

#### CSVデータ読み込み

In [None]:
# 　URL定義

# 貸出情報
url1 = 'https://github.com/makaishi2/samples/raw/main/data/rental5-jp.csv'

# 顧客情報
url2 = 'https://github.com/makaishi2/samples/raw/main/data/customer-jp.csv'

# CSV データ読み込み

# 貸出情報
df1 = pd.read_csv(url1)

# 顧客情報
df2 = pd.read_csv(url2)

#### 貸出情報確認

In [None]:
# 貸出情報確認
print('貸出情報')
print('件数: ', len(df1))
print('内容')
display(df1.head())

#### 顧客情報確認

In [None]:
# 顧客情報確認
print('顧客情報')
print('件数: ', len(df2))
print('内容')
display(df2.head())

### 3.6.3 ソート(sort_valuesメソッド)


#### 貸出日時によるソート

In [None]:
# ソート
df3 = df1.sort_values('貸出日時')

# 結果確認
display(df3.head())

### 3.6.4 インデックス初期化(reset_indexメソッド)

#### ソート後・検索後のインデックス初期化

In [None]:
#  ソート後・検索後のインデックスの初期化

# drop=Trueの指定をしないと、
# 前のインデックスも項目(index)として残る
df4 = df3.reset_index(drop=True)

# 結果確認
display(df4.head())

#### groupbyメソッド後処理としてのreset_indexメソッド

In [None]:
# 分析に必要な項目のみ抽出
df5 = df4[['カテゴリ名', 'レンタル代']]

# カテゴリ別の売上集計
df6 = df5.groupby('カテゴリ名').sum()

# 結果確認
display(df6.head(2))

In [None]:
# カテゴリ名をインデックスから項目に戻す
df7 = df6.reset_index()

# 結果確認
display(df7.head(2))

# 売上の多い順にソート
df8 = df7.sort_valueｓ('レンタル代', ascending=False)

# 結果確認
display(df8.head(2))

### 3.6.5 特定の行参照(loc/iloc)

#### locによる参照

In [None]:
# locによる参照

# 1行全体の参照
print(df3.loc[1])
print()

# 行インデックスと列インデックスの同時指定
print(df3.loc[1, '貸出日時'])

#### ilocによる参照

In [None]:
# ilocによる参照

# 1行全体の参照
print(df3.iloc[1])
print()

# NumPy的なアクセス
print(df3.iloc[1, 8])

#### ilocによるループ処理

In [None]:
# ilocによるループ処理
for i in range(5):
    # このアクセス方法で１行全体がxに入る
    x = df3.iloc[i]

    # xに対して辞書と同じ方法で個別要素にアクセス
    rental = x['貸出ID']
    customer = x['顧客ID']
    title = x['タイトル']
    amount = x['レンタル代']
    rental_date = x['貸出日時']

    # 結果確認
    print(i, rental, customer, title, amount, rental_date)

### 3.6.6 検索(queryメソッド)

#### 単純な検索

In [None]:
# 単純な検索
x1 = df4.query('顧客ID == 459')

#  件数確認
print(len(x1))

# 内容の一部確認
display(x1.head())

#### 複合検索

In [None]:
# 複合検索
x2 = df4.query('顧客ID == 459 and レンタル代 >= 4.0')

#  件数確認
print(len(x2))

# 内容の一部確認
display(x2.head())

#### Python変数の値をquery検索の条件値として用いる

In [None]:
# df4の2行目の顧客IDを変数cust_idに抽出し、
# その値を条件にdf4のデータを絞り込む

# cust_idの抽出
cust_id = df4.iloc[1]['顧客ID']
print(cust_id)

# Python変数値をqueryメソッドの絞り込み条件で利用する場合は
# 「項目名 == @変数名」という表現にする
x3 = df4.query('顧客ID == @cust_id')

# 結果確認
display(x3.head())

#### Pythonリスト変数の値を検索対象項目とマッチさせる

In [None]:
# df4の1行目から3行目の顧客IDをリスト変数cust_idsに抽出し、
# その値を条件にdf4のデータを絞り込む

# cust_idsの抽出
cust_ids = list(df4.iloc[:3]['顧客ID'])
print(cust_ids)

#  リスト変数値をqueryメソッドの絞り込み条件で利用する場合は
# 「項目名 in @変数名」という表現にする
x4 = df4.query('顧客ID in @cust_ids')

# 結果確認
display(x4.head())

### 3.6.7 結合(merge関数)

In [None]:
# 貸出情報から必要な項目のみ抽出
df9 = df4[['貸出ID', '顧客ID', '貸出日時', 'タイトル']]

# 結果確認
display(df9.head()) 

In [None]:
# 顧客情報から必要な項目のみ抽出
df10 = df2[['顧客ID', '名', '姓']]

# 結果確認
display(df10.head())

In [None]:
display(df10.iloc[457:460])

In [None]:
# merge関数で支払情報と結合
df11 = pd.merge(df9, df10, on='顧客ID')

# 結果を貸出日時でソート
df11.sort_values('貸出日時', inplace=True)

# 結果確認
display(df11.head())

### 演習問題
このビデオ店では、販売促進施策として、過去のレンタル金額の合計が一番大きな顧客を
プラチナユーザーとし、そのユーザーが今まで一番大きなレンタル金額を支払っているカテゴリの
レンタル料を半額にすることとしました。  
この方針に基づき、次の２つの問いに答えて下さい。  
  
 (1) 過去の合計レンタル金額が最も高いユーザーを調べて下さい。  
 (2) (1)で調べたユーザーに対して、過去のレンタル金額が最も大きいカテゴリ名を調べて下さい。

#### (1) 過去の合計レンタル金額が最も高いユーザーを調べる

In [None]:
# 貸出情報から項目「顧客ID」と「レンタル代」のみを抽出し、結果をx1に代入する
x1 = 
display(x1.head(2))

In [None]:
#  x1に対してgroupbyメソッドを用いて、レンタル代の合計金額を顧客IDごとに算出
x2 = 
display(x2.head(2))

In [None]:
# x2に対してreset_indexメソッドと用いて、顧客　IDを項目名に戻す
x3 = 
display(x3.head(2))

In [None]:
# x3の結果を「レンタル代」で逆順にソートして、
# レンタル代の合計が一番大きな顧客を算出
x4 = 
display(x4.head(2))

#### (2) (1)で調べたユーザーに対して、過去のレンタル金額が最も大きいカテゴリ名を調べる 

In [None]:
# 貸出情報から項目「顧客ID」と「レンタル代」「カテゴリ名」のみを抽出し、
# 結果をx5に代入する
x5 = 
display(x5.head(2))

In [None]:
# x5から顧客IDが(1)で調べたものを抽出
x6 = 
display(x6.head(2))

In [None]:
# groupbyメソッドを用いてx6の結果から
# カテゴリ別の合計レンタル代を算出
x7 = 

# reset_indexメソッドを用いて、カテゴリ名を列に戻す
x8 = 
display(x8.head(2))

In [None]:
# sort_indexメソッドで、合計レンタル代の最も大きな
# カテゴリを調べる
x9 = 
display(x9.head(2))