# Pandasの基本

Pandasとは、`DataFrame`によるデータ処理に特化したライブラリです。 
2008年にWes McKinneyによって開発され、それ以来デファクトスタンダードとして用いられています。
もともと金融データの対応のために開発された{cite}`yves2019`ため、それに特化した関数やメソッドが多く存在しますが、金融データに限らず幅広い用途で使用可能です。

Pandasは非常に奥が深いライブラリですので、その全てを本章で解説することはできません。 
本章では、本書で紹介するデータビジュアライゼーション手法の理解に最低限必要な知識の紹介にとどめるため、 詳細は別途公式サイトや専門書をご参照ください。

なお、本書で想定するPandasのバージョンは以下です。

In [1]:
# pandasをpdという名前でインポート
import pandas as pd

# バージョンを確認
pd.__version__

'2.1.1'

## 基本的なデータ構造

Pandasの中心的なデータ構造は`DataFrame`と`Series`です。
`DataFrame`は二次元の表形式のデータを扱うための構造で、`Series`は一次元のデータを扱うための構造です。

### `pandas.DataFrame`型

`DataFrame`は、二次元の表形式のデータを扱うためのデータ構造です。 
各列には異なるデータ型を持たせることができます。 
以下の例{cite}`endo2019`では、辞書型データを用いて`DataFrame`を作成しています。

In [2]:
# SPY×FAMILYを例に、forger家を表現する辞書を作成
# キーには"名前"、"役割"、"秘密"というラベルを、
# それぞれの値にはリストを使って登場人物の情報を格納
forger = {
    "名前": ["ロイド", "ヨル", "アーニャ"],
    "役割": ["父", "母", "娘"],
    "秘密": ["スパイ", "殺し屋", "超能力者"],
}

# 上で作成したforger辞書を使ってDataFrameを作成
# pandasのDataFrameは表形式のデータを扱うのに適した構造で、
# ここではforgerのキーが列のヘッダーに、値のリストが各列のデータになる
df = pd.DataFrame(forger)

In [3]:
# データフレームの内容を表示
df

Unnamed: 0,名前,役割,秘密
0,ロイド,父,スパイ
1,ヨル,母,殺し屋
2,アーニャ,娘,超能力者


逆に、`DataFrame`を辞書に戻す場合は、`to_dict`メソッドが有用です。

In [4]:
# DataFrameを入れ子の辞書に変換
df.to_dict()

{'名前': {0: 'ロイド', 1: 'ヨル', 2: 'アーニャ'},
 '役割': {0: '父', 1: '母', 2: '娘'},
 '秘密': {0: 'スパイ', 1: '殺し屋', 2: '超能力者'}}

本書では`records`オプションを利用して、行ごとに辞書化されたリストに変換することが多いです。

In [5]:
# DataFrameを行ごとに辞書化されたリストに変換
df.to_dict("records")

[{'名前': 'ロイド', '役割': '父', '秘密': 'スパイ'},
 {'名前': 'ヨル', '役割': '母', '秘密': '殺し屋'},
 {'名前': 'アーニャ', '役割': '娘', '秘密': '超能力者'}]

余談ですが、`to_dict("records")`は`DataFrame`に対してループを回す際に便利です。

In [6]:
# ループの冒頭に「フォージャー家の秘密」という文字列を表示
print("フォージャー家の秘密")

# df.to_dict("records")で、データフレームdfを辞書のリストに変換
# 各要素r（辞書）についてループを回す
for r in df.to_dict("records"):
    # 変数nameに辞書rから"名前"の値を代入
    name = r["名前"]
    # 変数roleに辞書rから"役割"の値を代入
    role = r["役割"]
    # 変数secretに辞書rから"秘密"の値を代入
    secret = r["秘密"]
    # name、role、secretの値を用いてフォーマットされた文字列を出力
    print(f"- {name}は「{role}」を演じているが、実は{secret}だ")

フォージャー家の秘密
- ロイドは「父」を演じているが、実はスパイだ
- ヨルは「母」を演じているが、実は殺し屋だ
- アーニャは「娘」を演じているが、実は超能力者だ


### `pandas.Series`型

`Series`は、一次元のデータを扱うデータ構造で、`DataFrame`の各列を構成する要素です。 
以下の例では、リスト型データを用いて`Series`を作成しています。

In [7]:
# namesというリストを作成
# リスト内には"ロイド"、"ヨル"、"アーニャ"という3人の名前を格納
names = ["ロイド", "ヨル", "アーニャ"]

# namesリストを使ってpandasのSeriesを作成
s = pd.Series(names)

In [8]:
# Seriesの内容を表示
s

0     ロイド
1      ヨル
2    アーニャ
dtype: object

### `pandas.DataFrame`型と`pandas.Series`型の相互変換

なお、`DataFrame`と`Series`は相互変換可能です。 
例えば、`DataFrame`の一部を抽出して`Series`に変換することができます。

In [9]:
# DataFrameから'役割'列を抽出し、Seriesに変換
roles = df["役割"]

In [10]:
# rolesというSeriesの中身を表示
roles

0    父
1    母
2    娘
Name: 役割, dtype: object

また、`Series`を用いて新たな`DataFrame`を作成することも可能です。

In [11]:
# コードネームを格納するリストを作成
codenames = ["黄昏", "いばら姫", "被験体007"]

# リストを元にSeriesを作成
s = pd.Series(codenames)

# SeriesからDataFrameを作成
# 列名として「コードネーム」を指定
df_c = pd.DataFrame(s, columns=["コードネーム"])

In [12]:
# Seriesから作成したDataFrameを確認
df_c

Unnamed: 0,コードネーム
0,黄昏
1,いばら姫
2,被験体007


ちなみに、`DataFrame`に存在しない列を指定して`Series`を代入することで、新たな列を追加することができます。

In [13]:
# dfにdf_cをコードネーム列として追加
df["コードネーム"] = df_c["コードネーム"]

In [14]:
# dfの内容を表示
df

Unnamed: 0,名前,役割,秘密,コードネーム
0,ロイド,父,スパイ,黄昏
1,ヨル,母,殺し屋,いばら姫
2,アーニャ,娘,超能力者,被験体007


## データの読み込みと書き出し

データ分析の世界では、データの読み込みと書き出しが日常的な作業です。
この節では、Pandasによるデータの読み出しと書き出しに焦点を当てます。

### 読み込み

Pandasにおけるデータの読み込みは、`pd.read_csv`関数や`pd.read_excel`関数などを使用します。
前者はCSV（Comma-Separated Values）を読み込むためのもので、後者はExcelファイルを読み込むためのものです。

CSVファイルとは、データをコンマで区切って保存するテキストファイルの一種です。
各行は1つのレコードを表し、行内の各値（フィールド）はコンマ（`,`）で区切られます。
CSVファイルは、表形式のデータを簡単に保存・交換するための標準的なフォーマットの一つとして広く使われています。

ここでは本書でよく用いる`cm_ce.csv`を例に、`pd.read_csv`を解説します。

まず`cm_ce.csv`の内容を確認[^bang]してみましょう。

[^bang]: Jupyter（正確にはIPython）では、`!`を付けることでシステムコマンドを実行できます。これにより、Pythonスクリプトの実行中にファイル操作や他のプログラムの実行など、システムレベルのタスクを簡単に行うことが可能になります。ここで用いている`head`は、テキストファイルの最初の部分（デフォルトでは最初の10行）を表示するためのUnixおよびUnix系オペレーティングシステムのコマンドです。このコマンドは、ファイルの内容を素早く確認する際に便利で、特に大きなファイルを扱う際に役立ちます。`head`コマンドには、表示する行数を指定するオプション（例：`head -n 5 {ファイル名}`で最初の5行を表示）もあり、使い方をカスタマイズすることができます。

In [93]:
# cm_ce.csvの中身をheadコマンドで確認
!head ../../data/cm/input/cm_ce.csv

ceid,cename,ccid,miid,page_start,page_end,pages,page_start_position,two_colored,four_colored,miname,mcid,mcname,date,price,ccname
CE00000,第238話/この世代,C90829,M535428,10.0,31.0,22.0,0.0213675213675213,False,True,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,ダイヤのA
CE00001,#134 話の続き,C90482,M535428,33.0,50.0,18.0,0.0705128205128205,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,君のいる町
CE00002,第5話 チア・ザ・マシンガン!,C90297,M535428,51.0,68.0,18.0,0.1089743589743589,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,アゲイン!!
CE00003,第233話 妖精の輝き,C89978,M535428,69.0,88.0,20.0,0.1474358974358974,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,FAIRY TAIL
CE00004,-BOUT 71- From Dark Zone,C89929,M535428,89.0,108.0,20.0,0.1901709401709401,False,False,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,A-BOUT!
CE00005,第94話,C90168,M535428,109.0,130.0,22.0,0.2329059829059829,False,True,週刊少年マガジン 2011年 表示号数24,C119033,週刊少年マガジン,2011-05-25,248.0,我間

では、実際に`pd.read_csv`を使って`cm_ce.csv`を読み込んでみましょう。

In [94]:
# マンガ各話データを格納するcm_ceを読み出し
df = pd.read_csv("../../data/cm/input/cm_ce.csv")

読み込んだデータフレームは、`head`メソッドで冒頭を数行（デフォルトで5行）を確認可能です。
カラム数が多いので、ここでは一部のカラムに絞って表示します。

In [96]:
# headメソッドで冒頭5行を確認
cols = ["ceid", "cename", "pages", "page_start_position", "ccname", "mcname", "date"]
df[cols].head()

Unnamed: 0,ceid,cename,pages,page_start_position,ccname,mcname,date
0,CE00000,第238話/この世代,22.0,0.021368,ダイヤのA,週刊少年マガジン,2011-05-25
1,CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25
2,CE00002,第5話 チア・ザ・マシンガン!,18.0,0.108974,アゲイン!!,週刊少年マガジン,2011-05-25
3,CE00003,第233話 妖精の輝き,20.0,0.147436,FAIRY TAIL,週刊少年マガジン,2011-05-25
4,CE00004,-BOUT 71- From Dark Zone,20.0,0.190171,A-BOUT!,週刊少年マガジン,2011-05-25


ちなみに、`tail`メソッドを用いると末尾の数行（デフォルトで5行）を確認できます。

In [97]:
# headメソッドで末尾5行を確認
df[cols].tail()

Unnamed: 0,ceid,cename,pages,page_start_position,ccname,mcname,date
180071,CE190276,SPIN.82/決裂のセカンドドライブ,20.0,0.799523,少年ラケット,週刊少年チャンピオン,2017-02-02
180072,CE190277,第105話 助っ人土井,20.0,0.852029,Gメン,週刊少年チャンピオン,2017-02-02
180073,CE190278,第194話 「卒業しよう!」,20.0,0.899761,実は私は,週刊少年チャンピオン,2017-02-02
180074,CE190279,最終話 ユグドラシル,18.0,0.947494,マル勇 九ノ島さん,週刊少年チャンピオン,2017-02-02
180075,CE190280,鯨井先輩の巻 68,2.0,0.997613,木曜日のフルット,週刊少年チャンピオン,2017-02-02


また、`T`メソッドを使うことで行と列を入れ替えることができます。

In [98]:
# dfの最初の5行を抽出し、行と列を転置して表示
df[cols].head().T

Unnamed: 0,0,1,2,3,4
ceid,CE00000,CE00001,CE00002,CE00003,CE00004
cename,第238話/この世代,#134 話の続き,第5話 チア・ザ・マシンガン!,第233話 妖精の輝き,-BOUT 71- From Dark Zone
pages,22.0,18.0,18.0,20.0,20.0
page_start_position,0.021368,0.070513,0.108974,0.147436,0.190171
ccname,ダイヤのA,君のいる町,アゲイン!!,FAIRY TAIL,A-BOUT!
mcname,週刊少年マガジン,週刊少年マガジン,週刊少年マガジン,週刊少年マガジン,週刊少年マガジン
date,2011-05-25,2011-05-25,2011-05-25,2011-05-25,2011-05-25


### 書き出し

データ分析の過程では、加工済みの`DataFrame`をファイルとして保存することがよくあります。
最も一般的なフォーマットはCSVとExcelです。
Pandasではこれらのフォーマットへ簡単にデータを書き出すことができるメソッドを提供しています。

`DataFrame`をCSVファイルに書き出すには、`to_csv`メソッドを使用します。

In [99]:
# 一部の列を指定し、冒頭500行のみを抽出して小型化
df_save = df[cols].head(500)

# データをCSVファイルに書き出す
df_save.to_csv("../../data/sandbox/cm_ce_small.csv")

In [100]:
# CSVファイルの中身をheadコマンドで確認
!head ../../data/sandbox/cm_ce_small.csv

,ceid,cename,pages,page_start_position,ccname,mcname,date
0,CE00000,第238話/この世代,22.0,0.0213675213675213,ダイヤのA,週刊少年マガジン,2011-05-25
1,CE00001,#134 話の続き,18.0,0.0705128205128205,君のいる町,週刊少年マガジン,2011-05-25
2,CE00002,第5話 チア・ザ・マシンガン!,18.0,0.1089743589743589,アゲイン!!,週刊少年マガジン,2011-05-25
3,CE00003,第233話 妖精の輝き,20.0,0.1474358974358974,FAIRY TAIL,週刊少年マガジン,2011-05-25
4,CE00004,-BOUT 71- From Dark Zone,20.0,0.1901709401709401,A-BOUT!,週刊少年マガジン,2011-05-25
5,CE00005,第94話,22.0,0.2329059829059829,我間乱 ～GAMARAN～,週刊少年マガジン,2011-05-25
6,CE00006,第36話 星,20.0,0.2799145299145299,AKB49 ～恋愛禁止条例～,週刊少年マガジン,2011-05-25
7,CE00007,#164 どうやって,18.0,0.3226495726495726,Baby Steps ベイビーステップ,週刊少年マガジン,2011-05-25
8,CE00008,code:133 覚悟の証,20.0,0.3611111111111111,CODE:BREAKER コード:ブレイカー,週刊少年マガジン,2011-05-25


上記のようにデフォルトではインデックスもファイルに書き出されてしまいます。
インデックスをファイルに含めたくない場合は、`index`オプションを`False`に設定します。

In [101]:
# インデックス以外のデータをCSVファイルに書き出す
df_save.to_csv("../../data/sandbox/cm_ce_small_wo_index.csv", index=False)

In [102]:
# CSVファイルの中身をheadコマンドで確認
!head ../../data/sandbox/cm_ce_small_wo_index.csv

ceid,cename,pages,page_start_position,ccname,mcname,date
CE00000,第238話/この世代,22.0,0.0213675213675213,ダイヤのA,週刊少年マガジン,2011-05-25
CE00001,#134 話の続き,18.0,0.0705128205128205,君のいる町,週刊少年マガジン,2011-05-25
CE00002,第5話 チア・ザ・マシンガン!,18.0,0.1089743589743589,アゲイン!!,週刊少年マガジン,2011-05-25
CE00003,第233話 妖精の輝き,20.0,0.1474358974358974,FAIRY TAIL,週刊少年マガジン,2011-05-25
CE00004,-BOUT 71- From Dark Zone,20.0,0.1901709401709401,A-BOUT!,週刊少年マガジン,2011-05-25
CE00005,第94話,22.0,0.2329059829059829,我間乱 ～GAMARAN～,週刊少年マガジン,2011-05-25
CE00006,第36話 星,20.0,0.2799145299145299,AKB49 ～恋愛禁止条例～,週刊少年マガジン,2011-05-25
CE00007,#164 どうやって,18.0,0.3226495726495726,Baby Steps ベイビーステップ,週刊少年マガジン,2011-05-25
CE00008,code:133 覚悟の証,20.0,0.3611111111111111,CODE:BREAKER コード:ブレイカー,週刊少年マガジン,2011-05-25


`DataFrame`をExcelファイルに書き出すには`to_excel`メソッドを使用します。
追加で`openpyxl`や`xlsxwriter`といったライブラリが必要になることがありますので、適宜インストールしておきましょう。

In [103]:
# インデックス以外のデータをExcelファイルに書き出す
df_save.to_excel("../../data/sandbox/cm_ce_small_wo_index.xlsx", index=False)

## データの選択とフィルタリング

データ分析のプロセスでは、関心のあるデータを正確に選択し、条件に基づいてフィルタリングする能力が不可欠です。
Pandasライブラリは、このようなデータ操作を直感的かつ強力にサポートしており、分析者が`DataFrame`の中から必要な情報を素早く抽出できるように設計されています。
この節では、Pandasを使ったデータの選択とフィルタリングの基本的なテクニックについて学びます。

### カラムの選択

`DataFrame`に含まれる特定のカラム（列）を選択することは、データ分析作業において最も基本的なステップの一つです。
Pandasでは、単一のカラムや複数のカラムを選択する方法が提供されており、これにより`DataFrame`の特定の側面に焦点を当てた分析が可能になります。

`DataFrame`から特定のカラムを選択するには、`[]`でカラム名を指定します。

In [104]:
# 先ほど保存した小型化した各話データを再度読み込む
df = pd.read_csv("../../data/sandbox/cm_ce_small_wo_index.csv")

In [105]:
# cename列の内容を表示
df["cename"]

0                             第238話/この世代
1                              #134 話の続き
2                        第5話 チア・ザ・マシンガン!
3                            第233話 妖精の輝き
4               -BOUT 71- From Dark Zone
                     ...                
495                            Trick:299
496                        第65話 伝統シー・ロール
497              File.290 西本、「劇団四季」に入門!?
498                            第310話 風待ち
499    第92話 a man-made mountain:人の造り給いし山
Name: cename, Length: 500, dtype: object

複数のカラムを選択するには、カラム名のリストを指定します。

In [106]:
# cename列とccname列を同時に表示
df[["cename", "ccname"]]

Unnamed: 0,cename,ccname
0,第238話/この世代,ダイヤのA
1,#134 話の続き,君のいる町
2,第5話 チア・ザ・マシンガン!,アゲイン!!
3,第233話 妖精の輝き,FAIRY TAIL
4,-BOUT 71- From Dark Zone,A-BOUT!
...,...,...
495,Trick:299,エア・ギア
496,第65話 伝統シー・ロール,だぶるじぇい
497,File.290 西本、「劇団四季」に入門!?,もう、しませんから。
498,第310話 風待ち,あひるの空


### 行の選択

`DataFrame`から特定の行を選択するには、`iloc`や`loc`を使用します。 
`iloc`はインデックスに基づいて行を選択し、`loc`はラベルに基づいて行を選択します。

In [107]:
# ceidをインデックス列として指定
df = df.set_index("ceid")

In [108]:
# インデックス1の行を選択する
df.iloc[0]

cename                 第238話/この世代
pages                        22.0
page_start_position      0.021368
ccname                      ダイヤのA
mcname                   週刊少年マガジン
date                   2011-05-25
Name: CE00000, dtype: object

In [109]:
# インデックスのラベルが"CE00000"行を選択する
df.loc["CE00000"]

cename                 第238話/この世代
pages                        22.0
page_start_position      0.021368
ccname                      ダイヤのA
mcname                   週刊少年マガジン
date                   2011-05-25
Name: CE00000, dtype: object

### 条件に基づくフィルタリング

特定の条件に基づいて`DataFrame`をフィルタリングするには、ブールインデックスを使用します。
ブールインデックスとは、`DataFrame`の各行が条件を満たすかどうかを`True`または`False`で示すシリーズのことです。
この方法を用いることで、条件に合致する行のみを選択的に抽出することが可能になります。

例えば、1ページしかないマンガ各話を選択したい場合は、以下のようなブールインデックスを利用します。

In [110]:
# pages列が1と一致するか否かを表すシリーズを作成
df["pages"] == 1

ceid
CE00000    False
CE00001    False
CE00002    False
CE00003    False
CE00004    False
           ...  
CE00495    False
CE00496    False
CE00497    False
CE00498    False
CE00499    False
Name: pages, Length: 500, dtype: bool

In [111]:
# "pages"が1と一致する行を抽出
df[df["pages"] == 1]

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CE00443,『毎日かあさん』,1.0,1.0,マガジンシアター,週刊少年マガジン,2011-01-29
CE00444,49号,1.0,1.0,[プレゼント当選者発表],週刊少年マガジン,2011-01-29
CE00470,48号,1.0,1.0,[プレゼント当選者発表],週刊少年マガジン,2011-01-22


複数の条件を組み合わせてフィルタリングする場合は、`&`（and）や`|`（or）を使用します。

In [112]:
# "pages"が5未満、かつ"page_start_position"が0.5以下
df[(df["pages"] < 5) & (df["page_start_position"] <= 0.5)]

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CE00054,#132　／　視線の先　／　紳士的飲み方　／　男の放課後　／　おべんきょ　／　乙女の園　／　...,4.0,0.182403,生徒会役員共,週刊少年マガジン,2011-05-04
CE00187,エビ・フラ彦さん　／　まんじゅう　／　ディナー,2.0,0.278761,チョイとだけ劇場,週刊少年マガジン,2011-03-30
CE00191,#128　／　ひまつぶし　／　約束の時　／　ベリベリ　／　カチコチ　／　激しく運動　／　精神...,4.0,0.400442,生徒会役員共,週刊少年マガジン,2011-03-30
CE00214,#127　／　愛情×2　／　要望メニュー　／　好物頂戴　／　あっ　／　おいしくできました　／...,4.0,0.310573,生徒会役員共,週刊少年マガジン,2011-03-23
CE00265,#125　／　隠れ巨乳共　／　おだて名人　／　抜きポイント　／　青い時代　／　あの頃から今　...,4.0,0.162222,生徒会役員共,週刊少年マガジン,2011-03-09
CE00322,#123　／　血がたぎる　／　くせもの　／　もったいないおばけ　／　裏の組織　／　復活の日　...,4.0,0.478541,生徒会役員共,週刊少年マガジン,2011-02-23


このようにブールインデックスを用いることで、複雑な条件でデータを抽出することができます。

## データの整形と操作

データ分析において、データの整形と操作は最も重要なステップの一つです。
「生」のデータセットはしばしば不完全で、分析に適さない形式で存在することがあります。
Pandasは、このようなデータを分析に適した形に整形するための強力なツールを提供ています。
この節ではその中でも特に重要なものの一部を解説します。

### 欠損値の処理

欠損値（Missing value、NA: Not Avaialble）とは、様々な理由で欠損している要素を指します。
欠損値の処理には`isna`、`fillna`、そして`dropna`メソッドが便利です。
`isna`は欠損値の抽出、`fillna`は欠損値の置換、そして`dropna`は欠損値の削除を簡単に行えます。

まず、`df`に対して`isna`を利用してみましょう。

In [113]:
# isnaでcename（各話名）に欠損値のある行を抽出
df_na = df[df["cename"].isna()]

In [114]:
# 欠損値のある行を確認
df_na

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CE00036,,4.0,0.601145,ネギほ(幼)文,週刊少年マガジン,2011-05-18
CE00064,,4.0,0.564378,竹植物語,週刊少年マガジン,2011-05-04
CE00154,,2.0,0.997912,ミヤジマがお知らせします。,週刊少年マガジン,2011-04-13
CE00211,,20.0,0.174009,さんかれあ,週刊少年マガジン,2011-03-23
CE00261,,2.0,0.997895,ミヤジマがお知らせします。,週刊少年マガジン,2011-03-16
CE00298,,12.0,0.43133,カウントラブル,週刊少年マガジン,2011-03-02
CE00416,,2.0,0.997831,ミヤジマがお知らせします。,週刊少年マガジン,2011-02-02
CE00450,,60.0,0.219713,極味ドラゴン,週刊少年マガジン,2011-01-22


次に、`fillna`を用いて欠損値を置換する例を紹介します。

In [115]:
# 欠損値を"タイトルなし"で埋める
df_na.fillna("各話名なし")

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CE00036,各話名なし,4.0,0.601145,ネギほ(幼)文,週刊少年マガジン,2011-05-18
CE00064,各話名なし,4.0,0.564378,竹植物語,週刊少年マガジン,2011-05-04
CE00154,各話名なし,2.0,0.997912,ミヤジマがお知らせします。,週刊少年マガジン,2011-04-13
CE00211,各話名なし,20.0,0.174009,さんかれあ,週刊少年マガジン,2011-03-23
CE00261,各話名なし,2.0,0.997895,ミヤジマがお知らせします。,週刊少年マガジン,2011-03-16
CE00298,各話名なし,12.0,0.43133,カウントラブル,週刊少年マガジン,2011-03-02
CE00416,各話名なし,2.0,0.997831,ミヤジマがお知らせします。,週刊少年マガジン,2011-02-02
CE00450,各話名なし,60.0,0.219713,極味ドラゴン,週刊少年マガジン,2011-01-22


あるいは、`dropna`を用いて欠損値を削除することもできます。

In [116]:
# 欠損値を含む行を削除
df_na.dropna()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1


上記で紹介した以外にも便利な使い方はたくさんあります。
興味のある方は調べてみましょう。

### カラム名の変更

適切なカラム名を設定することは、データ分析において非常に重要です。
分かりやすいカラム名は、データの理解を深めて分析の効率を上げるだけでなく、勘違いによるバグの発生を防ぎ、データ分析の品質を総合的に向上させます。
特に本書で扱うPlotly Expressにおいては、カラム名が直接的にグラフの軸ラベルや凡例、ツールチップなどに反映されるため、カラム名の明確性はビジュアル化の質に直結します。

カラム名を変更するには`rename`を使用します。
`rename`メソッドは辞書型の引数を受け取り、辞書のキーに現在のカラム名、値に新しいカラム名を指定します。

In [117]:
# columns引数に辞書を渡すことでカラム名を変更
df.rename(columns={"cename": "各話名", "mcname": "雑誌名", "ccname": "作品名"})

Unnamed: 0_level_0,各話名,pages,page_start_position,作品名,雑誌名,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CE00000,第238話/この世代,22.0,0.021368,ダイヤのA,週刊少年マガジン,2011-05-25
CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25
CE00002,第5話 チア・ザ・マシンガン!,18.0,0.108974,アゲイン!!,週刊少年マガジン,2011-05-25
CE00003,第233話 妖精の輝き,20.0,0.147436,FAIRY TAIL,週刊少年マガジン,2011-05-25
CE00004,-BOUT 71- From Dark Zone,20.0,0.190171,A-BOUT!,週刊少年マガジン,2011-05-25
...,...,...,...,...,...,...
CE00495,Trick:299,18.0,0.938492,エア・ギア,週刊少年マガジン,2011-01-15
CE00496,第65話 伝統シー・ロール,8.0,0.974206,だぶるじぇい,週刊少年マガジン,2011-01-15
CE00497,File.290 西本、「劇団四季」に入門!?,6.0,0.990079,もう、しませんから。,週刊少年マガジン,2011-01-15
CE00498,第310話 風待ち,21.0,0.021318,あひるの空,週刊少年マガジン,2011-01-08


### データ型の変換

`DataFrame`の各カラムは特定のデータ型と対応付けられており、これによりデータの性質と解釈が決まっています。
例えば、カラムの型によって利用できる関数やメソッドが違ったり、得られる結果が変わったりします。
適切なデータ型に変換しなければ、効率的かつ効果的にデータ分析を進めることはできません。
本項では、Pandasにおけるデータ型の変換方法に焦点を当てます。

データ型の変換には様々な方法がありますが、以下を抜粋して解説します：
- `astype`を用いた変換
- `pd.to_datetime`を用いた`datetime64[ns]`型への変換
- `pd.Categorical`を用いた`CategoricalDtype`型への変換

`astype`メソッドは、DataFrameやSeries内のデータ型を柔軟に変換する基本的な手段です。
このメソッドにより、数値型、文字列型、ブール型など、多様なデータ型への変換が可能となります。

In [118]:
# pages（各話の合計ページ数）列の型を確認
df["pages"].dtype

dtype('float64')

`pages`列は`float64`型で格納されています。
各話ページ数が小数値を取ることはありえないので、整数型に変換しましょう。

In [119]:
# pages（各話の合計ページ数）をint型に変換
df["pages"].astype(int)

ceid
CE00000    22
CE00001    18
CE00002    18
CE00003    20
CE00004    20
           ..
CE00495    18
CE00496     8
CE00497     6
CE00498    21
CE00499    20
Name: pages, Length: 500, dtype: int64

日付や時刻データの扱いは、多くのデータ分析プロジェクトにおいて重要な要素です。
`pd.to_datetime`は、様々な形式の日付や時刻データをPandasの`DateTime`型に変換します。
この変換により、日付や時間に関する便利なメソッドや関数を利用できるようになります。

In [120]:
# date列の型を確認
df["date"].dtype

dtype('O')

`.dtype`属性が`dtype('O')`（大文字のオー）を返す場合、オブジェクト(Object)型を指しています。
Pandasにおけるオブジェクト型は、主に文字列やPythonのオブジェクトを含む列に対して使用されますが、Pandasが特定のデータ型を列全体に対して一貫して推定できない場合のデフォルトのデータ型としても機能します。

では、`date`列を`datetime64[ns]`型に変換してみましょう。

In [121]:
# to_datetimeでdate列を変換
pd.to_datetime(df["date"])

ceid
CE00000   2011-05-25
CE00001   2011-05-25
CE00002   2011-05-25
CE00003   2011-05-25
CE00004   2011-05-25
             ...    
CE00495   2011-01-15
CE00496   2011-01-15
CE00497   2011-01-15
CE00498   2011-01-08
CE00499   2011-01-08
Name: date, Length: 500, dtype: datetime64[ns]

`datetime64[n]`型のカラムに対しては、日付や時間に関する様々な処理が可能です。

In [122]:
# dt.yearメソッドで年だけを抽出
pd.to_datetime(df["date"]).dt.year

ceid
CE00000    2011
CE00001    2011
CE00002    2011
CE00003    2011
CE00004    2011
           ... 
CE00495    2011
CE00496    2011
CE00497    2011
CE00498    2011
CE00499    2011
Name: date, Length: 500, dtype: int32

In [123]:
# dt.monthメソッドで月だけを抽出
pd.to_datetime(df["date"]).dt.month

ceid
CE00000    5
CE00001    5
CE00002    5
CE00003    5
CE00004    5
          ..
CE00495    1
CE00496    1
CE00497    1
CE00498    1
CE00499    1
Name: date, Length: 500, dtype: int32

In [124]:
# dt.dayメソッドで日だけを抽出
pd.to_datetime(df["date"]).dt.day

ceid
CE00000    25
CE00001    25
CE00002    25
CE00003    25
CE00004    25
           ..
CE00495    15
CE00496    15
CE00497    15
CE00498     8
CE00499     8
Name: date, Length: 500, dtype: int32

In [125]:
# dt.weekdayメソッドで曜日（0：月曜、1：火曜、…、6：日曜）を抽出
pd.to_datetime(df["date"]).dt.weekday

ceid
CE00000    2
CE00001    2
CE00002    2
CE00003    2
CE00004    2
          ..
CE00495    5
CE00496    5
CE00497    5
CE00498    5
CE00499    5
Name: date, Length: 500, dtype: int32

カテゴリデータは、限られた数のユニークな値を取るデータで、データ分析において特別な扱いが必要な場合があります。
`pd.Categorical`を使用すると、データをカテゴリ型に変換し、必要に応じて順序付きカテゴリとして扱うことができます。
この変換は、メモリ使用量を削減し、データ処理のパフォーマンスを向上させる効果があります。
また、カテゴリ型データの特性を活かした分析手法を適用することも可能になります。

In [126]:
# ユニークなccname（マンガ作品名）を抽出し、リストに変換
ccnames = df["ccname"].unique()

# DataFrameのccname列をカテゴリ型に変換する
# ccnamesリストに含まれるユニークなマンガ作品名をカテゴリとして使用
# ordered=Trueにより、カテゴリに順序を持たせる（ただし、この例ではccnamesの順序に依存）
df["ccname"] = pd.Categorical(df["ccname"], categories=ccnames, ordered=True)

In [127]:
# ccname列の型を確認
df["ccname"].dtype

CategoricalDtype(categories=['ダイヤのA', '君のいる町', 'アゲイン!!', 'FAIRY TAIL', 'A-BOUT!',
                  '我間乱 ～GAMARAN～', 'AKB49 ～恋愛禁止条例～', 'Baby Steps ベイビーステップ',
                  'CODE:BREAKER コード:ブレイカー', '魔法先生 ネギま! MAGISTER NEGI MAGI',
                  'ファイ・ブレイン 最期のパズル', '波打際のむろみさん', 'はじめの一歩', 'さよなら絶望先生',
                  'あひるの空', 'ヤンキー君とメガネちゃん', 'ゴッドハンド輝', 'エリアの騎士', '金田一少年の事件簿',
                  'この彼女はフィクションです。', '生徒会役員共', '振り向くな君は', 'エデンの檻', 'かってに改蔵',
                  'エア・ギア', 'ネギほ(幼)文', 'GE ～グッドエンディング～', 'くろのロワイヤル', 'だぶるじぇい',
                  'もう、しませんから。', '竹植物語', 'BLOODY MONDAY', 'チョイとだけ劇場',
                  'ほんとにあった!霊媒先生', 'ぷあぷあ?', 'ゼウスの種', 'ミヤジマがお知らせします。', 'GTO',
                  'さんかれあ', 'カウントラブル', 'ラブプラス Rinko Days', 'BUN BUN BEE',
                  'マガジンシアター', '[プレゼント当選者発表]', '極味ドラゴン', '花形  新約「巨人の星」'],
, ordered=True, categories_dtype=object)

`ccname`列が順序付きのカテゴリー型に変換されていることがわかります。
後述するソートを行う際、アルファベット順以外の順序をカテゴリカルな列に付与したい場合に特に便利です。

### カラムの追加・削除

分析の過程で不要な情報を取り除くことや、新たな洞察を導くためのデータを加えることは、分析の質を大きく左右します。
本節では、カラムの追加・削除の基本的な方法とその応用について解説します。

カラムを追加するには、新しいカラム名を指定して代入します。

In [128]:
# 発売曜日を示す列をweekdayとして追加
df["weekday"] = pd.to_datetime(df["date"]).dt.weekday

In [129]:
# 列を追加されたdfの冒頭5行を表示
df.head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date,weekday
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
CE00000,第238話/この世代,22.0,0.021368,ダイヤのA,週刊少年マガジン,2011-05-25,2
CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25,2
CE00002,第5話 チア・ザ・マシンガン!,18.0,0.108974,アゲイン!!,週刊少年マガジン,2011-05-25,2
CE00003,第233話 妖精の輝き,20.0,0.147436,FAIRY TAIL,週刊少年マガジン,2011-05-25,2
CE00004,-BOUT 71- From Dark Zone,20.0,0.190171,A-BOUT!,週刊少年マガジン,2011-05-25,2


カラムを削除するには`drop`を使用します。

In [130]:
# 先程作成したweekdayを削除
df = df.drop(columns=["weekday"])

In [131]:
# weekday列を削除したdfの冒頭5行を表示
df.head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CE00000,第238話/この世代,22.0,0.021368,ダイヤのA,週刊少年マガジン,2011-05-25
CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25
CE00002,第5話 チア・ザ・マシンガン!,18.0,0.108974,アゲイン!!,週刊少年マガジン,2011-05-25
CE00003,第233話 妖精の輝き,20.0,0.147436,FAIRY TAIL,週刊少年マガジン,2011-05-25
CE00004,-BOUT 71- From Dark Zone,20.0,0.190171,A-BOUT!,週刊少年マガジン,2011-05-25


なお、行を削除する場合も`drop`を利用できます。

In [132]:
# indexがCE00000の行を削除して冒頭5行を表示
df.drop("CE00000").head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25
CE00002,第5話 チア・ザ・マシンガン!,18.0,0.108974,アゲイン!!,週刊少年マガジン,2011-05-25
CE00003,第233話 妖精の輝き,20.0,0.147436,FAIRY TAIL,週刊少年マガジン,2011-05-25
CE00004,-BOUT 71- From Dark Zone,20.0,0.190171,A-BOUT!,週刊少年マガジン,2011-05-25
CE00005,第94話,22.0,0.232906,我間乱 ～GAMARAN～,週刊少年マガジン,2011-05-25


### 重複の処理

重複するデータの発見と処理は、データ分析の初期段階で行われるべき重要なステップです。
この項では、Pandasを用いてデータセットから重複を効率的に特定し、除去する方法について解説します。

まず、`duplicated`メソッドによる重複の検出について紹介します。
`duplicated`メソッドは、`DataFrame`内で各行が先行する行と重複しているかどうかをブール値で返します。
ここでは便宜上、`ボボボーボ・ボーボボ`の第3話の人気投票結果{cite}`sawai2001`を例として用います。

In [133]:
# DataFrameの作成
df_bobobo = pd.DataFrame(columns=["キャラクター"], data=["ボボボーボ・ボーボボ"] * 5)

# 1から始まる順位列をインデックスとして設定
df_bobobo.index = range(1, len(df_bobobo) + 1)

# インデックス名を"順位"に設定
df_bobobo.index.name = "順位"

In [134]:
# 人気投票結果を表示
df_bobobo

Unnamed: 0_level_0,キャラクター
順位,Unnamed: 1_level_1
1,ボボボーボ・ボーボボ
2,ボボボーボ・ボーボボ
3,ボボボーボ・ボーボボ
4,ボボボーボ・ボーボボ
5,ボボボーボ・ボーボボ


このように、1位から5位まで`ボボボーボ・ボーボボ`に独占されてしまっています[^bobobo]。
この`df_bobobo`から`duplicated`で重複を特定してみましょう。

[^bobobo]: 厳密には10位まで独占されましたが、紙幅の都合上、5位までの表示とさせて頂きました。

In [135]:
# duplicatedメソッドで重複行を特定
df_bobobo.duplicated()

順位
1    False
2     True
3     True
4     True
5     True
dtype: bool

**1行目を除き**、2行目以降が全て重複していることがわかりました。
例えば重複していない行のみ抽出する場合は、以下のように書くことができます。

In [136]:
# 重複していない行のみを表示
df_bobobo[~df_bobobo.duplicated()]

Unnamed: 0_level_0,キャラクター
順位,Unnamed: 1_level_1
1,ボボボーボ・ボーボボ


あるいは、`drop_duplicates`メソッドで重複行を直接削除することも可能です。

In [137]:
# drop_duplicatedメソッドで重複行を削除
df_bobobo.drop_duplicates()

Unnamed: 0_level_0,キャラクター
順位,Unnamed: 1_level_1
1,ボボボーボ・ボーボボ


場合によっては、 **一つ目の行を含めて** 全ての重複行を削除したいこともあるかもしれません。
そのようなときは`keep=False`オプションを用いましょう。

In [138]:
# keep=Falseを指定することで全ての重複行を削除
df_bobobo.drop_duplicates(keep=False)

Unnamed: 0_level_0,キャラクター
順位,Unnamed: 1_level_1


少し高度な例をご紹介するため、`df_bobobo`に`得票数`と`コメント`という列を追加します。

In [139]:
# 得票数列に各キャラクターの得票数を格納
df_bobobo["得票数"] = [5071, 3072, 1802, 721, 514]
# コメント列に各キャラクターの受賞コメントを格納
df_bobobo["コメント"] = ["みんなありがとう", "フン", "神に感謝", "くっ ボーボボに負けた…", "順当な順位ですね"]

In [140]:
# 更新されたDataFrameを表示
df_bobobo

Unnamed: 0_level_0,キャラクター,得票数,コメント
順位,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,ボボボーボ・ボーボボ,5071,みんなありがとう
2,ボボボーボ・ボーボボ,3072,フン
3,ボボボーボ・ボーボボ,1802,神に感謝
4,ボボボーボ・ボーボボ,721,くっ ボーボボに負けた…
5,ボボボーボ・ボーボボ,514,順当な順位ですね


この状態で`drop_duplicates`を使ってみましょう。

In [141]:
# drop_duplicatedメソッドで重複行を削除
df_bobobo.drop_duplicates()

Unnamed: 0_level_0,キャラクター,得票数,コメント
順位,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,ボボボーボ・ボーボボ,5071,みんなありがとう
2,ボボボーボ・ボーボボ,3072,フン
3,ボボボーボ・ボーボボ,1802,神に感謝
4,ボボボーボ・ボーボボ,721,くっ ボーボボに負けた…
5,ボボボーボ・ボーボボ,514,順当な順位ですね


`duplicated`や`drop_duplicates`は、デフォルト設定で **全ての列が** 重複しているかどうかを判断します。
特定の列にのみ注目して重複を定義したい場合は、`subset`引数を利用します。

In [142]:
# drop_duplicatedメソッドで「キャラクター」列が重複している行を削除
df_bobobo.drop_duplicates(subset=["キャラクター"])

Unnamed: 0_level_0,キャラクター,得票数,コメント
順位,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,ボボボーボ・ボーボボ,5071,みんなありがとう


### 各行へのカスタム処理

`DataFrame`や`Series`に対して任意の処理を施したいとき、`map`や`apply`の利用を検討しましょう。
これらのメソッドを用いることで、データフレームやシリーズの各要素に対して柔軟に関数を適用し、データの変換や集約を行うことができます。
この項では、`map`と`apply`の使い方を具体例を用いて解説します。

`map`メソッドは、Pandasの`Series`オブジェクトの各要素に対して任意の関数（や辞書）を適用します。
例えば、値の変換や新たな値へのマッピングなどに非常に有用です。

In [143]:
# dateに基づき、曜日情報をweekday列として追加
df["weekday"] = pd.to_datetime(df["date"]).dt.weekday
# 変換後のDataFrameの一部を表示
df.head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date,weekday
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
CE00000,第238話/この世代,22.0,0.021368,ダイヤのA,週刊少年マガジン,2011-05-25,2
CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25,2
CE00002,第5話 チア・ザ・マシンガン!,18.0,0.108974,アゲイン!!,週刊少年マガジン,2011-05-25,2
CE00003,第233話 妖精の輝き,20.0,0.147436,FAIRY TAIL,週刊少年マガジン,2011-05-25,2
CE00004,-BOUT 71- From Dark Zone,20.0,0.190171,A-BOUT!,週刊少年マガジン,2011-05-25,2


例えば、`weekday`列を日本語の曜日表現に変換する際、`map`を用いると便利です。

In [144]:
# weekdayと曜日を対応付ける辞書
weekday2yobi = {0: "月", 1: "火", 2: "水", 3: "木", 4: "金", 5: "土", 6: "日"}
# weekdayを元に、weekday2yobiを用いてyobi列に曜日表現を格納
df["yobi"] = df["weekday"].map(weekday2yobi)

# 変換後のDataFrameの一部を表示
df.head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date,weekday,yobi
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
CE00000,第238話/この世代,22.0,0.021368,ダイヤのA,週刊少年マガジン,2011-05-25,2,水
CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25,2,水
CE00002,第5話 チア・ザ・マシンガン!,18.0,0.108974,アゲイン!!,週刊少年マガジン,2011-05-25,2,水
CE00003,第233話 妖精の輝き,20.0,0.147436,FAIRY TAIL,週刊少年マガジン,2011-05-25,2,水
CE00004,-BOUT 71- From Dark Zone,20.0,0.190171,A-BOUT!,週刊少年マガジン,2011-05-25,2,水


一方で、`apply`メソッドは`Series`だけでなく`DataFrame`に対しても使用でき、より複雑なデータ変換や集約処理を行う際にその真価を発揮します。
行や列全体に関数を適用することができるため、`DataFrame`全体に対するカスタム操作を容易に実行できます。


例えば、前述した`ボボボーボ・ボーボボ`の人気投票結果を表す`DataFrame`に対して、`{キャラクター名}({得票数})「{コメント}」`というフォーマットでまとめ列を追加することを考えます。

In [145]:
# DataFrameの形状を再確認
df_bobobo

Unnamed: 0_level_0,キャラクター,得票数,コメント
順位,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,ボボボーボ・ボーボボ,5071,みんなありがとう
2,ボボボーボ・ボーボボ,3072,フン
3,ボボボーボ・ボーボボ,1802,神に感謝
4,ボボボーボ・ボーボボ,721,くっ ボーボボに負けた…
5,ボボボーボ・ボーボボ,514,順当な順位ですね


In [146]:
# summarize_ranking関数の定義
# 行ごとにキャラクター名、得票数、コメントをまとめた文字列を作成
def summarize_ranking(row):
    # 各行の'キャラクター'、'得票数'、'コメント'列の値を使用して、フォーマットされた文字列を返す
    return f"{row['キャラクター']}({row['得票数']}票)「{row['コメント']}」"


# df_boboboデータフレームの各行に対してsummarize_ranking関数を適用し、'まとめ'列として結果を追加
# axis=1は関数を列ではなく行に対して適用することを意味します
df_bobobo["まとめ"] = df_bobobo.apply(summarize_ranking, axis=1)

# 結果のデータフレームを表示
df_bobobo

Unnamed: 0_level_0,キャラクター,得票数,コメント,まとめ
順位,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,ボボボーボ・ボーボボ,5071,みんなありがとう,ボボボーボ・ボーボボ(5071票)「みんなありがとう」
2,ボボボーボ・ボーボボ,3072,フン,ボボボーボ・ボーボボ(3072票)「フン」
3,ボボボーボ・ボーボボ,1802,神に感謝,ボボボーボ・ボーボボ(1802票)「神に感謝」
4,ボボボーボ・ボーボボ,721,くっ ボーボボに負けた…,ボボボーボ・ボーボボ(721票)「くっ ボーボボに負けた…」
5,ボボボーボ・ボーボボ,514,順当な順位ですね,ボボボーボ・ボーボボ(514票)「順当な順位ですね」


このように、`map`や`apply`を用いることで高度な処理を簡単に実装することができます。

## データのソートと集計

データ分析の初期段階において、ソートや基礎的な集計は非常に重要な役割を果たします。
本節では、Pandasにおけるソートや基礎集計について解説します。

### ソート

ソートは、文字通りデータセットの特定のカラムに基づいて行を並べ替える処理です。
分析対象のデータを整理したり、その特性を理解するために非常に重要です。

データをソートするには、`sort_values`メソッドを使用します。

In [147]:
# dateで昇順にソートして冒頭5行を表示
df.sort_values("date").head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date,weekday,yobi
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
CE00499,第92話 a man-made mountain:人の造り給いし山,20.0,0.063953,エデンの檻,週刊少年マガジン,2011-01-08,5,土
CE00498,第310話 風待ち,21.0,0.021318,あひるの空,週刊少年マガジン,2011-01-08,5,土
CE00496,第65話 伝統シー・ロール,8.0,0.974206,だぶるじぇい,週刊少年マガジン,2011-01-15,5,土
CE00471,第221話/Progress,22.0,0.021825,ダイヤのA,週刊少年マガジン,2011-01-15,5,土
CE00472,#117 ・・・・ね?,18.0,0.065476,君のいる町,週刊少年マガジン,2011-01-15,5,土


逆順にソートする場合は、`ascending`引数を`False`として指定します。

In [148]:
# dateで降順にソートして冒頭5行を表示
df.sort_values("date", ascending=False).head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date,weekday,yobi
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
CE00000,第238話/この世代,22.0,0.021368,ダイヤのA,週刊少年マガジン,2011-05-25,2,水
CE00012,Round 935 未見の強振,18.0,0.57906,はじめの一歩,週刊少年マガジン,2011-05-25,2,水
CE00001,#134 話の続き,18.0,0.070513,君のいる町,週刊少年マガジン,2011-05-25,2,水
CE00022,第109話 Pyramid:第三の塔,20.0,0.959402,エデンの檻,週刊少年マガジン,2011-05-25,2,水
CE00021,第22話 震える世界。,20.0,0.916667,振り向くな君は,週刊少年マガジン,2011-05-25,2,水


引数としてリストを渡すことで、複数の列を基準にソートすることが可能です。

In [149]:
# date、pagesで昇順にソートして冒頭5行を表示
df.sort_values(["date", "pages"]).head()

Unnamed: 0_level_0,cename,pages,page_start_position,ccname,mcname,date,weekday,yobi
ceid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
CE00499,第92話 a man-made mountain:人の造り給いし山,20.0,0.063953,エデンの檻,週刊少年マガジン,2011-01-08,5,土
CE00498,第310話 風待ち,21.0,0.021318,あひるの空,週刊少年マガジン,2011-01-08,5,土
CE00493,#116　／　朝一コール　／　キリッ　／　つぶやき　／　気のせい　／　雪と戯れ　／　先生の日...,4.0,0.890873,生徒会役員共,週刊少年マガジン,2011-01-15,5,土
CE00482,373 歳末とむろみさん,6.0,0.501984,波打際のむろみさん,週刊少年マガジン,2011-01-15,5,土
CE00497,File.290 西本、「劇団四季」に入門!?,6.0,0.990079,もう、しませんから。,週刊少年マガジン,2011-01-15,5,土


リストを用いて複数の列を指定した場合は、 **インデックスが若いほど優先** されます。
この例ではまず`date`を基準にソートされ、同一`date`の中で`pages`に基づいてソートされています。

### 基礎集計

データセットに対する初歩的な理解を深めるためには、基礎集計が不可欠です。
このプロセスを通じて、データの構造、特性、およびその分布を把握することができます。

まず、`shape`を用いることで`DataFrame`の行数を列数を簡単に把握することができます。

In [150]:
# dfの行数と列数を取得
df.shape

(500, 8)

これまで特に断りなく用いてきましたが、`unique`は特定のカラム内のユニークな値の一覧を **登場順に** 返します。

In [151]:
# date列のユニークな値を登場順に列挙
df["date"].unique()

array(['2011-05-25', '2011-05-18', '2011-05-04', '2011-04-27',
       '2011-04-20', '2011-04-13', '2011-04-06', '2011-03-30',
       '2011-03-23', '2011-03-16', '2011-03-09', '2011-03-02',
       '2011-02-23', '2011-02-16', '2011-02-09', '2011-02-02',
       '2011-01-29', '2011-01-22', '2011-01-15', '2011-01-08'],
      dtype=object)

`nunique`は特定のカラムのユニークな値の **数** を返します。

In [152]:
# date列のユニークな値の数を集計
df["date"].nunique()

20

その他、カラム別の基本的な統計量を計算することが可能です：
- `mean`: **平均**。数値の合計をデータの数で割った値です。文字通り、データの平均的な傾向を示します。
- `median`: **中央値**。小さいものから順に並べたときに、ちょうど真ん中にくる値です。外れ値の影響を受けにくい中心傾向の尺度です。
- `var`: **分散**。各値が平均からどれだけ離れているかを示す値です。データの散らばり具合を示します。
- `std`: **標準偏差**。分散の平方根であり、データの散らばりの度合いを平均値と同じ単位で表したものです。
- `max`: **最大値**。データの中で最も大きい値です。
- `min`: **最小値**。データの中で最も小さい値です。
- `quantile`: **四分位値**。データを4等分したときの分割点の値です。特に、第1四分位数（25%点）、第2四分位数（中央値）、第3四分位数（75%点）がよく使用されます。
- `count`: **欠損値でない行数**。カラム内における欠損値（NoneまたはNaN）でない行数をカウントします。
- `sum`: **合計値**。数値の合計を計算します。特定のカラムの総量を知りたい場合に有用です。

これらの統計量は、Pandasの`DataFrame`や`Series`オブジェクトに対して直接計算することができます。
例えば、`mean`を用いて平均を求めてみましょう。

In [153]:
# pages列の平均値を算出
df["pages"].mean()

17.138

複数列を指定することも可能です。

In [154]:
# pagesとpage_start_positionの平均値をそれぞれ算出
df[["pages", "page_start_position"]].mean()

pages                  17.138000
page_start_position     0.540504
dtype: float64

上記のような基本的な統計量をまとめて算出したい場合は、`describe`が便利です。

In [155]:
# （算出可能な列に対して）基本的な統計量を一括算出
df.describe()

Unnamed: 0,pages,page_start_position,weekday
count,500.0,500.0,500.0
mean,17.138,0.540504,2.498
std,7.621491,0.291936,1.11736
min,1.0,0.006263,2.0
25%,16.0,0.285873,2.0
50%,20.0,0.5598,2.0
75%,20.0,0.791845,2.0
max,66.0,1.0,5.0


`corr`を用いると各列間の相関係数を算出することができます。
相関係数とは、二つの変数間の関連の度合いを数値で示したもので、$-1$以上$1$以下の値を取ります。
相関係数の計算により、データセット内の変数間にどのような関係が存在するかを把握することができます。

- 値が1に近い場合：二つの変数は正の相関があると言われ、一方の変数が増加するともう一方も増加する傾向にあります。
- 値が-1に近い場合：二つの変数は負の相関があると言われ、一方の変数が増加するともう一方は減少する傾向にあります。
- 値が0に近い場合：二つの変数間に相関がほとんどない、または全くないことを示します。

In [156]:
# pagesとpage_start_positionの相関行列を算出
df[["pages", "page_start_position"]].corr()

Unnamed: 0,pages,page_start_position
pages,1.0,-0.424604
page_start_position,-0.424604,1.0


上記は`pages`と`page_start_position`の相関行列です。
例えば、`pages`と`page_start_position`の相関係数は1行目2列目（あるいは2行目1列目）と対応しています。

相関行列の性質として、$n$行$n$列目（対角成分）は同じ変数同士の相関係数を表すため、必ず$1$になります。
また、$n$行$m$列目と$m$行$n$列目が等しい、いわゆる **対称行列** となります。

相関係数は変数間の関係を探る初歩的な手段ですが、 **因果関係を示すものではない** 点に注意が必要です。
つまり、二つの変数間に強い正の相関がある場合でも、一方がもう一方を引き起こしているとは限りません。
相関関係は、より詳細な分析のための参考情報程度に捉えると良いかもしれません。

## データの結合とマージ

データ分析プロジェクトでは、異なるソースから得られたデータセットを統合し、包括的な分析を行う必要がしばしばあります。
Pandasを活用することで、異なるデータセットを効率的に結合またはマージすることが可能です。
この節では、Pandasの`concat`と`merge`を用いた結合とマージについて解説します。

### 結合

`concat`メソッドは、複数のデータフレームを縦（行方向）または横（列方向）に結合するために使用されます。
このメソッドは、同じ種類のデータを含むデータフレームを結合する際や、異なる時期のデータを一つのデータフレームにまとめる際に特に有用です。

In [157]:
# マンガ各話データを格納するcm_ceを読み出し
df_ce = pd.read_csv("../../data/cm/input/cm_ce.csv")

In [158]:
# 簡略化のために列を選択
cols = ["mcname", "miname", "ccname", "ccid"]

# 週刊少年ジャンプおよび週刊少年サンデーの最初の5行だけ抽出してDataFrame化
df_jump = df_ce[df_ce["mcname"] == "週刊少年ジャンプ"][cols].reset_index(drop=True).head()
df_sunday = df_ce[df_ce["mcname"] == "週刊少年サンデー"][cols].reset_index(drop=True).head()

In [159]:
# 週刊少年ジャンプに関するDataFrameの中身を確認
df_jump

Unnamed: 0,mcname,miname,ccname,ccid
0,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,スキャンドール,C88521
1,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,風魔の小次郎,C89489
2,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,キャッツ・アイ CATS・EYE,C88386
3,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,やぶれかぶれ,C89747
4,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,キン肉マン,C88427


In [160]:
# 週刊少年ジャンプに関するDataFrameの中身を確認
df_sunday

Unnamed: 0,mcname,miname,ccname,ccid
0,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,怒りよさらば,C92147
1,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,ケンカの聖書,C92340
2,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,烈火,C93935
3,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,男どアホウ甲子園,C92472
4,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,ダメおやじ,C92856


In [161]:
# df_jumpとdf_sundayをconcatメソッドを用いて結合
# ignore_index=Trueとすることで、インデックスを新たに振り直す
pd.concat([df_jump, df_sunday], ignore_index=True)

Unnamed: 0,mcname,miname,ccname,ccid
0,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,スキャンドール,C88521
1,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,風魔の小次郎,C89489
2,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,キャッツ・アイ CATS・EYE,C88386
3,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,やぶれかぶれ,C89747
4,週刊少年ジャンプ,週刊少年ジャンプ 1983年 表示号数3,キン肉マン,C88427
5,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,怒りよさらば,C92147
6,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,ケンカの聖書,C92340
7,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,烈火,C93935
8,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,男どアホウ甲子園,C92472
9,週刊少年サンデー,週刊少年サンデー 1971年 表示号数3,ダメおやじ,C92856


### マージ

`merge`メソッドは、二つのデータフレーム間で一つまたは複数のキー（列）を基準にしてデータを結合します。
内部結合、外部結合、左結合、右結合など、さまざまな結合方法をサポートしており、データベースの結合操作に類似した柔軟なデータ統合が可能です。

- **内部結合** （ **Inner Join** ）: 両方の`DataFrame`に存在するキーのデータのみを対象とする結合方法
- **外部結合** （ **Outer Join** ）: 一方にしか存在しないキーのデータも対象とする結合方法
- **左外部結合** ( **Left Outer Join** ): 左側の`DataFrame`のキーを基準とする結合方法。右側の`DataFrame`からは左側に存在するキーのデータのみが結合される。 **左結合** ( **Left Join** )とも呼ばれる。
- **右外部結合** ( **Right Outer Join** ): 右側の`DataFrame`のキーを基準とする結合方法。左側の`DataFrame`からは右側に存在するキーのデータのみが結合される。 **右結合** ( **Right Join** )とも呼ばれる。

ここでは再び`SPY×FAMILY`{cite}`endo2019`を例に、それぞれの結合方法を説明します。

In [162]:
# SPY×FAMILYを例に、forger家を表現するDataFrameを作成
df_forger = pd.DataFrame(
    {
        "名前": ["ロイド", "ヨル", "アーニャ"],
        "役割": ["父", "母", "娘"],
        "秘密": ["スパイ", "殺し屋", "超能力者"],
    }
)

# 内容を表示
df_forger

Unnamed: 0,名前,役割,秘密
0,ロイド,父,スパイ
1,ヨル,母,殺し屋
2,アーニャ,娘,超能力者


In [163]:
# アーニャが所属するイーデン校を表現するDataFrameを作成
df_eden = pd.DataFrame(
    {"名前": ["アーニャ", "ダミアン", "ベッキー", "ビル"], "クラス": ["1年3組", "1年3組", "1年3組", "1年4組"]}
)

# 内容を表示
df_eden

Unnamed: 0,名前,クラス
0,アーニャ,1年3組
1,ダミアン,1年3組
2,ベッキー,1年3組
3,ビル,1年4組


まず、内部結合から試してみましょう。

In [164]:
# onで名前をキーとして指定し、how="inner"で内部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="inner")

Unnamed: 0,名前,役割,秘密,クラス
0,アーニャ,娘,超能力者,1年3組


二つの`DataFrame`に共通する`アーニャ`だけが結合されました。次は、外部結合を試してみます。

In [165]:
# onで名前をキーとして指定し、how="outer"で外部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="outer")

Unnamed: 0,名前,役割,秘密,クラス
0,ロイド,父,スパイ,
1,ヨル,母,殺し屋,
2,アーニャ,娘,超能力者,1年3組
3,ダミアン,,,1年3組
4,ベッキー,,,1年3組
5,ビル,,,1年4組


二つの`DataFrame`の **全て**　のキーが結合対象となります。
フォージャー家の人間（`df_forger`）に関してはイーデン校の`クラス`に関する情報がない場合があり、
逆にイーデン校の人間（`df_eden`）に関してはフォージャー家における`役割`と`秘密`に関する情報がない場合があります。

では、左外部結合ではどうでしょうか？

In [166]:
# onで名前をキーとして指定し、how="left"で左外部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="left")

Unnamed: 0,名前,役割,秘密,クラス
0,ロイド,父,スパイ,
1,ヨル,母,殺し屋,
2,アーニャ,娘,超能力者,1年3組


`df_forger`のキー（名前）が存在する行（`アーニャ`）のみ、`df_eden`から結合されていることがわかります。
右外部結合はその逆です。

In [167]:
# onで名前をキーとして指定し、how="right"で右外部結合を指定
pd.merge(df_forger, df_eden, on="名前", how="right")

Unnamed: 0,名前,役割,秘密,クラス
0,アーニャ,娘,超能力者,1年3組
1,ダミアン,,,1年3組
2,ベッキー,,,1年3組
3,ビル,,,1年4組


`df_eden`のキー（名前）が存在する行（`アーニャ`）のみ、`df_forger`から結合されています。

## データのグルーピングとピボット

データ分析において、データセット内の情報を特定の条件に基づいて集約することは、深い洞察を得るための重要なプロセスです。
本節では、Pandasの`groupby`と`pivot_talbe`を中心にグルーピングとピボットに関して解説します。

### グルーピング

`groupby`メソッドを用いることで、一つまたは複数のキーに基づいたグループに対し、以下に代表される集約操作を適用することができます:
- `mean`: 平均値
- `sum`: 合計
- `min`: 最小値
- `max`: 最大値
- `std`: 標準偏差
- `var`: 分散
- `count`: 欠損値以外の行数
- `first`: 最初の要素
- `last`: 最後の要素
- `nunique`: ユニーク数

例えば、`nunique`を用いることでマンガ作品（`ccid`）ごとの各話（`ceid`）数を算出できます。

In [168]:
# ccidごとにグループ化し、それぞれのceidのユニーク数を集約して冒頭5行を表示
df_ce.groupby("ccid")["ceid"].nunique().reset_index().head()

Unnamed: 0,ccid,ceid
0,C102235,1
1,C109295,10
2,C109296,19
3,C109297,1
4,C110879,1


また、[2章](../02/dists.ipynb)では集約関数`head`を用い、全マンガ作品の連載開始から8話目までを抽出しました。

In [169]:
# まず、dateでソートすることで、発売日順に並ぶように調整
df_ce = df_ce.sort_values(["ccid", "date"], ignore_index=True)

# その上で、マンガ作品（ccid）ごとに冒頭8話を抽出
# 代表的な列のみ選択肢、最初の10行を表示
df_ce.groupby("ccid").head(8)[["ccname", "date", "cename"]].head(10)

Unnamed: 0,ccname,date,cename
0,さばげぶっ！,2014-08-06,出張編
1,マウンドの稲妻,1980-08-18,野性の鉄腕の巻
2,マウンドの稲妻,1980-08-25,●サンダーボンバー誕生の巻
3,マウンドの稲妻,1980-09-01,●エースのあかし!の巻●
4,マウンドの稲妻,1980-09-08,●ボンバーズ登場!!の巻●
5,マウンドの稲妻,1980-09-15,●戦りつのマフィアリーグの巻●
6,マウンドの稲妻,1980-09-22,●マフィアリーグへの出発の巻●
7,マウンドの稲妻,1980-09-29,●マフィアリーグ開戦の巻●
8,マウンドの稲妻,1980-10-06,黒い罠に勝て!の巻
11,SCRAP三太夫,1988-10-03,


このように、`groupby`と集約関数を組み合わせることで、様々な処理を効率的に表現できます。

### ピボット

ピボットテーブルは、データの要約を表形式で表示し、複数の変数に基づいてデータを再構成する手法です。
Pandasの`pivot_table`や`pivot`を用いることで、`DataFrame`内の変数を行、列、値として再配置することができます。

In [170]:
# df_ceに曜日情報を追加
df_ce["weekday"] = pd.to_datetime(df_ce["date"]).dt.weekday

# マンガ雑誌（mcname）別に曜日（weekday）別の発売巻号（miid）数を集計
# 行（index）としてmcname、列（columns）としてweekdayを指定
# valuesで指定した列（miid）をaggfuncで指定した集約関数（nunique）で集約
df_ce.pivot_table(index="mcname", columns="weekday", values="miid", aggfunc="nunique")

weekday,0,1,2,3,4,5,6
mcname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
週刊少年サンデー,9,9,1706,22,16,15,530
週刊少年ジャンプ,2177,25,25,22,22,15,20
週刊少年チャンピオン,554,9,5,1298,444,5,6
週刊少年マガジン,11,13,1673,26,26,20,539
