# **Chapter 8**： Pandas入門

Pandasは、データ分析のためのPythonライブラリです。表形式のデータを扱いやすくするための機能を備えており、データの読み込み、加工、分析、可視化の前処理など、幅広い用途に利用されています。特に、以下のような利点があります：

- 多様なデータソース（CSV、Excel、SQL DBなど）からの読み込みと書き出し
- データのフィルタリングや選択
- データの集計と統計分析
- 欠損値の処理
- データの整形と変換

本章では、Pandasの基本的な使い方について学びます。まず、PandasのSeriesとDataFrameのデータ構造について学びます。方次に、実際のデータの読み込み・保存、データの選択、整形、変換などの基本的な操作を習得し、最後に欠損値の処理方法について学びます。

## 8.1 基本データ構造

Pandasライブラリは通常、以下のように省略形のpdとしてインポートされます：
```python
#Pandasライブラリのインポート
import pandas as pd
```

Pandasには主に2つの重要なデータ構造があります：Series（1次元）とDataFrame（2次元）です。
### 8.1.1 Series
Seriesは、1次元の配列のようなデータ構造で、同じデータ型の要素を持ちます。各要素には、インデックスが関連付けられています。Seriesは、数値データ、文字列、Python オブジェクトなど、さまざまなデータ型を含むことができます。

以下に、`pd.Series()`関数を用いて、Seriesデータ構造の作成例を示す：

- 基本的なSeriesの作成

  ```python
  #リスト 8.1

  import pandas as pd
  import numpy as np

  # 基本的なSeriesの作成
  s1 = pd.Series([1, 3, 5, np.nan, 6, 8])
  print("基本的なSeries:")
  print(s1)
  print("\n")
  ```
  **出力**：Seriesデータ構造をprintすると、データ要素のインデクスと値が表示されます。
  ```python
  基本的なSeries:
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
  ```


- インデックスを指定したSeriesの作成

  ```python
  #リスト 8.2

  import pandas as pd
  import numpy as np

  # インデックスを指定したSeriesの作成
  s2 = pd.Series([1, 3, 5, 7], index=['a', 'b', 'c', 'd'])
  print("カスタムインデックスのSeries:")
  print(s2)
  print("\n")
  ```
  **出力**：
  ```python
カスタムインデックスのSeries:
a    1
b    3
c    5
d    7
dtype: int64
  ```

### 8.1.2 DataFrame
DataFrameは、表形式のデータ（複数の行と列）を扱うための基本的なデータ構造です。行と列にラベルをつけてデータを管理できます。各列は異なるデータ型を持つことができ、行と列の両方にインデックスがあります。

以下に、`pd.DataFrame()`関数を用いて、DataFrameデータ構造の作成例を示す：

- 基本的なDataFrameの作成
  ```python
  #リスト 8.3

  # 日付のリストを作成（インデックスとして使用）
  dates = ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
         '2023-01-05', '2023-01-06']

  # カラム名として使用するIDのリストを作成
  id = [1, 2, 3, 4]

  # 6行×4列のランダムな数値を含むDataFrameを作成
  # インデックスには日付を、カラムにはIDを使用
  df1 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=id)

  # DataFrameの内容を表示
  print("日付インデックスを持つDataFrame:")
  print(df1)
  print("\n")
  ```
  **出力**：
  ```python
日付インデックスを持つDataFrame:
                   1         2         3         4　　←　Colume：リストid
2023-01-01 -0.525684 -0.907877  1.799858 -1.602746
2023-01-02  1.246379 -0.800082 -0.085125  0.678465
2023-01-03  0.788655  0.475271 -0.181730  0.964876
2023-01-04 -0.491685 -0.052435  2.112075  0.496587
2023-01-05  1.286743  0.682022  0.745378  0.488164
2023-01-06 -0.885013 -0.180744 -1.800561 -0.446100
　　　↑
Index: リストdates
```

- 辞書から作成

  ```python
  #リスト 8.4
  
  #辞書を作成
  data = {
    '名前': ['田中', '鈴木', '佐藤', '高橋', '伊藤'],
    '年齢': [25, 30, 22, 35, 28],
    '都市': ['東京', '大阪', '名古屋', '福岡', '札幌'],
    '給料': [300000, 350000, 280000, 400000, 320000]
  }
  df2 = pd.DataFrame(data)
  print("辞書からのDataFrame:")
  print(df2)
  print("\n")
  ```
  **出力**：
  ```python
辞書からのDataFrame:
   名前  年齢   都市      給料
0  田中  25   東京  300000
1  鈴木  30   大阪  350000
2  佐藤  22  名古屋  280000
3  高橋  35   福岡  400000
4  伊藤  28   札幌  320000
```





## 8.2 データファイルの読み込みと保存
データ分析を行うためには、まず外部のファイルからデータを読み込む必要があります。Pandasは、さまざまなファイル形式に対応しており、特にCSV（Comma Separated Values）ファイルは最もよく使用される形式の一つです。

この節では、Pandasを用いて主にどのようなファイル形式を読み込めるのかについて学びます。特に、CSVファイルの読み込み方法や、作成したDataFrameをCSVファイルとして保存する方法について詳しく解説します。それぞれの操作については、具体的なPythonコードを示しながら説明していきます。

### 8.2.1 データの読み込み・保存
Pandasは以下のようなファイル形式からデータを読み込むことができます：

| ファイル形式 | 関数名| 拡張子の例           |
| ------ | ----------------- | --------------- |
| CSV    | `pd.read_csv()`   | `.csv`          |
| Excel  | `pd.read_excel()` | `.xlsx`, `.xls` |
| JSON   | `pd.read_json()`  | `.json`         |
| HTML   | `pd.read_html()`  | `.html`         |
| SQL    | `pd.read_sql()`   | （データベース接続）      |

これらの関数を使うことで、さまざまな形式のデータを簡単にDataFrameとして読み込むことができます。

CSVは最も一般的なデータ形式の一つです。本章では、Google Colaboratory で用意されている**カリフォルニアの住宅価格（California housing dataset）
※**というデータセットを使用します。　次のリストに示すように、`read_csv()`と`to_csv()`関数を使用してCSVファイルの読み込みと保存することができます.

  ```python
  #リスト 8.5

  import pandas as pd

  # CSVファイルの読み込み
  df = pd.read_csv('sample_data/california_housing_train.csv')

  # dfの型の確認
  print(type(df))

  # DataFrameの一部を表示
  print(df.head())

  # dfを新しいCSVファイルとして保存
  df.to_csv('my_sampledata.csv')

  # 'my_sampledata.csv' が存在するかを確認
  !ls my_sampledata.csv

  ```

* `read_csv()`関数を使って、CSVファイルを読み込み、そのデータを`df`という変数（DataFrame型）に格納しています。
* `df.head()`は、データフレームの最初の5行を表示する関数です。データの内容やカラム構成の確認に便利です。
* `to_csv()`関数を使って、DataFrame型の変数をCSVファイルに保存します。
* `ls` はファイルの一覧を表示するLinuxコマンドで、ここでは保存した 'my_sampledata.csv' が存在するかを確認しています。


**出力**
```python
<class 'pandas.core.frame.DataFrame'>
   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -114.31     34.19                15.0       5612.0          1283.0   
1    -114.47     34.40                19.0       7650.0          1901.0   
2    -114.56     33.69                17.0        720.0           174.0   
3    -114.57     33.64                14.0       1501.0           337.0   
4    -114.57     33.57                20.0       1454.0           326.0   

   population  households  median_income  median_house_value  
0      1015.0       472.0         1.4936             66900.0  
1      1129.0       463.0         1.8200             80100.0  
2       333.0       117.0         1.6509             85700.0  
3       515.0       226.0         3.1917             73400.0  
4       624.0       262.0         1.9250             65500.0  
my_sampledata.csv

```

## 8.3 データの選択

Pandasにおいて、DataFrameから必要なデータを効率的に取り出すことは、データ分析の基本的なスキルです。本節では、行と列の選択方法、および条件に基づくデータの抽出方法について学習します。

データの選択機能をより直感的に理解するために、リスト8.4をもとにラベルを追加し、従業員の情報を含む新しいサンプルDataFrameを作成します。これを以降の操作対象として使用します。
  
```python
#リスト 8.6

import pandas as pd
#ラベル(入社年度)を作成
lable = ['R1', 'R2', 'R3', 'R3', 'R4']

#辞書を作成
data = {
    '名前': ['田中', '鈴木', '佐藤', '高橋', '伊藤'],
    '年齢': [25, 30, 22, 35, 28],
    '都市': ['東京', '大阪', '名古屋', '福岡', '札幌'],
    '給料': [300000, 350000, 280000, 400000, 320000]
}

staffs = pd.DataFrame(data, index=lable)
print(staffs)
  ```
  **出力：**
```
    名前  年齢   都市      給料
R1  田中  25   東京  300000
R2  鈴木  30   大阪  350000
R3  佐藤  22  名古屋  280000
R3  高橋  35   福岡  400000
R4  伊藤  28   札幌  320000
```

## 8.3.1 列の選択

* 単一列の選択: DataFrameから特定の列を選択するには、列名を指定します。そのとき、結果はSeriesオブジェクトとなります。
  ```python
  # リスト 8.7

  # 単一列の選択
  names = staffs['名前']
  print(names)
  print(type(names))  # pandas.core.series.Series
  ```
  **出力：**
  ```
R1    田中
R2    鈴木
R3    佐藤
R3    高橋
R4    伊藤
Name: 名前, dtype: object
<class 'pandas.core.series.Series'>
  ```

* 複数列の選択: 複数の列を選択する場合は、列名のリストをを指定します。結果はDataFrameオブジェクトとなります。
  ```python
  # リスト 8.8

  # 複数列の選択
  name_age = staffs[['名前', '年齢']]
  print(name_age)
  print(type(name_age))  # pandas.core.frame.DataFrame
  ```
  **出力：**
  ```
   名前  年齢
R1  田中  25
R2  鈴木  30
R3  佐藤  22
R3  高橋  35
R4  伊藤  28
<class 'pandas.core.frame.DataFrame'>
  ```

## 8.3.2 行の選択
PandasのDataFrameでは、行を選んで取り出すときに、主に2つの方法があります：`iloc`と`loc`です。

* `iloc`：「行番号」で行を選ぶときに使います。番号は0から始まります。
  ```python
  # リスト 8.9

  # 最初の行を選択
  first_row = staffs.iloc[0]
  print("最初の行を選択:")
  print(first_row)
  print("\n")

  # 複数行を選択（2番目から4番目まで）
  selected_rows = staffs.iloc[2:4]
  print("複数行を選択:")
  print(selected_rows)
  ```
  **出力：**
  ```
  最初の行を選択:
  名前        田中
  年齢        25
  都市        東京
  給料    300000
  Name: R1, dtype: object

  複数行を選択:
      名前  年齢   都市      給料
  R3  佐藤  22  名古屋  280000
  R3  高橋  35   福岡  400000
  ```

* `loc`：「indexのラベル」で行を選びます。indexのラベルが設定されていない場合、Pandasは自動的に数値の行番号（0, 1, 2, ...）をインデックスとして使用します。
  ```python
  # リスト 8.10

  # R2年度入社の社員を選択
  r2_staff = staffs.loc['R2']
  print("R2年度入社の社員を選択:")
  print(r2_staff)
  print("\n")

  # 複数の行を選択
  multiple_staff = staffs.loc[['R1', 'R3']]
  print("R1, R3年度入社の社員を選択:")
  print(multiple_staff)
  ```

  **出力：**
  ```
  R2年度入社の社員を選択:
  名前        鈴木
  年齢        30
  都市        大阪
  給料    350000
  Name: R2, dtype: object

  R1, R3年度入社の社員を選択:
      名前  年齢   都市      給料
  R1  田中  25   東京  300000
  R3  佐藤  22  名古屋  280000
  R3  高橋  35   福岡  400000
  ```


## 8.3.3 行と列の同時選択
`iloc`や`loc`を使用して、以下の例のように行と列の特定の組み合わせを選択できます。


* `iloc`：「行番号」で行を選ぶときに使います。番号は0から始まります。
  ```python
  # リスト 8.11

  # 最初の3行、最初の2列を選択
  subset_iloc = staffs.iloc[0:3, 0:2]
  print("最初の3行、最初の2列を選択:")
  print(subset_iloc)

  # 特定の行と列を選択
  specific_cells = staffs.iloc[[0, 2], [0, 3]]
  print("\n特定の行（（0，2番））と列（0，3番）を選択:")
  print(specific_cells)
  ```

  **出力：**
  ```
  最初の3行、最初の2列を選択:
      名前  年齢
  R1  田中  25
  R2  鈴木  30
  R3  佐藤  22
  特定の行（（0，2番））と列（0，3番）を選択:
      名前      給料
  R1  田中  300000
  R3  佐藤  280000
  ```

* `loc`：「indexのラベル」で行を選びます。indexのラベルが設定されていない場合、Pandasは自動的に数値の行番号（0, 1, 2, ...）をインデックスとして使用します。
  ```python
  # リスト 8.12

  # R1とR2の名前と年齢を選択
  print('R1とR2の名前と年齢を選択')
  subset = staffs.loc[['R1', 'R2'], ['名前', '年齢']]
  print(subset)
  print('\n')

  # 全ての行の名前と年齢を選択
  print('全ての行の名前と年齢を選択')
  all_name_age = staffs.loc[:, ['名前', '年齢']]
  print(all_name_age)
  print('\n')
  ```

  **出力：**
  ```
  R1とR2の名前と年齢を選択
      名前  年齢
  R1  田中  25
  R2  鈴木  30

  全ての行の名前と年齢を選択
      名前  年齢
  R1  田中  25
  R2  鈴木  30
  R3  佐藤  22
  R3  高橋  35
  R4  伊藤  28
  ```

## 8.3.4 条件に基づく選択
条件に基づく選択とは、データの中から特定の条件を満たす行を取り出す方法です。Pandasでは、条件式を使って行をフィルタリングできます。

* 単一条件による選択

  ```python
  # リスト 8.13

  # 年齢が30歳以上の社員を選択
  age_over_30 = staffs[staffs['年齢'] >= 30]
  print("年齢が30歳以上の社員を選択")
  print(age_over_30)

  # 給料が350,000円以上の社員を選択
  high_salary = staffs[staffs['給料'] >= 350000]
  print("\n給料が350,000円以上の社員を選択")
  print(high_salary)
  ```

  **出力：**
  
  ```
  年齢が30歳以上の社員を選択
      名前  年齢  都市      給料
  R2  鈴木  30  大阪  350000
  R3  高橋  35  福岡  400000

  給料が350,000円以上の社員を選択
      名前  年齢  都市      給料
  R2  鈴木  30  大阪  350000
  R3  高橋  35  福岡  400000
  ```


* 複数条件による選択

  複数の条件を組み合わせて選択を行う場合は、`&`（AND）、`|`（OR）、`~`（NOT）演算子を使用します。各条件は必ず括弧で囲む必要があります。

  ```python
  # リスト 8.14

  # 年齢が25歳以上かつ給料が320000円以上の社員
  condition_and = staffs[(staffs['年齢'] >= 25) & (staffs['給料'] >= 320000)]
  print("年齢が25歳以上かつ給料が320000円以上の社員")
  print(condition_and)

  # 年齢が25歳未満または給料が400000円以上の社員
  condition_or = staffs[(staffs['年齢'] < 25) | (staffs['給料'] >= 400000)]
  print("\n年齢が25歳未満または給料が400000円以上の社員")
  print(condition_or)

  # 都市が東京ではない社員
  not_tokyo = staffs[~(staffs['都市'] == '東京')]
  print("\n都市が東京ではない社員")
  print(not_tokyo)
  ```

  **出力：**
  
  ```
  年齢が25歳以上かつ給料が320000円以上の社員
      名前  年齢  都市      給料
  R2  鈴木  30  大阪  350000
  R3  高橋  35  福岡  400000
  R4  伊藤  28  札幌  320000

  年齢が25歳未満または給料が400000円以上の社員
      名前  年齢   都市      給料
  R3  佐藤  22  名古屋  280000
  R3  高橋  35   福岡  400000

  都市が東京ではない社員
      名前  年齢   都市      給料
  R2  鈴木  30   大阪  350000
  R3  佐藤  22  名古屋  280000
  R3  高橋  35   福岡  400000
  R4  伊藤  28   札幌  320000
  ```

## 8.3.5 条件に基づく値の更新
Pandasでは、条件を使って特定の行を選び、その値を一括で変更できます。
例えば、社員の「年齢が30歳以上」の場合に、給料を一律に増加させるといった操作が可能です。

```python
# リスト 8.14

# 年齢が30以上の従業員の給料を10%アップ
staffs_copy = staffs.copy()  # 元データを保持するためコピーを作成
staffs_copy['給料'] = staffs_copy['給料'].astype(float)
staffs_copy.loc[staffs_copy['年齢'] >= 30, '給料'] *= 1.1
print(staffs_copy)
```
**出力：**
  
```
    名前  年齢   都市        給料
R1  田中  25   東京  300000.0
R2  鈴木  30   大阪  385000.0
R3  佐藤  22  名古屋  280000.0
R3  高橋  35   福岡  440000.0
R4  伊藤  28   札幌  320000.0
```

## 8.4 データの追加と削除

### 8.4.1 列の追加と削除
DataFrameに列を追加する場合は、追加したい新たな列名を指定し、値を代入すると新たな列を追加できます。以下のリストように、`staffs`中に新しい列`部署`を追加します。

```python
# リスト 8.15

# 新しい列を追加
staffs['部署'] = ['営業', '開発', '人事', '営業', '開発']
print("「部署」列追加後：")
print(staffs)
```
**出力：**
  
```
「部署」列追加後：
    名前  年齢   都市      給料  部署
R1  田中  25   東京  300000  営業
R2  鈴木  30   大阪  350000  開発
R3  佐藤  22  名古屋  280000  人事
R3  高橋  35   福岡  400000  営業
R4  伊藤  28   札幌  320000  開発
```

DataFrameに列を削除する場合は、 `del` 文 と `drop()` メソッド を用いて列の削除することができます。
* `del` 文：Pythonの組み込み文である `del` を用いると、DataFrameから列を直接削除することができます。
  ```python
  # リスト 8.16

  # '部署'列を削除
  del staffs['部署']  
  print("「部署」列を削除後：")
  print(staffs)
  ```
  **出力：**
  
  ```
  「部署」列を削除後：
      名前  年齢   都市      給料
  R1  田中  25   東京  300000
  R2  鈴木  30   大阪  350000
  R3  佐藤  22  名古屋  280000
  R3  高橋  35   福岡  400000
  R4  伊藤  28   札幌  320000
  ```

* `drop() ` メソッド：消去したい列データor行データのラベルを指定すると、行や列を削除することができます。削除の対象を列にする場合は、axis=1 を指定します。
  ```python
  # リスト 8.17

  # '年齢'列を削除
  staffs_age_del = staffs.drop('年齢', axis=1)
  print("「年齢」列を削除後：")
  print(staffs_age_del)
  ```
  **出力：**
  
  ```
  「年齢」列を削除後：
      名前   都市      給料
  R1  田中   東京  300000
  R2  鈴木   大阪  350000
  R3  佐藤  名古屋  280000
  R3  高橋   福岡  400000
  R4  伊藤   札幌  320000
  ```

### 8.4.2 行追加と削除

DataFrameに新しい行を直接追加するには、`loc`を使ってインデックスを指定し、値を代入します。Pandas 1.4以降では、`concat()`メソッドを用いて行を追加することができます。

  ```python
  # リスト 8.18

  # 新しい行を追加（loc使用）
  staffs.loc['R5'] = ['山田', 27, '京都', '330000']
  print("\n行追加後：")
  print(staffs)

  # concatを使った行の追加
  new_row = pd.DataFrame({
      '名前': ['森田'],
      '年齢': [29],
      '都市': ['神戸'],
      '給料': [340000],
  }, index=['R6'])

  staffs = pd.concat([staffs, new_row])
  print("\nconcat使用後：")
  print(staffs)
  ```
  **出力：**
  
  ```
行追加後：
    名前  年齢   都市      給料
R1  田中  25   東京  300000
R2  鈴木  30   大阪  350000
R3  佐藤  22  名古屋  280000
R3  高橋  35   福岡  400000
R4  伊藤  28   札幌  320000
R5  山田  27   京都  330000

concat使用後：
    名前  年齢   都市      給料
R1  田中  25   東京  300000
R2  鈴木  30   大阪  350000
R3  佐藤  22  名古屋  280000
R3  高橋  35   福岡  400000
R4  伊藤  28   札幌  320000
R5  山田  27   京都  330000
R6  森田  29   神戸  340000
  ```

行を削除する場合、`drop() ` メソッドを用いて、消去したいr行データのラベルを指定します。

  ```python
  # リスト 8.19

  # 行を削除
  staffs_row_drop = staffs.drop('R5')
  print("R5行削除後：")
  print(staffs_row_drop)

  # 複数行を削除
  staffs_multi_row_drop = staffs.drop(['R1', 'R3'])
  print("\n複数行削除後：")
  print(staffs_multi_row_drop)
  ```
  **出力：**
  
  ```
R5行削除後：
    名前  年齢   都市      給料
R1  田中  25   東京  300000
R2  鈴木  30   大阪  350000
R3  佐藤  22  名古屋  280000
R3  高橋  35   福岡  400000
R4  伊藤  28   札幌  320000
R6  森田  29   神戸  340000

複数行削除後：
    名前  年齢  都市      給料
R2  鈴木  30  大阪  350000
R4  伊藤  28  札幌  320000
R5  山田  27  京都  330000
R6  森田  29  神戸  340000
  ```

## 8.5 データの結合

Pandasでは、`concat`や`merge`などの関数を用いてDataFrameを結合することができます。

### 8.5.1 `concat()`による結合 (連結)
`concat`関数は、複数のDataFrameを縦または横に結合するために使います。関数のパラメータ`axis=0`は縦方向（行単位）、`axis=1`は横方向（列単位）で結合します。例として、新しいスタッフ情報`staffs_new`を追加するDataFrameを作成してみましょう。

  ```python
  # リスト 8.20

  # 新しいDataFrameを作成
  data_new = {
      '名前': ['森田', '山本'],
      '年齢': [29, 32],
      '都市': ['神戸', '京都'],
      '給料': [310000, 360000]
  }
  staffs_new = pd.DataFrame(data_new, index=['R5', 'R6'])
  print("新しいスタッフ情報")
  print(staffs_new)
  ```
  **出力：**
  
  ```
    新しいスタッフ情報
      名前  年齢  都市      給料
  R5  森田  29  神戸  310000
  R6  山本  32  京都  360000
  ```
元の `staffs` （リスト8.6）と縦に結合する場合、次のリストようにします。

  ```python
  # リスト 8.21

  # 縦に結合
  staffs_combined = pd.concat([staffs, staffs_new])
  print("データの縦に結合")
  print(staffs_combined)
  ```
  **出力：**
  
  ```
データの縦に結合
    名前  年齢   都市      給料
R1  田中  25   東京  300000
R2  鈴木  30   大阪  350000
R3  佐藤  22  名古屋  280000
R3  高橋  35   福岡  400000
R4  伊藤  28   札幌  320000
R5  森田  29   神戸  310000
R6  山本  32   京都  360000
  ```
この操作により、元の5名の社員データに新たに2名が追加され、7名分のデータとなります。`concat()`のデフォルトは`axis=0`（縦方向）で、各データフレームの行が順次積み重ねられます。重要な点は、列の構造が同一であることが必要だということです。



また、`concat`関数のパラメータ`axis=1 `を指定すると、DataFrameを横方向に連結します。共通のインデックスに基づいて列が追加されます。
下のリストは、各スタッフの部署情報を持つDataFrameを作成し、横方向に連結してみましょう。

  ```python
  # リスト 8.22

  # 部署情報
  depart_data = {
      '部署': ['営業部', '開発部', '人事部', '営業部', '開発部']
  }
  depart_lable = ['R1', 'R2', 'R3', 'R3', 'R4'] # staffsと同じインデックス
  departs = pd.DataFrame(depart_data, index=depart_lable)
  print("部署 データフレーム")
  print(departs)

  # 横方向に連結 (同じインデックスを持つ行同士が結合される)
  staffs_concat_axis1 = pd.concat([staffs, departs], axis=1)
  print("\n横方向に連結 (concat axis=1)")
  print(staffs_concat_axis1)
  ```
  **出力：**
  
  ```
部署 データフレーム
     部署
R1  営業部
R2  開発部
R3  人事部
R3  営業部
R4  開発部

横方向に連結 (concat axis=1)
    名前  年齢   都市      給料   部署
R1  田中  25   東京  300000  営業部
R2  鈴木  30   大阪  350000  開発部
R3  佐藤  22  名古屋  280000  人事部
R3  高橋  35   福岡  400000  営業部
R4  伊藤  28   札幌  320000  開発部
  ```
`axis=1`を指定することで、列方向の結合が実行されます。この場合、インデックスが一致する行同士が結合され、新しい列（部門）が追加されます。インデックスが一致しない場合は、NaN値が挿入されることに注意が必要です。


### 8.5.2 `merge`による結合
`merge`関数は、2つのDataFrameを特定の列（キー）を基準にして結合するため機能です。ここでは、`staffs`のDataFrameに加えて、新たにdepartmentsというDataFrameを作成し、これら2つを結合してみましょう。

 ```python
  # リスト 8.23

  # 新しいDataFrameを作成
  data_new = {
      '名前': ['田中', '佐藤', '鈴木', '山田'],
      '部署': ['営業部', '開発部', '人事部', '総務部']
  }
  departments = pd.DataFrame(data_new)
  print("部署データ")
  print(departments)
  ```
  **出力：**
  
  ```
  部署データ
   名前   部署
0  田中  営業部
1  佐藤  開発部
2  鈴木  人事部
3  山田  総務部
  ```
`merge`関数は、次のように使います.
 ```python
  pd.merge(left, right, on='キー列', how='結合方法') のように使います。
  ```
  * `left`: 左側のDataFrame (`staffs`)
  * `right`: 右側のDataFrame (`departments`)
  * `on`: キーとして使用する列名 (`名前`)
  * `how`: 結合の方法（内部、全、左外部、右外部）

二つのDataFrameを結合する方法は、内部結合、全結合、左外部結合、右外部結合の4パターンがあります。
  * **内部結合 (Inner Join)**:　両方のDataFrameに共通して存在するキーの行だけを結合します。how='inner' を指定しますが、これはデフォルトなので省略可能です。
 ```python
  # リスト 8.24

  # 内部結合
　staffs_inner = pd.merge(staffs, departments, on='名前')
  print("内部結合結果")
  print(staffs_inner)
  ```
**出力：**
  ```
内部結合結果
      名前  年齢   都市      給料   部署
0  田中  25   東京  300000  営業部
1  鈴木  30   大阪  350000  人事部
2  佐藤  22  名古屋  280000  開発部
  ```
この操作により、`staffs`と`departments`の両方に存在する「田中」「鈴木」「佐藤」のデータだけが結合されました。「高橋」「伊藤」（`staffs`のみ）や「山田」（`departments`のみ）は結果に含まれません。

  * **全外部結合 (Full Outer Join)**：　全外部結合は、どちらかのDataFrameに存在するキーの行をすべて結合します。片方にしか存在しないキーの行では、もう片方のDataFrameの列は `NaN` (Not a Number) となります。`how='outer'` を指定します。
 ```python
  # リスト 8.25

  # 全外部結合
　staffs_fullout = pd.merge(staffs, departments, on='名前', how='outer')
  print("全外部結合結果")
  print(staffs_fullout)
  ```
**出力：**
  ```
全外部結合結果
   名前    年齢   都市        給料   部署
0  伊藤  28.0   札幌  320000.0  NaN
1  佐藤  22.0  名古屋  280000.0  開発部
2  山田   NaN  NaN       NaN  総務部
3  田中  25.0   東京  300000.0  営業部
4  鈴木  30.0   大阪  350000.0  人事部
5  高橋  35.0   福岡  400000.0  NaN
  ```
全外部結合により、`staffs`と`departments`のすべての「名前」が結果に含まれています。「伊藤」と「高橋」はdepartmentsに情報がないため、「部署」列がNaNになっています。同様に、「山田」はstaffsに情報がないため、「年齢」「都市」「給料」がNaNになっています。出力の結果の順序は、通常はUnicodeのコードポイント順でソートされます。

  * **左外部結合 (Left Outer Join)**: 左側のDataFrame (`staffs`) のキーをすべて残し、それに右側のDataFrame (`departments`) を結合します。右側に一致するキーがない場合は `NaN` となります。`how='left'` を指定します。
 ```python
  # リスト 8.26

  # 左外部結合
  staffs_left = pd.merge(staffs, departments, on='名前', how='left')
  print("左外部結合結果")
  print(staffs_left)
  ```
**出力：**
  ```
  左外部結合結果
    名前  年齢   都市      給料   部署
  0  田中  25   東京  300000  営業部
  1  鈴木  30   大阪  350000  人事部
  2  佐藤  22  名古屋  280000  開発部
  3  高橋  35   福岡  400000  NaN
  4  伊藤  28   札幌  320000  NaN
  ```
左外部結合により、左側の`staffs`の全データ（田中、鈴木、佐藤、高橋、伊藤）が残っています。`departments`にデータのない「高橋」と「伊藤」の「部署」列が`NaN`になっています。


  * **右外部結合 (Right Outer Join)**: 右側のDataFrame (departments) のキーをすべて残し、それに左側のDataFrame (staffs) を結合します。左側に一致するキーがない場合は NaN となります。how='right' を指定します。
 ```python
  # リスト 8.27

  # 右外部結合
  staffs_right = pd.merge(staffs, departments, on='名前', how='right')
  print("右外部結合結果")
  print(staffs_right)
  ```
**出力：**
  ```
  右外部結合結果
    名前    年齢   都市        給料   部署
  0  田中  25.0   東京  300000.0  営業部
  1  佐藤  22.0  名古屋  280000.0  開発部
  2  鈴木  30.0   大阪  350000.0  人事部
  3  山田   NaN  NaN       NaN  総務部
  ```
  右側の`departments`の全データ（田中、佐藤、鈴木、山田）が残っています。`staffs`にデータのない「山田」の「年齢」「都市」「給料」列が`NaN`になっています。
  




## 8.6 欠損値の除去 / 補間
データ分析を行う際、データセットに欠損値（値が存在しないこと、`NaN` (Not a Number) ）が含まれていることはよくあります。これは、データ収集時のエラー、意図的な未入力、または他の多くの理由で発生します。欠損値は、計算エラーや分析結果の歪みを引き起こす可能性があるため、適切に処理する必要があります。

本節では、リスト8.25の全外部結合によって得られたデータ `staffs_fullout` を例に、欠損値への代表的な対応方法である「除去」と「補間」について学びます。

  ```
   名前    年齢   都市        給料   部署
0  伊藤  28.0   札幌  320000.0  NaN
1  佐藤  22.0  名古屋  280000.0  開発部
2  山田   NaN  NaN       NaN  総務部
3  田中  25.0   東京  300000.0  営業部
4  鈴木  30.0   大阪  350000.0  人事部
5  高橋  35.0   福岡  400000.0  NaN
  ```


### 8.6.1　欠損値の検出
データに欠損値（NaN）が含まれているかどうかを判定するために、`isnull()` メソッドを用います。次の例のように、`isnull()` メソッドは、各要素が欠損しているかどうかを調べ、その結果を同じ形状のブール値（True または False）のデータ構造で返します。
 ```python
  # リスト 8.28

　# 欠損値の検出
  print("欠損値のブール値")
  print(staffs_fullout.isnull())
  ```
**出力：**
  ```
  欠損値のブール値
      名前     年齢     都市     給料     部署
  0  False  False  False  False   True
  1  False  False  False  False  False
  2  False   True   True   True  False
  3  False  False  False  False  False
  4  False  False  False  False  False
  5  False  False  False  False   Tru
  ```
また、欠損値のブール値を基づいて、データ中の欠損値の状況を把握することができます。
 ```python
  # リスト 8.29

　print("各列の欠損値数:")
  print(staffs_fullout.isnull().sum())

  print("\n欠損値の割合:")
  print(staffs_fullout.isnull().mean() * 100)

  print("\n欠損値の詳細情報:")
  print(staffs_fullout.info())
  ```
**出力：**
  ```
  各列の欠損値数:
  名前    0
  年齢    1
  都市    1
  給料    1
  部署    2
  dtype: int64

  欠損値の割合:
  名前     0.000000
  年齢    16.666667
  都市    16.666667
  給料    16.666667
  部署    33.333333
  dtype: float64

  欠損値の詳細情報:
  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 6 entries, 0 to 5
  Data columns (total 5 columns):
  #   Column  Non-Null Count  Dtype  
  ---  ------  --------------  -----  
  0   名前      6 non-null      object
  1   年齢      5 non-null      float64
  2   都市      5 non-null      object
  3   給料      5 non-null      float64
  4   部署      4 non-null      object
  dtypes: float64(2), object(3)
  memory usage: 372.0+ bytes
  None
  ```

### 8.6.2　欠損値の除去
`dropna()`メソッドを用いて、欠損値を含む行や列をまるごと削除するができます。
  
  * **行削除**：
  欠損値を含む行を完全に削除する方法です。データ量が十分にある場合に使用します。

  ```python
  # リスト 8.30

  # 欠損値を含む行を削除
  staffs_drop_rows = staffs_fullout.dropna()
  print("行削除後のデータ:")
  print(staffs_drop_rows)
  print(f"元のデータ行数: {len(staffs_fullout)}")
  print(f"削除後のデータ行数: {len(staffs_drop_rows)}")
  ```
**出力：**
  ```
  行削除後のデータ:
    名前    年齢   都市        給料   部署
  1  佐藤  22.0  名古屋  280000.0  開発部
  3  田中  25.0   東京  300000.0  営業部
  4  鈴木  30.0   大阪  350000.0  人事部
  元のデータ行数: 6
  削除後のデータ行数: 3
  ```
  
  * **列削除**: 欠損値を含む列を削除するには、axis=1を指定します。その列の情報が分析に重要でない場合に使用します。

  ```python
  # リスト 8.31

  # 欠損値を含む列を削除
  staffs_drop_cols = staffs_fullout.dropna(axis=1)
  print("列削除後のデータ:")
  print(staffs_drop_cols)
  print(f"元のデータ列数: {staffs_fullout.shape[1]}")
  print(f"削除後のデータ列数: {staffs_drop_cols.shape[1]}")
  ```
**出力：**
  ```
  列削除後のデータ:
    名前
  0  伊藤
  1  佐藤
  2  山田
  3  田中
  4  鈴木
  5  高橋
  元のデータ列数: 5
  削除後のデータ列数: 1
  ```
  欠損値を含む列を削除する場合、情報が大きく失われる可能性があるため、除去の前には注意が必要です。

### 8.6.3 欠損値の補間
欠損値を削除する代わりに、`fillna()`メソッドを用いて、欠損値を適切な値で埋める（補間）ことも可能です。欠損値の補間は、元のデータを失わずに分析を続けられる利点があります。

  * **特定の値で補間**: 最も基本的な補間方法で、欠損値をあらかじめ決めておいた特定の値で置き換えます。
 ```python
  # リスト 8.32

  # 特定の値で補間
  staffs_fill_fixed = staffs_fullout.copy()
  staffs_fill_fixed['年齢'] = staffs_fill_fixed['年齢'].fillna(30)  # 年齢の欠損値を30で補間
  staffs_fill_fixed['都市'] = staffs_fill_fixed['都市'].fillna('未定') # 都市の欠損値を'未定'で補間
  staffs_fill_fixed['給料'] = staffs_fill_fixed['給料'].fillna(300000) # 給料の欠損値を300000で補間
  staffs_fill_fixed['部署'] = staffs_fill_fixed['部署'].fillna('開発部') # 部署'の欠損値を'開発部'で補間

  print("特定の値で補間後のデータ:")
  print(staffs_fill_fixed)
  ```
**出力：**
  ```
  特定の値で補間後のデータ:
    名前    年齢   都市        給料   部署
  0  伊藤  28.0   札幌  320000.0  開発部
  1  佐藤  22.0  名古屋  280000.0  開発部
  2  山田  30.0   未定  300000.0  総務部
  3  田中  25.0   東京  300000.0  営業部
  4  鈴木  30.0   大阪  350000.0  人事部
  5  高橋  35.0   福岡  400000.0  開発部
  ```

  * **統計値で補間**: 欠損していないデータの平均値や中央値、最頻値などを使って欠損値を補間する。
 ```python
  # リスト 8.33
  # 統計値で補間
  staffs_fill_statistics = staffs_fullout.copy()

  # 年齢を平均値で補間
  age_avg = staffs_fill_statistics['年齢'].mean()
  staffs_fill_statistics['年齢'] = staffs_fill_statistics['年齢'].fillna(age_avg)

  # 給料を中央値でで補間
  salary_median = staffs_fill_statistics['給料'].median()
  staffs_fill_statistics['給料'] = staffs_fill_statistics['給料'].fillna(salary_median)

  # 部署を最頻値でで補間
  department_mode = staffs_fill_statistics['部署'].mode()[0]
  staffs_fill_statistics['部署'] = staffs_fill_statistics['部署'].fillna(department_mode)

  print("統計値で補間後のデータ:")
  print(staffs_fill_statistics)
  ```
**出力：**
  ```
    統計値で補間後のデータ:
      名前    年齢   都市        給料   部署
    0  伊藤  28.0   札幌  320000.0  人事部
    1  佐藤  22.0  名古屋  280000.0  開発部
    2  山田  28.0  NaN  320000.0  総務部
    3  田中  25.0   東京  300000.0  営業部
    4  鈴木  30.0   大阪  350000.0  人事部
    5  高橋  35.0   福岡  400000.0  人事部
  ```

  * **前後の値で補間**:欠損値の直前または直後の値を使って補う方法です。特に時系列データなど、データの順序が意味を持つ場合に有効です。

 ```python
  # リスト 8.34
  # 前方補間（forward fill）
  staffs_ffill = staffs_fullout.ffill()
  print("前方補間後のデータ:")
  print(staffs_ffill)

  # 後方補間（backward fill）
  staffs_bfill = staffs_fullout.bfill()
  print("\n後方補間後のデータ:")
  print(staffs_bfill)
  ```
**出力：**
  ```
  前方補間後のデータ:
    名前    年齢   都市        給料   部署
  0  伊藤  28.0   札幌  320000.0  NaN
  1  佐藤  22.0  名古屋  280000.0  開発部
  2  山田  22.0  名古屋  280000.0  総務部
  3  田中  25.0   東京  300000.0  営業部
  4  鈴木  30.0   大阪  350000.0  人事部
  5  高橋  35.0   福岡  400000.0  人事部

  後方補間後のデータ:
    名前    年齢   都市        給料   部署
  0  伊藤  28.0   札幌  320000.0  開発部
  1  佐藤  22.0  名古屋  280000.0  開発部
  2  山田  25.0   東京  300000.0  総務部
  3  田中  25.0   東京  300000.0  営業部
  4  鈴木  30.0   大阪  350000.0  人事部
  5  高橋  35.0   福岡  400000.0  NaN
  ```



本章では、Pandasライブラリの基本的な機能を学びました。DataFrameの構造に始まり、ファイルの読み書き、データの選択、整形、欠損値の処理といった、データ分析の第一歩となる操作を身につけました。次章では、これらの技術を用いて、より実践的なデータの分析方法へと進みます。