<a href="https://colab.research.google.com/github/takahiromiura/class-data-analysis-II-2024/blob/main/notebooks/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas 入門

[`pandas`](https://pandas.pydata.org/docs/index.html) は 様々な I/O (入出力) 処理、高機能なデータ処理の機能を提供する Python の外部ライブラリです。
例えば、`csv` や `xlsx` (エクセルのデータ形式) などのデータファイルの読み込み・書き込みや、複数のデータの結合などを可能にします。
まず、`pandas` の基本的な使い方について説明します。

## キーワード

- `Series`, `DataFrame`
- インデックス・カラム
- データ型
- `groupby`

## 基本的なデータ構造の概念

`pandas` で基本となるデータ構造 (クラス) は、`Series` と `DataFrame` です。
`Series` と `DataFrame` は、今までに学んだリストや辞書などのデータ構造と似ている部分もありますが、異なる部分もあります。
特に重要な概念について、先に触れておきます。

### インデックス・カラム

`Series` は 1 次元のラベル付きベクトル (または配列) で、`DataFrame` は 2 次元のラベル付き行列 (または表形式のデータ)です。
ラベルを用いることで特定の要素、`DataFrame` であれば特定の行や列のデータを参照できます。

**インデックス** は、データを横に切った場合の *行* を識別するためのラベルです。
`Series` と `DataFrame` どちらでも、インデックスによってデータの位置が特定できます。

**カラム** は、データを縦に切った場合の *列* を識別するためのラベルです。
`DataFrame` では、カラム毎に異なるデータ型を持つことができ、それぞれが特定の種類のデータを表します。

### データ型

**データ型** は、`DataFrame` のそれぞれのカラムのデータや `Series` のデータが数値、文字列、日付など何を表すかを定義します。
適切なデータ型を使用することが、データの分析・操作を効率的かつ正確に行うために重要です。

## Series, DataFrame の作成例

以下は `Series` の作成例です。


In [1]:
from pandas import Series
Series([1, 2, 3])

Unnamed: 0,0
0,1
1,2
2,3


`0, 1, 2` というのが、各要素 (行) ごとについているラベル (インデックス) です。
このラベルを用いて、各要素 (行) を参照できます。

In [2]:
data = Series([1, 2, 3])
data[0]

1

以下は `DataFrame` の作成例です。


In [3]:
from pandas import DataFrame
DataFrame({"item": ["apple", "melon"], "price": [100, 1000]})

Unnamed: 0,item,price
0,apple,100
1,melon,1000


`item`, `price` はカラムのラベルを示しています。
以下は、ラベルを用いて特定の列 (カラム) を参照しています。


In [4]:
data = DataFrame({"item": ["apple", "melon"], "price": [100, 1000]})
data["item"]

Unnamed: 0,item
0,apple
1,melon


R を使ったことがある人はピンとくるかもしれませんが、DataFrame は R の data.frame 型と同じようなものです。 実際、pandas は R のデータ整理用のパッケージ、dplyr でできることの多くを実装しています。

## pandas のインポート

`pandas` のインポートは次のように行います。

In [5]:
import pandas

通常、`pandas` は `pd` という略称でインポートされることが多いです。

In [6]:
import pandas as pd

`pd` という略称は、`pandas` を使用する際の一般的な慣例です。
これは多くの専門書やオンライン資料で一般的に見られます。
標準化された略称を使用することで、コードの可読性が向上し、他の開発者がコードを理解しやすくなります。

以降では、`pandas.<name>` を `pd.<name>` として表記します。

## Series の基礎

### Series の作成

`Series` はリストやタプルなどのシーケンス型から生成できます。

In [7]:
Series([1, 2, 3])

Unnamed: 0,0
0,1
1,2
2,3


リストやタプルなどと異なる部分があることがわかります。
順に説明します。

### インデックス

左の `0, 1, 2` がこの `Series` インスタンスのインデックスです。
リストやタプルなどでもインデックスがありましたが、それとは少し異なります。
`Series` や `DataFrame` におけるインデックスは、ある行を表す名前です。
何も指定しない場合、先ほどのように、`0, 1, 2` という通し番号が振られます。
リストやタプルにおけるインデックスは通し番号であったのに対し、`Series` や `DataFrame` のインデックスは指定・変更することが可能です。

インデックスをあらかじめ指定するには、クラスを作成するときの引数にインデックスのシーケンスを加えます。

In [8]:
Series([1, 2, 3], index=["A", "B", "C"])

Unnamed: 0,0
A,1
B,2
C,3


インデックスは `index` 属性として呼び出し可能で、また上書きをすることでインデックスを更新できます。

In [9]:
data = Series([1, 2, 3])
data.index
data.index = ["A", "B", "C"]
data

Unnamed: 0,0
A,1
B,2
C,3


`RangeIndex(start=0, stop=3, step=1)` は `range` 関数が返すイテレーターのようなもので、0 から 3 の直前 (2) までの値を順に返すイテレーターであるということを意味しています。

データの長さとインデックスの長さ、つまり要素の数が一致していない場合はエラーになります。
以下のエラー文では、3 つの要素が求められているが、1 つしか得られなかったことでエラー (`ValueError`) になったと説明しています。

In [10]:
data = Series([1, 2, 3])
# data.index = ["A"]

`Series` や `DataFrame` では、インデックスの値の重複を許します。
例えば、`Series([1, 2, 3], index=["A", "A", "B"])` はエラーにはなりません。
しかし、インデックスが重複すると思わぬエラーや意図せぬ挙動を引き起こす可能性があるため、インデックスはデータ内で一意にすることをおすすめします。

### Series の要素の取り出し

インデックスを指定することで、それに対応するデータの値を取り出すことができます。

In [11]:
data = Series([1, 2, 3], index=["A", "B", "C"])
data["A"]

1

`loc` プロパティというものを使っても値を参照することができます。
プロパティは、インスタンスから値を参照したり、逆に値を追加したりするときに使うための機能を指します。
プロパティの呼び出しは、属性やメソッドと同じようにドット `.` を用います。
プロパティの使い方は、プロパティがどのような機能を持っているかによって異なってきます。

例えば、`loc` プロパティは次のように使います。

In [12]:
data.loc["A"]

1

`loc("A")` ではないことに注意してください。

また、`iloc` プロパティというものもあり、これはリストやタプルと同じように、通し番号によって要素を参照できます。
Python ではお約束通り、通し番号は `0` から始まります。

`iloc` プロパティの使い方は `loc` プロパティと似ています。

In [13]:
data.iloc[1]

2

また、負の値の通し番号も振られています。

In [14]:
data.iloc[-1]

3

### データ型

`dtype` はこの `Series` のデータ型を示しています。
これは、中に含まれているデータ全体の型を表しています。
基本的にはデータの型を指定する必要はなく、`Series` を作成すると自動的にデータの全体の型を類推してくれます。

In [15]:
Series([1, 2, 3])

Unnamed: 0,0
0,1
1,2
2,3


データは整数 (`int`) 型だったので、`dtype` は `int64` になりました。

`int` の後の数字はビット数で、64 ビットは -9223372036854775808 から 9223372036854775807 までの整数値を扱えます。
他に、`int8` や `int16`、`int32` などがあります。
基本的には、ビット数が多いものを使えば良いでしょう。

小数点型をデータに含めるとどうなるでしょうか。

In [16]:
Series([1.25, 2, 3])

Unnamed: 0,0
0,1.25
1,2.0
2,3.0


`dtype` は小数点のデータ型、`float64` になったことがわかります。

文字列をデータに加えてみます。

In [17]:
Series(["A", 1, 2])

Unnamed: 0,0
0,A
1,1
2,2


## DataFrame の基礎

### DataFrame の作成

`DataFrame` は値がリストの辞書やリストのリストなど、いくつかの方法を使ってデータを作成できます。
しかし、データの作り方によってどのような `DataFrame` ができるかが異なるので注意が必要です。

辞書の場合、各キーのリストが各カラムに対応します。

In [18]:
DataFrame({"item": ["apple", "melon"], "price": [100, 1000]})

Unnamed: 0,item,price
0,apple,100
1,melon,1000


リストが入れ子になっている場合、各リストのインデックスが各カラムに対応します。

In [19]:
data = DataFrame([["apple", 100], ["melon", 1000]])
data

Unnamed: 0,0,1
0,apple,100
1,melon,1000


### インデックス・カラム

`DataFrame` では各インデックスは行、カラムは列に対応しています。
`Series` と同様、インデックスを `DataFrame` 作成時に指定することが可能です。

In [20]:
DataFrame({"item": ["apple", "melon"], "price": [100, 1000]}, index=["A", "B"])

Unnamed: 0,item,price
A,apple,100
B,melon,1000


または、`index` 属性を上書きします。

In [21]:
data = DataFrame({"item": ["apple", "melon"], "price": [100, 1000]})
data.index = ["A", "B"]
data

Unnamed: 0,item,price
A,apple,100
B,melon,1000


カラムも、インデックスと同様に、指定しない場合は自動で連番が振られます。
`columns` という引数名で指定可能です。
なお、辞書から作成した場合にはキーがカラム名として与えられます。

In [22]:
DataFrame([["apple", 100], ["melon", 1000]], columns=["item", "price"])

Unnamed: 0,item,price
0,apple,100
1,melon,1000


`columns` 属性でカラム名を取得可能で、また上書きをすることもできます。

In [23]:
data = DataFrame({"item": ["apple", "melon"], "price": [100, 1000]})
data.columns
data.columns = ["I", "P"]
data

Unnamed: 0,I,P
0,apple,100
1,melon,1000


### DataFrame 内のデータの参照

`DataFrame` は `Series` よりもデータの次元が 1 つ多いため、データの取り出し方が少し複雑になります。
まず、特定のカラムを参照する場合には、鍵括弧 `[]` を使います。
`Series` の時ではこれは、インデックスでしたが、`DataFrame` ではカラムなのに注意してください。
また、列のデータが `Series` として返されることにも注意してください。

In [24]:
data = DataFrame({"item": ["apple", "melon"], "price": [100, 1000]})
data["price"]

Unnamed: 0,price
0,100
1,1000


複数のカラムを指定する場合、鍵括弧内にカラム名の *リスト* を入れます。
リストを入れた場合には `DataFrame` が返ってきます。

In [25]:
data = DataFrame({
    "item": ["apple", "melon"],
    "price": [100, 1000],
    "sold": [10, 1],
})
data[["price", "sold"]]

Unnamed: 0,price,sold
0,100,10
1,1000,1


縦ではなく横、つまりあるインデックスに対応する行のデータを取り出したい場合には、`loc` プロパティもしくは `iloc` プロパティを使います。
`loc` プロパティでインデックスを指定すると、それに対応する行の `Series` が返されます。

In [26]:
data = DataFrame({"item": ["apple", "melon"], "price": [100, 1000]}, index=["A", "B"])
data.loc["A"]

Unnamed: 0,A
item,apple
price,100


さらに、表形式データでいう、ある行のある列の要素だけを取り出したい場合には、次のように `loc` プロパティでインデックスを指定してからカラム名を指定します。

In [27]:
data.loc["A", "item"]

'apple'

### DataFrame のデータ型

`DataFrame` では、各データ型はカラムごとに定義されており、インスタンス作成時に自動でデータ型を類推してくれます。
また、各カラムのデータ型と、`DataFrame` 全体のデータ型は `dtypes` 属性 (複数形なのに注意!) で確認することができます。

In [28]:
data = DataFrame({"item": ["apple", "melon"], "price": [100, 1000]})
data.dtypes

Unnamed: 0,0
item,object
price,int64


## データの確認方法

### `head`, `tail`: データの一部を表示

データの行数、列数が多い場合、`DataFrame` や `Series` を確認すると、一部が省略された結果になります。
例えば、以下のように適当な `DataFrame` を作成し、内容を確認してみます。


In [29]:
data = pd.DataFrame({
    "年度": [2020, 2020, 2020, 2019, 2019],
    "産業": ["全産業", "製造業", "非製造業", "製造業", "非製造業"],
    "雇用者数": [100, 50, 30, 45, 25],
    "増減率": [2.1, 1.8, 0.5, -1.2, -0.8]
})
data


Unnamed: 0,年度,産業,雇用者数,増減率
0,2020,全産業,100,2.1
1,2020,製造業,50,1.8
2,2020,非製造業,30,0.5
3,2019,製造業,45,-1.2
4,2019,非製造業,25,-0.8


データの先頭から指定行表示する場合、`head` メソッドを用います。
`head` メソッドは、デフォルトでは先頭 5 行を返します。
表示行数は引数で指定可能です。

In [30]:
data.head()

Unnamed: 0,年度,産業,雇用者数,増減率
0,2020,全産業,100,2.1
1,2020,製造業,50,1.8
2,2020,非製造業,30,0.5
3,2019,製造業,45,-1.2
4,2019,非製造業,25,-0.8


In [31]:
# 最初の 1 行目のみ表示
data.head(1)

Unnamed: 0,年度,産業,雇用者数,増減率
0,2020,全産業,100,2.1


データの最後から指定行を表示する場合、`tail` メソッドを用います。
`tail` メソッドもデフォルトで最後の 5 行を返し、表示行数を引数で指定することも可能です。


In [32]:
data.tail()

Unnamed: 0,年度,産業,雇用者数,増減率
0,2020,全産業,100,2.1
1,2020,製造業,50,1.8
2,2020,非製造業,30,0.5
3,2019,製造業,45,-1.2
4,2019,非製造業,25,-0.8


In [33]:
# 最後の 1 行のみ表示
data.tail(1)

Unnamed: 0,年度,産業,雇用者数,増減率
4,2019,非製造業,25,-0.8


`pd.options.display.max_rows` を変更することで、省略なしに表示できる行数を変更することも可能です。
デフォルトでは、これは 60 で、`pd.options.display.max_rows = 1000` とすれば、1000 行まで省略なしで表示されるようにできます。
他の `pandas` のオプションに関しては、[ドキュメント](https://pandas.pydata.org/docs/user_guide/options.html)を見てください。

### `info`: データの概要情報を取得

`info` メソッドを使うと、各カラムのデータ型 (Dtype) だけでなく欠損値以外の値の数 (Non-Null Count) やデータ容量 (memory usage) などの情報を得ることができます。

In [34]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   年度      5 non-null      int64  
 1   産業      5 non-null      object 
 2   雇用者数    5 non-null      int64  
 3   増減率     5 non-null      float64
dtypes: float64(1), int64(2), object(1)
memory usage: 288.0+ bytes


### `describe`: 数値型データの記述統計量を取得

`describe` メソッドを使うと、各カラムの平均や標準偏差などの記述統計量を確認することができます。
数値型の列に対してのみ適用される点に注意してください。

In [35]:
data.describe()

Unnamed: 0,年度,雇用者数,増減率
count,5.0,5.0,5.0
mean,2019.6,50.0,0.48
std,0.547723,29.790938,1.485598
min,2019.0,25.0,-1.2
25%,2019.0,30.0,-0.8
50%,2020.0,45.0,0.5
75%,2020.0,50.0,1.8
max,2020.0,100.0,2.1


### `shape`: データの行列数の取得

`shape` 属性は、(行数, 列数) のタプルを返します。

In [36]:
data.shape

(5, 4)

`len` 関数を用いて、行数を確認することもできます。

In [37]:
len(data)

5

## データの操作

### フィルタリング

`Series` や `DataFrame` では、特定の列を参照するだけでなく、条件に合致したデータのみを取得する、フィルタリングを行うことが可能です。
単一の条件によるフィルタリングは次のように行います。

```python
data[data["column"] > value]
```

In [38]:
data = pd.DataFrame({
    "product": ["Apple", "Banana", "Carrot", "Milk", "Beef"],
    "price": [120, 200, 150, 200, 500],
    "in_stock": [True, True, True, False, True],
    "category": ["fruit", "fruit", "vegetable", "dairy", "meat"]
})
data

Unnamed: 0,product,price,in_stock,category
0,Apple,120,True,fruit
1,Banana,200,True,fruit
2,Carrot,150,True,vegetable
3,Milk,200,False,dairy
4,Beef,500,True,meat


価格が 150 円より高い商品を選択するには次のようにします。

In [39]:
data[data["price"] > 150]

Unnamed: 0,product,price,in_stock,category
1,Banana,200,True,fruit
3,Milk,200,False,dairy
4,Beef,500,True,meat


在庫がある商品データだけを取得する場合は次のようにします。

In [40]:
data[data["in_stock"]]

Unnamed: 0,product,price,in_stock,category
0,Apple,120,True,fruit
1,Banana,200,True,fruit
2,Carrot,150,True,vegetable
4,Beef,500,True,meat


商品カテゴリーが果物のデータを選択してみます。

In [41]:
data[data["category"] == "fruit"]

Unnamed: 0,product,price,in_stock,category
0,Apple,120,True,fruit
1,Banana,200,True,fruit


### 新しい列の追加と削除

`DataFrame` には、新しいデータ列を追加したり、不要な列を削除したりする機能があります。
これにより、データの加工や整形が容易になります。

#### 新しい列の追加

新しい列を追加するには、以下のように列名を指定して値を代入します。

```python
data['new_column'] = value
```

In [42]:
data["price_with_tax"] = data["price"] * 1.1
data

Unnamed: 0,product,price,in_stock,category,price_with_tax
0,Apple,120,True,fruit,132.0
1,Banana,200,True,fruit,220.0
2,Carrot,150,True,vegetable,165.0
3,Milk,200,False,dairy,220.0
4,Beef,500,True,meat,550.0


すべての商品に「日本」という原産国を表す列を追加する例も見てみましょう。

In [43]:
data["origin"] = "Japan"
data

Unnamed: 0,product,price,in_stock,category,price_with_tax,origin
0,Apple,120,True,fruit,132.0,Japan
1,Banana,200,True,fruit,220.0,Japan
2,Carrot,150,True,vegetable,165.0,Japan
3,Milk,200,False,dairy,220.0,Japan
4,Beef,500,True,meat,550.0,Japan


### 列の削除

列を削除するには、`drop` メソッドを使用し、`columns` キーワードで削除したい列名を指定します。

In [44]:
# 列の削除例
data.drop(columns="in_stock")

Unnamed: 0,product,price,category,price_with_tax,origin
0,Apple,120,fruit,132.0,Japan
1,Banana,200,fruit,220.0,Japan
2,Carrot,150,vegetable,165.0,Japan
3,Milk,200,dairy,220.0,Japan
4,Beef,500,meat,550.0,Japan


`drop` メソッドはデフォルトで新しい `DataFrame` を返しますが、元の `DataFrame` は変更しません。
元のデータに変更を適用する場合は、`inplace=True` を引数に追加します。

### 行の削除

特定の行を削除するには、行のインデックスを指定します。
以下の例では、インデックス `2` の行を削除します。

In [45]:
# 行の削除例
data.drop(2)

Unnamed: 0,product,price,in_stock,category,price_with_tax,origin
0,Apple,120,True,fruit,132.0,Japan
1,Banana,200,True,fruit,220.0,Japan
3,Milk,200,False,dairy,220.0,Japan
4,Beef,500,True,meat,550.0,Japan


`axis` キーワードを使用することで、列 (`axis=1`) または行 (`axis=0`) を指定して削除することも可能です。
ただし、`columns` と `index` キーワードを使用する方法が直感的で推奨されます。

### 行列の入れ替え

`transpose` メソッドを使うと、行と列を入れ替えることができます。

これを、行列の転置といいます。

In [46]:
data.transpose()

Unnamed: 0,0,1,2,3,4
product,Apple,Banana,Carrot,Milk,Beef
price,120,200,150,200,500
in_stock,True,True,True,False,True
category,fruit,fruit,vegetable,dairy,meat
price_with_tax,132.0,220.0,165.0,220.0,550.0
origin,Japan,Japan,Japan,Japan,Japan


`T` プロパティを使うことでも転置ができます。

In [47]:
data.T

Unnamed: 0,0,1,2,3,4
product,Apple,Banana,Carrot,Milk,Beef
price,120,200,150,200,500
in_stock,True,True,True,False,True
category,fruit,fruit,vegetable,dairy,meat
price_with_tax,132.0,220.0,165.0,220.0,550.0
origin,Japan,Japan,Japan,Japan,Japan


## 基本的なデータの集計

データの集計は、データ分析において重要なステップの一つです。
`pandas` では、データをグループ化し、集計メソッドを適用することで、データセットの要約や分析を行うことができます。

### 集計メソッドの使用

`pandas` には、データを集計するためのいくつかのメソッドが用意されています。
これらのメソッドを使用することで、合計、平均、最大値、最小値などの計算が可能です。

- `.sum()`: 合計を計算
- `.mean()`: 平均を計算
- `.max()`: 最大値を計算
- `.min()`: 最小値を計算

これらのメソッドは、`DataFrame` の列に直接適用することも、`groupby` メソッドを使って特定のカテゴリごとに適用することもできます。
以下に例を示します。


In [48]:
# 全体の価格の平均を計算
data["price"].mean()

234.0

### グループ別集計の例

カテゴリごとに価格の平均を計算する例を示します。
まず、`groupby` メソッドを使ってカテゴリでグループ化します。

In [49]:
# グループ別の価格の平均を計算
data.groupby("category")["price"].mean()

Unnamed: 0_level_0,price
category,Unnamed: 1_level_1
dairy,200.0
fruit,160.0
meat,500.0
vegetable,150.0


この結果から、各カテゴリに属する商品の平均価格がわかります。
例えば、フルーツの平均価格は 160 円、肉類の平均価格は 500 円です。

このように、`pandas` の集計関数を使用することで、データセットの要約や傾向を把握することが可能です。