# Polars入門：Irisデータセットを使った例題集

このノートブックでは、Polarsライブラリを用いた基本的なデータ操作方法を、Irisデータセットを題材に学んでいきます。

各例題には以下の情報を含みます：

- **Polarsでの実装**
- **各メソッドの主要引数の説明**
- **Pandas・dplyrでの対応コード（対応がある場合）**



## 例題1: データの読み込み（CSV）

In [1]:
import polars as pl

# CSVファイルの読み込み
df = pl.read_csv("https://j.mp/iriscsv")
df.head()

sepal_length,sepal_width,petal_length,petal_width,species
f64,f64,f64,f64,str
5.1,3.5,1.4,0.2,"""setosa"""
4.9,3.0,1.4,0.2,"""setosa"""
4.7,3.2,1.3,0.2,"""setosa"""
4.6,3.1,1.5,0.2,"""setosa"""
5.0,3.6,1.4,0.2,"""setosa"""


- `pl.read_csv()` の主な引数：
  - `filepath`: 読み込み元のファイルパスまたはURL
  - `separator`: 区切り文字（デフォルトはカンマ）
  - `has_header`: ヘッダーの有無
  - `new_columns`: 新たな列名のリスト

- Pandas版:
```python
import pandas as pd
df = pd.read_csv("https://j.mp/iriscsv")
```

- dplyr対応（R）:
```r
library(readr)
df <- read_csv("https://j.mp/iriscsv")
```


## 例題2: 特定列の抽出

In [2]:
df.select(["sepal_length", "species"])

sepal_length,species
f64,str
5.1,"""setosa"""
4.9,"""setosa"""
4.7,"""setosa"""
4.6,"""setosa"""
5.0,"""setosa"""
…,…
6.7,"""virginica"""
6.3,"""virginica"""
6.5,"""virginica"""
6.2,"""virginica"""


- `.select()` は新しいDataFrameを返す。
- `pl.col()` を組み合わせて正規表現も使える。

- Pandas版:
```python
df[["sepal_length", "species"]]
```

- dplyr対応（R）:
```r
df %>% select(sepal_length, species)
```


## 例題3: 条件によるフィルタリング

In [3]:
df.filter(pl.col("sepal_length") > 5.0)

sepal_length,sepal_width,petal_length,petal_width,species
f64,f64,f64,f64,str
5.1,3.5,1.4,0.2,"""setosa"""
5.4,3.9,1.7,0.4,"""setosa"""
5.4,3.7,1.5,0.2,"""setosa"""
5.8,4.0,1.2,0.2,"""setosa"""
5.7,4.4,1.5,0.4,"""setosa"""
…,…,…,…,…
6.7,3.0,5.2,2.3,"""virginica"""
6.3,2.5,5.0,1.9,"""virginica"""
6.5,3.0,5.2,2.0,"""virginica"""
6.2,3.4,5.4,2.3,"""virginica"""


- `.filter()` の中では `pl.col("列名")` を使う。
- 複数条件の組み合わせには `&`（and）や `|`（or）を使用。

- Pandas版:
```python
df[df["sepal_length"] > 5.0]
```

- dplyr対応（R）:
```r
df %>% filter(sepal_length > 5.0)
```


## 例題4: 新しい列の追加

In [4]:
df.with_columns((pl.col("sepal_width") * 2).alias("sepal_width_doubled"))

sepal_length,sepal_width,petal_length,petal_width,species,sepal_width_doubled
f64,f64,f64,f64,str,f64
5.1,3.5,1.4,0.2,"""setosa""",7.0
4.9,3.0,1.4,0.2,"""setosa""",6.0
4.7,3.2,1.3,0.2,"""setosa""",6.4
4.6,3.1,1.5,0.2,"""setosa""",6.2
5.0,3.6,1.4,0.2,"""setosa""",7.2
…,…,…,…,…,…
6.7,3.0,5.2,2.3,"""virginica""",6.0
6.3,2.5,5.0,1.9,"""virginica""",5.0
6.5,3.0,5.2,2.0,"""virginica""",6.0
6.2,3.4,5.4,2.3,"""virginica""",6.8


- `.with_columns()` は1つまたは複数の列を追加可能。
- `.alias()` で新しい列名を指定。

- Pandas版:
```python
df["sepal_width_doubled"] = df["sepal_width"] * 2
```

- dplyr対応（R）:
```r
df %>% mutate(sepal_width_doubled = sepal_width * 2)
```


## 例題5: グループ化と平均の計算

In [5]:
df.group_by("species").agg(pl.col("sepal_length").mean())

species,sepal_length
str,f64
"""versicolor""",5.936
"""setosa""",5.006
"""virginica""",6.588


- `.group_by()` と `.agg()` の組み合わせで集計可能。
- `pl.col("列").mean()` の他にも `.sum()`, `.max()` などが使える。

- Pandas版:
```python
df.groupby("species")["sepal_length"].mean()
```

- dplyr対応（R）:
```r
df %>% group_by(species) %>% summarise(mean_sepal = mean(sepal_length))
```


## 例題6: CSVファイルへの書き出し

In [6]:
df.write_csv("iris_output.csv")

- `write_csv` はローカルファイルへの保存に使える。
- 他にも `write_parquet()`, `write_json()` などがある。

- Pandas版:
```python
df.to_csv("iris_output.csv", index=False)
```

- dplyr対応（R）:
```r
write.csv(df, "iris_output.csv", row.names = FALSE)
```


## 例題7: 列名の変更

In [7]:
df.rename({"sepal_length": "sl", "sepal_width": "sw"})

sl,sw,petal_length,petal_width,species
f64,f64,f64,f64,str
5.1,3.5,1.4,0.2,"""setosa"""
4.9,3.0,1.4,0.2,"""setosa"""
4.7,3.2,1.3,0.2,"""setosa"""
4.6,3.1,1.5,0.2,"""setosa"""
5.0,3.6,1.4,0.2,"""setosa"""
…,…,…,…,…
6.7,3.0,5.2,2.3,"""virginica"""
6.3,2.5,5.0,1.9,"""virginica"""
6.5,3.0,5.2,2.0,"""virginica"""
6.2,3.4,5.4,2.3,"""virginica"""


- `.rename()` は辞書で複数列を一括変更可能。

- Pandas版:
```python
df.rename(columns={"sepal_length": "sl", "sepal_width": "sw"})
```

- dplyr対応（R）:
```r
df %>% rename(sl = sepal_length, sw = sepal_width)
```


## 例題8: 複数処理のチェーン（select→filter→group_by→agg）

In [8]:
df_agg = (
    df
    .select([pl.col("^sepal_.*$"), pl.col("species")])
    .with_columns((pl.col("sepal_width") * 2).alias("new_col"))
    .filter(pl.col("sepal_length") > 5)
    .group_by("species")
    .agg(pl.all().mean())
)
df_agg

species,sepal_length,sepal_width,new_col
str,f64,f64,f64
"""virginica""",6.622449,2.983673,5.967347
"""setosa""",5.313636,3.713636,7.427273
"""versicolor""",5.997872,2.804255,5.608511


- 複数の処理をチェーンでつなげると可読性が上がる。

- Pandas版（チェーンではなく段階的に書く）:
```python
df2 = df[["sepal_length", "sepal_width", "species"]]
df2["new_col"] = df2["sepal_width"] * 2
df2 = df2[df2["sepal_length"] > 5]
df2.groupby("species").mean()
```

- dplyr対応（R）:
```r
df %>%
  select(starts_with("sepal"), species) %>%
  mutate(new_col = sepal_width * 2) %>%
  filter(sepal_length > 5) %>%
  group_by(species) %>%
  summarise(across(everything(), mean))
```


## 例題9: concat（縦・横方向）

In [9]:
df1 = pl.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pl.DataFrame({"A": [5, 6], "B": [7, 8]})
df2_renamed = df2.rename({"A": "A_new", "B": "B_new"})

# 縦方向
pl.concat([df1, df2], how="vertical")

# 横方向（名前が被らないよう変更後）
pl.concat([df1, df2_renamed], how="horizontal")

A,B,A_new,B_new
i64,i64,i64,i64
1,3,5,7
2,4,6,8


- `pl.concat()` の引数：
  - `how`: `"vertical"`（デフォルト） または `"horizontal"`

- Pandas版:
```python
pd.concat([df1, df2], axis=0)  # 縦
pd.concat([df1, df2], axis=1)  # 横
```

- dplyr対応（R）:
```r
bind_rows(df1, df2)  # 縦
bind_cols(df1, df2_renamed)  # 横
```


## 例題10: 重複の削除

In [10]:
df.unique(subset=["species"])

sepal_length,sepal_width,petal_length,petal_width,species
f64,f64,f64,f64,str
6.3,3.3,6.0,2.5,"""virginica"""
5.1,3.5,1.4,0.2,"""setosa"""
7.0,3.2,4.7,1.4,"""versicolor"""


- `subset` を指定することで特定列の重複のみを削除できる。

- Pandas版:
```python
df.drop_duplicates(subset=["species"])
```

- dplyr対応（R）:
```r
df %>% distinct(species, .keep_all = TRUE)
```


# Polars における concat / join のオプションと使用例

このノートブックでは、Polars の `concat` および `join` の基本的な使い方と、各種オプションについて実例とともに説明します。Pandas や R（dplyr）での同等の操作も紹介します。


In [11]:
import polars as pl

df1 = pl.DataFrame({
    "id": [1, 2, 3],
    "val1": ["A", "B", "C"]
})

df2 = pl.DataFrame({
    "id": [2, 3, 4],
    "val2": ["X", "Y", "Z"]
})

df3 = pl.DataFrame({
    "sepal_length": [5.1, 4.9],
    "sepal_width": [3.5, 3.0],
    "species": ["setosa", "setosa"]
})

df4 = pl.DataFrame({
    "sepal_length": [6.2, 5.9],
    "petal_length": [4.5, 5.1],
    "species": ["versicolor", "virginica"]
})


## 1. 縦に concat（`how="vertical"`）

### 1.1 列名が一致している場合

Polars の `pl.concat([df1, df2], how="vertical")` を使うと、データフレームを**縦方向に連結**できます。このとき、**列名と順序が一致している必要があります。**

- `how="vertical"`：上下方向に結合
- `rechunk=True`（デフォルト）：結合後にチャンクをまとめてメモリ最適化



In [12]:
# 同じ列構造のデータを縦に連結
df_a = pl.DataFrame({"col1": [1, 2], "col2": ["A", "B"]})
df_b = pl.DataFrame({"col1": [3, 4], "col2": ["C", "D"]})

pl.concat([df_a, df_b], how="vertical")


col1,col2
i64,str
1,"""A"""
2,"""B"""
3,"""C"""
4,"""D"""


**Pandasの場合：**

```python
pd.concat([df_a.to_pandas(), df_b.to_pandas()], axis=0)
```

**R (dplyr) の場合：**

```r
bind_rows(df_a, df_b)
```


### 1.2 列名が異なる場合

列が一致していないデータフレームを結合したい場合は`how="diagonal"`を指定します。列名を基準にした完全外部結合となり、足りない部分はnullで埋められ

- 異なる列は `null` で埋まる
- 順序が異なっていてもOK（名前一致で処理）



In [14]:
# 列名・数が異なる df3, df4 の結合`
pl.concat([df3, df4], how="diagonal")

sepal_length,sepal_width,species,petal_length
f64,f64,str,f64
5.1,3.5,"""setosa""",
4.9,3.0,"""setosa""",
6.2,,"""versicolor""",4.5
5.9,,"""virginica""",5.1


**Pandasの場合：**

```python
pd.concat([df3.to_pandas(), df4.to_pandas()], axis=0, ignore_index=True)
```

**R (dplyr) の場合：**

```r
bind_rows(df3, df4)
```


## 2. 横に concat（`how="horizontal"`）

Polars の `how="horizontal"` は**インデックスベース**で横方向に連結します。これは Pandas の `axis=1`、R の `bind_cols` に相当します。

- 列数が異なる場合は`null`が挿入される
- 行数が揃っていないとエラーになる可能性あり



In [18]:
pl.concat([df2, df3], how="horizontal")


id,val2,sepal_length,sepal_width,species
i64,str,f64,f64,str
2,"""X""",5.1,3.5,"""setosa"""
3,"""Y""",4.9,3.0,"""setosa"""
4,"""Z""",,,


**Pandasの場合：**

```python
pd.concat([df1.to_pandas(), df2.to_pandas()], axis=1)
```

**R (dplyr) の場合：**

```r
bind_cols(df1, df2)
```


## 3. join のオプション

Polars の `join` は Pandas の `merge` とほぼ同じ機能です。

| 引数       | 説明 |
|------------|------|
| `on`       | 結合キー（列名） |
| `how`      | `"inner"`、`"left"`、`"outer"`、`"cross"` |
| `suffix`   | 重複列の接尾辞 |



In [19]:
# inner join
print("=== inner join ===")
print(df1.join(df2, on="id", how="inner"))

# left join
print("=== left join ===")
print(df1.join(df2, on="id", how="left"))

# outer join
print("=== outer join ===")
print(df1.join(df2, on="id", how="outer"))

# cross join
print("=== cross join ===")
print(df1.join(df2, how="cross"))


=== inner join ===
shape: (2, 3)
┌─────┬──────┬──────┐
│ id  ┆ val1 ┆ val2 │
│ --- ┆ ---  ┆ ---  │
│ i64 ┆ str  ┆ str  │
╞═════╪══════╪══════╡
│ 2   ┆ B    ┆ X    │
│ 3   ┆ C    ┆ Y    │
└─────┴──────┴──────┘
=== left join ===
shape: (3, 3)
┌─────┬──────┬──────┐
│ id  ┆ val1 ┆ val2 │
│ --- ┆ ---  ┆ ---  │
│ i64 ┆ str  ┆ str  │
╞═════╪══════╪══════╡
│ 1   ┆ A    ┆ null │
│ 2   ┆ B    ┆ X    │
│ 3   ┆ C    ┆ Y    │
└─────┴──────┴──────┘
=== outer join ===
shape: (4, 4)
┌──────┬──────┬──────────┬──────┐
│ id   ┆ val1 ┆ id_right ┆ val2 │
│ ---  ┆ ---  ┆ ---      ┆ ---  │
│ i64  ┆ str  ┆ i64      ┆ str  │
╞══════╪══════╪══════════╪══════╡
│ 2    ┆ B    ┆ 2        ┆ X    │
│ 3    ┆ C    ┆ 3        ┆ Y    │
│ null ┆ null ┆ 4        ┆ Z    │
│ 1    ┆ A    ┆ null     ┆ null │
└──────┴──────┴──────────┴──────┘
=== cross join ===
shape: (9, 4)
┌─────┬──────┬──────────┬──────┐
│ id  ┆ val1 ┆ id_right ┆ val2 │
│ --- ┆ ---  ┆ ---      ┆ ---  │
│ i64 ┆ str  ┆ i64      ┆ str  │
╞═════╪══════╪═════════

  print(df1.join(df2, on="id", how="outer"))


**Pandasの場合：**

```python
pd.merge(df1.to_pandas(), df2.to_pandas(), on="id", how="inner")
pd.merge(df1.to_pandas(), df2.to_pandas(), on="id", how="outer")
```

**R (dplyr) の場合：**

```r
inner_join(df1, df2, by = "id")
full_join(df1, df2, by = "id")
```


# Polarsを使ったデータ分析練習

このノートブックでは、`Polars` を使用してデータ分析を行う方法を学びます。

また、`Pandas` と `dplyr (R)` を用いた場合のコードも示し、各ライブラリの違いを理解します。

対象データ: **Irisデータセット**

## 1. ライブラリのインポート

まず、必要なライブラリをインポートします。

In [None]:
import polars as pl
import pandas as pd
import seaborn as sns  # データ取得用
import pyarrow.csv as pv  # PolarsでのCSV処理


## 2. データの読み込み

Irisデータセットをロードし、Polars・Pandas・dplyr（R）での処理を比較します。

In [None]:
# Polarsでのデータ読み込み
iris = sns.load_dataset('iris')
iris_pl = pl.from_pandas(iris)
iris_pl.head()

In [None]:
# Pandasでのデータ読み込み
iris_pd = sns.load_dataset('iris')
iris_pd.head()

**R (dplyr) での読み込み:**

```r
library(dplyr)
iris_df <- read.csv('iris.csv')
head(iris_df)
```

## 3. データの概要確認

データの基本的な情報を確認します。

In [None]:
# Polarsでのデータ確認
iris_pl.describe()

In [None]:
# Pandasでのデータ確認
iris_pd.describe()

**R (dplyr) の場合:**

```r
summary(iris_df)
```

## 4. フィルタリング

特定の条件を満たす行を抽出します。

In [None]:
# Polarsでフィルタリング
iris_pl.filter(iris_pl['sepal_length'] > 5.0)

In [None]:
# Pandasでフィルタリング
iris_pd[iris_pd['sepal_length'] > 5.0]

**R (dplyr) の場合:**

```r
iris_df %>% filter(sepal_length > 5.0)
```

## 5. `groupby` と `agg` を使った処理

グループごとの平均を計算します。

In [None]:
# Polarsでのgroupby処理
iris_pl.groupby('species').agg(
    pl.col('sepal_length').mean().alias('avg_sepal_length')
)

In [None]:
# Pandasでのgroupby処理
iris_pd.groupby('species')['sepal_length'].mean().reset_index()

**R (dplyr) の場合:**

```r
iris_df %>% group_by(species) %>% summarize(avg_sepal_length = mean(sepal_length))
```

## 6. ファイルの保存

データをCSVやJSON形式で保存します。

In [None]:
# PolarsでCSV保存
iris_pl.write_csv('iris_polars.csv')

In [None]:
# PandasでCSV保存
iris_pd.to_csv('iris_pandas.csv', index=False)

## 7. `concat` を使ったデータの結合

縦や横の結合方法を示します。

In [None]:
# Polarsで縦方向の結合
iris_concat = pl.concat([iris_pl, iris_pl], how='vertical')
iris_concat.head()

In [None]:
# Pandasで縦方向の結合
iris_concat_pd = pd.concat([iris_pd, iris_pd], axis=0)
iris_concat_pd.head()

## 8. `join` による結合

データフレーム同士をキーを用いて結合します。

In [None]:
# Polarsでの結合
iris_pl.join(iris_pl, on='species', how='inner')

In [None]:
# Pandasでの結合
iris_pd.merge(iris_pd, on='species', how='inner')

## 9. 欠損値の確認

データの欠損値をチェックします。

In [None]:
# Polarsで欠損値の確認
iris_pl.null_count()

In [None]:
# Pandasで欠損値の確認
iris_pd.isnull().sum()

## 10. 複数処理のチェーン

複数の処理を組み合わせたデータ操作を行います。

In [None]:
# Polarsでのチェーン処理
iris_pl.select(['sepal_length', 'species'])
       .filter(pl.col('sepal_length') > 5.0)
       .groupby('species')
       .agg(pl.col('sepal_length').mean().alias('avg_sepal_length'))

In [None]:
# Pandasでのチェーン処理
iris_pd[['sepal_length', 'species']]
       .query('sepal_length > 5.0')
       .groupby('species')['sepal_length'].mean().reset_index()