本稿は主に以下を参照してます。
- 前処理大全［データ分析のためのSQL/R/Python実践テクニック］本橋 智光 (著)
- [polars公式ガイド](https://pola-rs.github.io/polars-book/user-guide/index.html)
- [Qiita記事 pandasから移行する人向け polars使用ガイド](https://qiita.com/nkay/items/9cfb2776156dc7e054c8#%E8%A1%8C%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF%E3%83%AA%E3%83%B3%E3%82%B0filter)
- [Qiita記事 超高速…だけじゃない！Pandasに代えてPolarsを使いたい理由](https://qiita.com/_jinta/items/fac13f09e8e8a5769b79#)

# polarとは？

- Polarsは、Apache Arrow Columnar Formatをメモリモデルとして、Rustで実装された超高速DataFramesライブラリです。

- Blazingly fast
    - Polarsは非常に高速です。実際、利用可能なソリューションの中で最高のパフォーマンスを発揮します。h2oaiのdb-benchmarkで結果をご覧ください。
    - TPCHベンチマークでは、polarsはpandas、dask、modin、vaexよりも（IOを含む）フルクエリで数桁速いです。
- Lightweight
    - Polarsはまた、非常に軽量です。必要な依存関係はゼロで、これはインポート時間にも表れています。
            ○ Polars: 70ms
            ○ numpy: 104ms
            ○ pandas：520ms
- Handles larger than RAM data
    - メモリに収まらないデータがある場合、polars lazyはストリーミングでクエリ（またはクエリの一部）を処理することができ、必要なメモリを大幅に削減できるため、250GBのデータセットをラップトップで処理できるかもしれません。
    - collect(streaming=True) を使ってクエリをストリーミングで実行します。(これは少し遅くなるかもしれませんが、それでも非常に速いです!)


#所感

*   pandasよりもpoloarsの方が基本優秀
*   エクスプレションを使うことでさらに処理速度が上がる
*   書き方はpandasよりもpysparkに近い印象

*   pandasにできることはほぼできるが痒いところに手が届いていない印象
    *   csvへの書き出しの際にutf-8以外選択できない
    *   `.hist()`などpandasから気軽に使えた描画ツール系は対応していないっぽい
    *   pandasにあったindexが存在しないため`.loc`, `.iloc`などの機能が廃止(逆にpandasのindex機能がうざかったので自分的には使いやすい。。)
    *   欠損値の取り扱いについて、pandasではNA(pd.NA)、polarsではnull(pl.Null)が割り当てられます。
        *   pandasでNAが入ったカラムはobject型になりますが、polarsではnull以外の型がキープされます。例えば、`pl.Series=[1, null, 2]`であればi64型になります。
        *   nullまたはNaNに対する数値演算・比較演算ではnullまたはNaNが維持されます。



# pl.Exprについて
Polarsの書きやすさの中心にあるのが、polars.Expressionというやつです。これは何かというと、

> a mapping from a series to a series

と説明されてます[^expl]。つまり、ある列から他の列への加工処理の方法を記述したものです。複数列からのmappingもできます。データフレームに対する主な処理は `select`, `with_columns`, `agg`, `filter` などですが、任意の場所でpl.Exprを使うことが出来ます。どういうことか。

[^expl]: https://pola-rs.github.io/polars-book/user-guide/dsl/intro.html

たとえば、文字列で入ってる `cost` 列を整数に変換する処理は
```
pl.col("cost").str.extract("\$(.*)").cast(pl.Int64)
```
という pl.Expr で書けます（まず `pl.col` でcost列を指定し、それに対し `str.extract` で `$` に続く部分を抽出する文字列処理を行い、最後に `cast` でInt型に変換しています）。これを色んな所で使いまわせます。

```
# 整数に変換した列の追加
df.with_columns(pl.col("cost").str.extract("\$(.*)").cast(pl.Int64).alias("cost_int"))

# コストが100ドル以上の行を選択
df.filter(pl.col("cost").str.extract("\$(.*)").cast(pl.Int64) > 100)

# 店舗ごとのコストの合計を計算
df.groupby("store").agg(pl.col("cost").str.extract("\$(.*)").cast(pl.Int64).sum())
```

ここで強調したいのは、同じ表現を繰り返し使えることではありません。ポイントは、どんな処理も同じ頭の働かせ方で済むことです。書き方に悩むことがなくなり、統一感も出しやすいです。

このようにpl.Expressionを用いると柔軟な記述が実現できるため、公式でもExpression APIを推奨しています。

# データ型について



`polars`のシリーズは、`pandas`のそれと同様、データ型（`dtype`）が存在します。以下はデータ型の例です。

| polarsの型                  | pandas(Numpy)の類似する型      | 説明             |
| :-------------------------- | :----------------------------- | :--------------- |
| `pl.Int8` ~ `pl.Int64`      | `np.int8` ~ `np.int64` 等      | 整数             |
| `pl.UInt8` ~ `pl.UInt64`    | `np.uint8` ~ `np.uint64` 等    | 整数（符号なし） |
| `pl.Float32` / `pl.Float64` | `np.float32` / `np.float64` 等 | 浮動小数         |
| `pl.Boolean`                | `np.bool` / `pd.BooleanDtype`  | 真偽値           |
| `pl.Utf8`                   | `pd.StringDtype`               | 文字列           |
| `pl.Categorical`            | `pd.CategoricalDtype`          | カテゴリー       |
| `pl.List`                   | -                              | リスト           |
| `pl.Struct`                 | -                              | 構造化配列       |
| `pl.Date`                   | -                              | 日付             |
| `pl.Time`                   | -                              | 時刻（日付無し） |
| `pl.Datetime`               | `np.datetime64`                | 日時             |
| `pl.Duration`               | `np.timedelta64`               | 時間（時刻の差） |
| `pl.Object`                 | `np.object_`                   | オブジェクト     |

- pandasではデフォルトでは文字列をオブジェクトデータ型で扱うようになっています。それに対してpolarsには最初から文字列専用のデータ型が用意されています。
- pandasで日付を扱う場合は一般的には時刻を0:00:00にした日時`np.datetime64`で代用しますが、polarsには日付のみを扱う`pl.Date`が存在し、また時刻のみを扱う`pl.Time`、日付＋時刻を扱う`pl.Datetime`もそれぞれ存在します。
- 型変換メソッド、つまりpandasの`.astype()`は、polarsでは`.cast()`です。

# Import 

- condaパッケージ(conda install polars)もありますが、Polarsのインストールはpipが好ましい。
- 依存関係を考慮した上でPolarsがインストールされる。

In [1]:
import polars as pl
import pandas as pd

# to enrich the examples in this quickstart with dates
from datetime import datetime, timedelta 
# to generate data for the examples
import numpy as np 

print('polars version: ',pl.__version__)

polars version:  0.19.3


# データフレーム作成

　- polarとpandasで書き方変化なし

## polars

In [2]:
# rng = np.random.default_rng(0)
pldf_a = pl.DataFrame({"integer": [1, 2, 3], 
                          "date": [
                              (datetime(2022, 1, 1)), 
                              (datetime(2022, 1, 2)), 
                              (datetime(2022, 1, 3))
                          ], 
                          "float":[4.0, 5.0, 6.0]})

pldf_b = pl.Series("a", [1, 2, 3, 4, 5])

In [3]:
pldf_a

integer,date,float
i64,datetime[μs],f64
1,2022-01-01 00:00:00,4.0
2,2022-01-02 00:00:00,5.0
3,2022-01-03 00:00:00,6.0


In [4]:
pldf_b

a
i64
1
2
3
4
5


## pandas

In [5]:
pdf_a = pd.DataFrame({"integer": [1, 2, 3], 
                          "date": [
                              (datetime(2022, 1, 1)), 
                              (datetime(2022, 1, 2)), 
                              (datetime(2022, 1, 3))
                          ], 
                          "float":[4.0, 5.0, 6.0]})

pdf_b = pd.Series("a",[1, 2, 3, 4, 5])

In [6]:
pdf_a

Unnamed: 0,integer,date,float
0,1,2022-01-01,4.0
1,2,2022-01-02,5.0
2,3,2022-01-03,6.0


In [7]:
pdf_b

1    a
2    a
3    a
4    a
5    a
dtype: object

# ファイルの読み書き

## polars

- polarsのCSVファイル出力関数はエンコードを指定できない（UTF8が強制される）。

In [8]:
%%time

base_dir = 'https://raw.githubusercontent.com/ghmagazine/awesomebook/master/data/'

pl_reserve_tb = pl.read_csv(base_dir+'reserve.csv', encoding='UTF-8')
pl_hotel_tb = pl.read_csv(base_dir+'hotel.csv', encoding='UTF-8')
pl_customer_tb = pl.read_csv(base_dir+'customer.csv', encoding='UTF-8')

pl_reserve_tb.write_csv('tmp_reserve.csv')

CPU times: user 225 ms, sys: 8.35 ms, total: 234 ms
Wall time: 1.17 s


## pandas

In [9]:
%%time

pd_reserve_tb = pd.read_csv(base_dir+'reserve.csv', encoding='UTF-8')
pd_hotel_tb = pd.read_csv(base_dir+'hotel.csv', encoding='UTF-8') 
pd_customer_tb = pd.read_csv(base_dir+'customer.csv', encoding='UTF-8')

pd_reserve_tb.to_csv('tmp_reserve.csv')

CPU times: user 126 ms, sys: 9.96 ms, total: 136 ms
Wall time: 367 ms


# 可視化

## polars

.head() .tail()

In [10]:
pl_reserve_tb.head(3)

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
str,str,str,str,str,str,str,i64,i64
"""r1""","""h_75""","""c_1""","""2016-03-06 13:…","""2016-03-26""","""10:00:00""","""2016-03-29""",4,97200
"""r2""","""h_219""","""c_1""","""2016-07-16 23:…","""2016-07-20""","""11:30:00""","""2016-07-21""",2,20600
"""r3""","""h_179""","""c_1""","""2016-09-24 10:…","""2016-10-19""","""09:00:00""","""2016-10-22""",2,33600


In [11]:
pl_reserve_tb.tail(3)

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
str,str,str,str,str,str,str,i64,i64
"""r4028""","""h_27""","""c_999""","""2018-03-14 05:…","""2018-04-02""","""11:30:00""","""2018-04-04""",2,74800
"""r4029""","""h_48""","""c_1000""","""2016-04-16 15:…","""2016-05-10""","""09:30:00""","""2016-05-13""",4,540000
"""r4030""","""h_117""","""c_1000""","""2016-06-06 08:…","""2016-07-06""","""09:00:00""","""2016-07-09""",1,44100


.glimpse()  


*   文字列として、各列の先頭の要素10個が表示されます。
*   列数が多い場合、print()よりもこちらのほうが見やすいとされています。



In [12]:
print(pl_reserve_tb.glimpse())

Rows: 4030
Columns: 9
$ reserve_id       <str> 'r1', 'r2', 'r3', 'r4', 'r5', 'r6', 'r7', 'r8', 'r9', 'r10'
$ hotel_id         <str> 'h_75', 'h_219', 'h_179', 'h_214', 'h_16', 'h_241', 'h_256', 'h_241', 'h_217', 'h_240'
$ customer_id      <str> 'c_1', 'c_1', 'c_1', 'c_1', 'c_1', 'c_1', 'c_1', 'c_1', 'c_2', 'c_2'
$ reserve_datetime <str> '2016-03-06 13:09:42', '2016-07-16 23:39:55', '2016-09-24 10:03:17', '2017-03-08 03:20:10', '2017-09-05 19:50:37', '2017-11-27 18:47:05', '2017-12-29 10:38:36', '2018-05-26 08:42:51', '2016-03-05 13:31:06', '2016-06-25 09:12:22'
$ checkin_date     <str> '2016-03-26', '2016-07-20', '2016-10-19', '2017-03-29', '2017-09-22', '2017-12-04', '2018-01-25', '2018-06-08', '2016-03-25', '2016-07-14'
$ checkin_time     <str> '10:00:00', '11:30:00', '09:00:00', '11:00:00', '10:30:00', '12:00:00', '10:30:00', '10:00:00', '09:30:00', '11:00:00'
$ checkout_date    <str> '2016-03-29', '2016-07-21', '2016-10-22', '2017-03-30', '2017-09-23', '2017-12-06', '2018-01-28', '2

.describe()


*   polarではint,float列以外もdescribeの結果が表示される


In [13]:
pl_reserve_tb.describe()

describe,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
str,str,str,str,str,str,str,str,f64,f64
"""count""","""4030""","""4030""","""4030""","""4030""","""4030""","""4030""","""4030""",4030.0,4030.0
"""null_count""","""0""","""0""","""0""","""0""","""0""","""0""","""0""",0.0,0.0
"""mean""",,,,,,,,2.542184,103065.955335
"""std""",,,,,,,,1.120925,110288.484355
"""min""","""r1""","""h_1""","""c_1""","""2016-01-01 08:…","""2016-01-02""","""09:00:00""","""2016-01-04""",1.0,3500.0
"""25%""",,,,,,,,2.0,32400.0
"""50%""",,,,,,,,3.0,64800.0
"""75%""",,,,,,,,4.0,129600.0
"""max""","""r999""","""h_99""","""c_999""","""2019-02-25 03:…","""2019-03-13""","""12:30:00""","""2019-03-15""",4.0,897600.0


## pandas

.head() .tail()

In [14]:
pd_reserve_tb.head()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100


In [15]:
pd_reserve_tb.tail()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
4025,r4026,h_129,c_999,2017-06-27 23:00:02,2017-07-10,09:30:00,2017-07-11,2,16000
4026,r4027,h_97,c_999,2017-09-29 05:24:57,2017-10-09,10:30:00,2017-10-10,2,41800
4027,r4028,h_27,c_999,2018-03-14 05:01:45,2018-04-02,11:30:00,2018-04-04,2,74800
4028,r4029,h_48,c_1000,2016-04-16 15:20:17,2016-05-10,09:30:00,2016-05-13,4,540000
4029,r4030,h_117,c_1000,2016-06-06 08:16:51,2016-07-06,09:00:00,2016-07-09,1,44100


.glimpse()  


*   対応するpandas methodはなさそう



.describe()

In [16]:
pd_reserve_tb.describe()

Unnamed: 0,people_num,total_price
count,4030.0,4030.0
mean,2.542184,103065.955335
std,1.120925,110288.484355
min,1.0,3500.0
25%,2.0,32400.0
50%,3.0,64800.0
75%,4.0,129600.0
max,4.0,897600.0


# データ型別にカラム名をカテゴリー化

## polars

In [17]:
num_col = [col for col in pl_reserve_tb.columns if str(pl_reserve_tb[col].dtype) in ['Int64']]
print(num_col)

cat_col = [col for col in pl_reserve_tb.columns if str(pl_reserve_tb[col].dtype) in ['Utf8']] # str型はUtf8で表現される
print(cat_col)

['people_num', 'total_price']
['reserve_id', 'hotel_id', 'customer_id', 'reserve_datetime', 'checkin_date', 'checkin_time', 'checkout_date']


In [18]:
pl_reserve_tb.select(num_col).describe()

describe,people_num,total_price
str,f64,f64
"""count""",4030.0,4030.0
"""null_count""",0.0,0.0
"""mean""",2.542184,103065.955335
"""std""",1.120925,110288.484355
"""min""",1.0,3500.0
"""25%""",2.0,32400.0
"""50%""",3.0,64800.0
"""75%""",4.0,129600.0
"""max""",4.0,897600.0


In [19]:
pl_reserve_tb.select(cat_col).describe()

describe,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
str,str,str,str,str,str,str,str
"""count""","""4030""","""4030""","""4030""","""4030""","""4030""","""4030""","""4030"""
"""null_count""","""0""","""0""","""0""","""0""","""0""","""0""","""0"""
"""mean""",,,,,,,
"""std""",,,,,,,
"""min""","""r1""","""h_1""","""c_1""","""2016-01-01 08:…","""2016-01-02""","""09:00:00""","""2016-01-04"""
"""25%""",,,,,,,
"""50%""",,,,,,,
"""75%""",,,,,,,
"""max""","""r999""","""h_99""","""c_999""","""2019-02-25 03:…","""2019-03-13""","""12:30:00""","""2019-03-15"""


## pandas

In [20]:
num_col = [col for col in pd_reserve_tb.columns if pd_reserve_tb[col].dtype in ['int64', 'float64']]
print(num_col)

cat_col = [col for col in pd_reserve_tb.columns if pd_reserve_tb[col].dtype in ['O']]
print(cat_col)

['people_num', 'total_price']
['reserve_id', 'hotel_id', 'customer_id', 'reserve_datetime', 'checkin_date', 'checkin_time', 'checkout_date']


In [21]:
pd_reserve_tb[num_col].describe()

Unnamed: 0,people_num,total_price
count,4030.0,4030.0
mean,2.542184,103065.955335
std,1.120925,110288.484355
min,1.0,3500.0
25%,2.0,32400.0
50%,3.0,64800.0
75%,4.0,129600.0
max,4.0,897600.0


In [22]:
pd_reserve_tb[cat_col].describe()

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date
count,4030,4030,4030,4030,4030,4030,4030
unique,4030,300,888,4030,924,8,917
top,r1,h_241,c_1,2016-03-06 13:09:42,2016-07-14,09:30:00,2016-06-30
freq,1,27,8,1,16,548,15


# 条件指定による抽出

## polars

`[]`を使った行の選択

*   行選択はdf[]の[]に整数を渡すことで行います（Python標準のリストと同様）。
*   polarsにはインデックス列が存在しないため、pandasと違い.locや.ilocは存在しません。


In [23]:
pl_reserve_tb[1:3,:]

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
str,str,str,str,str,str,str,i64,i64
"""r2""","""h_219""","""c_1""","""2016-07-16 23:…","""2016-07-20""","""11:30:00""","""2016-07-21""",2,20600
"""r3""","""h_179""","""c_1""","""2016-09-24 10:…","""2016-10-19""","""09:00:00""","""2016-10-22""",2,33600


.filter()



*   条件にもとづいて特定の行を抽出する場合は.filter()メソッドを用います。
*   pandasの`df[df["column"] > 3]`のような書き方はできません。
*   .filter()メソッドでは通常、エクスプレッション`（pl.Expr()）`を渡すことでフィルタリングします。



In [24]:
tmp = pl_reserve_tb.filter((pl.col("checkout_date") >= '2016-10-13') & (pl.col("checkout_date") <= '2016-10-14'))

tmp.head(3)

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
str,str,str,str,str,str,str,i64,i64
"""r285""","""h_121""","""c_67""","""2016-09-27 06:…","""2016-10-12""","""12:00:00""","""2016-10-14""",4,184000
"""r514""","""h_74""","""c_120""","""2016-10-06 03:…","""2016-10-11""","""12:30:00""","""2016-10-14""",2,28800
"""r1066""","""h_205""","""c_261""","""2016-09-14 02:…","""2016-10-11""","""10:00:00""","""2016-10-14""",4,85200


.is_in()：リストに含まれるかどうかを判定



*   なおpandasの`.isin`と違い、polarsの`.is_in()`メソッドにはセットやndarrayを渡すことはできないようです。



In [25]:
tmp = pl_reserve_tb.filter(pl.col('people_num').is_in([3,4]))

tmp.head(3)

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
str,str,str,str,str,str,str,i64,i64
"""r1""","""h_75""","""c_1""","""2016-03-06 13:…","""2016-03-26""","""10:00:00""","""2016-03-29""",4,97200
"""r4""","""h_214""","""c_1""","""2017-03-08 03:…","""2017-03-29""","""11:00:00""","""2017-03-30""",4,194400
"""r5""","""h_16""","""c_1""","""2017-09-05 19:…","""2017-09-22""","""10:30:00""","""2017-09-23""",3,68100


## pandas

`[]`を使った行の選択

In [26]:
pd_reserve_tb.iloc[1:3,:]

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600


条件文による抽出

In [27]:
tmp = pd_reserve_tb[(pd_reserve_tb['checkout_date'] >= '2016-10-13') &
                    (pd_reserve_tb['checkout_date'] <= '2016-10-14')]

tmp.head(3)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
284,r285,h_121,c_67,2016-09-27 06:13:19,2016-10-12,12:00:00,2016-10-14,4,184000
513,r514,h_74,c_120,2016-10-06 03:12:04,2016-10-11,12:30:00,2016-10-14,2,28800
1065,r1066,h_205,c_261,2016-09-14 02:57:59,2016-10-11,10:00:00,2016-10-14,4,85200


.isin()：リストに含まれるかどうかを判定

In [28]:
tmp = pd_reserve_tb[pd_reserve_tb['people_num'].isin([3,4])]

tmp.head(3)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200
3,r4,h_214,c_1,2017-03-08 03:20:10,2017-03-29,11:00:00,2017-03-30,4,194400
4,r5,h_16,c_1,2017-09-05 19:50:37,2017-09-22,10:30:00,2017-09-23,3,68100


# ユニーク行・重複行

## polars

*    unique()は、pandasの.drop_duplicates()に相当し、重複データを削除することができます。

*    subset=引数：識別する列を指定します。デフォルトでは、全ての列の値が一致している行のみが削除されます。
*    keep=引数：デフォルトのkeep="first"では、重複行のうち最初に出現する行は残されます。keep="last"を指定すると下の方にある行が残ります。
*    keep="none"を指定すると重複行をすべて削除します。

In [29]:
def dup_counts_pl(df, target_col):
    # tmp = df[target_col].is_duplicated().value_counts() #.shape[0] True以外もカウントしてしまうため×
    tmp = df.select([(pl.col(target_col).count() - pl.col(target_col).n_unique())]).get_columns()[0][0]

    print(f'{target_col} 重複件数: ', tmp)

In [30]:
dup_counts_pl(pl_reserve_tb, 'hotel_id')

hotel_id_uu = pl_reserve_tb.unique(subset=['hotel_id'])

dup_counts_pl(hotel_id_uu, 'hotel_id')

hotel_id 重複件数:  3730
hotel_id 重複件数:  0


## pandas

In [31]:
def dup_counts_pd(pdf, target_col):
    tmp = pdf[target_col][pdf[target_col].duplicated()].count()

    print(f'{target_col} 重複件数: ', tmp)

In [32]:
dup_counts_pd(pd_reserve_tb, 'hotel_id')

hotel_id_uu = pd_reserve_tb.drop_duplicates(subset=['hotel_id'])

dup_counts_pd(hotel_id_uu, 'hotel_id')

hotel_id 重複件数:  3730
hotel_id 重複件数:  0


# 列の選択

## polars



*   データフレーム内の特定のシリーズ（1列）を選択する場合は、.get_column()メソッドに列名を渡します。



In [33]:
# データフレーム内の特定のシリーズ（1列）を選択する場合は、.get_column()メソッドに列名を渡します。
pl_reserve_tb.get_column('hotel_id')

# .get_columns()を使うことでdartaframeの列を分解し、シリーズのリストに変換する
pl_reserve_tb.get_columns()

[shape: (4_030,)
 Series: 'reserve_id' [str]
 [
 	"r1"
 	"r2"
 	"r3"
 	"r4"
 	"r5"
 	"r6"
 	"r7"
 	"r8"
 	"r9"
 	"r10"
 	"r11"
 	"r12"
 	…
 	"r4018"
 	"r4019"
 	"r4020"
 	"r4021"
 	"r4022"
 	"r4023"
 	"r4024"
 	"r4025"
 	"r4026"
 	"r4027"
 	"r4028"
 	"r4029"
 	"r4030"
 ],
 shape: (4_030,)
 Series: 'hotel_id' [str]
 [
 	"h_75"
 	"h_219"
 	"h_179"
 	"h_214"
 	"h_16"
 	"h_241"
 	"h_256"
 	"h_241"
 	"h_217"
 	"h_240"
 	"h_183"
 	"h_268"
 	…
 	"h_204"
 	"h_224"
 	"h_243"
 	"h_159"
 	"h_172"
 	"h_4"
 	"h_244"
 	"h_160"
 	"h_129"
 	"h_97"
 	"h_27"
 	"h_48"
 	"h_117"
 ],
 shape: (4_030,)
 Series: 'customer_id' [str]
 [
 	"c_1"
 	"c_1"
 	"c_1"
 	"c_1"
 	"c_1"
 	"c_1"
 	"c_1"
 	"c_1"
 	"c_2"
 	"c_2"
 	"c_2"
 	"c_2"
 	…
 	"c_996"
 	"c_996"
 	"c_996"
 	"c_997"
 	"c_997"
 	"c_999"
 	"c_999"
 	"c_999"
 	"c_999"
 	"c_999"
 	"c_999"
 	"c_1000"
 	"c_1000"
 ],
 shape: (4_030,)
 Series: 'reserve_datetime' [str]
 [
 	"2016-03-06 13:…
 	"2016-07-16 23:…
 	"2016-09-24 10:…
 	"2017-03-08 03:…
 	"2017-09-05 1

In [34]:
# .get_columns()を使うことでdartaframeの列を分解し、シリーズのリストに変換する
tmp = pl_reserve_tb.get_columns()[1]

tmp.head(3)

hotel_id
str
"""h_75"""
"""h_219"""
"""h_179"""


In [35]:
pl_reserve_tb.columns

['reserve_id',
 'hotel_id',
 'customer_id',
 'reserve_datetime',
 'checkin_date',
 'checkin_time',
 'checkout_date',
 'people_num',
 'total_price']

In [36]:
# .selectを使った場合はget_columnsと異なりdataframeを返す
# 記法の互換性のため、pandasのdf["column"]のような操作も実装されていますが、推奨されていません。

tmp = pl_reserve_tb.select(['reserve_id','hotel_id','customer_id'])

tmp.head(3)

reserve_id,hotel_id,customer_id
str,str,str
"""r1""","""h_75""","""c_1"""
"""r2""","""h_219""","""c_1"""
"""r3""","""h_179""","""c_1"""


## pandas

In [37]:
# selectはない
tmp = pd_reserve_tb[['reserve_id','hotel_id','customer_id']]

tmp.head(3)

Unnamed: 0,reserve_id,hotel_id,customer_id
0,r1,h_75,c_1
1,r2,h_219,c_1
2,r3,h_179,c_1


# 列の追加

## polars

In [38]:
pl_reserve_tb.head(3)

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price
str,str,str,str,str,str,str,i64,i64
"""r1""","""h_75""","""c_1""","""2016-03-06 13:…","""2016-03-26""","""10:00:00""","""2016-03-29""",4,97200
"""r2""","""h_219""","""c_1""","""2016-07-16 23:…","""2016-07-20""","""11:30:00""","""2016-07-21""",2,20600
"""r3""","""h_179""","""c_1""","""2016-09-24 10:…","""2016-10-19""","""09:00:00""","""2016-10-22""",2,33600


In [39]:
tmp = pl_reserve_tb

# 新しいシリーズの作成を伴う操作
new_seires = (tmp.get_column("total_price") * 2).alias("total_price_2x")
tmp.with_columns(new_seires)

# エクスプレッションによる操作(こちらの方がおすすめ)
new_column_2x = (pl.col("total_price") * 2).alias("total_price_2x")
tmp.with_columns(new_column_2x)

# .with_columns()に列のリストを渡すと、一度に複数の列を追加
new_column_3x = (pl.col("total_price") * 3).alias("total_price_3x")
tmp.with_columns([new_column_2x, new_column_3x]).head(3)

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,total_price_2x,total_price_3x
str,str,str,str,str,str,str,i64,i64,i64,i64
"""r1""","""h_75""","""c_1""","""2016-03-06 13:…","""2016-03-26""","""10:00:00""","""2016-03-29""",4,97200,194400,291600
"""r2""","""h_219""","""c_1""","""2016-07-16 23:…","""2016-07-20""","""11:30:00""","""2016-07-21""",2,20600,41200,61800
"""r3""","""h_179""","""c_1""","""2016-09-24 10:…","""2016-10-19""","""09:00:00""","""2016-10-22""",2,33600,67200,100800


## pandas

In [40]:
tmp = pd_reserve_tb

tmp['total_price_2x'] = tmp['total_price']*2
tmp['total_price_3x'] = tmp['total_price']*3
tmp.head(3)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,total_price_2x,total_price_3x
0,r1,h_75,c_1,2016-03-06 13:09:42,2016-03-26,10:00:00,2016-03-29,4,97200,194400,291600
1,r2,h_219,c_1,2016-07-16 23:39:55,2016-07-20,11:30:00,2016-07-21,2,20600,41200,61800
2,r3,h_179,c_1,2016-09-24 10:03:17,2016-10-19,09:00:00,2016-10-22,2,33600,67200,100800


# 結合

## polars

In [41]:
tmp_left = pl_reserve_tb.filter(pl.col('people_num')==1)
tmp_right =  pl_hotel_tb.filter(pl.col('is_business')==True)

tmp_left.join(tmp_right, on = 'hotel_id', how='inner').head(3)

reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,base_price,big_area_name,small_area_name,hotel_latitude,hotel_longitude,is_business
str,str,str,str,str,str,str,i64,i64,i64,str,str,f64,f64,bool
"""r7""","""h_256""","""c_1""","""2017-12-29 10:…","""2018-01-25""","""10:30:00""","""2018-01-28""",1,103500,34500,"""C""","""C-1""",38.237294,140.696131,True
"""r11""","""h_183""","""c_2""","""2016-11-19 12:…","""2016-12-08""","""11:00:00""","""2016-12-11""",1,29700,9900,"""G""","""G-4""",33.595248,130.633567,True
"""r13""","""h_223""","""c_2""","""2017-10-19 03:…","""2017-10-21""","""09:30:00""","""2017-10-23""",1,137000,68500,"""C""","""C-2""",38.329097,140.698165,True


## pandas

In [42]:
pd.merge(pd_reserve_tb.query('people_num == 1'),
         pd_hotel_tb.query('is_business'),
         on = 'hotel_id', how = 'inner').head(3)

Unnamed: 0,reserve_id,hotel_id,customer_id,reserve_datetime,checkin_date,checkin_time,checkout_date,people_num,total_price,total_price_2x,total_price_3x,base_price,big_area_name,small_area_name,hotel_latitude,hotel_longitude,is_business
0,r7,h_256,c_1,2017-12-29 10:38:36,2018-01-25,10:30:00,2018-01-28,1,103500,207000,310500,34500,C,C-1,38.237294,140.696131,True
1,r997,h_256,c_244,2016-10-15 22:47:40,2016-10-31,10:30:00,2016-11-02,1,69000,138000,207000,34500,C,C-1,38.237294,140.696131,True
2,r2602,h_256,c_650,2016-05-10 00:42:56,2016-05-12,11:00:00,2016-05-14,1,69000,138000,207000,34500,C,C-1,38.237294,140.696131,True


# Groupby・aggregation

## polars

In [43]:
%%time

result = (
    pl_reserve_tb
        .groupby(['hotel_id'])
        .agg([pl.count('reserve_id').alias('rsv_cnt'), 
              pl.n_unique('customer_id').alias('cus_cnt'),
              ])
        .sort('hotel_id')
    )

result.head(3)

CPU times: user 17.8 ms, sys: 3.03 ms, total: 20.8 ms
Wall time: 6.6 ms




hotel_id,rsv_cnt,cus_cnt
str,u32,u32
"""h_1""",10,10
"""h_10""",3,3
"""h_100""",20,19


## pandas

In [44]:
%%time

result = (
    pd_reserve_tb
        .groupby('hotel_id')
        .agg({'reserve_id':'count', 'customer_id':'nunique'})
    )

result.reset_index(inplace=True)
result.columns = ['hotel_id','rsv_cnt','cus_cnt']
result.head(3)

CPU times: user 8.67 ms, sys: 199 µs, total: 8.86 ms
Wall time: 7.99 ms


Unnamed: 0,hotel_id,rsv_cnt,cus_cnt
0,h_1,10,10
1,h_10,3,3
2,h_100,20,19


# 条件文で値を指定

## polars

In [45]:
%%time

def func(x):
    if  x < 200000:
        return '01_lowprice'
    elif x >= 200000 and x < 400000:
        return '02_midprice'
    elif x >= 400000:
        return '03_hiprice'
    else:
        return '99_missing'

tmp = pl_reserve_tb

tmp = tmp.with_columns(pl.col('total_price').apply(func).alias('price_category'))

tmp.groupby(['price_category']).count()

CPU times: user 0 ns, sys: 29.8 ms, total: 29.8 ms
Wall time: 16.6 ms




price_category,count
str,u32
"""01_lowprice""",3489
"""03_hiprice""",121
"""02_midprice""",420


In [46]:
%%time

# エクスプレションをつかった方がおすすめ
cond = (
    pl.when(pl.col("total_price") < 200000).then("01_lowprice")
    .when((pl.col("total_price") >= 200000)&(pl.col("total_price") < 400000) ).then("02_midprice")
    .when(pl.col("total_price") >= 400000).then("03_hiprice")
    .otherwise("99_missing"))

tmp = pl_reserve_tb

tmp = tmp.with_columns(cond.alias('price_category'))

tmp.groupby(['price_category']).count()

CPU times: user 0 ns, sys: 21.7 ms, total: 21.7 ms
Wall time: 9.85 ms




price_category,count
str,u32
"""01_lowprice""",3489
"""02_midprice""",420
"""03_hiprice""",121


## pandas

In [47]:
%%time

def func(x):
    if  x < 200000:
        return '01_lowprice'
    elif x >= 200000 and x < 400000:
        return '02_midprice'
    elif x >= 400000:
        return '03_hiprice'
    else:
        return '99_missing'

tmp = pd_reserve_tb

tmp['price_category'] = tmp['total_price'].apply(func)

tmp.groupby('price_category').agg({'reserve_id':'count'})

CPU times: user 7.29 ms, sys: 1.49 ms, total: 8.78 ms
Wall time: 7.66 ms


Unnamed: 0_level_0,reserve_id
price_category,Unnamed: 1_level_1
01_lowprice,3489
02_midprice,420
03_hiprice,121


# 値の置換

## polars

In [48]:
def replace(column: str, mapping: dict):
    """
    Create a polars expression that replaces a columns values.

    Parameters
    ----------
    column : str
        Column name on which values should be replaced.
    mapping : dict
        Can be used to specify different replacement values for different existing values. For example,
        ``{'a': 'b', 'y': 'z'}`` replaces the value ‘a’ with ‘b’ and ‘y’ with ‘z’. Values not mentioned in ``mapping``
        will stay the same.

    Returns
    -------
    pl.internals.expr.Expr
        Expression that contains instructions to replace values in ``column`` according to ``mapping``.

    Raises
    ------
    Exception
        * If ``mapping`` is empty.
    TypeError
        * If ``column`` is not ``str``.
        * If ``mapping`` is not ``dict``.
    polars.exceptions.PanicException
        * When ``mapping`` has keys or values that are not mappable to arrows format. Only catchable via BaseException.
          See also https://pola-rs.github.io/polars-book/user-guide/datatypes.html.

    Examples
    --------
    >>> import polars as pl
    >>> df = pl.DataFrame({'fruit':['banana', 'apple', 'pie']})
    >>> df
    shape: (3, 1)
    ┌────────┐
    │ fruit  │
    │ ---    │
    │ str    │
    ╞════════╡
    │ banana │
    ├╌╌╌╌╌╌╌╌┤
    │ apple  │
    ├╌╌╌╌╌╌╌╌┤
    │ apple  │
    └────────┘
    >>> df.with_column(replace(column='fruit', mapping={'apple': 'pomegranate'}))
    shape: (3, 1)
    ┌─────────────┐
    │ fruit       │
    │ ---         │
    │ str         │
    ╞═════════════╡
    │ banana      │
    ├╌╌╌╌╌╌╌╌╌╌╌╌╌┤
    │ pomegranate │
    ├╌╌╌╌╌╌╌╌╌╌╌╌╌┤
    │ pomegranate │
    └─────────────┘

    """
    if not mapping:
        raise Exception("Mapping can't be empty")
    elif not isinstance(mapping, dict):
        TypeError(f"mapping must be of type dict, but is type: {type(mapping)}")
    if not isinstance(column, str):
        raise TypeError(f"column must be of type str, but is type: {type(column)}")

    branch = pl.when(pl.col(column) == list(mapping.keys())[0]).then(
        list(mapping.values())[0]
    )

    for from_value, to_value in mapping.items():
        branch = branch.when(pl.col(column) == from_value).then(to_value)

    return branch.otherwise(pl.col(column)).alias(column)

In [49]:
%%time

tmp_dict = {'man':'01_男性','woman':'02_女性'}

tmp = pl_customer_tb
tmp = tmp.with_columns(replace(column='sex', mapping=tmp_dict).alias('sex_rename'))

tmp.groupby('sex_rename').count()

CPU times: user 0 ns, sys: 19 ms, total: 19 ms
Wall time: 8.34 ms


  branch = pl.when(pl.col(column) == list(mapping.keys())[0]).then(
  branch = branch.when(pl.col(column) == from_value).then(to_value)
  branch = branch.when(pl.col(column) == from_value).then(to_value)


sex_rename,count
str,u32
"""01_男性""",518
"""02_女性""",482


## pandas

In [50]:
%%time

tmp_dict = {'man':'01_男性','woman':'02_女性'}

tmp = pd_customer_tb
tmp['sex_rename'] = tmp['sex'].replace(tmp_dict)

tmp.groupby('sex_rename').agg({'customer_id':'count'})

CPU times: user 5.87 ms, sys: 1.26 ms, total: 7.12 ms
Wall time: 5.94 ms


Unnamed: 0_level_0,customer_id
sex_rename,Unnamed: 1_level_1
01_男性,518
02_女性,482


# 日時データの取り扱い

## polars

In [51]:
# 日時型、日付型への変換

# to_datetime関数で、datetime64[ns]型に変換
pl_reserve_tb.get_column('reserve_datetime').str.strptime(pl.Datetime, format='%Y-%m-%d %H:%M:%S')
(pl_reserve_tb['checkin_date'] +' '+ pl_reserve_tb['checkin_time']).str.strptime(pl.Datetime, format='%Y-%m-%d %H:%M:%S')

# datetime64[ns]型から日次情報を取得

print('reserve date： ')
print(pl_reserve_tb.get_column('reserve_datetime').str.strptime(pl.Datetime, format='%Y-%m-%d %H:%M:%S').dt.strftime('%Y-%m-%d'))
print('='*20)

print('checkin date： ')
print((pl_reserve_tb['checkin_date'] +' '+ pl_reserve_tb['checkin_time']).str.strptime(pl.Datetime,format='%Y-%m-%d %H:%M:%S').dt.strftime('%Y-%m-%d'))
print('='*20)

reserve date： 
shape: (4_030,)
Series: 'reserve_datetime' [str]
[
	"2016-03-06"
	"2016-07-16"
	"2016-09-24"
	"2017-03-08"
	"2017-09-05"
	"2017-11-27"
	"2017-12-29"
	"2018-05-26"
	"2016-03-05"
	"2016-06-25"
	"2016-11-19"
	"2017-05-24"
	…
	"2017-08-20"
	"2017-12-10"
	"2018-04-22"
	"2016-01-08"
	"2016-05-13"
	"2016-04-21"
	"2016-10-06"
	"2017-03-11"
	"2017-06-27"
	"2017-09-29"
	"2018-03-14"
	"2016-04-16"
	"2016-06-06"
]
checkin date： 
shape: (4_030,)
Series: 'checkin_date' [str]
[
	"2016-03-26"
	"2016-07-20"
	"2016-10-19"
	"2017-03-29"
	"2017-09-22"
	"2017-12-04"
	"2018-01-25"
	"2018-06-08"
	"2016-03-25"
	"2016-07-14"
	"2016-12-08"
	"2017-06-20"
	…
	"2017-09-06"
	"2017-12-20"
	"2018-05-21"
	"2016-01-09"
	"2016-06-06"
	"2016-04-22"
	"2016-10-07"
	"2017-03-27"
	"2017-07-10"
	"2017-10-09"
	"2018-04-02"
	"2016-05-10"
	"2016-07-06"
]


In [52]:
# 年/月/日/時刻/分/秒/曜日への変換

tmp = pl_reserve_tb

# reserve_datetimeをdatetime64[ns]型に変換
tmp = tmp.with_columns(pl.col('reserve_datetime').str.strptime(pl.Datetime, format='%Y-%m-%d %H:%M:%S'))

# 年を取得
print('年： ')
# print(tmp.get_column('reserve_datetime').dt.year())
print(tmp.with_columns(pl.col('reserve_datetime').dt.year().alias('y')).select('y'))
print('='*20)

# 月を取得
print('月： ')
print(tmp.get_column('reserve_datetime').dt.month())
print('='*20)

# 日を取得
print('日： ')
print(tmp.get_column('reserve_datetime').dt.day())
print('='*20)

# # 曜日（0=日曜日、1＝月曜日）を数値で取得
# print('曜日： ')
# tmp_dict = {0:'月曜',1:'火曜',2:'水曜',3:'木曜',4:'金曜',5:'土曜',6:'日曜'}
# print(tmp['reserve_datetime'].dt.dayofweek.replace(tmp_dict))
# print('='*20)

# 時刻の時を取得
print('時刻： ')
print(tmp.get_column('reserve_datetime').dt.hour())
print('='*20)

# 時刻の分を取得
print('時刻の分： ')
print(tmp.get_column('reserve_datetime').dt.minute())
print('='*20)

# 時刻の秒を取得
print('時刻の秒： ')
print(tmp.get_column('reserve_datetime').dt.second())
print('='*20)

# 指定したフォーマットの文字列に変換
print('指定のフォーマットに文字変換後： ')
print(tmp.get_column('reserve_datetime').dt.strftime('%Y/%-m/%-d'))
print('='*20)

年： 
shape: (4_030, 1)
┌──────┐
│ y    │
│ ---  │
│ i32  │
╞══════╡
│ 2016 │
│ 2016 │
│ 2016 │
│ 2017 │
│ …    │
│ 2017 │
│ 2018 │
│ 2016 │
│ 2016 │
└──────┘
月： 
shape: (4_030,)
Series: 'reserve_datetime' [u32]
[
	3
	7
	9
	3
	9
	11
	12
	5
	3
	6
	11
	5
	…
	8
	12
	4
	1
	5
	4
	10
	3
	6
	9
	3
	4
	6
]
日： 
shape: (4_030,)
Series: 'reserve_datetime' [u32]
[
	6
	16
	24
	8
	5
	27
	29
	26
	5
	25
	19
	24
	…
	20
	10
	22
	8
	13
	21
	6
	11
	27
	29
	14
	16
	6
]
時刻： 
shape: (4_030,)
Series: 'reserve_datetime' [u32]
[
	13
	23
	10
	3
	19
	18
	10
	8
	13
	9
	12
	10
	…
	17
	19
	20
	20
	9
	21
	18
	11
	23
	5
	5
	15
	8
]
時刻の分： 
shape: (4_030,)
Series: 'reserve_datetime' [u32]
[
	9
	39
	3
	20
	50
	47
	38
	42
	31
	12
	49
	6
	…
	56
	39
	41
	30
	8
	50
	1
	56
	0
	24
	1
	20
	16
]
時刻の秒： 
shape: (4_030,)
Series: 'reserve_datetime' [u32]
[
	42
	55
	17
	10
	37
	5
	36
	51
	6
	22
	10
	21
	…
	37
	53
	29
	10
	55
	14
	34
	5
	2
	57
	45
	17
	51
]
指定のフォーマットに文字変換後： 
shape: (4_030,)
Series: 'reserve_datetime' [str]
[
	"2016/3/6"


In [53]:
# 日時差を取得

tmp = pl_reserve_tb

# reserve_datetimeをdatetime64[ns]型に変換
tmp = tmp.with_columns(pl.col('reserve_datetime').str.strptime(pl.Datetime, format='%Y-%m-%d %H:%M:%S'))

# checkin_datetimeをdatetime64[ns]型に変換
tmp = tmp.with_columns((pl_reserve_tb['checkin_date'] +' '+ pl_reserve_tb['checkin_time']).str.strptime(pl.Datetime, format='%Y-%m-%d %H:%M:%S').alias('checkin_datetime'))

# 年の差分を計算（月以下の日時要素は考慮しない）
print('年の差分を計算（月以下の日時要素は考慮しない）： ')
print(tmp['reserve_datetime'].dt.year() - tmp['checkin_datetime'].dt.year())
print('='*20)

# # 月の差分を取得（日以下の日時要素は考慮しない）
print('月の差分を取得（日以下の日時要素は考慮しない）： ')
print((tmp['reserve_datetime'].dt.year() * 12 +tmp['reserve_datetime'].dt.month()) - (tmp['checkin_datetime'].dt.year() * 12 +tmp['checkin_datetime'].dt.month()))
print('='*20)

"""
<工事中>

# 日単位で差分を計算
print('日単位で差分を計算： ')
print((tmp['reserve_datetime'] - tmp['checkin_datetime']))
print('='*20)

# # 時単位で差分を計算
# print('時単位で差分を計算： ')
# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[h]'))
# print('='*20)

# # 分単位で差分を計算
# print('分単位で差分を計算： ')
# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[m]'))
# print('='*20)

# # 秒単位で差分を計算
# print('秒単位で差分を計算： ')
# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[s]'))
# print('='*20)

"""

年の差分を計算（月以下の日時要素は考慮しない）： 
shape: (4_030,)
Series: 'reserve_datetime' [i32]
[
	0
	0
	0
	0
	0
	0
	-1
	0
	0
	0
	0
	0
	…
	0
	0
	0
	0
	0
	0
	0
	0
	0
	0
	0
	0
	0
]
月の差分を取得（日以下の日時要素は考慮しない）： 
shape: (4_030,)
Series: 'reserve_datetime' [i64]
[
	0
	0
	-1
	0
	0
	-1
	-1
	-1
	0
	-1
	-1
	-1
	…
	-1
	0
	-1
	0
	-1
	0
	0
	0
	-1
	-1
	-1
	-1
	-1
]


"\n<工事中>\n\n# 日単位で差分を計算\nprint('日単位で差分を計算： ')\nprint((tmp['reserve_datetime'] - tmp['checkin_datetime']))\nprint('='*20)\n\n# # 時単位で差分を計算\n# print('時単位で差分を計算： ')\n# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[h]'))\n# print('='*20)\n\n# # 分単位で差分を計算\n# print('分単位で差分を計算： ')\n# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[m]'))\n# print('='*20)\n\n# # 秒単位で差分を計算\n# print('秒単位で差分を計算： ')\n# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[s]'))\n# print('='*20)\n\n"

In [54]:
"""
<工事中>

import datetime
from dateutil.relativedelta import relativedelta

# 日時型の増減

tmp = pd_reserve_tb

# reserve_datetimeをdatetime64[ns]型に変換
tmp['reserve_datetime'] = pd.to_datetime(tmp['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

# 日時を加算(+1m20day)
(tmp['reserve_datetime'].map(lambda x: x + relativedelta(months=1)) + datetime.timedelta(days=20)).dt.date"""

"\n<工事中>\n\nimport datetime\nfrom dateutil.relativedelta import relativedelta\n\n# 日時型の増減\n\ntmp = pd_reserve_tb\n\n# reserve_datetimeをdatetime64[ns]型に変換\ntmp['reserve_datetime'] = pd.to_datetime(tmp['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')\n\n# 日時を加算(+1m20day)\n(tmp['reserve_datetime'].map(lambda x: x + relativedelta(months=1)) + datetime.timedelta(days=20)).dt.date"

## pandas



*   pandasにはdatetime64[ns]型とdatetime64[D]型がある（[xx]のxxは扱う最小単位を表す）
*   日時要素を取り出すときはdatetime64[ns]型に変換後に日次要素を取得する方が便利

In [55]:
# 日時型、日付型への変換

# to_datetime関数で、datetime64[ns]型に変換
pd.to_datetime(pd_reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')
pd.to_datetime(pd_reserve_tb['checkin_date'] +' '+ pd_reserve_tb['checkin_time'], format='%Y-%m-%d %H:%M:%S')

# datetime64[ns]型から日次情報を取得

print('reserve date： ')
print(pd.to_datetime(pd_reserve_tb['reserve_datetime'],
               format='%Y-%m-%d %H:%M:%S').dt.date)
print('='*20)

print('checkin date： ')
print(pd.to_datetime(pd_reserve_tb['checkin_date'] +' '+ pd_reserve_tb['checkin_time'], format='%Y-%m-%d %H:%M:%S').dt.date)
print('='*20)

reserve date： 
0       2016-03-06
1       2016-07-16
2       2016-09-24
3       2017-03-08
4       2017-09-05
           ...    
4025    2017-06-27
4026    2017-09-29
4027    2018-03-14
4028    2016-04-16
4029    2016-06-06
Name: reserve_datetime, Length: 4030, dtype: object
checkin date： 
0       2016-03-26
1       2016-07-20
2       2016-10-19
3       2017-03-29
4       2017-09-22
           ...    
4025    2017-07-10
4026    2017-10-09
4027    2018-04-02
4028    2016-05-10
4029    2016-07-06
Length: 4030, dtype: object




*   上記のフォーマット文字で二桁表示のところは全て律儀に、左側ゼロ埋めで二桁で表示されます。例えば 4月を表す場合に %m とすると 04 となります。
*    もし 04 ではなく 4 としたい場合は、%-m のようにハイフンを付けます。
*    https://python.keicode.com/lang/format-datetime.php



In [56]:
# 年/月/日/時刻/分/秒/曜日への変換

tmp = pd_reserve_tb

# reserve_datetimeをdatetime64[ns]型に変換
tmp['reserve_datetime'] = pd.to_datetime(pd_reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

# 年を取得
print('年： ')
print(tmp['reserve_datetime'].dt.year)
print('='*20)

# 月を取得
print('月： ')
print(tmp['reserve_datetime'].dt.month)
print('='*20)

# 日を取得
print('日： ')
print(tmp['reserve_datetime'].dt.day)
print('='*20)

# 曜日（0=日曜日、1＝月曜日）を数値で取得
print('曜日： ')
tmp_dict = {0:'月曜',1:'火曜',2:'水曜',3:'木曜',4:'金曜',5:'土曜',6:'日曜'}
print(tmp['reserve_datetime'].dt.dayofweek.replace(tmp_dict))
print('='*20)

# 時刻の時を取得
print('時刻： ')
print(tmp['reserve_datetime'].dt.hour)
print('='*20)

# 時刻の分を取得
print('時刻の分： ')
print(tmp['reserve_datetime'].dt.minute)
print('='*20)

# 時刻の秒を取得
print('時刻の秒： ')
print(tmp['reserve_datetime'].dt.second)
print('='*20)

# 指定したフォーマットの文字列に変換
print('指定のフォーマットに文字変換後： ')
print(tmp['reserve_datetime'].dt.strftime('%Y/%-m/%-d'))
print('='*20)

年： 
0       2016
1       2016
2       2016
3       2017
4       2017
        ... 
4025    2017
4026    2017
4027    2018
4028    2016
4029    2016
Name: reserve_datetime, Length: 4030, dtype: int32
月： 
0       3
1       7
2       9
3       3
4       9
       ..
4025    6
4026    9
4027    3
4028    4
4029    6
Name: reserve_datetime, Length: 4030, dtype: int32
日： 
0        6
1       16
2       24
3        8
4        5
        ..
4025    27
4026    29
4027    14
4028    16
4029     6
Name: reserve_datetime, Length: 4030, dtype: int32
曜日： 
0       日曜
1       土曜
2       土曜
3       水曜
4       火曜
        ..
4025    火曜
4026    金曜
4027    水曜
4028    土曜
4029    月曜
Name: reserve_datetime, Length: 4030, dtype: object
時刻： 
0       13
1       23
2       10
3        3
4       19
        ..
4025    23
4026     5
4027     5
4028    15
4029     8
Name: reserve_datetime, Length: 4030, dtype: int32
時刻の分： 
0        9
1       39
2        3
3       20
4       50
        ..
4025     0
4026    24
4027     1


In [57]:
# 日時差を取得

tmp = pd_reserve_tb

# reserve_datetimeをdatetime64[ns]型に変換
tmp['reserve_datetime'] = pd.to_datetime(tmp['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

# checkin_datetimeをdatetime64[ns]型に変換
tmp['checkin_datetime'] = pd.to_datetime(tmp['checkin_date'] +' '+ tmp['checkin_time'], format='%Y-%m-%d %H:%M:%S')

# 年の差分を計算（月以下の日時要素は考慮しない）
print('年の差分を計算（月以下の日時要素は考慮しない）： ')
print(tmp['reserve_datetime'].dt.year - tmp['checkin_datetime'].dt.year)
print('='*20)

# 月の差分を取得（日以下の日時要素は考慮しない）
print('月の差分を取得（日以下の日時要素は考慮しない）： ')
print((tmp['reserve_datetime'].dt.year * 12 +tmp['reserve_datetime'].dt.month) - (tmp['checkin_datetime'].dt.year * 12 +tmp['checkin_datetime'].dt.month))
print('='*20)

# 日単位で差分を計算
print('日単位で差分を計算： ')
# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[D]'))
print((tmp['reserve_datetime'] - tmp['checkin_datetime']).dt.days)
print('='*20)

"""
<工事中>
# 時単位で差分を計算
print('時単位で差分を計算： ')
# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[h]'))
print((tmp['reserve_datetime'] - tmp['checkin_datetime']).dt.months)
print('='*20)

# 分単位で差分を計算
print('分単位で差分を計算： ')
print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[m]'))
print('='*20)

# 秒単位で差分を計算
print('秒単位で差分を計算： ')
print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[s]'))
print('='*20)

"""

年の差分を計算（月以下の日時要素は考慮しない）： 
0       0
1       0
2       0
3       0
4       0
       ..
4025    0
4026    0
4027    0
4028    0
4029    0
Length: 4030, dtype: int32
月の差分を取得（日以下の日時要素は考慮しない）： 
0       0
1       0
2      -1
3       0
4       0
       ..
4025   -1
4026   -1
4027   -1
4028   -1
4029   -1
Length: 4030, dtype: int32
日単位で差分を計算： 
0      -20
1       -4
2      -25
3      -22
4      -17
        ..
4025   -13
4026   -11
4027   -20
4028   -24
4029   -31
Length: 4030, dtype: int64


"\n<工事中>\n# 時単位で差分を計算\nprint('時単位で差分を計算： ')\n# print((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[h]'))\nprint((tmp['reserve_datetime'] - tmp['checkin_datetime']).dt.months)\nprint('='*20)\n\n# 分単位で差分を計算\nprint('分単位で差分を計算： ')\nprint((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[m]'))\nprint('='*20)\n\n# 秒単位で差分を計算\nprint('秒単位で差分を計算： ')\nprint((tmp['reserve_datetime'] - tmp['checkin_datetime']).astype('timedelta64[s]'))\nprint('='*20)\n\n"

In [58]:
import datetime
from dateutil.relativedelta import relativedelta

# 日時型の増減

tmp = pd_reserve_tb

# reserve_datetimeをdatetime64[ns]型に変換
tmp['reserve_datetime'] = pd.to_datetime(tmp['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')

# 日時を加算(+1m20day)
(tmp['reserve_datetime'].map(lambda x: x + relativedelta(months=1)) + datetime.timedelta(days=20)).dt.date

0       2016-04-26
1       2016-09-05
2       2016-11-13
3       2017-04-28
4       2017-10-25
           ...    
4025    2017-08-16
4026    2017-11-18
4027    2018-05-04
4028    2016-06-05
4029    2016-07-26
Name: reserve_datetime, Length: 4030, dtype: object

# pivot

## polars

*    DataFrame.pivot()でピボットテーブルを作成します。引数はvalue=・index=・columns=・aggregate_fn=の順に渡します。pandasのDataFrame.pivot_table()に相当します。
*    なお、ピボットテーブルを戻す場合、（pandasでいう）.stack()は存在しませんが、.melt()が存在します。

In [59]:
# <工事中>

# 顧客ID/宿泊人数毎に予約数をカウント
pl_reserve_tb.pivot(index='customer_id', columns='people_num', 
                    values='reserve_id',
                    aggregate_function='count'
                    # aggregate_fn=lambda x: len(x)
                    ).fill_null(0).head(3)

customer_id,4,2,3,1
str,u32,u32,u32,u32
"""c_1""",2,2,2,2
"""c_2""",3,2,1,2
"""c_3""",2,2,2,2


## pandas

In [60]:
# 顧客ID/宿泊人数毎に予約数をカウント
pd.pivot_table(pd_reserve_tb, index='customer_id', columns='people_num', 
               values='reserve_id',
               aggfunc=lambda x: len(x), fill_value=0
               ).head(3)

people_num,1,2,3,4
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
c_1,2,2,2,2
c_10,0,2,2,2
c_100,2,1,2,0


# ランダムサンプリング

## polars

In [61]:
pl_reserve_tb.sample(100)

print(pl_reserve_tb.shape)

(4030, 9)


## pandas

In [62]:
pd_reserve_tb.sample(100)

print(pd_reserve_tb.shape)

(4030, 13)
