# Polars

## Giới thiệu

Polars là một thư viện mới của Python, viết trên Rust và có thể hỗ trợ và tính toán dữ liệu nhanh chóng, kể cả với trường hợp dữ liệu vượt quá dung lượng bộ nhớ. Bên cạnh đó, `polars` còn có các ưu điểm vượt trội sau:

- Cú pháp tương đồng với `pandas`
- Hỗ trợ tốt hơn với các cú pháp xử lý và biến đổi dữ liệu đơn giản, hỗ trợ `pipe` hiệu quả
- Hỗ trợ `lazy evaluation` để tăng tốc độ tính toán và xử lý

Bên cạnh đó, cấu trúc dữ liệu của `polars` hoàn toàn tương thích với `plotnine` để xây dựng biểu đồ theo phong cách của ngữ pháp biểu đồ

---

Tài liệu đầy đủ của `polars` có thể tham khảo chi tiết tại [https://docs.pola.rs/]()

Ta có thể cài đặt polars như sau:

```python
# Cơ bản
pip install polars
# polars với đầy đủ tính năng
pip install "polars[all]"
```

## Polars cơ bản

### Series

Tương tự như `pd.Series`, cấu trúc `Series` của polars cũng có cấu trúc tương tự

In [65]:
import polars as pl
# Series 1
pl.Series([1, 2.4, 5, 6])

1.0
2.4
5.0
6.0


In [66]:
# Series 2
pl.Series(['a', 'b', 'c'], dtype = pl.Categorical)

"""a"""
"""b"""
"""c"""


## Data Frame

DataFrame trong polars cũng có thể thực hiện với cấu trúc dictionary, list

In [67]:
import numpy as np
df = pl.DataFrame(
    {
        'x': np.arange(5),
        'y': ['a', 'a', 'b', 'b', 'c']
    }
)
df

x,y
i32,str
0,"""a"""
1,"""a"""
2,"""b"""
3,"""b"""
4,"""c"""


In [68]:
# Cấu trúc dữ liệu
type(df)

polars.dataframe.frame.DataFrame

In [69]:
# Summary dữ liệu
df.describe()

statistic,x,y
str,f64,str
"""count""",5.0,"""5"""
"""null_count""",0.0,"""0"""
"""mean""",2.0,
"""std""",1.581139,
"""min""",0.0,"""a"""
"""25%""",1.0,
"""50%""",2.0,
"""75%""",3.0,
"""max""",4.0,"""c"""


In [70]:
# Cấu trúc dữ liệu
df.dtypes

[Int32, String]

In [71]:
# Convert sang Categorical
df["y"].cast(pl.Categorical).describe()

statistic,value
str,str
"""count""","""5"""
"""null_count""","""0"""


Bên cạnh đó, ta cũng có thể convert từ `pandas.DataFrame` sang `polars.DataFrame`

In [72]:
from plotnine.data import mtcars
type(mtcars)

pandas.core.frame.DataFrame

In [73]:
# Convert sang polars
mtcars_pl = pl.from_pandas(mtcars)
type(mtcars_pl)

polars.dataframe.frame.DataFrame

**Lưu ý**: Để thuận tiện trong quá trình sử dụng `polars`, các phần hướng dẫn biến đổi dữ liệu tiếp theo sẽ sử dụng tập dữ liệu `mtcars`

In [74]:
mtcars_pl.head()

name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Mazda RX4""",21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
"""Mazda RX4 Wag""",21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
"""Datsun 710""",22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
"""Hornet 4 Drive""",21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
"""Hornet Sportabout""",18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


## Nhóm câu lệnh truy vấn dữ liệu


### Chọn biến

Với polars, ta có thể chọn biến theo 2 cách

- **Cách 1**: Sử dụng các biến dưới dạng list
- **Cách 2**: Sử dụng hàm select

In [75]:
# Chọn biến theo dạng list
mtcars_pl['mpg'].head(4)

mpg
f64
21.0
21.0
22.8
21.4


In [76]:
mtcars_pl[['mpg', 'cyl']].head(4)

mpg,cyl
f64,i64
21.0,6
21.0,6
22.8,4
21.4,6


In [77]:
var = ['mpg', 'cyl', 'vs']
mtcars_pl[var]

mpg,cyl,vs
f64,i64,i64
21.0,6,0
21.0,6,0
22.8,4,1
21.4,6,1
18.7,8,0
…,…,…
30.4,4,1
15.8,8,0
19.7,6,0
15.0,8,0


Ngoài cách trên, ta có thể sử dụng method `filter` như sau

In [78]:
mtcars_pl.select(['mpg', 'cyl', 'am']).head()

mpg,cyl,am
f64,i64,i64
21.0,6,1
21.0,6,1
22.8,4,1
21.4,6,0
18.7,8,0


### Lọc dữ liệu theo dòng

Với `polars`, ta có thể lọc các dòng đơn giản với list

In [79]:
# Lấy các dòng từ 1 đến 4
mtcars_pl[0:4]

name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Mazda RX4""",21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
"""Mazda RX4 Wag""",21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
"""Datsun 710""",22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
"""Hornet 4 Drive""",21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1


---

### Lọc dữ liệu theo điều kiện

`polars` sử dụng method `filter` để lọc điều kiện nhanh chóng

In [80]:
# Lọc mpg >= 20
mtcars_pl.\
    filter(pl.col("mpg") >= 20).\
    head()

name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Mazda RX4""",21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
"""Mazda RX4 Wag""",21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
"""Datsun 710""",22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
"""Hornet 4 Drive""",21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
"""Merc 240D""",24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2


In [81]:
# mpg >= 20 & cyl = 4
mtcars_pl.\
    filter((pl.col("mpg") >= 20) & (pl.col("cyl") == 4)).\
    head()

name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Datsun 710""",22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
"""Merc 240D""",24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
"""Merc 230""",22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
"""Fiat 128""",32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1
"""Honda Civic""",30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2


Ta cũng có thể viết theo pipe operator với nhiều điều kiện liên tiếp như sau

In [82]:
# Lấy thêm điều kiện cyl == 4
mtcars_pl.\
    filter(pl.col("mpg") >= 20).\
    filter(pl.col("cyl") == 4).\
    select(pl.col(["mpg", "cyl"])).\
    head()

mpg,cyl
f64,i64
22.8,4
24.4,4
22.8,4
32.4,4
30.4,4


---

### Sắp xếp lại dữ liệu

Ta có thể sort lại dữ liệu với method `sort`

In [83]:
# Lọc từ thấp đến cao
mtcars_pl.sort('mpg').head()

name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Cadillac Fleetwood""",10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
"""Lincoln Continental""",10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
"""Camaro Z28""",13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
"""Duster 360""",14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
"""Chrysler Imperial""",14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4


In [84]:
# Lọc từ cao đến thấp
mtcars_pl.sort('mpg', descending = True).head()

name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Toyota Corolla""",33.9,4,71.1,65,4.22,1.835,19.9,1,1,4,1
"""Fiat 128""",32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1
"""Honda Civic""",30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2
"""Lotus Europa""",30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
"""Fiat X1-9""",27.3,4,79.0,66,4.08,1.935,18.9,1,1,4,1


## Nhóm câu lệnh biến đổi dữ liệu

### Đổi tên biến

**Cấu trúc**:
`df.rename(columns = {old_var : new_var})`

In [85]:
mtcars_pl.rename(
    {
        'mpg' : 'mpg_new',
        'cyl' : 'cyl_new'
    }).\
    head()

name,mpg_new,cyl_new,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64
"""Mazda RX4""",21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
"""Mazda RX4 Wag""",21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
"""Datsun 710""",22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
"""Hornet 4 Drive""",21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
"""Hornet Sportabout""",18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


### Tạo & xóa biến mới 

Với `polars`, cách thuận tiện nhất để biến đổi dữ liệu các biến trong dataframe là dùng `with_columns` 
method.

Với `with_columns`, ta có thể tạo và biến đổi dữ liệu. Tên của biến mới được khai báo thông qua `alias` method hoặc có thể tạo trực tiếp biến

In [86]:
# Cách 1: Tạo biến mới với alias
df = mtcars_pl.\
    select(['mpg', 'cyl']).\
    with_columns(
        (pl.col("mpg")*2).alias('new_var')
    )
df.head()

mpg,cyl,new_var
f64,i64,f64
21.0,6,42.0
21.0,6,42.0
22.8,4,45.6
21.4,6,42.8
18.7,8,37.4


In [87]:
# Cách 2: Không dùng alias
mtcars_pl.\
    select(['mpg', 'cyl']).\
    with_columns(
        new_var = (pl.col("mpg")*2)
    ).\
    head()

mpg,cyl,new_var
f64,i64,f64
21.0,6,42.0
21.0,6,42.0
22.8,4,45.6
21.4,6,42.8
18.7,8,37.4


In [88]:
# Drop biến new_var
df.drop('new_var').head()

mpg,cyl
f64,i64
21.0,6
21.0,6
22.8,4
21.4,6
18.7,8


### Tạo biến mới theo nhóm

**Lưu ý**: `polars` có sẵn rất nhiều methods cho phép tính toán & tổng hợp dữ liệu có sẵn mà không cần phải chuyển qua các thư viện khác như numpy hay pandas.

Ta có thể tạo biến mới theo nhóm bằng cách kết hợp giữa `with_columns` và `over` như sau


In [89]:
mtcars_pl.\
    with_columns(
         # Tổng mpg
         pl.col("mpg").sum().over("cyl").alias("sum_mpg"),
         # Quantile 0.75 của mpg
         pl.col("mpg").quantile(0.75).over("cyl").alias("q75")
    )

name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,sum_mpg,q75
str,f64,i64,f64,i64,f64,f64,f64,i64,i64,i64,i64,f64,f64
"""Mazda RX4""",21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,138.2,21.0
"""Mazda RX4 Wag""",21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,138.2,21.0
"""Datsun 710""",22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,293.3,30.4
"""Hornet 4 Drive""",21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,138.2,21.0
"""Hornet Sportabout""",18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,211.4,16.4
…,…,…,…,…,…,…,…,…,…,…,…,…,…
"""Lotus Europa""",30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2,293.3,30.4
"""Ford Pantera L""",15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4,211.4,16.4
"""Ferrari Dino""",19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6,138.2,21.0
"""Maserati Bora""",15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8,211.4,16.4


### Join

Tương tự như pandas, join trong polars có thể dùng hàm `join`

In [90]:
df1 = pl.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pl.DataFrame({'employee': ['Lisa', 'Bob', 'Jake'],
                    'hire_date': [2004, 2008, 2012]})
print(df1); print(df2)

shape: (4, 2)
┌──────────┬─────────────┐
│ employee ┆ group       │
│ ---      ┆ ---         │
│ str      ┆ str         │
╞══════════╪═════════════╡
│ Bob      ┆ Accounting  │
│ Jake     ┆ Engineering │
│ Lisa     ┆ Engineering │
│ Sue      ┆ HR          │
└──────────┴─────────────┘
shape: (3, 2)
┌──────────┬───────────┐
│ employee ┆ hire_date │
│ ---      ┆ ---       │
│ str      ┆ i64       │
╞══════════╪═══════════╡
│ Lisa     ┆ 2004      │
│ Bob      ┆ 2008      │
│ Jake     ┆ 2012      │
└──────────┴───────────┘


In [91]:
df1.join(df2, on = "employee")

employee,group,hire_date
str,str,i64
"""Bob""","""Accounting""",2008
"""Jake""","""Engineering""",2012
"""Lisa""","""Engineering""",2004


**Lưu ý**: Khi dùng `join`, ` polars`sẽ tự động bỏ các trường không chứa trong cả 2 bảng. Nếu muốn chuyển thành `left_join`, cần thêm option `how`

In [92]:
df1.join(df2, on = "employee", how = "left")

employee,group,hire_date
str,str,i64
"""Bob""","""Accounting""",2008.0
"""Jake""","""Engineering""",2012.0
"""Lisa""","""Engineering""",2004.0
"""Sue""","""HR""",


In [93]:
# Lấy các trưởng không ở cả 2 bảng
df1.join(df2, on = "employee", how = 'anti')

employee,group
str,str
"""Sue""","""HR"""


---

Với trường hợp bảng dữ liệu khác key, ta cần lựa chọn các biến ở bảng

In [94]:
df3 = pl.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
print(df1); print(df3);

shape: (4, 2)
┌──────────┬─────────────┐
│ employee ┆ group       │
│ ---      ┆ ---         │
│ str      ┆ str         │
╞══════════╪═════════════╡
│ Bob      ┆ Accounting  │
│ Jake     ┆ Engineering │
│ Lisa     ┆ Engineering │
│ Sue      ┆ HR          │
└──────────┴─────────────┘
shape: (4, 2)
┌──────┬────────┐
│ name ┆ salary │
│ ---  ┆ ---    │
│ str  ┆ i64    │
╞══════╪════════╡
│ Bob  ┆ 70000  │
│ Jake ┆ 80000  │
│ Lisa ┆ 120000 │
│ Sue  ┆ 90000  │
└──────┴────────┘


In [95]:
df1.join(df3, left_on = 'employee', right_on = 'name')

employee,group,salary
str,str,i64
"""Bob""","""Accounting""",70000
"""Jake""","""Engineering""",80000
"""Lisa""","""Engineering""",120000
"""Sue""","""HR""",90000


### Ghép dữ liệu

Với pandas, cấu trúc của DataFrame được chia thành hàng và cột. Do đó, cả 2 trường hợp ghép dòng và ghép cột, ta có thể dùng hàm `concat` tương tự như `pandas`

#### Ghép dòng

In [96]:
df1 = pl.DataFrame(
    {
        "a" : [4 ,5, 6], 
        "b" : [7, 8, 9]
    }
)

df2 = pl.DataFrame({
    "a" : [1,2],
    "b" : [8, 9]
})
print(df1); print(df2)

shape: (3, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 4   ┆ 7   │
│ 5   ┆ 8   │
│ 6   ┆ 9   │
└─────┴─────┘
shape: (2, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 1   ┆ 8   │
│ 2   ┆ 9   │
└─────┴─────┘


In [97]:
# Ghép theo dòng
pl.concat([df1, df2], how = "vertical")

a,b
i64,i64
4,7
5,8
6,9
1,8
2,9


#### Ghép theo cột

In [98]:
# Dữ liệu mới
df3 = pl.DataFrame({
    "c" : ['x', 'y', 'z']})

In [99]:
pl.concat([df1, df3], how = "horizontal")

a,b,c
i64,i64,str
4,7,"""x"""
5,8,"""y"""
6,9,"""z"""


## Tổng hợp dữ liệu

### groupby & aggregate

`polars` cho phép sử dụng nhiều cách linh hoạt để tổng hợp dữ liệu nhanh chóng với `agg` method kết hợp với `groupby` method.

In [100]:
# Summary toàn bộ data.frame
mtcars_pl.describe()

statistic,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
str,str,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64
"""count""","""32""",32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
"""null_count""","""0""",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
"""mean""",,20.090625,6.1875,230.721875,146.6875,3.5965625,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
"""std""",,6.026948,1.785922,123.938694,68.562868,0.534679,0.978457,1.786943,0.504016,0.498991,0.737804,1.6152
"""min""","""AMC Javelin""",10.4,4.0,71.1,52.0,2.76,1.513,14.5,0.0,0.0,3.0,1.0
"""25%""",,15.5,4.0,121.0,97.0,3.08,2.62,16.9,0.0,0.0,3.0,2.0
"""50%""",,19.2,6.0,225.0,123.0,3.7,3.435,17.82,0.0,0.0,4.0,2.0
"""75%""",,22.8,8.0,318.0,180.0,3.92,3.57,18.9,1.0,1.0,4.0,4.0
"""max""","""Volvo 142E""",33.9,8.0,472.0,335.0,4.93,5.424,22.9,1.0,1.0,5.0,8.0


---

Khác với pandas cho phép rất linh hoạt, cách thức `polars`, tổng hợp dữ liệu rất nhất quán và đơn giản. Có 2 điểm khác biệt chính như sau:

- `polars` sử dụng `alias` để tạo biến mới
- Các hàm tính toán tổng hợp thông thường như `min`, `max`, `count`, `sum`, `mean`, `quantile`,... đều có thể sử dụng trực tiếp methods trong `polars`

In [101]:
#Summary theo nhóm với biến mpg
mtcars_pl.\
    groupby(['am', 'vs']).\
    agg(
        pl.col("mpg").mean().alias("mean_mpg"),
        pl.col("wt").sum().alias("sum_wt")
    )



am,vs,mean_mpg,sum_wt
i64,i64,f64,f64
1,1,28.371429,14.198
1,0,19.75,17.145
0,1,20.742857,22.36
0,0,15.05,49.249


Bên cạnh đó, `polars` còn cho phép tổng hợp rất linh hoạt theo điều kiện. Quay trở lại ví dụ trên, ta có thể đặt ra yêu cầu như sau:

- Nhóm biến theo `am` và `vs`
- Tính tổng `mpg` với `cyl = 4`
- Tính giá trị trung bình `mpg` với `cyl = 6`

Ta có thể thực hiện như sau

In [102]:
mtcars_pl.\
    group_by(['am', 'vs']).\
    agg(
        pl.col("mpg").filter(pl.col("cyl") == 4).sum().alias("sum_mpg"),
        pl.col("wt").filter(pl.col("cyl") == 6).mean().alias("mean_wt")
    )

am,vs,sum_mpg,mean_wt
i64,i64,f64,f64
0,0,0.0,
1,0,26.0,2.755
1,1,198.6,
0,1,68.7,3.38875


## Các hàm nâng cao

### select_dtype

`polars` cho phép select cùng lúc các biến cùng thuộc một kiểu dữ liệu. Xem ví dụ dưới đây:

In [103]:
df = pl.DataFrame({
    'x': [1, 2, 3],
    'y' : ['a', 'b', 'c'],
    'z' : [4, 5, 6],
    't' : [0.5, 6.2, 7.8]
})
df.dtypes

[Int64, String, Int64, Float64]

In [104]:
# Chọn các biến là biến số dạng integer
df.select(pl.col(pl.Int64, pl.Float64))

x,z,t
i64,i64,f64
1,4,0.5
2,5,6.2
3,6,7.8


Ta có thể sử dụng `selectors` để có thể sử dụng linh hoạt hơn như sau

In [105]:
import polars.selectors as cs
# Chọn tất cả biến số
df.select(cs.numeric())

x,z,t
i64,i64,f64
1,4,0.5
2,5,6.2
3,6,7.8


### Xoay chiều dữ liệu

Tương tự pandas, `polars` cho phép xoay chiều dữ liệu từ ngang sang dọc và dọc sang ngang với 2 hàm:

-  `melt`
- `long_to_wide`

In [106]:
my_df = pl.DataFrame({
    'id' : [1,2,3],
    'var1' : [3,4,5],
    'var2' : ['a', 'a', 'b'],
    'var3' : ['x', 'y', 'z']
})

In [107]:
my_df

id,var1,var2,var3
i64,i64,str,str
1,3,"""a""","""x"""
2,4,"""a""","""y"""
3,5,"""b""","""z"""


In [108]:
my_df.melt(id_vars = "id")

id,variable,value
i64,str,str
1,"""var1""","""3"""
2,"""var1""","""4"""
3,"""var1""","""5"""
1,"""var2""","""a"""
2,"""var2""","""a"""
3,"""var2""","""b"""
1,"""var3""","""x"""
2,"""var3""","""y"""
3,"""var3""","""z"""


In [109]:
# melt nhiều biến
my_df.melt(['id', 'var1'])

id,var1,variable,value
i64,i64,str,str
1,3,"""var2""","""a"""
2,4,"""var2""","""a"""
3,5,"""var2""","""b"""
1,3,"""var3""","""x"""
2,4,"""var3""","""y"""
3,5,"""var3""","""z"""


---

Xoay chiều từ dọc sang ngang

In [110]:
df2 = my_df.melt('id')
df2

id,variable,value
i64,str,str
1,"""var1""","""3"""
2,"""var1""","""4"""
3,"""var1""","""5"""
1,"""var2""","""a"""
2,"""var2""","""a"""
3,"""var2""","""b"""
1,"""var3""","""x"""
2,"""var3""","""y"""
3,"""var3""","""z"""


In [111]:
df2.pivot(index = 'id', columns = 'variable', 
                values = 'value', aggregate_function = 'first')

id,var1,var2,var3
i64,str,str,str
1,"""3""","""a""","""x"""
2,"""4""","""a""","""y"""
3,"""5""","""b""","""z"""


### Các hàm khác

#### Lag

In [112]:
df = pl.DataFrame({
    'date' : [1,2,3],
    'value' : [6,7,8]
})
df

date,value
i64,i64
1,6
2,7
3,8


In [113]:
# Tạo biến lead & lag
df.with_columns(
    lag_1 = pl.col("value").shift(1),
    lead_1 = pl.col("value").shift(-1)
)

date,value,lag_1,lead_1
i64,i64,i64,i64
1,6,,7.0
2,7,6.0,8.0
3,8,7.0,


#### Rank

Các biến cũng có thể được `rank` đơn giản với method rank như sau

In [114]:
my_df = pl.DataFrame({
    'id' : [1,2,3, 3],
    'var1' : [5,4,2, 6],
    'var2' : ['a', 'a', 'b', 'c'],
    'var3' : ['x', 'y', 'z', 'y']
})

In [115]:
my_df.\
    with_columns(
        pl.col("var1").rank("ordinal").alias("ordinal_rank"),
        pl.col("var1").rank("min").alias("min_rank")
    )

id,var1,var2,var3,ordinal_rank,min_rank
i64,i64,str,str,u32,u32
1,5,"""a""","""x""",3,3
2,4,"""a""","""y""",2,2
3,2,"""b""","""z""",1,1
3,6,"""c""","""y""",4,4


## Lazy evaluation

`Polars` cho phép sử dụng lazy evaluation để tính toán và tổng hợp dữ liệu. Khác với các câu lệnh thông thường chỉ tính toán theo từng câu lệnh. `Lazy evaluation` cho phép optimize toàn bộ câu lệnh trước khi thực sự thực hiện. 

Có 2 cách để sử dụng `lazy evaluation`:

- Biến đổi polars dataframe sang lazy
- Scan file

In [122]:
# Cách 1: Tạo lazy object
mtcars_pl2 = mtcars_pl.lazy()

In [137]:
# Hiển thị plan
q1 = mtcars_pl2.\
    filter(pl.col("vs") == 1).\
    group_by(pl.col("am")).\
    agg(
        pl.col("mpg").mean().alias("mean_mpg")
    )
q1

In [141]:
# Thực hiện với collect
q1.collect()

am,mean_mpg
i64,f64
1,28.371429
0,20.742857


---

**Cách 2**: Scan file

Bên cạnh việc tối ưu hóa, polars và lazy evaluation cho phép sử dụng option `streaming` để tính toán từng phần với dữ liệu lớn

```python
pl.scan_parquet("file_parquet")
    .filter(pl.col("x") > 30).
    .collect(streaming = True)
```

## Đọc & ghi dữ liệu


### Import dữ liệu


#### Kết nối với database

Ta có thể đọc dữ liệu từ SQL Server thông qua odbc


```python
import pyodbc
conn = pyodbc.connect(
    r'DRIVER={ODBC Driver 13 for SQL Server};'
    r'SERVER=ADMINMI-JTBJEPG;' # Name of server
    r'DATABASE=learningsql;'   # Data base
    r'UID=user_name;'                 # User
    r'PWD=pwd'              # Password
    )
df = pl.read_database('SELECT * FROM ACCOUNT', conn)
df.head
```



**Ghi dữ liệu vào database**: Khi có một dataframe tên df, ta có thể sử dụng method `write_database` để ghi vào server như sau

```python
pyodbc_uri = (
    "mssql+pyodbc://user:pass@server:1433/test?"
    "driver=ODBC+Driver+17+for+SQL+Server"
)
engine = create_engine(pyodbc_uri, fast_executemany=True)  
df.write_database(
    table_name="target_table",
    connection=engine,
)  
```

#### Import từ file

```python
df = pl.read_csv("file.csv")
```

- Kiểm tra các kiểu dữ liệu có thể đọc

In [117]:
?pl.read_*

pl.read_avro
pl.read_clipboard
pl.read_csv
pl.read_csv_batched
pl.read_database
pl.read_database_uri
pl.read_delta
pl.read_excel
pl.read_ipc
pl.read_ipc_schema
pl.read_ipc_stream
pl.read_json
pl.read_ndjson
pl.read_ods
pl.read_parquet
pl.read_parquet_schema

### Lưu dữ liệu

In [118]:
my_df = pl.DataFrame({
    'x' : [1,2,3],
    'y' : [3,4,5],
    'group' : ['a', 'a', 'b']
})

Dữ liệu polars có thể lưu trữ dưới nhiều định dạng khác nhau với nhóm methods `write_*`

```python
my_df.write_excel('test_excel_pdf.xlsx')
my_df.write_parquet('test_pq.parquet')
```

In [119]:
# Kiêm tra các cách lưu trữ từ polars
?my_df.write_*

my_df.write_avro
my_df.write_clipboard
my_df.write_csv
my_df.write_database
my_df.write_delta
my_df.write_excel
my_df.write_ipc
my_df.write_ipc_stream
my_df.write_json
my_df.write_ndjson
my_df.write_parquet

## Tài liệu tham khảo

- [https://docs.pola.rs/]()