# Polars.

Polars - це сучасна бібліотека для обробки даних у Python, яка набирає все більшої популярності завдяки своїй швидкодії, зручності використання та потужним можливостям. Вона розроблена для роботи з великими наборами даних та забезпечує ефективну обробку, агрегацію та аналіз даних.

Ключові переваги Polars:
* Швидкодія: Polars використовує технології паралельного обчислення та оптимізації пам'яті, що дозволяє їй працювати зі значно більшими наборами даних, ніж інші бібліотеки.
* Виразна мова для маніпуляцій з даними: Polars має інтуїтивно зрозумілий синтаксис, який дозволяє легко виконувати складні операції з даними за допомогою ланцюжків викликів.
* Інтеграція з іншими бібліотеками: Polars легко інтегрується з іншими популярними бібліотеками Python, такими як Pandas, NumPy, PyTorch та іншими.
* Підтримка різних форматів даних: Polars може працювати з різними форматами даних, включаючи CSV, Parquet, JSON та іншими.
* Лінива оцінка: Polars використовує відкладене обчислення, що дозволяє оптимізувати виконання складних операцій.

Основні поняття:
* DataFrame: Це основна структура даних в Polars, аналогічна DataFrame в Pandas. Вона представляє таблицю з рядками та стовпцями.
* LazyFrame: Це відкладена версія DataFrame, яка дозволяє оптимізувати виконання складних операцій. Операції над LazyFrame не виконуються відразу, а будуються в граф виконання. Виконання відбувається лише при виклику методу, який повертає результат (наприклад, collect()).

In [1]:
import polars as pl

### Створення DataFrame.

In [2]:
data = {
    "column_a": [1, 2, 3],
    "column_b": ["a", "b", "c"]
}
pl.DataFrame(data)

column_a,column_b
i64,str
1,"""a"""
2,"""b"""
3,"""c"""


In [2]:
df = pl.read_csv("Data.csv")
df

RegisterDate,Points,CurrentRanking,HighestRanking,Country,Continent
str,i64,i64,i64,str,str
"""8/23/2012""",199697,1,1,"""Brazil""","""South America"""
"""9/7/2016""",188693,2,1,"""None""","""None"""
"""6/24/2013""",160026,3,1,"""None""","""None"""
"""8/24/2015""",119109,4,4,"""Lithuania""","""Europe"""
"""4/20/2014""",118149,5,5,"""Canada""","""North America"""
…,…,…,…,…,…
"""11/24/2010""",14,4762,265,"""Belgium""","""Europe"""
"""1/1/2012""",14,4763,1444,"""None""","""None"""
"""1/9/2012""",14,4764,1444,"""India""","""Asia"""
"""1/15/2012""",14,4765,1444,"""None""","""None"""


### Вибір колонок та рядків.

In [4]:
df.select(['Points', 'CurrentRanking'])

Points,CurrentRanking
i64,i64
199697,1
188693,2
160026,3
119109,4
118149,5
…,…
14,4762
14,4763
14,4764
14,4765


In [5]:
df.filter(pl.col('CurrentRanking') < 10)

RegisterDate,Points,CurrentRanking,HighestRanking,Country,Continent
str,i64,i64,i64,str,str
"""8/23/2012""",199697,1,1,"""Brazil""","""South America"""
"""9/7/2016""",188693,2,1,"""None""","""None"""
"""6/24/2013""",160026,3,1,"""None""","""None"""
"""8/24/2015""",119109,4,4,"""Lithuania""","""Europe"""
"""4/20/2014""",118149,5,5,"""Canada""","""North America"""
"""11/13/2012""",116060,6,4,"""United States""","""North America"""
"""2/28/2014""",114214,7,3,"""China""","""Asia"""
"""11/8/2015""",106314,8,8,"""Russia""","""Asia"""
"""6/25/2010""",103017,9,6,"""Austria""","""Europe"""


### Модифікація датафрейму.

In [6]:
df = df.with_columns(
    (pl.col('CurrentRanking') + pl.col('HighestRanking')).alias('new_column')
    )
df

RegisterDate,Points,CurrentRanking,HighestRanking,Country,Continent,new_column
str,i64,i64,i64,str,str,i64
"""8/23/2012""",199697,1,1,"""Brazil""","""South America""",2
"""9/7/2016""",188693,2,1,"""None""","""None""",3
"""6/24/2013""",160026,3,1,"""None""","""None""",4
"""8/24/2015""",119109,4,4,"""Lithuania""","""Europe""",8
"""4/20/2014""",118149,5,5,"""Canada""","""North America""",10
…,…,…,…,…,…,…
"""11/24/2010""",14,4762,265,"""Belgium""","""Europe""",5027
"""1/1/2012""",14,4763,1444,"""None""","""None""",6207
"""1/9/2012""",14,4764,1444,"""India""","""Asia""",6208
"""1/15/2012""",14,4765,1444,"""None""","""None""",6209


In [7]:
df = df.with_columns(
    pl.col('CurrentRanking').cast(pl.Float64)
)
df

RegisterDate,Points,CurrentRanking,HighestRanking,Country,Continent,new_column
str,i64,f64,i64,str,str,i64
"""8/23/2012""",199697,1.0,1,"""Brazil""","""South America""",2
"""9/7/2016""",188693,2.0,1,"""None""","""None""",3
"""6/24/2013""",160026,3.0,1,"""None""","""None""",4
"""8/24/2015""",119109,4.0,4,"""Lithuania""","""Europe""",8
"""4/20/2014""",118149,5.0,5,"""Canada""","""North America""",10
…,…,…,…,…,…,…
"""11/24/2010""",14,4762.0,265,"""Belgium""","""Europe""",5027
"""1/1/2012""",14,4763.0,1444,"""None""","""None""",6207
"""1/9/2012""",14,4764.0,1444,"""India""","""Asia""",6208
"""1/15/2012""",14,4765.0,1444,"""None""","""None""",6209


In [8]:
df = df.drop('new_column')
df

RegisterDate,Points,CurrentRanking,HighestRanking,Country,Continent
str,i64,f64,i64,str,str
"""8/23/2012""",199697,1.0,1,"""Brazil""","""South America"""
"""9/7/2016""",188693,2.0,1,"""None""","""None"""
"""6/24/2013""",160026,3.0,1,"""None""","""None"""
"""8/24/2015""",119109,4.0,4,"""Lithuania""","""Europe"""
"""4/20/2014""",118149,5.0,5,"""Canada""","""North America"""
…,…,…,…,…,…
"""11/24/2010""",14,4762.0,265,"""Belgium""","""Europe"""
"""1/1/2012""",14,4763.0,1444,"""None""","""None"""
"""1/9/2012""",14,4764.0,1444,"""India""","""Asia"""
"""1/15/2012""",14,4765.0,1444,"""None""","""None"""


### Сортування.

In [9]:
df.sort(by = 'Points')

RegisterDate,Points,CurrentRanking,HighestRanking,Country,Continent
str,i64,f64,i64,str,str
"""11/24/2010""",14,4762.0,265,"""Belgium""","""Europe"""
"""1/1/2012""",14,4763.0,1444,"""None""","""None"""
"""1/9/2012""",14,4764.0,1444,"""India""","""Asia"""
"""1/15/2012""",14,4765.0,1444,"""None""","""None"""
"""1/17/2012""",14,4766.0,1444,"""None""","""None"""
…,…,…,…,…,…
"""4/20/2014""",118149,5.0,5,"""Canada""","""North America"""
"""8/24/2015""",119109,4.0,4,"""Lithuania""","""Europe"""
"""6/24/2013""",160026,3.0,1,"""None""","""None"""
"""9/7/2016""",188693,2.0,1,"""None""","""None"""


In [10]:
df.sort(by = 'Points', descending=True)

RegisterDate,Points,CurrentRanking,HighestRanking,Country,Continent
str,i64,f64,i64,str,str
"""8/23/2012""",199697,1.0,1,"""Brazil""","""South America"""
"""9/7/2016""",188693,2.0,1,"""None""","""None"""
"""6/24/2013""",160026,3.0,1,"""None""","""None"""
"""8/24/2015""",119109,4.0,4,"""Lithuania""","""Europe"""
"""4/20/2014""",118149,5.0,5,"""Canada""","""North America"""
…,…,…,…,…,…
"""11/24/2010""",14,4762.0,265,"""Belgium""","""Europe"""
"""1/1/2012""",14,4763.0,1444,"""None""","""None"""
"""1/9/2012""",14,4764.0,1444,"""India""","""Asia"""
"""1/15/2012""",14,4765.0,1444,"""None""","""None"""


In [11]:
df.select(pl.col("HighestRanking").sort_by("CurrentRanking"))

HighestRanking
i64
1
1
1
4
5
…
265
1444
1444
1444


## Групування.

[group_by()](https://docs.pola.rs/api/python/stable/reference/dataframe/api/polars.DataFrame.group_by.html) дозволяє групувати дані за одним або декількома стовпцями.

In [3]:
df.group_by('HighestRanking')

<polars.dataframe.group_by.GroupBy at 0x2bdf2aead50>

In [13]:
df.group_by('Continent').agg(pl.col('CurrentRanking').count())

Continent,CurrentRanking
str,u32
"""Europe""",1046
"""None""",1267
"""North America""",1157
"""Africa""",36
"""Oceania""",102
"""Asia""",1091
"""Central America""",4
"""South America""",64


In [14]:
df.group_by('Continent', 'Points').agg(pl.col('CurrentRanking').count())

Continent,Points,CurrentRanking
str,i64,u32
"""North America""",2036,1
"""North America""",1864,1
"""Europe""",4716,1
"""None""",186,1
"""None""",4300,1
…,…,…
"""North America""",3473,1
"""Europe""",4289,1
"""Europe""",2128,1
"""North America""",8303,1


Агрегування у цьому випадку дозволяє розраховувати різні статистичні особливості даних. Можна використовувати різні наперед задані функції:
* sum()
* count()
* mean()
* min()
* max()

Окрім того, можна використовувати лямбда-функції.

In [15]:
df.group_by('Continent').agg(
    pl.col('CurrentRanking').map_elements(lambda x: x.max() - x.min()).alias('range')
)



Continent,range
str,f64
"""North America""",4756.0
"""Central America""",2157.0
"""South America""",4756.0
"""None""",4764.0
"""Europe""",4758.0
"""Africa""",4688.0
"""Asia""",4757.0
"""Oceania""",4674.0


## Зведені таблиці.

Дозволяють переформатувати дані, групуючи їх за двома або більше змінними.

In [16]:
data = {
    "city": ["Kyiv", "Lviv", "Odesa", "Kyiv", "Lviv"],
    "product": ["apple", "orange", "apple", "banana", "orange"],
    "quantity": [10, 15, 8, 12, 20]
}

df = pl.DataFrame(data)
df

city,product,quantity
str,str,i64
"""Kyiv""","""apple""",10
"""Lviv""","""orange""",15
"""Odesa""","""apple""",8
"""Kyiv""","""banana""",12
"""Lviv""","""orange""",20


In [17]:
df.pivot(
    index="city",
    on="product",
    values="quantity",
    aggregate_function="sum"
)

city,apple,orange,banana
str,i64,i64,i64
"""Kyiv""",10.0,,12.0
"""Lviv""",,35.0,
"""Odesa""",8.0,,


### Робота з пропущеними даними.

In [23]:
data = {'a': [1, None, 3, float("nan")], 'b': [None, float("nan"), 5, 6]}
df = pl.DataFrame(data, strict=False)
df

a,b
f64,f64
1.0,
,
3.0,5.0
,6.0


In [24]:
df.fill_nan(0)

a,b
f64,f64
1.0,
,0.0
3.0,5.0
0.0,6.0


In [25]:
df.fill_null(0)

a,b
f64,f64
1.0,0.0
0.0,
3.0,5.0
,6.0


In [27]:
df.drop_nulls()

a,b
f64,f64
3.0,5.0
,6.0


## Лінива обробка даних.
LazyFrame в Polars - це абстрактне представлення обчислень над даними, яке відкладає фактичне виконання операцій до останнього моменту. Це дозволяє оптимізувати виконання послідовності операцій, уникаючи проміжних обчислень і покращуючи ефективність.

### Створення LazyFrame.


In [28]:
df = pl.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})

lazy_df = df.lazy()
lazy_df

Операції над LazyFrame не виконуються одразу, а додаються до графу обчислень. Фактичне виконання відбувається лише тоді, коли ми явно просимо отримати результат (наприклад, за допомогою `collect()`).

In [30]:
result = (
    lazy_df
    .filter(pl.col('a') > 2)
    .group_by('b')
    .agg(pl.col('a').mean())
    .sort('b', descending=True)
)

result.collect()

b,a
i64,f64
6,3.0


In [36]:
result = (
    lazy_df
    .filter(pl.col('a') > 2)
    .with_columns(pl.col('a') * 2)
    .group_by(['a', 'b'])
    .agg([
        pl.count('b').alias('count'),
        pl.sum('a').alias('sum_a')
    ])
    .sort('count', descending=True)
)

result.collect()

a,b,count,sum_a
i64,i64,u32,i64
6,6,1,6


## Об'єднання даних.

Polars пропонує потужні інструменти для об'єднання даних з різних джерел. Основні методи для цього - join та concat.

* join: Використовується для злиття DataFrame за спільними стовпцями. Це аналог SQL JOIN.
* concat: Слугує для вертикального склеювання DataFrame.

In [37]:
df1 = pl.DataFrame({'key': [1, 2, 3], 'value1': [10, 20, 30]})
df2 = pl.DataFrame({'key': [2, 3, 4], 'value2': [40, 50, 60]})

In [38]:
df1.join(df2, on='key', how='inner')

key,value1,value2
i64,i64,i64
2,20,40
3,30,50


In [42]:
df1.join(df2, on='key', how='full')

key,value1,key_right,value2
i64,i64,i64,i64
2.0,20.0,2.0,40.0
3.0,30.0,3.0,50.0
,,4.0,60.0
1.0,10.0,,


In [40]:
df1.join(df2, on='key', how='left')

key,value1,value2
i64,i64,i64
1,10,
2,20,40.0
3,30,50.0


In [41]:
df1.join(df2, on='key', how='right')

value1,key,value2
i64,i64,i64
20.0,2,40
30.0,3,50
,4,60


In [44]:
df1 = pl.DataFrame({'key': [1, 2, 3], 'value1': [10, 20, 30]})
df2 = pl.DataFrame({'key': [2, 3, 4], 'value1': [40, 50, 60]})

In [46]:
pl.concat([df1, df2])

key,value1
i64,i64
1,10
2,20
3,30
2,40
3,50
4,60
