
# Bevezetés a Python Polars csomag használatába


## 1. Telepítés

Az alap csomag telepítése:
```bash
 pip install polars
```

### 1.1 Opcionális csomagok (függőségek) telepítése

| Tag        | Leírás                                                                                           |
|------------|--------------------------------------------------------------------------------------------------|
| all        | Az összes opcionális függőség telepítése (az összes alábbi)                                       |
| pandas     | Telepítés Pandas-szal az adatok Pandas Dataframe-ekre/sorozatokra való átalakításához            |
| numpy      | Telepítés numpy-val az adatok numpy tömbökké történő átalakításához                               |
| pyarrow    | Adatformátumok olvasása a PyArrow használatával                                                  |
| fsspec     | Távoli fájlrendszerekből való olvasás támogatása                                                 |
| connectorx | SQL adatbázisokból való olvasás támogatása                                                       |
| xlsx2csv   | Excel fájlokból való olvasás támogatása                                                          |
| deltalake  | Delta Lake táblákból való olvasás támogatása                                                     |
| timezone   | Időzóna támogatás, csak akkor szükséges, ha Python<3.9-et használ, vagy Windows rendszeren van   |

Opcionális függőségek részhalmazainak telepítése:  
```bash
 pip install 'polars[pandas,numpy]'
```

Az összes opcionális függőség telepítése:  
```bash
pip install 'polars[all]'
``` 

### 1.2 Konfiguráció

Konfigurációs lehetőségek a hivatalos dokumentációban: [Config](https://docs.pola.rs/api/python/stable/reference/config.html)


In [9]:
import polars as pl

pl.Config.set_tbl_rows(3)  # Az alapértelmezett érték 10
pl.Config.set_tbl_cols(None)  # Az alapértelmezett érték 10
pl.Config.set_verbose(active=True)

polars.config.Config

In [10]:
import random
import string

nr_cols = 10
nr_rows = 6
string_length = 5
data = {}
for i in range(nr_cols):
    data[f'column_{i}'] = ["".join(random.choice(string.ascii_letters) for c in range(string_length)) \
                           for _ in range(nr_rows)]

df = pl.DataFrame(data)
print(df)

print("Konfigurációs beállítások felülírása:")
with pl.Config(tbl_cols=-1):
    print(df)

shape: (6, 10)
┌──────────┬──────────┬──────────┬──────────┬───┬──────────┬──────────┬──────────┬──────────┐
│ column_0 ┆ column_1 ┆ column_2 ┆ column_3 ┆ … ┆ column_6 ┆ column_7 ┆ column_8 ┆ column_9 │
│ ---      ┆ ---      ┆ ---      ┆ ---      ┆   ┆ ---      ┆ ---      ┆ ---      ┆ ---      │
│ str      ┆ str      ┆ str      ┆ str      ┆   ┆ str      ┆ str      ┆ str      ┆ str      │
╞══════════╪══════════╪══════════╪══════════╪═══╪══════════╪══════════╪══════════╪══════════╡
│ FpMqg    ┆ qeGWS    ┆ cXMjx    ┆ LoRYN    ┆ … ┆ ebLPK    ┆ ZPpGV    ┆ mkohU    ┆ HQQIQ    │
│ CNBdC    ┆ wpooG    ┆ jmRRJ    ┆ IMzza    ┆ … ┆ iLIKy    ┆ pllEz    ┆ SXXgX    ┆ vOouI    │
│ …        ┆ …        ┆ …        ┆ …        ┆ … ┆ …        ┆ …        ┆ …        ┆ …        │
│ qGVdo    ┆ KhIwP    ┆ KcUKJ    ┆ HmAnz    ┆ … ┆ PnyIO    ┆ fdcIP    ┆ vnXll    ┆ MKZAc    │
└──────────┴──────────┴──────────┴──────────┴───┴──────────┴──────────┴──────────┴──────────┘
Konfigurációs beállítások felülírása:
shape: 

## 2. Támogatott adattípusok

Link a hivatalos dokumentáció kapcsolódó oldalához: [Data types](https://docs.pola.rs/api/python/stable/reference/datatypes.html)


In [11]:
df_szemelyek = pl.DataFrame({
    "nev": ["Kovács Jolán", "Nagy János", "Kiss Mária", "Nagy Zoltán"],
    "nem": ["nő", "férfi", "nő", "férfi"],
    "szuletesi_datum": ["1996-05-12", "1987-02-23", "1993-11-30", "1979-09-15"],
    "magassag": [165.5, 180.0, 173.3, 165.0]
}, infer_schema_length=1)

# infer_schema_length: int vagy None  
# A séma kikövetkeztetéséhez beolvasandó maximális sorok száma. Ha None értékre van állítva, akkor a teljes adat beolvasható (ez lassú lehet).

print(df_szemelyek.schema)
print(df_szemelyek.dtypes)

elvart_sema = pl.Schema({
    "x": pl.Float64,
    "y": pl.Float64,
    "szin": pl.Utf8,
    "datum": pl.Date
})
df_pontok = pl.DataFrame({
    "x": [1.1, 2, 3.5, 4, 5],
    "y": [6.5, -4, 3, 2.1, 1],
    "szin": ["piros", "kék", "piros", "sárga", "fekete"],
    "datum": ["2021-01-12", "2021-02-23", "2021-03-30", "2021-04-15", "2021-05-20"]
}, schema=elvart_sema)

print(df_pontok)



Schema({'nev': String, 'nem': String, 'szuletesi_datum': String, 'magassag': Float64})
[String, String, String, Float64]
shape: (5, 4)
┌─────┬──────┬────────┬────────────┐
│ x   ┆ y    ┆ szin   ┆ datum      │
│ --- ┆ ---  ┆ ---    ┆ ---        │
│ f64 ┆ f64  ┆ str    ┆ date       │
╞═════╪══════╪════════╪════════════╡
│ 1.1 ┆ 6.5  ┆ piros  ┆ 2021-01-12 │
│ 2.0 ┆ -4.0 ┆ kék    ┆ 2021-02-23 │
│ …   ┆ …    ┆ …      ┆ …          │
│ 5.0 ┆ 1.0  ┆ fekete ┆ 2021-05-20 │
└─────┴──────┴────────┴────────────┘


 ### 2.1 További adattípusok

| Kategória       | Típus       | Leírás                                                                                                                     | Megjegyzés                                     |
|:----------------|-------------|-----------------------------------------------------------------------------------------------------------------------------|------------------------------------------------|
| Idő és dátum    | Date        | Naptári dátum típus. Az Arrow date32 adat típust használja, napok az 1970-01-01 UNIX epoch óta int32 formátumban.           | -5877641-06-24 és 5879610-09-09 között         |
|                 | Datetime    | Naptári dátum és idő típus. Pontos időbélyeg int64 formátumban kódolva az UNIX epoch óta. Alapértelmezett egység mikroszekundum. |                                                |
|                 | Duration    | Időtartam/különbség típus.                                                                                                  |                                                |
|                 | Time        | Napi idő típus.                                                                                                            |                                                |
| Beágyazott      | Array(*args, **kwargs) | Fix hosszúságú lista típus.                                                                                |                                                |
|                 | List(*args, **kwargs)  | Változó hosszúságú lista típus.                                                                               |                                                |
|                 | Struct(*args, **kwargs) | Struktúra típus.                                                                                             |                                                |
| Egyéb           | Boolean     | Boolean típus, amely 1 bitnyi helyet foglal.                                                                               | Igaz vagy Hamis                                |
|                 | Binary      | Bináris típus változó hosszúságú bájtokkal.                                                                                |                                                |
|                 | Categorical | Egy kategóriák szerinti kódolás sztringek halmazához. Hatékonyabb memóriakezelést tesz lehetővé, ha egy oszlopban kevés egyedi sztring található. |                                                |
|                 | Null        | Null / None értékeket képviselő típus.                                                                                     |                                                |
|                 | Object      | Bármilyen Python objektum csomagolására szolgáló típus.                                                                    | Használata elkerülendő, amennyiben lehetséges. |
|                 | String      | UTF-8 kódolású sztring típus változó hosszúsággal.                                                                         |                                                |
|                 | Unknown     | Típus, amely azokat az adatértékeket képviseli, amelyeket statikusan nem lehetett meghatározni.                             |                                                |



Pár példa a fenti típusok használatára:

In [12]:
pontok_df = pl.DataFrame({
    "egesz_szamok": [[1,2, -1], [3,4]],
    "tizedes_szamok": [[4.2,-1, 3.1], [3, 1, 0, 2]]
    }, strict=False)
print(pontok_df)

shape: (2, 2)
┌──────────────┬───────────────────┐
│ egesz_szamok ┆ tizedes_szamok    │
│ ---          ┆ ---               │
│ list[i64]    ┆ list[f64]         │
╞══════════════╪═══════════════════╡
│ [1, 2, -1]   ┆ [4.2, -1.0, 3.1]  │
│ [3, 4]       ┆ [3.0, 1.0, … 2.0] │
└──────────────┴───────────────────┘


In [13]:
df_tombok = pl.DataFrame(
    [
        pl.Series("tomb_1", [[-1, 2], [2, 4]]),
        pl.Series("tomb2_2", [[1, 7, 1], [2, -1, 0]]),
    ],
    schema={
        "tomb_1": pl.Array(shape=(2,), inner=pl.Int64),
        "tomb_2": pl.Array(shape=(3,), inner=pl.Int64)
    }
)
print(df_tombok)
# korábban "tomb_1": pl.Array(width=2, ez deprecated lett


shape: (2, 2)
┌───────────────┬───────────────┐
│ tomb_1        ┆ tomb_2        │
│ ---           ┆ ---           │
│ array[i64, 2] ┆ array[i64, 3] │
╞═══════════════╪═══════════════╡
│ [-1, 2]       ┆ [1, 7, 1]     │
│ [2, 4]        ┆ [2, -1, 0]    │
└───────────────┴───────────────┘


### 2.2 Konverziók

    

In [14]:

df = pl.DataFrame({
    "id": [1, 2, 3, 4, 5],
    "meres_1": [6, -1, 3, 9.0, -10],
    "meres_2": ["1.0", "2.0", "3.0", "4.0", "5.0"]
}, strict=False)
print(df)
print(f"Becsült méret: {df.estimated_size('b')} bájt")
#region-> polars.DataFrame.cast() metódus használata
df.with_columns(
    pl.col("id").cast(pl.UInt32),
    pl.col("meres_1").cast(pl.Int32),
    pl.col("meres_2").cast(pl.Float32).cast(pl.Int32)
)

print(df)
print(f"Becsült méret: {df.estimated_size('b')} bájt")
#endregion


shape: (5, 3)
┌─────┬─────────┬─────────┐
│ id  ┆ meres_1 ┆ meres_2 │
│ --- ┆ ---     ┆ ---     │
│ i64 ┆ f64     ┆ str     │
╞═════╪═════════╪═════════╡
│ 1   ┆ 6.0     ┆ 1.0     │
│ 2   ┆ -1.0    ┆ 2.0     │
│ …   ┆ …       ┆ …       │
│ 5   ┆ -10.0   ┆ 5.0     │
└─────┴─────────┴─────────┘
Becsült méret: 95 bájt
shape: (5, 3)
┌─────┬─────────┬─────────┐
│ id  ┆ meres_1 ┆ meres_2 │
│ --- ┆ ---     ┆ ---     │
│ i64 ┆ f64     ┆ str     │
╞═════╪═════════╪═════════╡
│ 1   ┆ 6.0     ┆ 1.0     │
│ 2   ┆ -1.0    ┆ 2.0     │
│ …   ┆ …       ┆ …       │
│ 5   ┆ -10.0   ┆ 5.0     │
└─────┴─────────┴─────────┘
Becsült méret: 95 bájt


In [15]:
df = pl.DataFrame({
    "id": [1, 2, 3, 4, 5],
    "meres_1": [6, -1, 3, 9.0, -10],
    "meres_2": [1.0, -2.0, 4.0, 5.0, 6.0]
}, strict=False).cast(pl.Int32)
print(df)

shape: (5, 3)
┌─────┬─────────┬─────────┐
│ id  ┆ meres_1 ┆ meres_2 │
│ --- ┆ ---     ┆ ---     │
│ i32 ┆ i32     ┆ i32     │
╞═════╪═════════╪═════════╡
│ 1   ┆ 6       ┆ 1       │
│ 2   ┆ -1      ┆ -2      │
│ …   ┆ …       ┆ …       │
│ 5   ┆ -10     ┆ 6       │
└─────┴─────────┴─────────┘


## 3. Ismerkedés a polars.DataFrame osztállyal
A `polars.DataFrame` osztály bemutatása a hivatalos dokumentációban:   
[https://docs.pola.rs/api/python/stable/reference/dataframe/index.html](https://docs.pola.rs/api/python/stable/reference/dataframe/index.html)   és [implementációja a Github repóban](https://github.com/pola-rs/polars/blob/py-1.12.0/py-polars/polars/dataframe/frame.py#L191-L11302)  

**Megjegyzés:** Amennyiben a `df.plot(...)` sorokra `ModuleUpgradeRequiredError: altair>=5.4.0 is required for .plot` hibával találkozunk akkor szükséges az `altair` parancs szükséges az alábbi parancs futtatása:
```bash
pip install --upgrade altair
```

In [16]:
#region-> Példa egyszerű Polars dataframe létrehozására, adatok diagramon való megjelenítése
import polars as pl
from datetime import date

df = pl.DataFrame(
    {
        "date": [date(2020, 1, 2), date(2020, 1, 3), date(2020, 1, 4)] * 2,
        "stock": ["a", "a", "a", "b", "b", "b"],
        "price": [1, 4, 6, 1, 5, 2],

    }
)

print(f"A DataFrame sémája: {df.schema}")
print(f"A DataFrameben tárolt adatok megtekintése: {df}")
print("További információk:", df.describe())

df.plot.line(x="date", y="price", color="stock")
#endregion

A DataFrame sémája: Schema({'date': Date, 'stock': String, 'price': Int64})
A DataFrameben tárolt adatok megtekintése: shape: (6, 3)
┌────────────┬───────┬───────┐
│ date       ┆ stock ┆ price │
│ ---        ┆ ---   ┆ ---   │
│ date       ┆ str   ┆ i64   │
╞════════════╪═══════╪═══════╡
│ 2020-01-02 ┆ a     ┆ 1     │
│ 2020-01-03 ┆ a     ┆ 4     │
│ …          ┆ …     ┆ …     │
│ 2020-01-04 ┆ b     ┆ 2     │
└────────────┴───────┴───────┘
További információk: shape: (9, 4)
┌────────────┬────────────┬───────┬───────┐
│ statistic  ┆ date       ┆ stock ┆ price │
│ ---        ┆ ---        ┆ ---   ┆ ---   │
│ str        ┆ str        ┆ str   ┆ f64   │
╞════════════╪════════════╪═══════╪═══════╡
│ count      ┆ 6          ┆ 6     ┆ 6.0   │
│ null_count ┆ 0          ┆ 0     ┆ 0.0   │
│ …          ┆ …          ┆ …     ┆ …     │
│ max        ┆ 2020-01-04 ┆ b     ┆ 6.0   │
└────────────┴────────────┴───────┴───────┘


ModuleUpgradeRequiredError: hvplot>=0.9.1 is required for `.plot`

Hozzunk létre egy Polars DataFrame-t egy Pandas DataFrame-ből.  
[polars.from_pandas](https://docs.pola.rs/api/python/stable/reference/api/polars.from_pandas.html#polars-from-pandas)  
[polars.DataFrame.to_pandas](https://docs.pola.rs/api/python/stable/reference/dataframe/api/polars.DataFrame.to_pandas.html#polars.DataFrame.to_pandas)
 


In [None]:
#region-> Példa a Polars és Pandas DataFrame-k közötti konverzióra
import pandas as pd
import polars as pl

df_pd = pd.DataFrame({
    'x': [1, 2, 3],
    'y': [4, 5, 6],
    'z': [7, 8, 9]
})


df_pl = pl.from_pandas(df_pd)
df_pd['x'] = [10, 20, 30]

print("A módosított Pandas dataframe:")
print(df_pd)

print("\nA Polars dataframe nem módosul")
print(df_pl)
#endregion


### M01 - első mérkőzés  
![](assets/pandas_vs_polars_h_128.png)  

 
Most hogy lassan ismerkedünk az új szintaxissal, ideje egy kis mérkőzésnek: nyissuk meg a `introduction_to_polars.ipynb` Jupyter notebookot.

## 4. Kifejezések, DataFrame műveletek
Link a dokumentációhoz: [Expressions](https://docs.pola.rs/api/python/stable/reference/expressions/index.html). 


A kifejezések a Polars könyvtár egyik alapeleme, mégis önmagukban a kifejezések nem tesznek semmit.  
A gyakorlatban a kifejezéseket úgy alkalmazzák, hogy átadják őket néhány `DataFrame` vagy `LazyFrame` metódusnak.

Nézünk pár példát a kifejezések használatára:

- Oszlopok kiválasztása a `df.select()` metódussal
- Új oszlopok létrehozása a `df.with_columns()` metódussal
- Sorok szűrése a `df.filter()` metódussal
- Aggregálás a `df.group_by()` metódussal
- Sorok rendezése a `df.sort()` metódussal

A példákhoz használjuk a már jól ismert pingvin datasetet.

### 4.1 Oszlopok kiválasztása, létrehozása

In [None]:
import polars as pl


def get_penguins_df() -> pl.DataFrame:
    """
    
    :return: 
    """
    return pl.read_csv("data/penguins.csv", null_values="NA")


#region-> beolvasás csv fájlból
df = get_penguins_df()
with pl.Config(tbl_cols=-1, tbl_rows=10):
    print(df.schema)
    print(df)
#endregion    


In [None]:
# Válasszuk ki az összes oszlopot
df.select("*")
df.select(pl.all())

In [None]:
#region-> kifejezések használata a DataFrame.select() metódussal
df.select(
    pl.col("rowid"),
    pl.col("species"),  # fontos, az oszlopok neve case-sensitive
    pl.col("^bill.*$")  # reguláris kifejezés használata az oszlopok kiválasztásra
)
#endregion

#### 4.1.1 Szelektorok (`column selectors`) használata

In [None]:
import polars.selectors as cs

df.select(
    cs.by_name("species"),
    cs.starts_with("bill"),
    cs.contains("flipper")
)

# oszlop típusa szerinti kiválasztás
df.select(cs.by_dtype(pl.UInt16))

# oszlopok indexe szerinti kiválasztás
df.select(cs.by_index(range(0,3)))

# szelektorok összekapcsolása
df.select(cs.by_index(range(0,3)) & ~cs.by_dtype(pl.UInt16))


A szelektor operátorokkal 0 vagy több oszlopot tartalmazó halmazt választunk ki.  



| Szelektor operátor | Inline Operátor | Leírás                          |
|--------------------|-----------------|---------------------------------|
| Unió               | \|              | `x`, vagy `y`, vagy mindkettő   |
| Metszet            | &               | mindkettő, `x` és `y` is        |
| Különbség          | -               | `x`, ami nincs benne `y`-ban    |
| Kizáró VAGY        | ^               | `x`, vagy `y`, de nem mindkettő |
| Negáció            | ~               | Nincs benne `x`-ben             |

### 4.2 Új oszlopok létrehozása

In [None]:
# feltételezzük, hogy a 2009-es méréseket követően a pingvinek szárnyainak 10%-os növekedése várható
# hozzunk létre egy flipper_legth_in_one_year_mm oszlopot, amely a flipper_length_mm oszlop értékének 10%-ával növelt értékeket tartalmazza
df = get_penguins_df()

(df.with_columns(
    # pl.col("flipper_length_mm").mul(1.1).alias("flipper_length_in_one_year_mm"),
    (pl.col("flipper_length_mm") * 1.1).alias("flipper_length_in_one_year_mm"),
    (pl.col("flipper_length_mm") / pl.col("bill_length_mm")).alias("flipper_to_bill_ratio"))
.with_columns(
    bill_length_depth_ratio=pl.col("bill_length_mm") / pl.col("bill_depth_mm"),
    planet=pl.lit("Earth"))
.select(
    pl.col("rowid"),
    pl.col("species"),
    pl.col("bill_length_mm"),
    pl.col("flipper_length_mm"),
    pl.col("flipper_length_in_one_year_mm"),
    pl.col("flipper_to_bill_ratio"),
    pl.col("bill_length_depth_ratio"),
    pl.col("planet")
))



### 4.3 Szűrés

Dokumentáció: [df.filter() metódus használata a sorok szűrésére](https://docs.pola.rs/api/python/stable/reference/dataframe/api/polars.DataFrame.filter.html)

In [None]:
df.filter(
    pl.col("species") == "Adelie",
    pl.col("island") == "Biscoe",
    pl.col("flipper_length_mm") > 180,
    pl.all().is_not_null()
)

### 4.4 Rendezés

In [None]:

df1 = get_penguins_df()

# Rendezés egy szempont szerint
df1 \
    .filter(pl.col("rowid").is_between(4, 12)) \
    .sort("flipper_length_mm", nulls_last=True)

In [None]:
# Rendezés több szempont szerint
df1.sort("species", "bill_length_mm", "bill_depth_mm", "flipper_length_mm",
         descending=[False, True, True, True],
         nulls_last=True)


## 5. Adatok lekérdezése több DataFrame-ből (joins)

In [None]:
df_movies = pl.read_json("data/movies.json")
print(df_movies.schema)
df_movies.head(10)

In [None]:
df_movie_genre = pl.read_json("data/movie_genre.json")
print(df_movie_genre.schema)
df_movie_genre.head(10)

In [None]:
df_genres = pl.read_json("data/genres.json")
print(df_genres.schema)
df_genres.head(10)

In [None]:
df_combined = (df_movies
.join(df_movie_genre, on='movie_id', how="inner").join(df_genres, on='genre_id')
.select([
    pl.col('movie_id'),
    pl.col('title'),
    pl.col('genre_name')
]))
df_combined


In [None]:
df_movies_with_genres = df_combined \
    .group_by('movie_id') \
    .agg([
    pl.col('title').first(),  # Get the movie title (assuming it's the same for each movie_id)
    pl.col('genre_name')  # Collect genres into a list for each movie
]) \
    .filter(pl.col("title") == "Four Rooms")
df_movies_with_genres
