# Pandas – poziom średniozaawansowany

In [None]:
import pandas as pd

## Formaty danych

Wybrane formaty danych obsługiwane przez pandasa

In [None]:
df = pd.DataFrame([[1, 2, 3], [10, 20, 30], [100, 200, 300]], columns=["A", "B", "C"])
df

**`csv`**

In [None]:
df.to_csv("example.csv", index=None)

---

In [None]:
df = pd.read_csv("example.csv")
df

**`xlsx`**

In [None]:
df.to_excel("example.xlsx", index=None)

---

In [None]:
df = pd.read_excel("example.xlsx")
df

**`json`**

In [None]:
df.to_json("example.json")

---

In [None]:
df = pd.read_json("example.json")
df

**`sql`**

In [None]:
conn_str = "postgresql://postgres:postgres@localhost:5432/postgres"

In [None]:
df.to_sql("example", conn_str, index=None, if_exists="replace")

---

In [None]:
df = pd.read_sql("SELECT * FROM example", conn_str)
df

In [None]:
df = pd.read_sql("SELECT \"A\", \"B\" FROM example", conn_str)
df

**`hdf5`**

HDF5 (Hierarchical Data Format version 5), w skrócie H5.

Binarny format przechowywania danych. Jest efektywny pod kątem optymalizacji wykorzystania storage'u oraz szybkości dostępu.

Jego zaletą jest to, że zachowuje formatowanie dataframe'a, np. typy kolumn. Formaty takie jak `.csv` mogą przechowywać wyłącznie informacje w postaci tekstu.

In [None]:
df.to_hdf("example.h5", key="data")

---

In [None]:
pd.read_hdf("example.h5")

---
---

In [None]:
df1 = df * 2
df1.to_hdf("example.h5", key="data2")

---

In [None]:
pd.read_hdf("example.h5")

In [None]:
pd.read_hdf("example.h5", key="data2")

**`clipboard`**

In [None]:
df.to_clipboard()

ctrl-v

---

In [None]:
pd.read_clipboard()

https://rrogacz.pl/html-tabele

**Zadanie 1**

(czas: 8 min.)

---

Przetestuj zapis i odczyt danych z różnych formatów. Możesz poeksperymentować z parametrami omówionych funkcji.

In [None]:
# ...

## Optymalizacja

Metody optymalizacji wykorzystania pamięci w pandasie

### Typy danych

In [None]:
df = pd.read_csv("data/cars.csv")
df.head()

In [None]:
df.dtypes

In [None]:
df.memory_usage().sum() / 1024 / 1024  # MB of memory

In [None]:
import numpy as np

In [None]:
np.iinfo(np.int64)

In [None]:
np.iinfo(np.int32)

In [None]:
np.iinfo(np.int16)

In [None]:
np.iinfo(np.int8)

---

In [None]:
df.describe()

price - int32

engine_vol - int16

power - int16

prod_year - int16

mileage - int32

In [None]:
df = pd.read_csv("data/cars.csv",
                 dtype={"price": np.int32, "engine_vol": np.int16, "power": np.int16, "prod_year": np.int16, "mileage": np.int32})
df.head()

In [None]:
df = pd.read_csv("data/cars.csv",
                 dtype={"price": pd.Int32Dtype(), "engine_vol": pd.Int16Dtype(), "power": pd.Int16Dtype(),
                        "prod_year": pd.Int16Dtype(), "mileage": pd.Int32Dtype()})
df.head()

In [None]:
df.dtypes

In [None]:
df.memory_usage().sum() / 1024 / 1024

### Downcasting

Polega na konwersji typu na już utworzonym dataframie / szeregu

In [None]:
df = pd.read_csv("data/cars.csv")
df.head()

In [None]:
df.dtypes

In [None]:
pd.to_numeric(df["price"], downcast="integer")

In [None]:
pd.to_numeric(df["price"], downcast="float")

In [None]:
pd.to_numeric(df["prod_year"], downcast="integer")

### Chunkowanie

Przydatne do wczytywania danych w chunkach a nie wszystkich naraz.

In [None]:
import sys

In [None]:
df = pd.read_csv("data/cars.csv")
sys.getsizeof(df) / 1024 / 1024  # całkowita pamięć zajmowana przez obiekt jest większa niż same dane w tabeli

In [None]:
pd.read_csv("data/cars.csv", chunksize=10000)

In [None]:
sys.getsizeof(pd.read_csv("data/cars.csv", chunksize=10000))

In [None]:
for chunk in pd.read_csv("data/cars.csv", chunksize=10000):
    print(chunk.iloc[:, :4].head(1))
    print(round(sys.getsizeof(chunk) / 1024 / 1024, 2), "\n\n")

**Zadanie 1**

(czas: 8 min.)

---

Wczytaj dane z pliku `otodom_houses.csv` z takimi typami, które zminimalizują wykorzystanie pamięci.

In [None]:
# ...

**Zadanie 2**

(czas: 5 min.)

---

Pobierz dane z pliku `otodom_houses.csv` w standardowy sposób a następnie zastosuj downcasting.

In [None]:
# ...

**Zadanie 3**

(czas: 2 min.)

---

Wczytaj dane z pliku `otodom_houses.csv` w chunkach a następnie wykonaj na każdym chunku dowolne operacje.

In [None]:
# ...

## Typy danych

### `datetime`

In [None]:
pd.read_csv("data/cars.csv").dtypes

In [None]:
pd.read_csv("data/cars.csv", parse_dates=["offer_timestamp"]).dtypes

In [None]:
df = pd.read_csv("data/cars.csv", parse_dates=["offer_timestamp"])
df["offer_timestamp"]

In [None]:
df["offer_timestamp"].dt

In [None]:
df["offer_timestamp"].dt.month  # year, day, hour, ...

In [None]:
df["offer_timestamp"].dt.to_pydatetime()

### `category`

In [None]:
fuel_category = df["fuel"].astype("category")
fuel_category

In [None]:
fuel_category.cat.codes

In [None]:
fuel_category.cat.categories

In [None]:
type(fuel_category[0])

## Przydatne funkcje

### `eval`

In [None]:
df_ = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
df_

In [None]:
df_.eval('c = a + b', inplace=True)
df_

### `.str`

In [None]:
df["fuel"].str.lower()

In [None]:
df["brand"].str.startswith("K")

In [None]:
df["title"].str.capitalize()

### `query`

Alternatywa dla filtrowania `df[df["..."]==..."]`

In [None]:
df.query('130000 > price > 120000 and mileage < 1000')


### `filter`

Alternatywa dla notacji `df[["...", "..."]]`

In [None]:
df.filter(["price", "currency", "color", "xyz"])

In [None]:
df[["price", "currency", "color", "xyz"]]

### `pivot_table`

Podobne działanie do `groupby`

In [None]:
df.pivot_table(index='fuel', values='price', aggfunc='mean')

### `transform`

Działa podobnie jak `apply`, ale dla każdej kolumny z osobna

In [None]:
df_

In [None]:
df_.transform(lambda x: x * 2)

In [None]:
df_

### `assign`

Dodaje nową kolumnę i zwraca df.

In [None]:
df_.assign(a_plus_b=lambda df: df["a"] + df["b"])

Poniższy zapis nie zwraca całego df-a

In [None]:
df_.apply(lambda row: row["a"] + row["b"], axis=1)

## Łańcuchy przetwarzania danych

Przetwarzanie danych w pandasie często polega na pisaniu jednej długiej linii składającej się z kolejnych etapów przetwarzania.

Na początek zobaczmy head df-a.

In [None]:
df.head()

---

Następnie można dorzucić filtrowanie.

In [None]:
df[df["price"] > 3e4].head()

Aby przefiltrować kolumnę po pewnym zakresie używamy funkcji `between`

In [None]:
df[df["price"].between(3e4, 1e5)].head()

Dla zmiennych kategorycznych przedziały pozwala przefiltrować `isin`

In [None]:
df[(df["price"].between(3e4, 1e5)) & (df["fuel"].isin(["Diesel", "Benzyna"]))].head()

Każdy kolejny warunek łączony jest spójnikiem `&`

In [None]:
df[(df["price"].between(3e4, 1e5)) & (df["fuel"].isin(["Diesel", "Benzyna"])) & (~df["body"].isin(["Sedan", "Kompakt"]))].head()

Zbyt długie linie można łamać w odpowiedni sposób.

In [None]:
df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].head()

Następnie dodamy filtrowanie kolumn.

In [None]:
df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"]).head()

Jeżeli występuje kilka funkcji jedna po drugiej, można zapisać je w kolejnych liniach, jeżeli każdą zakończymy znakiem `\`

In [None]:
df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"]) \
 .head()

Zamiast tego, do grupowania poleceń można użyć nawiasów okrągłych.

In [None]:
(df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"])
 .head())

In [None]:
(df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"])
 .rename({"brand": "Brand", "body": "Body", "price": "Price"}, axis=1)
 .head())

---

Podczas tworzenia pipeline'ów przetwarzających dane w pandasie czasami wykorzystujemy operator morsa (*walrus operator*) - `:=`

Jeżeli chcemy zdefiniować zmienną oraz się do niej odnieść, potrzebne są dwie linie kodu:

In [None]:
a = 1
a

Aby zrobić to w jednej linii, możemy wykorzystać następujący zapis:

In [None]:
(b := 2)

Dla pewności:

In [None]:
b

In [None]:
vc = df["fuel"].value_counts()

In [None]:
(vc := df["fuel"].value_counts())

In [None]:
import matplotlib.pyplot as plt

Używając morsa możemy w jednej linii stworzyć barplot oparty o wynik działania funkcji `value_counts`

In [None]:
plt.bar((vc := df["fuel"].value_counts()).index, vc);

**Zadanie 1**

(czas: 7 min.)

---

Pobierz dane z pliku `otodom_houses.csv` a następnie wykonaj następujące operacje w ramach jednego ciągu instrukcji łącznie z pobraniem danych z pliku:

- przefiltruj tak aby pozostały domy powyżej 100 metrów kwadratowych
- wybierz kolumny: "price", "province"
- pogrupuj po województwie agregując średnią wartość ceny

In [None]:
# ...

**Zadanie 2**

(czas: 6 min.)

---

Pobierz dane z pliku `otodom_houses.csv` a następnie wykonaj następujące operacje w ramach jednego ciągu instrukcji łącznie z pobraniem danych z pliku:

- przefiltruj wyłącznie takie domy, których powierzchnia stanowi ponad połowę powierzchni działki
- wyciągnij kolumny z powierzchnią domu oraz działki
- posortuj hierarchicznie po obu tych kolumnach (malejąco)
- wyciągnij pierwszych 10 wierszy

In [None]:
# ...

**Zadanie 3**

(czas: 7 min.)

---

Pobierz dane z pliku `otodom_houses.csv` a następnie wykonaj następujące operacje w ramach jednego ciągu instrukcji łącznie z pobraniem danych z pliku:

- utwórz nową kolumnę `price_per_sqm`, która oblicza stosunek ceny do powierzchni domu
- posortuj dane malejąco po nowej kolumnie
- wyciągnij 1000 pierwszych wierszy
- wyciągnij informacje o województwie
- policz `value_counts()`

In [None]:
# ...

## Polars

Polars jest biblioteką, która spełnia tę samą funkcje co pandas i korzystanie z niej jest bardzo podobne (mają podobne API). Polars jest jednak bardziej wydajne, przez co może się przydać kiedy pracujemy na większych danych.

https://pypi.org/project/polars/

### Quickstart

In [None]:
import polars as pl

In [None]:
df = pl.DataFrame({"a": [1, 2, 3], "b": [10, 20, 30], "c": [100, 200, 300]})

In [None]:
df

In [None]:
df["a"]

In [None]:
type(df["a"])

In [None]:
df.select("a")

In [None]:
type(df.select("a"))

---

In [None]:
df = pl.read_csv("data/cars.csv", null_values="NULL")
df.head()

In [None]:
df["body"].value_counts()

---

In [None]:
df.group_by("fuel").agg(pl.col("price").mean())

---

In [None]:
df.head()

In [None]:
df[2:4]

### Różnica w wydajności

**pandas**

In [None]:
import time


n = 100_000_000
df_pandas = pd.DataFrame({
    'A': np.random.randint(0, 100, size=n),
    'B': np.random.randint(0, 1000, size=n)
})



start_time = time.time()

df_filtered = df_pandas[df_pandas['A'] > 50]
df_result = df_filtered.groupby('A').agg({'B': 'sum'})

pandas_time = time.time() - start_time

print(f"Execution time: {round(pandas_time, 3)} seconds")

**polars**

In [None]:
n = 100_000_000
df_polars = pl.DataFrame({
    'A': np.random.randint(0, 100, size=n),
    'B': np.random.randint(0, 1000, size=n)
})


start_time = time.time()

df_filtered = df_polars.filter(pl.col('A') > 50)
df_result = df_filtered.group_by('A').agg(pl.col('B').sum())

polars_time = time.time() - start_time

print(f"Execution time: {round(polars_time, 3)} seconds")