# Pandas – poziom średniozaawansowany

In [5]:
import pandas as pd

## Formaty danych

Wybrane formaty danych obsługiwane przez pandasa

In [None]:
df = pd.DataFrame([[1, 2, 3], [10, 20, 30], [100, 200, 300]], columns=["A", "B", "C"])
df

**`csv`**

In [None]:
df.to_csv("example.csv", index=None)

---

In [None]:
df = pd.read_csv("example.csv")
df

**`xlsx`**

In [None]:
df.to_excel("example.xlsx", index=None)

---

In [None]:
df = pd.read_excel("example.xlsx")
df

**`json`**

In [None]:
df.to_json("example.json")

---

In [None]:
df = pd.read_json("example.json")
df

**`sql`**

In [None]:
conn_str = "postgresql://postgres:postgres@localhost:5432/postgres"

In [None]:
df.to_sql("example", conn_str, index=None, if_exists="replace")

---

In [None]:
df = pd.read_sql("SELECT * FROM example", conn_str)
df

In [None]:
df = pd.read_sql("SELECT \"A\", \"B\" FROM example", conn_str)
df

**`hdf5`**

HDF5 (Hierarchical Data Format version 5), w skrócie H5.

Binarny format przechowywania danych. Jest efektywny pod kątem optymalizacji wykorzystania storage'u oraz szybkości dostępu.

Jego zaletą jest to, że zachowuje formatowanie dataframe'a, np. typy kolumn. Formaty takie jak `.csv` mogą przechowywać wyłącznie informacje w postaci tekstu.

In [None]:
df.to_hdf("example.h5", key="data")

---

In [None]:
pd.read_hdf("example.h5")

---
---

In [None]:
df1 = df * 2
df1.to_hdf("example.h5", key="data2")

---

In [None]:
pd.read_hdf("example.h5")

In [None]:
pd.read_hdf("example.h5", key="data2")

In [1]:
import pickle

**`clipboard`**

In [None]:
df.to_clipboard()

ctrl-v

---

In [None]:
pd.read_clipboard()

https://rrogacz.pl/html-tabele

**Zadanie 1**

(czas: 8 min.)

---

Przetestuj zapis i odczyt danych z różnych formatów. Możesz poeksperymentować z parametrami omówionych funkcji.

In [None]:
# ...

## Optymalizacja

Metody optymalizacji wykorzystania pamięci w pandasie

### Typy danych

In [None]:
df = pd.read_csv("data/cars.csv")
df.head()

In [None]:
df.dtypes

In [None]:
df.memory_usage().sum() / 1024 / 1024  # MB of memory

In [None]:
import numpy as np

In [None]:
np.iinfo(np.int64)

In [None]:
np.iinfo(np.int32)

In [None]:
np.iinfo(np.int16)

In [None]:
np.iinfo(np.int8)

---

In [None]:
df.describe()

price - int32

engine_vol - int16

power - int16

prod_year - int16

mileage - int32

In [None]:
df = pd.read_csv("data/cars.csv",
                 dtype={"price": np.int32, "engine_vol": np.int16, "power": np.int16, "prod_year": np.int16, "mileage": np.int32})
df.head()

In [None]:
df = pd.read_csv("data/cars.csv",
                 dtype={"price": pd.Int32Dtype(), "engine_vol": pd.Int16Dtype(), "power": pd.Int16Dtype(),
                        "prod_year": pd.Int16Dtype(), "mileage": pd.Int32Dtype()})
df.head()

In [None]:
df.dtypes

In [None]:
df.memory_usage().sum() / 1024 / 1024

### Downcasting

Polega na konwersji typu na już utworzonym dataframie / szeregu

In [None]:
df = pd.read_csv("data/cars.csv")
df.head()

In [None]:
df.dtypes

In [None]:
pd.to_numeric(df["price"], downcast="integer")

In [None]:
pd.to_numeric(df["price"], downcast="float")

In [None]:
pd.to_numeric(df["prod_year"], downcast="integer")

### Chunkowanie

Przydatne do wczytywania danych w chunkach a nie wszystkich naraz.

In [3]:
import sys

In [6]:
df = pd.read_csv("data/cars.csv")
sys.getsizeof(df) / 1024 / 1024  # całkowita pamięć zajmowana przez obiekt jest większa niż same dane w tabeli

57.39987373352051

In [7]:
pd.read_csv("data/cars.csv", chunksize=10000)

<pandas.io.parsers.readers.TextFileReader at 0x223348a2120>

In [8]:
sys.getsizeof(pd.read_csv("data/cars.csv", chunksize=10000))

48

In [9]:
for chunk in pd.read_csv("data/cars.csv", chunksize=10000):
    print(chunk.iloc[:, :4].head(1))
    print(round(sys.getsizeof(chunk) / 1024 / 1024, 2), "\n\n")

   price currency  brand   body
0  32900      PLN  Škoda  Sedan
5.74 


       price currency brand   body
10000   9900      PLN  Ford  Kombi
5.74 


       price currency brand       body
20000  51875      PLN  Fiat  Auta małe
5.74 


       price currency       brand     body
30000  23300      PLN  Volkswagen  Minivan
5.75 


       price currency   brand   body
40000  11900      PLN  Toyota  Kombi
5.74 


       price currency    brand     body
50000   7800      PLN  Citroën  Minivan
5.74 


       price currency          brand   body
60000  85000      PLN  Mercedes-Benz  Sedan
5.73 


       price currency       brand   body
70000  16900      PLN  Volkswagen  Kombi
5.74 


       price currency    brand           body
80000  22900      PLN  Citroën  Auta miejskie
5.75 


       price currency brand     body
90000   9900      PLN  Fiat  Kompakt
5.74 




**Zadanie 1**

(czas: 8 min.)

---

Wczytaj dane z pliku `otodom_houses.csv` z takimi typami, które zminimalizują wykorzystanie pamięci.

In [10]:
import sys

In [11]:
df = pd.read_csv("data/otodom_houses.csv", dtype={"number_id": pd.Int32Dtype(), "price": pd.Int32Dtype(), "latitude": pd.Float32Dtype(), "longitude": pd.Float32Dtype(),
                        "lot_area": pd.Int16Dtype(), "house_area": pd.Int16Dtype(), "n_rooms": pd.Int8Dtype(), "floors": pd.Float32Dtype(), "build_year": pd.Float32Dtype(),})
sys.getsizeof(df) / 1024 / 1024  # całkowita pamięć zajmowana przez obiekt jest większa niż same dane w tabeli

54.96275329589844

In [12]:
df.dtypes

number_id            int64
short_id            object
long_id             object
url                 object
title               object
price                int64
advertiser_type     object
advert_type         object
utc_created_at      object
utc_scraped_at      object
city                object
subregion           object
province            object
location            object
latitude           float64
longitude          float64
market              object
building_type       object
house_features      object
lot_area             int64
house_area           int64
n_rooms              int64
floors             float64
heating             object
build_year         float64
media               object
dtype: object

In [24]:
pd.to_numeric(df["build_year"], downcast="integer")

0        2023.0
1        2023.0
2        2023.0
3        1993.0
4        1970.0
          ...  
36438    2011.0
36439    1966.0
36440    2013.0
36441    2024.0
36442    1977.0
Name: build_year, Length: 36443, dtype: float64

In [25]:
df = pd.read_csv("data/otodom_houses.csv", dtype={"number_id": pd.Int32Dtype(), "price": pd.Int32Dtype(), "latitude": pd.Float32Dtype(), "longitude": pd.Float32Dtype(),
                        "lot_area": pd.Int16Dtype(), "house_area": pd.Int16Dtype(), "n_rooms": pd.Int8Dtype(), "floors": pd.Float32Dtype(), "build_year": pd.Float32Dtype(),})
sys.getsizeof(df) / 1024 / 1024  # całkowita pamięć zajmowana przez obiekt jest większa niż same dane w tabeli

53.78109169006348

**Zadanie 2**

(czas: 5 min.)

---

Pobierz dane z pliku `otodom_houses.csv` w standardowy sposób a następnie zastosuj downcasting.

In [None]:
# ...

**Zadanie 3**

(czas: 2 min.)

---

Wczytaj dane z pliku `otodom_houses.csv` w chunkach a następnie wykonaj na każdym chunku dowolne operacje.

In [None]:
df = pd.read_csv("data/otodom_houses.csv", chunksize=10000)

In [27]:
sys.getsizeof(df) / 1024 / 1024

53.78109169006348

In [29]:
for chunk in pd.read_csv("data/otodom_houses.csv", chunksize=10000):
    print(chunk.iloc[:, :].head(1))
    print(round(sys.getsizeof(chunk) / 1024 / 1024, 2), "\n\n")

   number_id short_id                                     long_id  \
0   64453631    4mrkH  dom-129-m2-blizniak-4-pokoje-salon-ID4mrkH   

                                                 url  \
0  https://www.otodom.pl/pl/oferta/dom-129-m2-bli...   

                                 title   price advertiser_type advert_type  \
0  DOM 129 m2 Bliżniak 4-POKOJE +SALON  399990         private     PRIVATE   

        utc_created_at              utc_scraped_at  ...   market  \
0  2023-07-26 09:29:53  2023-07-28 13:00:08.104138  ...  PRIMARY   

   building_type                                     house_features lot_area  \
0  semi_detached  {"Media": ["prąd", "gaz", "woda"], "Dojazd": [...      400   

   house_area  n_rooms floors heating build_year                  media  
0         129        5    NaN     NaN     2023.0  electricity|gas|water  

[1 rows x 26 columns]
14.92 


       number_id short_id                                            long_id  \
10000   64764119    4nK6z  energo

## Typy danych

### `datetime`

In [30]:
pd.read_csv("data/cars.csv").dtypes

price                  int64
currency              object
brand                 object
body                  object
engine_vol           float64
fuel                  object
drive                 object
power                float64
gearbox_is_manual     object
prod_year              int64
orig_country          object
mileage              float64
color                 object
title                 object
offer_timestamp       object
dtype: object

In [31]:
pd.read_csv("data/cars.csv", parse_dates=["offer_timestamp"]).dtypes

price                         int64
currency                     object
brand                        object
body                         object
engine_vol                  float64
fuel                         object
drive                        object
power                       float64
gearbox_is_manual            object
prod_year                     int64
orig_country                 object
mileage                     float64
color                        object
title                        object
offer_timestamp      datetime64[ns]
dtype: object

In [32]:
df = pd.read_csv("data/cars.csv", parse_dates=["offer_timestamp"])
df["offer_timestamp"]

0       2021-02-28 12:53:00
1       2021-02-28 12:52:00
2       2021-02-28 12:50:00
3       2021-02-28 12:57:00
4       2021-02-28 12:50:00
                ...        
99995   2021-04-21 14:58:00
99996   2021-04-21 19:45:00
99997   2021-04-21 15:53:00
99998   2021-04-21 13:42:00
99999   2021-04-21 13:03:00
Name: offer_timestamp, Length: 100000, dtype: datetime64[ns]

In [33]:
df["offer_timestamp"].dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x0000022335000650>

In [34]:
df["offer_timestamp"].dt.month  # year, day, hour, ...

0        2
1        2
2        2
3        2
4        2
        ..
99995    4
99996    4
99997    4
99998    4
99999    4
Name: offer_timestamp, Length: 100000, dtype: int32

In [35]:
df["offer_timestamp"].dt.to_pydatetime()

  df["offer_timestamp"].dt.to_pydatetime()


array([datetime.datetime(2021, 2, 28, 12, 53),
       datetime.datetime(2021, 2, 28, 12, 52),
       datetime.datetime(2021, 2, 28, 12, 50), ...,
       datetime.datetime(2021, 4, 21, 15, 53),
       datetime.datetime(2021, 4, 21, 13, 42),
       datetime.datetime(2021, 4, 21, 13, 3)], dtype=object)

### `category`

In [36]:
fuel_category = df["fuel"].astype("category")
fuel_category

0         Diesel
1         Diesel
2        Benzyna
3         Diesel
4         Diesel
          ...   
99995     Diesel
99996    Benzyna
99997     Diesel
99998    Benzyna
99999    Benzyna
Name: fuel, Length: 100000, dtype: category
Categories (6, object): ['Benzyna', 'Benzyna+CNG', 'Benzyna+LPG', 'Diesel', 'Elektryczny', 'Hybryda']

In [37]:
fuel_category.cat.codes

0        3
1        3
2        0
3        3
4        3
        ..
99995    3
99996    0
99997    3
99998    0
99999    0
Length: 100000, dtype: int8

In [38]:
fuel_category.cat.categories

Index(['Benzyna', 'Benzyna+CNG', 'Benzyna+LPG', 'Diesel', 'Elektryczny',
       'Hybryda'],
      dtype='object')

In [39]:
type(fuel_category[0])

str

## Przydatne funkcje

### `eval`

In [40]:
df_ = pd.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
df_

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [41]:
df_.eval('c = a + b', inplace=True)
df_

Unnamed: 0,a,b,c
0,1,4,5
1,2,5,7
2,3,6,9


### `.str`

In [43]:
df["fuel"].str.lower()

0         diesel
1         diesel
2        benzyna
3         diesel
4         diesel
          ...   
99995     diesel
99996    benzyna
99997     diesel
99998    benzyna
99999    benzyna
Name: fuel, Length: 100000, dtype: object

In [47]:
df["brand"].str.startswith("K")

0        False
1        False
2        False
3         True
4         True
         ...  
99995    False
99996    False
99997    False
99998    False
99999    False
Name: brand, Length: 100000, dtype: bool

In [48]:
df["title"].str.capitalize()

0                  Škoda rapid
1             Bmw seria 1 116d
2               Fiat panda 1.2
3             Kia sportage 1.7
4                 Kia sportage
                 ...          
99995               Ford focus
99996            Audi a4 avant
99997         Bmw seria 7 740d
99998     Peugeot 208 puretech
99999    Volkswagen touran 1.4
Name: title, Length: 100000, dtype: object

### `query`

Alternatywa dla filtrowania `df[df["..."]==..."]`

In [49]:
df.query('130000 > price > 120000 and mileage < 1000')


Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
879,127190,PLN,Nissan,SUV,1332.0,Benzyna,Przód,160.0,False,2020,,5.0,Biały,Nissan X-Trail 1.3,2021-02-27 09:53:00
2068,126525,PLN,Volkswagen,Minivan,2000.0,Diesel,Przód,150.0,False,2021,,6.0,Biały,Volkswagen Transporter,2021-02-27 12:26:00
2223,123500,PLN,Hyundai,SUV,1598.0,Benzyna,Przód,150.0,True,2021,Polska,5.0,Biały,Hyundai Tucson,2021-02-27 10:11:00
2599,127100,PLN,Volkswagen,Kombi,1498.0,Benzyna,Przód,130.0,False,2021,,5.0,Czarny,Volkswagen Golf VIII,2021-02-27 11:00:00
3607,121890,PLN,Kia,SUV,1591.0,Benzyna,Przód,177.0,False,2020,,3.0,Niebieski,Kia Sportage 1.6,2021-02-28 07:34:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99413,129900,PLN,BMW,Sedan,1499.0,Benzyna,Przód,140.0,False,2021,,20.0,Czarny,BMW Seria 2 218i,2021-04-22 09:44:00
99564,129800,PLN,Ford,Sedan,1997.0,Diesel,Przód,150.0,False,2020,,9.0,Czarny,Ford Mondeo 2.0,2021-04-21 15:20:00
99641,124200,PLN,Toyota,Kombi,1986.0,Hybryda,Przód,184.0,False,2021,Polska,1.0,Srebrny,Toyota Corolla,2021-04-22 08:34:00
99724,129810,PLN,Seat,SUV,1498.0,Benzyna,Przód,150.0,True,2021,,5.0,Szary,Seat Tarraco 1.5,2021-04-21 14:59:00


### `filter`

Alternatywa dla notacji `df[["...", "..."]]`

In [50]:
df.filter(["price", "currency", "color", "xyz"])

Unnamed: 0,price,currency,color
0,32900,PLN,Srebrny
1,32500,PLN,Biały
2,7900,PLN,Szary
3,39990,PLN,Szary
4,42900,PLN,Biały
...,...,...,...
99995,83990,PLN,Srebrny
99996,7400,PLN,Niebieski
99997,30000,PLN,Inny kolor
99998,69000,PLN,Biały


In [51]:
df[["price", "currency", "color", "xyz"]]

KeyError: "['xyz'] not in index"

### `pivot_table`

Podobne działanie do `groupby`

In [52]:
df

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,32900,PLN,Škoda,Sedan,1598.0,Diesel,Przód,115.0,True,2017,Polska,175000.0,Srebrny,Škoda RAPID,2021-02-28 12:53:00
1,32500,PLN,BMW,Kompakt,1598.0,Diesel,Tył,116.0,True,2012,,228000.0,Biały,BMW Seria 1 116d,2021-02-28 12:52:00
2,7900,PLN,Fiat,Auta małe,1242.0,Benzyna,Przód,69.0,True,2012,Polska,2610000.0,Szary,Fiat Panda 1.2,2021-02-28 12:50:00
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,83990,PLN,Ford,Kombi,1499.0,Diesel,Przód,120.0,True,2020,,5.0,Srebrny,Ford Focus,2021-04-21 14:58:00
99996,7400,PLN,Audi,Kombi,1781.0,Benzyna,Przód,125.0,True,1999,Niemcy,259000.0,Niebieski,Audi A4 Avant,2021-04-21 19:45:00
99997,30000,PLN,BMW,Sedan,3901.0,Diesel,Tył,245.0,False,1999,,307000.0,Inny kolor,BMW Seria 7 740d,2021-04-21 15:53:00
99998,69000,PLN,Peugeot,Auta małe,1199.0,Benzyna,Przód,101.0,True,2020,,1000.0,Biały,Peugeot 208 PureTech,2021-04-21 13:42:00


In [53]:
df.pivot_table(index='fuel', values='price', aggfunc='mean')

Unnamed: 0_level_0,price
fuel,Unnamed: 1_level_1
Benzyna,41134.38304
Benzyna+CNG,22401.933333
Benzyna+LPG,22843.978036
Diesel,38252.551279
Elektryczny,134873.673077
Hybryda,74332.792277


### `transform`

Działa podobnie jak `apply`, ale dla każdej kolumny z osobna

In [55]:
df_

Unnamed: 0,a,b,c
0,1,4,5
1,2,5,7
2,3,6,9


In [60]:
df_.transform(lambda x: x * 2)

Unnamed: 0,a,b,c
0,2,8,10
1,4,10,14
2,6,12,18


In [None]:
df_

### `assign`

Dodaje nową kolumnę i zwraca df.

In [67]:
# dla porównania apply z assign
df_.apply(lambda row: row["a"] + row["b"], axis=1)

0    5
1    7
2    9
dtype: int64

In [68]:
df_.assign(a_plus_b=lambda df: df["a"] + df["b"])

Unnamed: 0,a,b,c,a_plus_b
0,1,4,5,5
1,2,5,7,7
2,3,6,9,9


Poniższy zapis nie zwraca całego df-a

In [None]:
df_.apply(lambda row: row["a"] + row["b"], axis=1)

## Łańcuchy przetwarzania danych

Przetwarzanie danych w pandasie często polega na pisaniu jednej długiej linii składającej się z kolejnych etapów przetwarzania.

Na początek zobaczmy head df-a.

In [70]:
df.head()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,32900,PLN,Škoda,Sedan,1598.0,Diesel,Przód,115.0,True,2017,Polska,175000.0,Srebrny,Škoda RAPID,2021-02-28 12:53:00
1,32500,PLN,BMW,Kompakt,1598.0,Diesel,Tył,116.0,True,2012,,228000.0,Biały,BMW Seria 1 116d,2021-02-28 12:52:00
2,7900,PLN,Fiat,Auta małe,1242.0,Benzyna,Przód,69.0,True,2012,Polska,2610000.0,Szary,Fiat Panda 1.2,2021-02-28 12:50:00
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00


---

Następnie można dorzucić filtrowanie.

In [71]:
df[df["price"] > 3e4].head()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,32900,PLN,Škoda,Sedan,1598.0,Diesel,Przód,115.0,True,2017,Polska,175000.0,Srebrny,Škoda RAPID,2021-02-28 12:53:00
1,32500,PLN,BMW,Kompakt,1598.0,Diesel,Tył,116.0,True,2012,,228000.0,Biały,BMW Seria 1 116d,2021-02-28 12:52:00
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00
6,106600,PLN,Renault,SUV,1332.0,Benzyna,Przód,140.0,False,2020,Polska,7.0,Szary,Renault Kadjar 1.3,2021-02-28 12:56:00


Aby przefiltrować kolumnę po pewnym zakresie używamy funkcji `between`

In [73]:
df["price"].between(3e4, 1e5)

0         True
1         True
2        False
3         True
4         True
         ...  
99995     True
99996    False
99997     True
99998     True
99999    False
Name: price, Length: 100000, dtype: bool

In [72]:
df[df["price"].between(3e4, 1e5)].head()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,32900,PLN,Škoda,Sedan,1598.0,Diesel,Przód,115.0,True,2017,Polska,175000.0,Srebrny,Škoda RAPID,2021-02-28 12:53:00
1,32500,PLN,BMW,Kompakt,1598.0,Diesel,Tył,116.0,True,2012,,228000.0,Biały,BMW Seria 1 116d,2021-02-28 12:52:00
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00
7,32900,PLN,Dacia,Kombi,1598.0,Benzyna,Przód,102.0,True,2016,Polska,42771.0,Biały,Dacia Dokker Van,2021-02-28 12:57:00


Dla zmiennych kategorycznych przedziały pozwala przefiltrować `isin`

In [74]:
df[(df["price"].between(3e4, 1e5)) & (df["fuel"].isin(["Diesel", "Benzyna"]))].head()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
0,32900,PLN,Škoda,Sedan,1598.0,Diesel,Przód,115.0,True,2017,Polska,175000.0,Srebrny,Škoda RAPID,2021-02-28 12:53:00
1,32500,PLN,BMW,Kompakt,1598.0,Diesel,Tył,116.0,True,2012,,228000.0,Biały,BMW Seria 1 116d,2021-02-28 12:52:00
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00
7,32900,PLN,Dacia,Kombi,1598.0,Benzyna,Przód,102.0,True,2016,Polska,42771.0,Biały,Dacia Dokker Van,2021-02-28 12:57:00


Każdy kolejny warunek łączony jest spójnikiem `&`

In [75]:
df[(df["price"].between(3e4, 1e5)) & (df["fuel"].isin(["Diesel", "Benzyna"])) & (~df["body"].isin(["Sedan", "Kompakt"]))].head()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00
7,32900,PLN,Dacia,Kombi,1598.0,Benzyna,Przód,102.0,True,2016,Polska,42771.0,Biały,Dacia Dokker Van,2021-02-28 12:57:00
9,36800,PLN,Volkswagen,SUV,1968.0,Diesel,,140.0,True,2012,Polska,333570.0,Biały,Volkswagen Tiguan 2.0,2021-02-28 12:57:00
10,31900,PLN,Opel,Kombi,1956.0,Diesel,,195.0,True,2012,Niemcy,239700.0,Czerwony,Opel Insignia 2.0,2021-02-28 12:56:00


Zbyt długie linie można łamać w odpowiedni sposób.

In [76]:
df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].head()

Unnamed: 0,price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
3,39990,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,Niemcy,138123.0,Szary,Kia Sportage 1.7,2021-02-28 12:57:00
4,42900,PLN,Kia,SUV,1685.0,Diesel,Przód,115.0,True,2012,,175962.0,Biały,Kia Sportage,2021-02-28 12:50:00
7,32900,PLN,Dacia,Kombi,1598.0,Benzyna,Przód,102.0,True,2016,Polska,42771.0,Biały,Dacia Dokker Van,2021-02-28 12:57:00
9,36800,PLN,Volkswagen,SUV,1968.0,Diesel,,140.0,True,2012,Polska,333570.0,Biały,Volkswagen Tiguan 2.0,2021-02-28 12:57:00
10,31900,PLN,Opel,Kombi,1956.0,Diesel,,195.0,True,2012,Niemcy,239700.0,Czerwony,Opel Insignia 2.0,2021-02-28 12:56:00


Następnie dodamy filtrowanie kolumn.

In [77]:
df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"]).head()

Unnamed: 0,brand,body,price
3,Kia,SUV,39990
4,Kia,SUV,42900
7,Dacia,Kombi,32900
9,Volkswagen,SUV,36800
10,Opel,Kombi,31900


Jeżeli występuje kilka funkcji jedna po drugiej, można zapisać je w kolejnych liniach, jeżeli każdą zakończymy znakiem `\`

In [82]:
df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"]) \
 .head()

Unnamed: 0,brand,body,price
3,Kia,SUV,39990
4,Kia,SUV,42900
7,Dacia,Kombi,32900
9,Volkswagen,SUV,36800
10,Opel,Kombi,31900


Zamiast tego, do grupowania poleceń można użyć nawiasów okrągłych.

In [80]:
(df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"])
 .head())

Unnamed: 0,brand,body,price
3,Kia,SUV,39990
4,Kia,SUV,42900
7,Dacia,Kombi,32900
9,Volkswagen,SUV,36800
10,Opel,Kombi,31900


In [83]:
(df[(df["price"].between(3e4, 1e5)) &
   (df["fuel"].isin(["Diesel", "Benzyna"]))  &
   (~df["body"].isin(["Sedan", "Kompakt"]))
].filter(["brand", "body", "price"])
 .rename({"brand": "Brand", "body": "Body", "price": "Price"}, axis=1)
 .head())

Unnamed: 0,Brand,Body,Price
3,Kia,SUV,39990
4,Kia,SUV,42900
7,Dacia,Kombi,32900
9,Volkswagen,SUV,36800
10,Opel,Kombi,31900


---

Podczas tworzenia pipeline'ów przetwarzających dane w pandasie czasami wykorzystujemy operator morsa (*walrus operator*) - `:=`

Jeżeli chcemy zdefiniować zmienną oraz się do niej odnieść, potrzebne są dwie linie kodu:

In [84]:
a = 1
a

1

Aby zrobić to w jednej linii, możemy wykorzystać następujący zapis:

In [85]:
(b := 2)

2

Dla pewności:

In [86]:
b

2

In [87]:
vc = df["fuel"].value_counts()

In [88]:
(vc := df["fuel"].value_counts())

fuel
Benzyna        47666
Diesel         44979
Benzyna+LPG     5600
Hybryda         1502
Elektryczny      208
Benzyna+CNG       45
Name: count, dtype: int64

In [None]:
import matplotlib.pyplot as plt

Używając morsa możemy w jednej linii stworzyć barplot oparty o wynik działania funkcji `value_counts`

In [None]:
plt.bar((vc := df["fuel"].value_counts()).index, vc);

**Zadanie 1**

(czas: 7 min.)

---

Pobierz dane z pliku `otodom_houses.csv` a następnie wykonaj następujące operacje w ramach jednego ciągu instrukcji łącznie z pobraniem danych z pliku:

- przefiltruj tak aby pozostały domy powyżej 100 metrów kwadratowych
- wybierz kolumny: "price", "province"
- pogrupuj po województwie agregując średnią wartość ceny

In [89]:
df = pd.read_csv("data/otodom_houses.csv", dtype={"number_id": pd.Int32Dtype(), "price": pd.Int32Dtype(), "latitude": pd.Float32Dtype(), "longitude": pd.Float32Dtype(),
                        "lot_area": pd.Int16Dtype(), "house_area": pd.Int16Dtype(), "n_rooms": pd.Int8Dtype(), "floors": pd.Float32Dtype(), "build_year": pd.Float32Dtype(),})
sys.getsizeof(df) / 1024 / 1024  # całkowita pamięć zajmowana przez obiekt jest większa niż same dane w tabeli

53.78109169006348

In [90]:
df.head()

Unnamed: 0,number_id,short_id,long_id,url,title,price,advertiser_type,advert_type,utc_created_at,utc_scraped_at,...,market,building_type,house_features,lot_area,house_area,n_rooms,floors,heating,build_year,media
0,64453631,4mrkH,dom-129-m2-blizniak-4-pokoje-salon-ID4mrkH,https://www.otodom.pl/pl/oferta/dom-129-m2-bli...,DOM 129 m2 Bliżniak 4-POKOJE +SALON,399990,private,PRIVATE,2023-07-26 09:29:53,2023-07-28 13:00:08.104138,...,PRIMARY,semi_detached,"{""Media"": [""prąd"", ""gaz"", ""woda""], ""Dojazd"": [...",400,129,5,,,2023.0,electricity|gas|water
1,64453626,4mrkC,dom-wolnostojacy-pod-glogowem-okazja-ID4mrkC,https://www.otodom.pl/pl/oferta/dom-wolnostoja...,Dom wolnostojący pod Głogowem - Okazja !!,540000,business,AGENCY,2023-07-26 09:25:09,2023-07-28 13:00:17.279681,...,PRIMARY,detached,"{""Ogrodzenie"": [""inne""], ""Media"": [""szambo"", ""...",1100,155,5,,,2023.0,cesspool|electricity|water
2,64453451,4mrhN,funkcjonalny-nowy-dom-w-spokojnej-okolicy-w-st...,https://www.otodom.pl/pl/oferta/funkcjonalny-n...,Funkcjonalny nowy dom w spokojnej okolicy w st...,599000,private,PRIVATE,2023-07-26 08:53:05,2023-07-28 13:00:21.437902,...,PRIMARY,detached,"{""Zabezpieczenia"": [""drzwi / okna antywłamanio...",724,100,4,,gas,2023.0,cesspool|electricity|gas|internet|water
3,64453448,4mrhK,atrakcyjny-dom-z-oddzielnym-mieszkaniem-blisko...,https://www.otodom.pl/pl/oferta/atrakcyjny-dom...,Atrakcyjny dom z oddzielnym mieszkaniem-blisko...,790000,private,PRIVATE,2023-07-26 08:51:49,2023-07-28 13:00:27.346328,...,SECONDARY,ribbon,"{""Ogrodzenie"": [""żywopłot"", ""siatka""], ""Ogrzew...",530,174,7,,oil,1993.0,electricity|gas|internet|phone|sewage|water
4,64453392,4mrgQ,dom-z-duza-dzialka-bardzo-blisko-lasu-ID4mrgQ,https://www.otodom.pl/pl/oferta/dom-z-duza-dzi...,Dom z dużą działką bardzo blisko lasu,399000,business,AGENCY,2023-07-26 08:10:06,2023-07-28 13:00:34.654899,...,SECONDARY,detached,"{""Media"": [""prąd""], ""Informacje dodatkowe"": [""...",1400,96,3,,,1970.0,electricity


In [101]:
(
    df[df["house_area"] > 100].filter(["price", "province"])
    .groupby("province").agg('mean', numeric_only=True)
)

Unnamed: 0_level_0,price
province,Unnamed: 1_level_1
dolnoslaskie,915331.850506
kujawsko-pomorskie,753331.29679
lodzkie,801274.352632
lubelskie,796558.434394
lubuskie,825390.371383
malopolskie,872192.353518
mazowieckie,953964.154903
opolskie,742806.0
podkarpackie,699096.935773
podlaskie,758244.768647


In [104]:
(
    df.query("house_area > 100")
    .filter(["price", "province"])
    .groupby("province")
    .agg('mean', numeric_only=True)
    .sort_valuse("price")
)

AttributeError: 'DataFrame' object has no attribute 'sort_valuse'

**Zadanie 2**

(czas: 6 min.)

---

Pobierz dane z pliku `otodom_houses.csv` a następnie wykonaj następujące operacje w ramach jednego ciągu instrukcji łącznie z pobraniem danych z pliku:

- przefiltruj wyłącznie takie domy, których powierzchnia stanowi ponad połowę powierzchni działki
- wyciągnij kolumny z powierzchnią domu oraz działki
- posortuj hierarchicznie po obu tych kolumnach (malejąco)
- wyciągnij pierwszych 10 wierszy

In [109]:
result = (
    pd.read_csv("data/otodom_houses.csv")
    .query("house_area > lot_area/2")
    .filter(["house_area", "lot_area"])
    .sort_values(["house_area", "lot_area"], ascending=[False, True])
    .head()
)
result

Unnamed: 0,house_area,lot_area
10647,300,313
28710,280,416
12335,255,331
20860,250,300
5689,250,320


**Zadanie 3**

(czas: 7 min.)

---

Pobierz dane z pliku `otodom_houses.csv` a następnie wykonaj następujące operacje w ramach jednego ciągu instrukcji łącznie z pobraniem danych z pliku:

- utwórz nową kolumnę `price_per_sqm`, która oblicza stosunek ceny do powierzchni domu
- posortuj dane malejąco po nowej kolumnie
- wyciągnij 1000 pierwszych wierszy
- wyciągnij informacje o województwie
- policz `value_counts()`

In [110]:
result = (
    pd.read_csv("data/otodom_houses.csv")
    # .assign(price_per_sqm=lambda)
    .query("house_area > lot_area/2")
    .filter(["house_area", "lot_area"])
    .sort_values(["house_area", "lot_area"], ascending=[False, True])
    .head()
)
result

Unnamed: 0,house_area,lot_area
10647,300,313
28710,280,416
12335,255,331
20860,250,300
5689,250,320


## Polars

Polars jest biblioteką, która spełnia tę samą funkcje co pandas i korzystanie z niej jest bardzo podobne (mają podobne API). Polars jest jednak bardziej wydajne, przez co może się przydać kiedy pracujemy na większych danych.

https://pypi.org/project/polars/

### Quickstart

In [114]:
import polars as pl

In [115]:
df = pl.DataFrame({"a": [1, 2, 3], "b": [10, 20, 30], "c": [100, 200, 300]})

In [116]:
df

a,b,c
i64,i64,i64
1,10,100
2,20,200
3,30,300


In [117]:
df["a"]

a
i64
1
2
3


In [118]:
type(df["a"])

polars.series.series.Series

In [119]:
df.select("a")

a
i64
1
2
3


In [120]:
type(df.select("a"))

polars.dataframe.frame.DataFrame

---

In [121]:
df = pl.read_csv("data/cars.csv", null_values="NULL")
df.head()

price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
i64,str,str,str,i64,str,str,i64,bool,i64,str,i64,str,str,str
32900,"""PLN""","""Škoda""","""Sedan""",1598,"""Diesel""","""Przód""",115,True,2017,"""Polska""",175000,"""Srebrny""","""Škoda RAPID""","""2021-02-28 12:53:00"""
32500,"""PLN""","""BMW""","""Kompakt""",1598,"""Diesel""","""Tył""",116,True,2012,,228000,"""Biały""","""BMW Seria 1 116d""","""2021-02-28 12:52:00"""
7900,"""PLN""","""Fiat""","""Auta małe""",1242,"""Benzyna""","""Przód""",69,True,2012,"""Polska""",2610000,"""Szary""","""Fiat Panda 1.2""","""2021-02-28 12:50:00"""
39990,"""PLN""","""Kia""","""SUV""",1685,"""Diesel""","""Przód""",115,True,2012,"""Niemcy""",138123,"""Szary""","""Kia Sportage 1.7""","""2021-02-28 12:57:00"""
42900,"""PLN""","""Kia""","""SUV""",1685,"""Diesel""","""Przód""",115,True,2012,,175962,"""Biały""","""Kia Sportage""","""2021-02-28 12:50:00"""


In [122]:
df["body"].value_counts()

body,count
str,u32
"""Kompakt""",16997
"""Auta miejskie""",13674
"""Kombi""",19950
"""Auta małe""",3098
"""SUV""",17456
"""Pick-up""",1
"""Sedan""",14189
"""Kabriolet""",930
"""Coupe""",2285
"""Minivan""",11420


---

In [123]:
df.group_by("fuel").agg(pl.col("price").mean())

fuel,price
str,f64
"""Diesel""",38252.551279
"""Elektryczny""",134873.673077
"""Hybryda""",74332.792277
"""Benzyna+CNG""",22401.933333
"""Benzyna+LPG""",22843.978036
"""Benzyna""",41134.38304


---

In [124]:
df.head()

price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
i64,str,str,str,i64,str,str,i64,bool,i64,str,i64,str,str,str
32900,"""PLN""","""Škoda""","""Sedan""",1598,"""Diesel""","""Przód""",115,True,2017,"""Polska""",175000,"""Srebrny""","""Škoda RAPID""","""2021-02-28 12:53:00"""
32500,"""PLN""","""BMW""","""Kompakt""",1598,"""Diesel""","""Tył""",116,True,2012,,228000,"""Biały""","""BMW Seria 1 116d""","""2021-02-28 12:52:00"""
7900,"""PLN""","""Fiat""","""Auta małe""",1242,"""Benzyna""","""Przód""",69,True,2012,"""Polska""",2610000,"""Szary""","""Fiat Panda 1.2""","""2021-02-28 12:50:00"""
39990,"""PLN""","""Kia""","""SUV""",1685,"""Diesel""","""Przód""",115,True,2012,"""Niemcy""",138123,"""Szary""","""Kia Sportage 1.7""","""2021-02-28 12:57:00"""
42900,"""PLN""","""Kia""","""SUV""",1685,"""Diesel""","""Przód""",115,True,2012,,175962,"""Biały""","""Kia Sportage""","""2021-02-28 12:50:00"""


In [125]:
df[2:4]

price,currency,brand,body,engine_vol,fuel,drive,power,gearbox_is_manual,prod_year,orig_country,mileage,color,title,offer_timestamp
i64,str,str,str,i64,str,str,i64,bool,i64,str,i64,str,str,str
7900,"""PLN""","""Fiat""","""Auta małe""",1242,"""Benzyna""","""Przód""",69,True,2012,"""Polska""",2610000,"""Szary""","""Fiat Panda 1.2""","""2021-02-28 12:50:00"""
39990,"""PLN""","""Kia""","""SUV""",1685,"""Diesel""","""Przód""",115,True,2012,"""Niemcy""",138123,"""Szary""","""Kia Sportage 1.7""","""2021-02-28 12:57:00"""


### Różnica w wydajności

**pandas**

In [131]:
import time
import numpy as np


n = 100_000_000
df_pandas = pd.DataFrame({
    'A': np.random.randint(0, 100, size=n),
    'B': np.random.randint(0, 1000, size=n)
})



start_time = time.time()

df_filtered = df_pandas[df_pandas['A'] > 50]
df_result = df_filtered.groupby('A').agg({'B': 'sum'})

pandas_time = time.time() - start_time

print(f"Execution time: {round(pandas_time, 3)} seconds")

Execution time: 1.621 seconds


**polars**

In [132]:
n = 100_000_000
df_polars = pl.DataFrame({
    'A': np.random.randint(0, 100, size=n),
    'B': np.random.randint(0, 1000, size=n)
})


start_time = time.time()

df_filtered = df_polars.filter(pl.col('A') > 50)
df_result = df_filtered.group_by('A').agg(pl.col('B').sum())

polars_time = time.time() - start_time

print(f"Execution time: {round(polars_time, 3)} seconds")

Execution time: 0.338 seconds
