<a href="https://colab.research.google.com/github/chrispi21/python-dataeng/blob/main/03_skladanie.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Operacje składania (ang. `comprehension`) służą do wygodnego tworzenia nowych list, słowników i zbiorów na podstawie już istniejących. Umożliwiają modyfikację istniejących elementów kolekcji oraz ich filtrowanie.

# Składanie list (ang. `list comprehensions`)

Docs:
1. https://docs.python.org/2/tutorial/datastructures.html#list-comprehensions
2. https://realpython.com/list-comprehension-python/

Ćwiczenia:
1. Ćwiczenia, w których wykorzystywaliśmy pętle omawiając listy
2. https://www.tutorjoes.in/python_programming_tutorial/list_comprehensions_exercises_in_python

<br><br>

Prześledźmy operację składania list na przykładzie. Pomnożymy kolejne elementy listy. Zróbmy to za pomocą znanego sposobu z pętlą `for`:

In [None]:
lista = [0, 5, 2, 10, -1, 3]

In [None]:
nowa_lista = []
for elem in lista:
  nowa_lista.append(2 * elem)

In [None]:
nowa_lista

Python umożliwia wykonanie takiej samej transformacji w bardziej zwięzły sposób:

In [None]:
[2 * elem for elem in lista]

Gdybyśmy chcieli przy okazji odfiltrować elementy większe od 0:

In [None]:
nowa_lista = []
for elem in lista:
  if elem > 0:
    nowa_lista.append(2 * elem)

nowa_lista

Bardziej zwięźle możemy zrobić to samo za pomocą operacji składania:

In [None]:
[2 * elem for elem in lista if elem > 0]

Przykład

Przeliczanie cen z jednej waluty na inną.

W liście mogą znajdować się zagnieżdżone słowniki. Przykładowo:

In [None]:
stany_magazynowe = [
    {"nazwa": "Samsung", "cena": 700.0, "ilosc": 5, "waluta": "EUR"},
    {"nazwa": "IPhone", "cena": 1000.0, "ilosc": 3, "waluta": "EUR"},
]

Mamy dany kurs EUR/PLN:

In [None]:
kurs = 4.21

Na zajęciach o funkcjach pokazywaliśmy jak rozpakować słownik w celu przekazania argumentów w celu utworzenia nowego słownika. Korzystając z operacji składania list możemy w zwięzły sposób przeliczyć ceny po kursie EUR/PLN:

In [None]:
stany_magazynowe_pln = [
    {**stan, **{"cena": stan["cena"] * kurs, "waluta": "PLN"}} for stan in stany_magazynowe
]
stany_magazynowe_pln

Ćwiczenie

Jak zmieniłby się łączny przychód dla produktu `TV`, jeśli cena zwiększyłaby się o 10%. Oto lista transakcji:

In [None]:
transakcje = [
    {"id": 1, "produkt": "TV", "ilosc": 2, "cena": 2000.0},
    {"id": 2, "produkt": "TV", "ilosc": 1, "cena": 4000.0},
    {"id": 3, "produkt": "PC", "ilosc": 3, "cena": 2500.0},
]

In [None]:
# @title Rozwiązanie


In [None]:
# @title Podpowiedź

wartosc_transakcji_tv = [t["cena"] * t["ilosc"] for t in transakcje if t["produkt"] == "TV"]
przychod_tv = sum(wartosc_transakcji_tv)
zmiana = 0.1 * przychod_tv
zmiana

Ćwiczenie dla chętnych

Za pomocą operacji składania oczyść `dane`:
1. Usuń `None`
2. Zrzutuj string na wartości liczbowe
3. Wyciagnij wartości liczbowe z krotek
4. Zostaw tylko wartości większe bądź równe `0`
5. Posortuj wynik rosnąco

Utrudnienie - dla chętnych:
1. Skorzystaj z dopasowania wzorców (ang. `pattern matching`). Więcej informacji: https://peps.python.org/pep-0636/ + https://realpython.com/structural-pattern-matching/
2. Zapoznaj się z tzw. `walrus` operator: https://docs.python.org/3/whatsnew/3.8.html#assignment-expressions

In [None]:
dane = [None, "12", -5, ("wynik", 8), "7", None, 5, "-8", ("ranking", 15), 0, None, "3", -2, ("wartość", 21)]
oczekiwany_wynik = [0, 3, 5, 7, 8, 12, 15, 21]

In [None]:
# @title Rozwiązanie

In [None]:
# @title Podpowiedź

def czysc(d):
  match d:
    case None:
      return None
    case (_, int() as x):
      return int(x)
    case x:
      return int(x)


wynik = sorted([
  czyste_d for d in dane
  # walrus operator pozwala wywołać funkcję raz a potem używać zwróconej wartości
  if (czyste_d := czysc(d)) is not None and czyste_d >= 0
])

assert wynik == oczekiwany_wynik

# Składanie słowników (ang. `dict comprehensions`)

Docs:
1. https://realpython.com/python-dictionary-comprehension/

Ćwiczenia:
1. Ćwiczenia, w których wykorzystywaliśmy pętle omawiając słowniki


Posłużymy się przykładem słownika, który zawiera informacje o temperaturach w różnych miastach w Polsce:

In [None]:
temperatury = {
    "Poznań": 10,
    "Warszawa": 5,
    "Kraków": 8,
    "Wrocław": 12,
    "Gdańsk": 7,
}

Przypomnijmy sobie działanie poniższych funkcji:

In [None]:
temperatury.items()

In [None]:
temperatury.keys()

In [None]:
temperatury.values()

Chcemy przekształcić `temperatury`, tak aby zawierał informacje o miastach, w których temperatura jest większa niż 7 stopni. Za pomocą pętli `for` zrobilibyśmy to w następujący sposób:

In [None]:
wynik = {}
for miasto, temp_ in temperatury.items():
  if temp_ > 7:
    wynik[miasto] = temp_

wynik

Analogiczny kod dla operacji składania znajduje się poniżej:

In [None]:
{
    miasto: temp_
    for miasto, temp_ in temperatury.items()
    if temp_ > 7
}

W przypadku, gdybyśmy jeszcze chcieli przekształcić temperaturę ze stopni Celsjusza na Fahrenheita za pomocą ponższej funkcji:

In [None]:
def celsius2fahrenheit(c):
  return (c * 9/5) + 32

Jedyną zmiana będzie wywołanie funkcji `celsius2fahrenheit`, na wartości temperatury:

In [None]:
{
    miasto: celsius2fahrenheit(temp_)
    for miasto, temp_ in temperatury.items()
    if temp_ > 7
}

UWAGA:

Nic nie stoi na przeszkodzie, aby na bazie par klucz-wartość ze słownika tworzyć listy:

In [None]:
temperatury_lista = [(miasto, celsius2fahrenheit(temp_)) for miasto, temp_ in temperatury.items() if temp_ > 7]
temperatury_lista

I na odwrót:

In [None]:
{
    miasto: temp_
    for miasto, temp_ in temperatury_lista
}

Chociaż tak będzie prościej:

In [None]:
dict(temperatury_lista)

Ćwiczenie

Na podstawie poniższych danych utwórz słownik, którego kluczem będzie imię a wartością pensja. Interesują nas osoby z pensją poniżej 10000.

In [None]:
dane = [
    {"id": 1, "imie": "Alicja", "pensja": 7000},
    {"id": 2, "imie": "Robert", "pensja": 5000},
    {"id": 3, "imie": "Jerzy", "pensja": 12000}
]

In [None]:
# @title Rozwiązanie

In [None]:
# @title Podpowiedź
{
    rekord["imie"]: rekord["pensja"]
    for rekord in dane
    if rekord["pensja"] < 10000
}


Ćwiczenie dla chętnych

Poniżej dany jest wektor wartości rzadkich.
1. Utwórz jego bardziej kompaktową reprezentację, w której kluczem jest pozycja niezerowych elementów, a wartością występująca wartość w liście
2. Za pomocą `sys.getsizeof` ([docs](https://docs.python.org/3/library/sys.html#sys.getsizeof)) porównaj ilość pamięci potrzebnej do reprezentacji danych w tych podejściach

In [None]:
wektor = [0] * 29 + [1, 3, 5] + [0] * 100 + [-1, -2]
oczekiwany_wynik = {29: 1, 30: 3, 31: 5, 132: -1, 133: -2}

In [None]:
# @title Podpowiedź 1

wynik = {ind: x for ind, x in enumerate(wektor) if x != 0}
# Kolejność kluczy ma znaczenie! Zastanów się co zrobić, żeby kolejność kluczy nie miała znaczenia? Jak porównać wielokrotnie zagnieżdżone słowniki?
assert(wynik == oczekiwany_wynik)

In [None]:
# @title Podpowiedź 2
import sys

print("wektor:", sys.getsizeof(wektor))
print("wynik:", sys.getsizeof(wynik))
# Aby nie stracić informacji potrzebujemy jeszcze przechowywać oryginalna długość wektora
print("oryginalna długość wektora:", sys.getsizeof(len(wektor)))

# Jeśli pojawia się problem z nadmierną utylizacją pamięci operacyjnej, warto zastanowić się z nad optymalną reprezentacją naszych danych
# Najczęściej dostępne są już gotowe implementacje - np. w odniesieniu do naszego przykładu: https://docs.scipy.org/doc/scipy/reference/sparse.html

# Składanie zbiorów

Składanie zbiorów wygląda bardzo podobnie do składania słowników. Zamiast pary klucz-wartość zwracamy tylko wartość. Posłużmy się przykładem podobnym do ostatniego. Dodamy rekord z kolejną osobą o imieniu Alicja:

In [None]:
dane = [
    {"id": 1, "imie": "Alicja", "pensja": 7000},
    {"id": 2, "imie": "Robert", "pensja": 5000},
    {"id": 3, "imie": "Jerzy", "pensja": 12000},
    {"id": 4, "imie": "Alicja", "pensja": 8000},
]

Naszym zadaniem będzie znalezienie osób, których pensja jest poniżej 10000:

In [None]:
{
    rekord["imie"]
    for rekord in dane
    if rekord["pensja"] < 10000
}

UWAGA:

Nawiązując do poprzedniego ćwiczenia zwróćmy uwagę, że o wartości pensji decyduje ostatni rekord z listy pod tym samym kluczem:

In [None]:
{
    rekord["imie"]: rekord["pensja"]
    for rekord in dane
    if rekord["pensja"] < 10000
}

# Zagnieżdżone operacja składania

Docs:
1. https://www.geeksforgeeks.org/nested-list-comprehensions-in-python/
2. https://realpython.com/list-comprehension-python/#watch-out-for-nested-comprehensions


Posłużmy się przykładem, w który będziemy analizować pomiary temperatur. Każdy wiersz reprezentuje osobne urządzenie pomiarowe. Wartości elementów w wierszach są kolejnymi pomiarami.

In [None]:
temperatury = [
    [-10, 30, 8],
    [-50, 0, -20, 10],
    [-30, 25],
    [5, 40, 22],
]

W 1. przykładzie chcemy zamienić stopnie Celsjusza na Fahrenheita zostawiając pomiary w stopniach Celsjusza większe od 0. Za pomocą pętli `for` zrobimy to następująco:

In [None]:
def celsius2fahrenheit(c):
  return (c * 9/5) + 32

In [None]:
wynik = []
for wewn_temp in temperatury:
  wynik.append([celsius2fahrenheit(element) for element in wewn_temp if element > 0])

wynik

W przypadku gdybyśmy chceli skorzystać wyłącznie z operacji składania musimy zagnieżdżać kolejne operacje:

In [None]:
[
    [celsius2fahrenheit(element) for element in wewn_temp if element > 0]
    for wewn_temp in temperatury
]

A co jeśli chcielibyśmy otrzymać płaską listę temperatur? Zacznijmy od rozwiązania z pętlą:

In [None]:
wynik = []
for wewn_temp in temperatury:
  wynik += [celsius2fahrenheit(element) for element in wewn_temp if element > 0]

wynik

Rozwiązanie oparte wyłącznie o operacje składania:

In [None]:
[
    celsius2fahrenheit(element)
    for wewn_temp in temperatury
    for element in wewn_temp if element > 0
]

UWAGA:

Kolejność klauzul `for` jest taka sama w przypadku w przypadku rozwiązania z pętlą i w oparciu o operacje składania.

Liczba zagnieżdżeń w operacji składania może być większa. Może to powodować, że nasz kod będzie nieczytelny.

W niektórych przypadkach możemy utworzyć płaską listę (gdy wydajność nie jest priorytetem) a następnie przekształcić jej elementy ([Artykuł](https://realpython.com/python-flatten-list/)).

W przypadku, gdy priorytetem jest optymalizacja przetwarzania, lepszym pomysłem jest skorzystanie z zagnieżdżonych operacji składania i wczesne filtrowanie elementów jak w przykładzie z temperaturą.

Ćwiczenie dla chętnych

Przekształć w następujący sposób logi z serwera:
1. Odfiltruj wpisy w logach, gdzie metryka cpu przekracza 75 (tj. 75% utylizacji)
2. Dwa warianty wyniku:
* wariant I:
```
{
  'server_1': {
    'service_a': {'cpu': 55, 'memory': 1200, 'requests': 3200},
    'service_b': {'cpu': 70, 'memory': 1800, 'requests': 4500}
  },
  'server_2': {
    'service_a': {'cpu': 65, 'memory': 1400, 'requests': 3800}
  }
}
```
* wariant II:
```
{
  'server_1-service_a': {'cpu': 55, 'memory': 1200, 'requests': 3200},
  'server_1-service_b': {'cpu': 70, 'memory': 1800, 'requests': 4500},
  'server_2-service_a': {'cpu': 65, 'memory': 1400, 'requests': 3800}
}
```




In [None]:
logi = {
    "server_1": {
        "service_a": {"cpu": 55, "memory": 1200, "requests": 3200},
        "service_b": {"cpu": 70, "memory": 1800, "requests": 4500}
    },
    "server_2": {
        "service_a": {"cpu": 65, "memory": 1400, "requests": 3800},
        "service_c": {"cpu": 80, "memory": 2200, "requests": 5100}
    }
}

In [None]:
# @title Rozwiązanie - wariant I

In [None]:
# @title Rozwiązanie - wariant II

In [None]:
# @title Podpowiedź - wariant I
{
    serwer : {
        serwis: metryki
        for serwis, metryki in serwisy.items()
        if metryki["cpu"] <= 75
    }
    for serwer, serwisy in logi.items()
}

In [None]:
# @title Rozwiązanie - wariant II
{
    f"{serwer}-{serwis}" : metryki
    for serwer, serwisy in logi.items()
    for serwis, metryki in serwisy.items()
    if metryki["cpu"] <= 75
}

# Wyrażenia generatorowe (ang. `generator expressions`)

Docs:
1. https://docs.python.org/3/reference/expressions.html#grammar-token-python-grammar-generator_expression
2. https://realpython.com/introduction-to-python-generators/#creating-data-pipelines-with-generators

Ćwiczenia:
1. Zadania zaproponowane przy omawianiu generatorów można rozwiązać za pomocą wyrażeń generatorowych

Zasada działania jest taka sama jak w przypadku list. Zamiast wyrażenia w `[...]` korzystamy z `(...)`:

In [None]:
(x**2 for x in range(10))

Sprawdźmy, czy wynik jest zgodny z oczekiwanym:

In [None]:
list((x**2 for x in range(10)))

Korzystanie z generatorów można łączyć w ciągi wywołań, które przypominają przepływy danych. W ten sposób nie wywołujemy obliczeń kolejnych zmiennych, a tworzymy "przepis" na ich otrzymanie. Przykładowo:

In [None]:
kwadraty = (x**2 for x in range(10))

In [None]:
podzielne_przez_3 = (x for x in kwadraty if x % 3 == 0)

W tym momencie wykonywane są obliczenia:

In [None]:
list(podzielne_przez_3)

Wróćmy do naszego przykładu z poprzeednich zajęć, gdzie zwracaliśmu losowe pomiary. Utworzyliśmy wtedy funkcję, która losowała n-razy nazwę czujnika i wartość pomiaru:

In [None]:
from random import randint, choice

CZUJNIKI = ["CZUJNIK_1", "CZUJNIK_2", "CZUJNIK_3", "CZUJNIK_4"]

def zwroc_pomiary(n):
  for _ in range(n):
    yield choice(CZUJNIKI), randint(-30, 30)

In [None]:
zwroc_pomiary(4)

In [None]:
next(zwroc_pomiary(4))

Możemy ją zmienić tak, aby skorzystać z wyrażeń generatorowych:

In [None]:
def zwroc_pomiary(n):
  return ((choice(CZUJNIKI), randint(-30, 30)) for i in range(n))

In [None]:
zwroc_pomiary(4)

In [None]:
next(zwroc_pomiary(4))

UWAGA:
1. W tym przypadku zwracamy generator - dlatego korzystamy z `return`
2. `yield` wykorzystujemy do zwracania kolejnego elementu generatora

Analogicznie zmieniamy funkcję filtruj:

In [None]:
def filtruj(pomiary):
  for sensor, wartosc in pomiary:
    if wartosc > 0:
      yield sensor, wartosc

Po zmianach:

In [None]:
def filtruj(pomiary):
  return ((sensor, wartosc) for sensor, wartosc in pomiary if wartosc > 0)

In [None]:
pomiary_gen = zwroc_pomiary(20)
filtrowane_pomiary_gen = filtruj(pomiary_gen)
list(filtrowane_pomiary_gen)

Ćwiczenia

Utwórz generator za pomocą wyrażenia generatora, które z `filtrowane_pomiary_gen` pozostawi tylko wartość pomiaru. Oblicz wartość miminalną i maksymalną dla tych pomiarów.

Uwaga: należy ponownie zainicjalizować wartości generatora. Może to być również potrzebne, gdy wielokrotnie eksperymentujemy z rozwiązaniem.

In [None]:
# @title Rozwiązanie

pomiary_gen = zwroc_pomiary(20)
filtrowane_pomiary_gen = filtruj(pomiary_gen)


In [None]:
# @title Podpowiedź

pomiary_gen = zwroc_pomiary(20)
filtrowane_pomiary_gen = filtruj(pomiary_gen)


def wartosc_pomiaru(pomiary):
  return (p for _, p in pomiary)


wartosci_gen = wartosc_pomiaru(filtrowane_pomiary_gen)

# Niepoprawne - nie zadziała druga linia po odkomentowaniu - dlaczego?
# print(max(wartosci_gen))
# print(min(wartosci_gen))

# Poprawne - nie można drugi raz wywołać wyczerpanego generatora
wartosci = list(wartosci_gen)
print(max(wartosci))
print(min(wartosci))

Ćwiczenie dla chętnych

Zamiast materializować wyniki w pamięci do postaci np. listy, spróbuj wykonać poprzednie zadanie za pomocą generatorów? Czy są możliwe operacje stanowe (tj. przechowywanie wyników cząstkowych dla obliczenia `max`/`min`)? Jaka jest zaleta podejścia opartego wyłączenie o generatory?

In [None]:
# @title Rozwiązanie

In [None]:
# @title Podpowiedź - podejście nr 1

import sys

pomiary_gen = zwroc_pomiary(20)
filtrowane_pomiary_gen = filtruj(pomiary_gen)
wartosci_gen = wartosc_pomiaru(filtrowane_pomiary_gen)

# Przykładowe podejście oparte o wyrażenia generatorowe
def statystyki(wartosci):
  min_ = sys.maxsize
  max_ = -sys.maxsize - 1
  return (
      (min_ := min((min_, w)), max_:= max((max_, w))) for w in wartosci
  )

# Zaleta podejścia opartego o generatory - nie musimy przechowywać wszystkich stanów jednocześnie w
def ostatni_element(statystyki):
  ostatni = None
  for ostatni in statystyki:
    pass
  return ostatni


statystyki_gen = statystyki(wartosci_gen)
wynik = ostatni_element(statystyki_gen)
wynik

In [None]:
# @title Podpowiedź - podejście nr 2

import sys

pomiary_gen = zwroc_pomiary(20)
filtrowane_pomiary_gen = filtruj(pomiary_gen)
wartosci_gen = wartosc_pomiaru(filtrowane_pomiary_gen)

# Przykładowe podejście oparte o `yield` wydaje się (subiektywnie) bardziej czytelne
def statystyki(wartosci):
  min_ = sys.maxsize
  max_ = -sys.maxsize - 1
  for w in wartosci:
    min_ = min(min_, w)
    max_ = max(max_, w)
    yield min_, max_


# Pozostały kod bez zmian
def ostatni_element(statystyki):
  ostatni = None
  for ostatni in statystyki:
    pass
  return ostatni

# Wynik może być inny niż wyzej - losujemy dane wejściowe na nowo
statystyki_gen = statystyki(wartosci_gen)
wynik = ostatni_element(statystyki_gen)
wynik

In [None]:
# @title Podpowiedź - podejście nr 3 - bonus

import sys
from itertools import accumulate

pomiary_gen = zwroc_pomiary(20)
filtrowane_pomiary_gen = filtruj(pomiary_gen)
wartosci_gen = wartosc_pomiaru(filtrowane_pomiary_gen)

# Korzystamy functools.accumulate: https://docs.python.org/3/library/itertools.html#itertools.accumulate
def statystyki(wartosci):
  return accumulate(
      wartosci,
      lambda acc, elem: (min((acc[0], elem)), max((acc[1], elem))),
      initial=(sys.maxsize, -sys.maxsize - 1)
  )

# Pozostały kod bez zmian
def ostatni_element(statystyki):
  ostatni = None
  for ostatni in statystyki:
    pass
  return ostatni

# Wynik może być inny niż wyzej - losujemy dane wejściowe na nowo
statystyki_gen = statystyki(wartosci_gen)
wynik = ostatni_element(statystyki_gen)
wynik

In [None]:
# @title Podpowiedź - podejście nr 4 - bonus

import sys
from functools import reduce

pomiary_gen = zwroc_pomiary(20)
filtrowane_pomiary_gen = filtruj(pomiary_gen)
wartosci_gen = wartosc_pomiaru(filtrowane_pomiary_gen)

# Korzystamy functools.reduce: https://docs.python.org/3/library/functools.html#functools.reduce
def statystyki(wartosci):
  return reduce(
      lambda acc, elem: (min((acc[0], elem)), max((acc[1], elem))),
      wartosci,
      (sys.maxsize, -sys.maxsize - 1)
  )

# Bazujemy na losowych pomiarach - wynik może być inny niż powyżej
wynik = statystyki(wartosci_gen)
wynik

Dla chętnych

Co jest szybsze - korzystanie z list czy z generatorów? Zachęcam do zapoznania się z tym [wpisem](https://realpython.com/introduction-to-python-generators/#profiling-generator-performance).

Dla chętnych

Porównanie iteratorów i generatorów: https://www.datacamp.com/tutorial/python-iterators-generators-tutorial