#Setup

In [None]:
!pip install apache-beam

Collecting apache-beam
  Downloading apache_beam-2.62.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.2 kB)
Collecting crcmod<2.0,>=1.7 (from apache-beam)
  Downloading crcmod-1.7.tar.gz (89 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.7/89.7 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dill<0.3.2,>=0.3.1.1 (from apache-beam)
  Downloading dill-0.3.1.1.tar.gz (151 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m152.0/152.0 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting cloudpickle~=2.2.1 (from apache-beam)
  Downloading cloudpickle-2.2.1-py3-none-any.whl.metadata (6.9 kB)
Collecting fastavro<2,>=0.23.6 (from apache-beam)
  Downloading fastavro-1.10.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.5 kB)
Collecting fasteners<1.0,>=0.3 (from apache-beam)
  D

# Beam: typehints

In [None]:
# importowanie modułu apache_beam
import apache_beam as beam

# Tworzenie potoku Beam
p = beam.Pipeline()

# Definicja klasy FilterEvensDoFn dziedziczącej po beam.DoFn, która przetwarza elementy
# @beam.typehints.with_input_types(int) - Dekorator wskazujący, że wejściowe elementy tej klasy mają być typu int
@beam.typehints.with_input_types(int)
class FilterEvensDoFn(beam.DoFn):
    # Metoda process, która jest wywoływana dla każdego elementu w strumieniu danych
    def process(self, element):
        # Sprawdzanie, czy element jest liczbą parzystą
        if element % 2 == 0:
            # Jeśli jest parzysty, element jest przekazywany do strumienia wynikowego
            yield element

# Tworzenie potoku danych:
evens = ( p
         # beam.Create - tworzy PCollection z listy ['1', '2', '3'], ale elementy są typu string
         | beam.Create(['1', '2', '3'])
         # beam.ParDo - stosuje transformację FilterEvensDoFn, która filtruje tylko liczby parzyste
         | beam.ParDo(FilterEvensDoFn())
        )

# Uruchomienie potoku Beam, aby przetworzyć dane
p.run()

In [None]:
import apache_beam as beam  # Importujemy Apache Beam, który służy do przetwarzania danych w potokach

# Tworzymy obiekt potoku Beam, który będzie przechodził przez różne transformacje
p = beam.Pipeline()

# Definiujemy transformację na danych wejściowych
evens = (
    p
    | beam.Create(['one', 'two', 'three'])  # Tworzymy PCollection z trzema wartościami typu string
    | beam.Filter(lambda x: x % 2 == 0).with_input_types(int)  # Próbujemy odfiltrować liczby parzyste, ale mamy błąd!
)

# Uruchamiamy potok, aby wykonać transformacje
p.run()

#Beam: type_hints_with_custom_data_type

In [None]:
import apache_beam as beam  # Importujemy Apache Beam do przetwarzania danych
import typing  # Importujemy moduł typing do określania typów danych

# Definiujemy klasę Employee, która będzie naszym niestandardowym typem danych
class Employee(object):
    def __init__(self, id, name):
        self.id = id  # Identyfikator pracownika
        self.name = name  # Imię pracownika

# Tworzymy własnego Codera do serializacji i deserializacji obiektów Employee
class EmployeeCoder(beam.coders.Coder):

    def encode(self, employee):
        """Serializuje obiekt Employee do postaci bajtów"""
        return ('%s:%s' % (employee.id, employee.name)).encode('utf-8')

    def decode(self, s):
        """Deserializuje bajty do obiektu Employee"""
        return Employee(*s.decode('utf-8').split(':'))

    def is_deterministic(self):
        """Zwraca True, co oznacza, że kodowanie jest deterministyczne (powtarzalne)"""
        return True

# Rejestrujemy naszego Codera dla klasy Employee, aby Beam wiedział, jak ją serializować
beam.coders.registry.register_coder(Employee, EmployeeCoder)

# Funkcja do przekształcenia danych wejściowych (wiersza z pliku) w obiekt Employee oraz pensję
def split_file(input):
    name, id, salary = input.split(',')  # Rozdzielamy wiersz na imię, ID i pensję
    return Employee(id, name), int(salary)  # Zwracamy parę (Employee, pensja)

# Tworzymy potok Beam
p = beam.Pipeline()

# Definiujemy przetwarzanie w potoku
result = (
    p
    | beam.io.ReadFromText('data.txt')  # Odczytujemy dane z pliku tekstowego
    | beam.Map(split_file)  # Parsujemy każdą linię na obiekt Employee i pensję
    | beam.CombinePerKey(sum).with_input_types(typing.Tuple[Employee, int])
    # Grupujemy dane według klucza (Employee) i sumujemy wartości (pensje)
)

# Uruchamiamy potok
p.run()