## Apache Spark wprowadzenie
<br/>
* Co to jest Databricks?
* Czym jest Apache Spark?
* Co to jest RDD
* Transformacje i Akcje

##Co to jest Databricks?
<br/>
* Jest to łatwa w konfiguracji platforma analityczna, zapewniająca interaktywną przestrzeń roboczą ze wsparciem dla wielu platform danych i aplikacji.
* W całości oparta na projekcie 'Open Source' Apache Spark.
* Zoptymalizowana pod kątem platformy usług w chmurze Microsoft Azure oraz AWS.
* Azure Databricks łączy się z wieloma usługami w Azure:
  - Power BI
  - Azure IoT Hub
  - Azure Event Hubs
  - Klastrami Azure HDInsight Kafka
  - Azure Blob Storage
  - Azure Data Lake Store
  - Azure Synapse
  - Azure Cosmos DB.
* Jeśli chcesz wiedzieć więcej szczegółów zapraszam na stronę <a href="https://docs.microsoft.com/pl-pl/azure/databricks/">  Databricks</a> 
* Platforma analityczna Databricks składa się z następujących elementów:
* **Databricks Środowisko wykonawcze** obejmuje Apache Spark, ale dodaje również szereg składników i aktualizacji, które znacznie poprawiają użyteczność, wydajność i bezpieczeństwo analizy dużych zbiorów danych:

    - **Databricks Delta**, to ujednolicony system zarządzania danymi, który zapewnia niezawodność i wydajność. Zapewnia transakcje ACID, zoptymalizowane układy i indeksy oraz ulepszenia silnika wykonawczego do tworzenia potoków danych.
    Możesz czytać i zapisywać dane przechowywane w Databricks Delta przy użyciu tych samych znanych interfejsów API wsadowych i strumieniowych SQL Apache Spark, których używasz do pracy z tabelami Hive lub katalogami DBFS
    - Zainstalowane **biblioteki** Java, Scala, Python i R.
    - Ubuntu i towarzyszące mu biblioteki systemowe
    - **Biblioteki GPU** dla klastrów obsługujących procesory graficzne
    - Usługi Databricks, które integrują się z innymi komponentami platformy, takimi jak notebooki, zadania i menedżer klastra
  
* **Przestrzeń robocza**
  - Obszar roboczy Databricks to środowisko umożliwiające dostęp do wszystkich zasobów Databricks. Przestrzeń robocza organizuje obiekty (notatniki, biblioteki i eksperymenty) w folderach i zapewnia dostęp do danych oraz zasobów obliczeniowych, takich jak klastry i zadania.
  

  * Databricks Klastry - Najważniejszy element, czyli zasoby służące do uruchamiania aplikacji. klastry zapewniają moc obliczeniową. Możesz wybrać ile pamięci, CPU i ile wykonawców potrzebujesz. 
  * Databricks Notebooki - Interaktywne notebooki obsługiwane z poziomu przeglądarki. Możliwość uruchamiania kodu, wizualizacji oraz tworzenia notatek.
  * Databricks Jobs - możliwość stworzenie harmonogramu, który automatycznie uruchamia aplikację np jar. 
  * Databricks <a href:"https://kb.databricks.com/?_ga=2.170917152.1296934561.1599721015-80976339.1584632418"> Baza Wiedzy</a>  mnóstwo ważnych informacji i przykładów jak używać Databricks.


##Czym jest Apache Spark?

Spark jest silnikiem do równoległego i rozproszonego przetwarzania dużych ilości danych. Jest to narzędzie typu 'Open Srouce'. Składa się on z wielu komponentów. 
* Elementy Sparka to:
  - Spark SQL
  - DataFrame
  - Przesyłanie strumieniowe
  - Bibliotekę MLib
  - Wykresy i obliczenia GraphFrames, GraphX
  - Interfejs API Spark Core 
  - Obsługuje języki R, SQL, Python, Scala i Java.
  
*  Interfejsy API pozwalające na wykonywanie transformacji na danych. Sa one dostępne w kilku językach.
* Ramki danych (DataFrames) tworzą główną warstwę abstrakcji rozproszonych zbiorów danych. Dzięki nim praca z danymi jest dużo prostsza, wszystkie kolumny mają nazwę.
* Spark RDD (Resilient Distributed Dataset). Jest on partycjonowany i rozproszony zbiór obiektów danych w całym klastrze.
* Spark ML czyli biblioteki stworzone do nauczania maszynowego.
* Analiza Wykresów wspiera GraphFrames and GraphX - Jest to pakiet dla Sparka dający możliwość równoległego przetwarzania wykresów danych. Ta rozszerzona funkcjonalność obejmuje wyszukiwanie motywów, serializację opartą na DataFrame i wysoce ekspresyjne zapytania wykresowe.
* The Streaming APIs czyli przetwarzanie strumieniowe. Spark Streaming to rozszerzenie podstawowego interfejsu Spark API, które umożliwia skalowalne, wysokoprzepustowe i odporne na błędy przetwarzanie strumieni danych na żywo.


## Zbiory danych

Spark oferuje różne formy abstrakcji danych.

-   ****The RDD (Resilient Distributed Dataset)****
   - RDD czyli (Resilient Distributed Dataset) jest to podstawowy element struktury danych w Sparku. Jest to niezmienny, rozproszony zbiór obiektów.  Istnieją dwa sposoby tworzenia RDDs: 
  - Zrównoleglenie istniejącej kolekcji w sterowniku 
  - Odwołanie się do zestawu danych w zewnętrznym systemie dysków
  - Jest to struktura odporna na awarie, dzięki pomocy RDD lineage graph.  W momencie wykrycia awarii popsute partycje mogą być odtworzone.
  - Dane są rozproszone w wielu węzłach w całym klastrze.

-   ****The DataFrame****
    - Są podobne do dataframe’ow z R i pandas Python
    
-   ****The Dataset****
    - Silnie typowany data frame
    - Dataset jest to partycjonowana kolekcja prymitywnych wartości.

    
| Language | Main Abstraction                                |
|----------|-------------------------------------------------|
| Scala    | Dataset[T] & DataFrame (alias for Dataset[Row]) |
| Java     | Dataset[T]                                      |
| Python*  | DataFrame                                       |
| R*       | DataFrame                                       |

Ponieważ Python i R są językami dynamicznie typowanymi, dostępne są tylko RDD i DataFrame'y.



### Transformacje

Transformacje to operacje, które nie zostaną wykonane w momencie ich napisania/uruchomienia - zostaną uruchomione dopiero gdy wywołasz **akcję**. Przykładową transformację może by zamiana typu danych int na float albo przefiltrowanie zbioru danych. Lista przykładowych transformacji w tabeli poniżej.

|**Transformation**|**Meaning**|
|--|--|
|**map**(func)|Zwraca rozproszony zestaw danych utworzony przez przekazanie każdego elementu danych do funkcji.|
|**filter**(func)|Zwraca nowy zestaw danych utworzony przez wybranie tych elementów, dla których funkcja zwrócila wartość true.|
|**flatMap**(func)| Podobny do funkcji (map), z wyjątkiem tego, że każdy element wejściowy można mapować na jeden lub więcej elementów wyjściowych. Więc funkcja może zwrócić sekwencje.|;
|**reduceByKey**(func, [numPartitions])| Jeśli uruchamiasz funkcję na zestawie danych w formacie (K:klucz, V: Wartość) i funkcja zwraca zestaw danych w formacie (K:klucz, V: Wartość). Kiedy wartość każdego klucza jest agregowana przy użyciu funkcji redukującej, która musi byc typem (V,V) => V. Można ustawić liczbę zadań redukujących przy użyciu drugiego parametru. |
|**aggregateByKey**(zeroValue)(seqOp, combOp, [numPartitions])| Jeśli uruchamiasz funkcję na zestawie danych w formacie (K:klucz, V: Wartość) i funkcja zwraca zestaw danych w formacie (K, U), gdzie wartości są agregowane przy użyciu łączonych funkcji i neutralnej wartości "zero". Pozwala to na agregowanie typów, które są inne niż typy wejściowe. Tak jak w przypadku 'groupByKey', Można ustawić liczbę zadań redukujących przy użyciu drugiego parametru.|
|**sortByKey**([ascending], [numPartitions])| Jeśli uruchamiasz funkcję na zestawie danych w formacie (K:Klucz, V: Wartość), gdzie K implementuje sortowanie i zwraca posortowany zestaw danych rosnoąco lub malejąco.|
|**coalesce**(numPartitions)|Zmniejsza ilość partycji w RDD do zdefiniowanej liczby. Użyteczne, kiedy używasz filtra na dużym zestawie danych, pozwala uniknąc pustych partycji. dataset.|
|**repartition**(numPartitions)| Może być użyta do zmiany ilośći partycji RDD.  Trzeba pamiętać, że funkcja ta wykonuje operacje 'shuffle' czyli prześle dane przez sieć, co jest kosztowną operacją.|



### Akcje

Akcje to komendy, których wynik jest obliczany w chwili ich uruchomienia. Takie uruchomienie obejmuje też wykonanie wszystkich transformacji, które poprzedzały akcję. Akcja składa się z jednego lub więcej zadań, które zostaną wykonane równolegle przez wiele wykonawców.

|Action|Meaning|
|--|--|
|**reduce**(func)| Agreguje elementy zestawu danych używając fukcji, która pobiera dwa parametry i zwraca jeden. |
|**collect**()| Zwraca wszystkie elementy zestawu danych jako tablicę. Wszystkie dane są zbierane na sterowniku. Przy dużej ilości danych może to być problemem i spowodować niestabilność sterownika.|
|**count**()| Zwraca liczbę elementów zjadujących się w zestawie danych.|
|**first**()| Zwraca pierszy wiersz zestawu danych.|
|**take**(n)| Zwraca tablicę z n ilością elementów w zestawie danych. |
|**takeSample**(withReplacement, num, [seed])| Zwraca tablicę z losową liczbą elementów z zestawu danych. Można użyc zamiennika i generatorem liczb losowych. |
|**foreach**(func)| Uruchamia funkcję na każdym elemencie zestawu danych.|


## Adaptacyjne wykonywanie zapytań (Adaptive Query Execution) 

Wykonuje Optymalizację zapytań Podczas wykonywania zapytań. 

Dostosowywanie planów zapytań na podstawie statystyk 'runtime' zbieranych w procesie wykonywania zapytań

Dostępne w wersji Spark 3.0 i Databricks Runtime 7.0, zalety
* Dynamicznie zmienia łączenie sortowania przez łączenie z rozgłaszaniem (sort merge join into broadcast hash join).
* Dynamicznie łączy partycje (łączy małe partycje w partycje o rozsądnym rozmiarze) po wymianie losowej (shuffle). Bardzo małe zadania mają gorszą przepustowość IO i są bardziej narażone na obciążenie związane z harmonogramowaniem i konfiguracją zadań.
* Dynamicznie obsługuje pochylenie w łączeniu sortowania (sort merge join), scalaniu i mieszaniu łączeń (hash join), dzieląc (i replikując w razie potrzeby) dzieli na zadania o mniej więcej równych rozmiarach.
* Dynamicznie wykrywa i propaguje puste relacje.
