<a href="https://colab.research.google.com/github/GrigoreGeorgeAlexandru/Colab-projects/blob/main/Laborator4_Dataframe_SQL_query_stud.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Executarea cererilor SQL cu ajutorul Dataframe

### Date relaționale cu posibilitatea realizării de analize flexibile si puternice
Store-urile de date relaționale sunt usor de construit și interogat. Utilizatorii și dezvoltatorii preferă scrierea de cereri declarative, ușor de interpretat, într-un limbaj asemanator celui natural, precum SQL.
Pe de altă parte, pe masură ce datele cresc în volum și varietate, abordarea relațională nu scalează suficient de bine pentru a permite construirea de aplicații Big Data și sisteme analitice. Câteva dintre provocările majore sunt următoarele:

* Tratarea datelor de diferite tipuri, din diferite surse, date ce pot fi structurate, semi-structurate sau nestructurate
* Construirea pipeline-urilor ETL către și de la diferite surse de date, ce poate conduce la dezvoltare de mult cod specific (custom), mărind necesitatea intervențiilor tehnice
* Permiterea efectuării atât de analize tradiționale, bazate pe BI (business intelligence), cât și de analize avansate (machine learning, modelare statistică etc.) - ultima dintre acestea este, cu siguranță, o provocare în sistemele relaționale  

În acest domeniu al analizei Big Data, Hadoop și paradigma MapReduce au avut un succes incontestabil. Tehnologia respectivă a fost puternică, însă adeseori lentă, și le-a oferit utilizatorilor o interfață de programare procedurală ce necesită, de obicei, scriere de mult cod chiar și pentru cele mai simple transformări de date.
Odată cu lansarea Spark, a fost revoluționat modul în care erau realizate analizele de tip Big Data, accentul fiind pus pe calculul in-memory, rezistența la defecte, abstractizări la nivel înalt și ușurința utilizării.

În timp, mai multe framework-uri și sisteme precum Hive, Pig și Shark (ce a evoluat în Spark SQL) au furnizat interfețe relaționale bogate și mecanisme de interogare declarativă pentru store-urile Big Data. Provocarea care a existat a fost legată de faptul că aceste tool-uri erau fie relaționale, fie procedurale, și nu se puteau obține avantajele majore ale celor două lumi.

![spark-1](https://opensource.com/sites/default/files/uploads/2_hadoop-vs-spark.png)

În lumea reală, majoritatea datelor și a pipeline-urilor analitice pot implica o combinație de cod relațional și procedural. Impunerea către utilizatori să își aleagă un singur tip de cod complică lucrurile și mărește efortul utilizatorului în dezvoltarea, construirea și menținerea diferitelor aplicații și sisteme. Apache Spark SQL a fost construit peste SQL-on-Spark (denumit Shark). În loc de a forța utilizatorii să aleagă între o API relațională și una procedurală, Spark SQL permite utilizatorilor să combine cele două tipuri de API și să efectueze interogări de date, regăsiri de informație și analize care scalează la nivel de Big Data.

### Spark SQL
Spark SQL oferă o punte de legătură între cele două modele (relațional și procedural).
Spark SQL furnizează API-ul DataFrame ce poate efectua operații relaționale atât pe date din surse externe cât și pe colecțiile distribuite, predefinite în Spark.

Pentru a suporta o mare varietate de surse de date și algoritmi Big Data, Spark SQL a introdus optimizorul extensibil Catalyst, ce facilitează adăugarea surselor de date, a regulilor de optimizare și a tipurilor de date pentru analizele avansate, precum cele de machine learning.

În mod esențial, Spark SQL încapsulează puterea lui Spark de a efectua calcule in-memory distribuite și robuste, la scală masivă.

Spark SQL furnizează performanța SQL existentă și menține compatibilitatea cu toate structurile existente și componentele suportate de Apache Hive (un framework de warehouse popular în domeniul Big Data) ce include formate de date, funcții definite de utilizator (UDFs) și metastore. Pe lângă acestea, ajută la ingestia unui spectru larg de formate de date din surse Big Data și data warehouse-uri enterprise, formate precum JSON, Hive, Parquet etc., precum și la efectuarea unei combinații de operații relaționale și procedurale pentru analize mai complexe, avansate.

![Spark-2](https://cdn-images-1.medium.com/max/2000/1*OY41hGbe4IB9-hHLRPuCHQ.png)

### Spark SQL cu Dataframe API este rapid
Spark SQL este foarte rapid, chiar și în comparație cu motoarele bazate pe C++ (precum Impala).

![spark_speed](https://opensource.com/sites/default/files/uploads/9_spark-dataframes-vs-rdds-and-sql.png)

Următorul grafic prezintă rezultatele unor teste asupra DataFrames vs. RDDs în diferite limbaje, rezultate ce dau o perspectivă interesantă asupra a cât de optimizate sunt DataFrame-urile.

![spark-speed-2](https://opensource.com/sites/default/files/uploads/10_comparing-spark-dataframes-and-rdds.png)

De ce este Spark SQL atât de rapid și optimizat? Motivul: optimizorul extensibil, **Catalyst**, bazat pe construcții de programare funcțională în Scala.

Design-ul extensibil al lui Catalyst are 2 scopuri:

* Facilitează adăugarea de noi tehnici și functionalități de optimizare în Spark SQL, în special pentru a trata diferite probleme referitoare la Big Data, date semi-structurate și analize avansate.
* Ușurința de a extinde optimizorul - de exemplu, adăugând reguli specifice surselor de date ce pot "împinge" filtrările sau agregările în sisteme de stocare externe sau pot oferi suport pentru noi tipuri de date

Catalyst suportă atât optimizarea bazată pe reguli, cât și pe cea bazată pe cost. Anterior lui, în trecut au mai fost propuși optimizori extensibili, însă aceia necesitau un domain-specific language complex pentru a specifica regulile. De obicei, aceasta însemna un timp semnificativ de învățare și, ulterior, de mentenanță. Spre deosebire de acei optimizori, Catalyst folosește caracteristicile standard ale limbajului Scala, precum pattern-matching, permițând dezvoltatorilor să utilizeze un limbaj cunoscut pentru a specifica regulile cu usurință.


![catalyst-2](https://cdn-images-1.medium.com/max/1500/1*81ZOMxCci-tM2b-HNUX6Ww.png)

### Referinte utile pentru acest Notebook
* [PySpark in Jupyter Notebook — Working with Dataframe & JDBC Data Sources](https://medium.com/@thucnc/pyspark-in-jupyter-notebook-working-with-dataframe-jdbc-data-sources-6f3d39300bf6)
* [PySpark - Working with JDBC Sqlite database](http://mitzen.blogspot.com/2017/06/pyspark-working-with-jdbc-sqlite.html)

### Crearea unui obiect SparkSession și citirea setului de date CSV referitor la prețurile acțiunilor

In [None]:
from pyspark import SparkContext as sc
from pyspark.sql import SparkSession

In [None]:
spark1 = SparkSession.builder.appName('SQL').getOrCreate()

In [None]:
df = spark1.read.csv('../../Data/appl_stock.csv',inferSchema=True,header=True)

In [None]:
df.printSchema()

### Creați o vizualizare temporară corespunzătoare acestui DataFrame, denumită `stock`

### Executați o cerere SQL direct pe acest view. Ce returnează (ca tip de date)?

In [None]:
result = spark1.sql("SELECT * FROM stock LIMIT 5")
result

In [None]:
#Afișați coloanele rezultatului


In [None]:
#Afișați rezultatul


### Executați cereri mai complexe
Câte valori ale câmpului `Close` sunt > 500?

In [None]:
#count_greater_500 =

Care este media valorilor `Open` a înregistrărilor pentru care `Volume` este > 120 milioane sau < 110 milioane?

In [None]:
#avg_1 =

### Citiți un fișier (și creați un DataFrame) executând direct o metodă `spark.sql` pe fișier
Observați sintaxa `csv.<path->filename.csv>` din SQL query

In [None]:
df_sales = spark1.sql("SELECT * FROM csv.`../../Data/sales_info.csv`")

In [None]:
df_sales.show()

### Citiți tabelele dintr-o bază de date SQLLite locală folosind o conexiune `JDBC`
Folosim baza de date chinook din tutorialul SQLite. [Fișierul se poate obține de aici](http://www.sqlitetutorial.net/sqlite-sample-database/). Dezarhivați fisierul în folder-ul Data

#### Executați comanda `cd` pentru a ajunge la folderul unde se află fișierele jar ale lui PySpark. Apoi descărcați jar-ul SQLLite de la [given URL](https://mvnrepository.com/artifact/org.xerial/sqlite-jdbc) SAU (în Windows) descărcați și copiați fișierul jar direct în folder-ul respectiv (în Anaconda: <user_home>\anaconda3\Lib\site-packages\pyspark\jars)

In [None]:
!cd <cale_catre_jars>
!curl https://repo1.maven.org/maven2/org/xerial/sqlite-jdbc/3.28.0/sqlite-jdbc-3.28.0.jar

#### Definiți valorile pentru driver, calea către fișierul local .db și adăugați acea cale la string-ul `jdbc:sqlite` pentru a forma `url`-ul

In [None]:
driver = "org.sqlite.JDBC"
path = "../../Data/chinook.db"
url = "jdbc:sqlite:" + path

#### Definiți numele tabelului ce va fi citit (`tablename` )

In [None]:
tablename = "albums"

In [None]:
df_albums = spark1.read.format("jdbc").option("url", url).option("dbtable", tablename).option("driver", driver).load()

In [None]:
df_albums.show()

In [None]:
#Afișați schema datelor
df_albums.printSchema()

#### Creați o vizualizare temporară, denumită `albums`

In [None]:
df_albums.createTempView('albums')

#### Citiți tabelul `artists`

In [None]:
#df_artists =

In [None]:
#Afișați df_artists

In [None]:
# Creați o vizualizare temporară, denumită `artists`


#### Testați o cerere SQL

In [None]:
spark1.sql("SELECT * FROM artists WHERE length(Name)<10 LIMIT 10").show()

### Efectuați operația de join a vizualizărilor `albums` și `artists` ce va avea ca rezultat un singur DataFrame, cu ajutorul unei cereri SQL. Rezultatul va include și artiștii care nu au albume asociate și va fi ordonat după coloana `ArtistId`.

In [None]:
#df_combined =

In [None]:
df_combined.show()

### Care este diferența dintre o vizualizare SQL temporară și una globală?

#### O vizualizare temporară nu persistă (nefiind disponibilă în cadrul mai multor sesiuni)

In [None]:
df_artists.createOrReplaceTempView("temp_artists")

df_temp = spark1.sql("SELECT * FROM temp_artists LIMIT 10")
df_temp.show()

#### Se creează o nouă sesiune, dar vizualizarea temporară `temp_artists` nu poate fi accesată

In [None]:
spark2 = spark1.newSession()

In [None]:
df_temp = spark2.sql("SELECT * FROM temp_artists LIMIT 10")


#### Se creează o vizualizare globală în această sesiune
Vizualizarea globală temporară este legată de o bază de date menținută de sistem `global_temp`. Deci, vizualizarea va fi referită ca atare.

In [None]:
tablename = "artists"
df_artists = spark2.read.format("jdbc").option("url", url).option("dbtable", tablename).option("driver", driver).load()

In [None]:
df_artists.createOrReplaceGlobalTempView("global_artists")

df_global = spark2.sql("SELECT * FROM global_temp.global_artists LIMIT 10")
df_global.show()

#### Porniți o nouă sesiune. Vizualizarea `global_artists` va putea fi accesată în aceasta.

In [None]:
spark3 = spark1.newSession()

In [None]:
df_global = spark3.sql("SELECT * FROM global_temp.global_artists LIMIT 10")
df_global.show()