# Spark SQL et Dataframes :

## Les commandes suivantes crée une table à partir d'un ensemble de données Databricks

In [0]:
%sql
DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds
USING csv
OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header "true")

## Afficher la totalité de la table créer :

In [0]:
%sql
SELECT * from diamonds
LIMIT 10  

_c0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61,326,3.89,3.84,2.31
3,0.23,Good,E,VS1,56.9,65,327,4.05,4.07,2.31
4,0.29,Premium,I,VS2,62.4,58,334,4.2,4.23,2.63
5,0.31,Good,J,SI2,63.3,58,335,4.34,4.35,2.75
6,0.24,Very Good,J,VVS2,62.8,57,336,3.94,3.96,2.48
7,0.24,Very Good,I,VVS1,62.3,57,336,3.95,3.98,2.47
8,0.26,Very Good,H,SI1,61.9,55,337,4.07,4.11,2.53
9,0.22,Fair,E,VS2,65.1,61,337,3.87,3.78,2.49
10,0.23,Very Good,H,VS1,59.4,61,338,4.0,4.05,2.39


In [0]:
%sql
SELECT * FROM diamonds WHERE clarity LIKE 'V%' AND price <2000
LIMIT 10

_c0,carat,cut,color,clarity,depth,table,price,x,y,z
3,0.23,Good,E,VS1,56.9,65,327,4.05,4.07,2.31
4,0.29,Premium,I,VS2,62.4,58,334,4.2,4.23,2.63
6,0.24,Very Good,J,VVS2,62.8,57,336,3.94,3.96,2.48
7,0.24,Very Good,I,VVS1,62.3,57,336,3.95,3.98,2.47
9,0.22,Fair,E,VS2,65.1,61,337,3.87,3.78,2.49
10,0.23,Very Good,H,VS1,59.4,61,338,4.0,4.05,2.39
12,0.23,Ideal,J,VS1,62.8,56,340,3.93,3.9,2.46
22,0.23,Very Good,E,VS2,63.8,55,352,3.85,3.92,2.48
23,0.23,Very Good,H,VS1,61.0,57,353,3.94,3.96,2.41
26,0.23,Very Good,G,VVS2,60.4,58,354,3.97,4.01,2.41


In [0]:
%sql
SELECT carat, clarity, price FROM diamonds ORDER BY price DESC

carat,clarity,price
1.26,VS2,9999
1.23,VVS2,9999
2.0,SI2,9999
1.54,VS2,9998
1.06,VVS2,9997
1.25,VS1,9996
1.7,VS2,9996
1.5,SI1,9996
1.7,SI2,9996
1.5,SI2,9996


## La requête suivante manipule les données et affiche les résultats :

Plus précisément, la requête:
1. Sélectionne les colonnes "color" et "price" et la moyenne du prix et regroupe les résultats par couleur et avec l'ordre alphabetique.
1. Affiche un tableau des résultats.

In [0]:
%sql
SELECT color, avg(price) AS price FROM diamonds GROUP BY color ORDER BY color

color,price
D,3169.95409594096
E,3076.7524752475247
F,3724.886396981765
G,3999.135671271697
H,4486.669195568401
I,5091.874953891553
J,5323.81801994302


## On répéte les mêmes opérations à l'aide de l'API DataFrame de Python.
Ceci est un notebook SQL, par défaut, les instructions de commande sont transmises à un interpréteur SQL. Pour passer des instructions de commande à un interpréteur Python, on utilise la commande "% python".

## La commande suivante créer un DataFrame à partir d'un ensemble de données Databricks :

In [0]:
%python
diamonds = spark.read.csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header="true", inferSchema="true")

## Afficher les 5 premiers lignes de notre Dataframe :

In [0]:
%python
display(diamonds.head(5))

_c0,carat,cut,color,clarity,depth,table,price,x,y,z
1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


## La table des "color", moyennes "price" qu'on a déjà fait avec SQL :

In [0]:
%python
from pyspark.sql.functions import avg

display(diamonds.select("color","price").groupBy("color").agg(avg("price")).sort("color"))

color,avg(price)
D,3169.95409594096
E,3076.7524752475247
F,3724.886396981765
G,3999.135671271697
H,4486.669195568401
I,5091.874953891553
J,5323.81801994302
