version du 30/09/2021

# BDLE TP2 : Requêtes multidimensionnelles
### Group By Cube et Group by Rollup 
### Fenêtres: Over et Partition by

## Introduction

On ajuste l'environnement d'exécution des requêtes à la taille du cluster (8 coeurs) qu'on utilise.

In [0]:
# on utilise 8 partitions au lieu de 200 par défaut
spark.conf.set("spark.sql.shuffle.partitions", "8")

## Les données

On propose 2 possibilités pour disposer des données du TP:
  * Lire un fichier préalablement stocké dans le système de fichier
  * Générer un exemple de données

### La table Visite

In [0]:
import pyspark.sql.functions as fct

visite_attrs = ["photoID",	"personID",	"date",	"lon",	"lat", "note"]
visite_tuples = [("p1",	"Bob",	"03/09/2020",	41.5,	12.8, 3),
                 ("p2",	"Alice", "01/09/2020",	41.6,	12.8, 5),
                 ("p3",	"Bob",	"04/09/2020",	41.6,	13.2, 1),
                 ("p4",	"Bob",	"04/09/2020",	40.1,	12.0, 2),
                 ("p5",	"Alice", "04/09/2020",	40.1,	12.0, 2),
                 ("p6",	"Alice", "05/09/2020",	41.6,	12.7, 4),
                 ("p7",	"Alice", "05/10/2020",	41.8, 12.8, 4),
                 ("p8",	"Carole", "25/12/2019",	30.1, 10.1, 2),
                 ("p9",	"David", "25/12/2019",	30.1, 10.1, 1),
                 ("p10","Eva", "25/12/2019",	30.1, 10.1, 5),
                 ("p11","Eva", "26/12/2019",	31.1, 10.1, 3),
                 ("p12","Alice", "01/02/2020",	32.1, 12.1, 3),
                 ("p13","Bob", "01/02/2020",	32.1, 12.1, 5),
                 ("p14","Carole", "01/02/2020",	32.1, 12.1, 2),
                 ("p15",	"Carole", "11/11/2019",	49.1, 10.1, 1),
                 ("p16",	"Alice", "25/12/2019",	30.1, 10.1, 4),
                 ("p17",	"Alice", "02/02/2020",	49.1, 10.1, 5),
                ]
visite = spark.createDataFrame(visite_tuples, visite_attrs)

# convertir l'attribut date pour qu'il soit de type Date 
# visite = visite.selectExpr("photoID", "personID", "lon", "lat", "to_date(date, 'dd/MM/yyyy') as date")
visite = visite.withColumn("date", fct.to_date("date", "dd/MM/yyyy"))

visite.persist().count()
visite.createOrReplaceTempView("Visite")

# Deux affichages possibles : display ou show

# display affiche toutes les lignes dans un tableau de 7 lignes de hauteur. Pour voir toutes les lignes, agrandir la zone du tableau ou sélectionner une cellule et scroller
display(visite)

# invoquer show(n) pour afficher n lignes :
# visite.show(100)

photoID,personID,date,lon,lat,note
p1,Bob,2020-09-03,41.5,12.8,3
p2,Alice,2020-09-01,41.6,12.8,5
p3,Bob,2020-09-04,41.6,13.2,1
p4,Bob,2020-09-04,40.1,12.0,2
p5,Alice,2020-09-04,40.1,12.0,2
p6,Alice,2020-09-05,41.6,12.7,4
p7,Alice,2020-10-05,41.8,12.8,4
p8,Carole,2019-12-25,30.1,10.1,2
p9,David,2019-12-25,30.1,10.1,1
p10,Eva,2019-12-25,30.1,10.1,5


Une requête directement exprimée en SQL :

In [0]:
%sql
select *
from Visite 
where personID='Bob'

photoID,personID,date,lon,lat,note
p1,Bob,2020-09-03,41.5,12.8,3
p3,Bob,2020-09-04,41.6,13.2,1
p4,Bob,2020-09-04,40.1,12.0,2
p13,Bob,2020-02-01,32.1,12.1,5


### La vue DateDimension

On définit une requête pour extraire le jour, le mois et l'année de chaque date distincte. On nomme cette requête.
Une requête nommée est une vue temporaire.

In [0]:
%sql
create or replace temporary view DateDimension as
select distinct date, day(date) as jour, month(date) as mois, year(date) as annee
from Visite;

select *
from DateDimension
order by annee, mois, jour;

date,jour,mois,annee
2019-11-11,11,11,2019
2019-12-25,25,12,2019
2019-12-26,26,12,2019
2020-02-01,1,2,2020
2020-02-02,2,2,2020
2020-09-01,1,9,2020
2020-09-03,3,9,2020
2020-09-04,4,9,2020
2020-09-05,5,9,2020
2020-10-05,5,10,2020


### La table Place

In [0]:
place_attr = ["lon","lat", "ville", "pays"]

place_tuples = [(41.5, 12.8, "Aix", "France"),
                (41.6, 12.8, "Aix", "France"),
                (41.6, 12.7, "Nice", "France"),
                (41.8, 12.8, "Marseille", "France"),
                (41.6, 13.2, "Rome", "Italie"),
                (40.1, 12.0, "Oslo", "Norvege"),
                (30.1, 10.1, "Paris", "France"),                
                (31.1, 10.1, "StDenis", "France"),                
                (32.1, 12.1, "Lille", "France"),   
                (49.1, 10.1, "Pau", "France") ]

place = spark.createDataFrame(place_tuples, place_attr )
place.persist().count()
place.createOrReplaceTempView("Place")
display(place)

lon,lat,ville,pays
41.5,12.8,Aix,France
41.6,12.8,Aix,France
41.6,12.7,Nice,France
41.8,12.8,Marseille,France
41.6,13.2,Rome,Italie
40.1,12.0,Oslo,Norvege
30.1,10.1,Paris,France
31.1,10.1,StDenis,France
32.1,12.1,Lille,France
49.1,10.1,Pau,France


### La table Profession

In [0]:
profession_attr = ["personID","profession"]

profession_tuples = [("Alice", "Architecte"),
                     ("Bob", "Data science"),
                     ("Carole", "Data science"),
                     ("David", "Architecte"),
                     ("Eva", "Vendeuse"),
                     ("Franck", "Vendeur"),
                     ("Greta", "Economiste")
                    ]

profession = spark.createDataFrame(profession_tuples, profession_attr )
profession.persist().count()
profession.createOrReplaceTempView("Profession")
display(profession)

personID,profession
Alice,Architecte
Bob,Data science
Carole,Data science
David,Architecte
Eva,Vendeuse
Franck,Vendeur
Greta,Economiste


## Les requêtes d'analyse

### Les Faits détaillés avec leurs dimensions

La table Visite est la table de faits. Les dimensions des visites sont: 
* une dimension géographique : position gps (lon,lat), ville, pays
* une dimension temporelle sur la date :  jour, mois, année
* une dimension sur la profession : personID, profession

Une jointure associe les Visites avec leurs dimensions.

In [0]:
%sql 
create or replace temp view VisitesDetail as
Select v.photoID, p.personID, p.profession, v.date, d.mois, d.annee, v.lon, v.lat, ville, pays,  v.note
From Visite v, Place p, DateDimension d, Profession p
Where v.lon = p.lon and v.lat = p.lat 
And v.date = d.date
And v.personId = p.personId;


select * 
from VisitesDetail
order by pays, ville

photoID,personID,profession,date,mois,annee,lon,lat,ville,pays,note
p1,Bob,Data science,2020-09-03,9,2020,41.5,12.8,Aix,France,3
p2,Alice,Architecte,2020-09-01,9,2020,41.6,12.8,Aix,France,5
p12,Alice,Architecte,2020-02-01,2,2020,32.1,12.1,Lille,France,3
p13,Bob,Data science,2020-02-01,2,2020,32.1,12.1,Lille,France,5
p14,Carole,Data science,2020-02-01,2,2020,32.1,12.1,Lille,France,2
p7,Alice,Architecte,2020-10-05,10,2020,41.8,12.8,Marseille,France,4
p6,Alice,Architecte,2020-09-05,9,2020,41.6,12.7,Nice,France,4
p9,David,Architecte,2019-12-25,12,2019,30.1,10.1,Paris,France,1
p10,Eva,Vendeuse,2019-12-25,12,2019,30.1,10.1,Paris,France,5
p8,Carole,Data science,2019-12-25,12,2019,30.1,10.1,Paris,France,2


### L'opération GROUP BY ROLLUP

#### Rollup sur la dimension temporelle
Rassembler les agrégations à tous les niveaux de la dimension sur la date: par jour, par mois et par année et global (ie, qqsoit la date)

In [0]:
%sql
select annee, mois, jour, count(*) as nb_visite
from Visite v, DateDimension d
where v.date = d.date
group by rollup(annee, mois, jour)
order by annee, mois, jour

annee,mois,jour,nb_visite
,,,17
2019.0,,,6
2019.0,11.0,,1
2019.0,11.0,11.0,1
2019.0,12.0,,5
2019.0,12.0,25.0,4
2019.0,12.0,26.0,1
2020.0,,,11
2020.0,2.0,,4
2020.0,2.0,1.0,3


#### Rollup sur la dimension géographique

On restructure la clé composée de (lon,lat) en une clé ayant un seul attribut gps.

In [0]:
%sql
create or replace temp view VisiteGPS as
select v.photoID, v.personID,  v.date,  (v.lon, v.lat) as gps, v.note
from Visite v;

select *
from VisiteGPS;

photoID,personID,date,gps,note
p1,Bob,2020-09-03,"List(41.5, 12.8)",3
p2,Alice,2020-09-01,"List(41.6, 12.8)",5
p3,Bob,2020-09-04,"List(41.6, 13.2)",1
p4,Bob,2020-09-04,"List(40.1, 12.0)",2
p5,Alice,2020-09-04,"List(40.1, 12.0)",2
p6,Alice,2020-09-05,"List(41.6, 12.7)",4
p7,Alice,2020-10-05,"List(41.8, 12.8)",4
p8,Carole,2019-12-25,"List(30.1, 10.1)",2
p9,David,2019-12-25,"List(30.1, 10.1)",1
p10,Eva,2019-12-25,"List(30.1, 10.1)",5


In [0]:
%sql
create or replace temp view PlaceGPS as
select (p.lon, p.lat) as gps, p.ville, p.pays
from Place p;

select *
from PlaceGPS;

gps,ville,pays
"List(41.5, 12.8)",Aix,France
"List(41.6, 12.8)",Aix,France
"List(41.6, 12.7)",Nice,France
"List(41.8, 12.8)",Marseille,France
"List(41.6, 13.2)",Rome,Italie
"List(40.1, 12.0)",Oslo,Norvege
"List(30.1, 10.1)",Paris,France
"List(31.1, 10.1)",StDenis,France
"List(32.1, 12.1)",Lille,France
"List(49.1, 10.1)",Pau,France


Le nombre de Visites par lieu (_ie._, position GPS), ville et pays

In [0]:
%sql
select p.pays, p.ville, v.gps, count(*) as nb_visite
from VisiteGPS v, PlaceGPS p
where v.gps = p.gps
group by rollup( p.pays, p.ville, v.gps )
order by pays, ville, gps

pays,ville,gps,nb_visite
,,,17
France,,,14
France,Aix,,2
France,Aix,"List(41.5, 12.8)",1
France,Aix,"List(41.6, 12.8)",1
France,Lille,,3
France,Lille,"List(32.1, 12.1)",3
France,Marseille,,1
France,Marseille,"List(41.8, 12.8)",1
France,Nice,,1


### L'opération GROUP BY CUBE et manipulation d'un cube
Rassembler les agrégations des Visites sur l'année, la profession, et le pays. 
On appelle le résultat : Cube1

In [0]:
%sql
create or replace temporary view Cube1 as
select annee, pays, profession, round(avg(note), 1) as noteMoyenne, count(*) as nbVisite
from VisitesDetail
group by cube (annee, pays, profession)
order by annee, pays, profession;

cache table Cube1;

select *
from Cube1;

annee,pays,profession,noteMoyenne,nbVisite
,,,3.1,17
,,Architecte,3.5,8
,,Data science,2.3,7
,,Vendeuse,4.0,2
,France,,3.4,14
,France,Architecte,3.7,7
,France,Data science,2.6,5
,France,Vendeuse,4.0,2
,Italie,,1.0,1
,Italie,Data science,1.0,1


Projection agrégative : sélectionner certaines dimensions du cube

projeter sur la dimension profession

In [0]:
%sql
select profession, notemoyenne, nbVisite 
from Cube1
where profession is not null
and pays is null
and annee is null

profession,notemoyenne,nbVisite
Architecte,3.5,8
Data science,2.3,7
Vendeuse,4.0,2


projeter sur les dimensions profession et pays

In [0]:
%sql
select profession, pays, notemoyenne, nbVisite 
from Cube1 c
where profession is not null
and pays is not null
and annee is null
order by profession, pays

profession,pays,notemoyenne,nbVisite
Architecte,France,3.7,7
Architecte,Norvege,2.0,1
Data science,France,2.6,5
Data science,Italie,1.0,1
Data science,Norvege,2.0,1
Vendeuse,France,4.0,2


Opération **Dice** : critère de sélection sur la mesure

In [0]:
%sql
select * 
from Cube1
where noteMoyenne >=3.5 and nbVisite < 8

annee,pays,profession,noteMoyenne,nbVisite
,,Vendeuse,4.0,2
,France,Architecte,3.7,7
,France,Vendeuse,4.0,2
2019.0,,Vendeuse,4.0,2
2019.0,France,Vendeuse,4.0,2
2020.0,,Architecte,3.8,6
2020.0,France,Architecte,4.2,5


Opération **Slice**: critère de sélection sur des dimensions

In [0]:
%sql
select *
from Cube1
where pays in ('Norvege', 'France')
and annee > 2018

annee,pays,profession,noteMoyenne,nbVisite
2019,France,,2.7,6
2019,France,Architecte,2.5,2
2019,France,Data science,1.5,2
2019,France,Vendeuse,4.0,2
2020,France,,3.9,8
2020,France,Architecte,4.2,5
2020,France,Data science,3.3,3
2020,Norvege,,2.0,2
2020,Norvege,Architecte,2.0,1
2020,Norvege,Data science,2.0,1


### Requêtes avec fonctions de fenêtrage

#### Requete avec fenêtre de taille croissante

Numéroter les tuples

In [0]:
%sql
select v.personId, v.photoId, v.note, 
       row_number() over (order by personId, photoId) as numeroPhoto
from Visite v

personId,photoId,note,numeroPhoto
Alice,p12,3,1
Alice,p16,4,2
Alice,p17,5,3
Alice,p2,5,4
Alice,p5,2,5
Alice,p6,4,6
Alice,p7,4,7
Bob,p1,3,8
Bob,p13,5,9
Bob,p3,1,10


Classement des visites par note décroissantes

In [0]:
%sql
select v.personId, v.photoId, v.note, rank() over (order by note desc) as rang
from Visite v

personId,photoId,note,rang
Alice,p2,5,1
Eva,p10,5,1
Bob,p13,5,1
Alice,p17,5,1
Alice,p6,4,5
Alice,p7,4,5
Alice,p16,4,5
Bob,p1,3,8
Eva,p11,3,8
Alice,p12,3,8


###### top K
 Le top 5 des Visites avec les meilleures notes.
Il peut y avoir plus de k visites dans le résultat à cause des ex aequos.

In [0]:
%sql 
With Classement as (
Select v.personId, v.photoId, v.note, rank() over (order by note desc) as rang
From Visite v
)
Select * from Classement 
where rang <=5
order by rang

personId,photoId,note,rang
Alice,p2,5,1
Alice,p17,5,1
Eva,p10,5,1
Bob,p13,5,1
Alice,p6,4,5
Alice,p7,4,5
Alice,p16,4,5


Classement dense

In [0]:
%sql
select v.personId, v.photoId, v.note, dense_rank() over (order by note desc) as rang_dense
from Visite v

personId,photoId,note,rang_dense
Alice,p2,5,1
Eva,p10,5,1
Bob,p13,5,1
Alice,p17,5,1
Alice,p6,4,2
Alice,p7,4,2
Alice,p16,4,2
Bob,p1,3,3
Eva,p11,3,3
Alice,p12,3,3


#### Fenêtrage et partitionnement : Partition by

##### Partition by 
Une partition est définie par un sous-ensemble des attributs projetés dans le select.

Une fenêtre par partition.

Le classement **par ville** des visites les mieux notées

In [0]:
%sql
SELECT v.photoId, v.personID, v.ville, 
       rank() OVER( PARTITION BY ville order by note) as rang
FROM VisitesDetail v
order by ville, rang

photoId,personID,ville,rang
p1,Bob,Aix,1
p2,Alice,Aix,2
p14,Carole,Lille,1
p12,Alice,Lille,2
p13,Bob,Lille,3
p7,Alice,Marseille,1
p6,Alice,Nice,1
p4,Bob,Oslo,1
p5,Alice,Oslo,1
p9,David,Paris,1


Le classement **par pays**  des villes ayant de plus de visites

In [0]:
%sql 
Select pays, ville, count(*) as nbVisite, 
       rank() over (partition by pays order by count(*) desc) as rang
From VisitesDetail v
Group by pays, ville
Order by pays, rang

pays,ville,nbVisite,rang
France,Paris,4,1
France,Lille,3,2
France,Pau,2,3
France,Aix,2,3
France,Marseille,1,5
France,Nice,1,5
France,StDenis,1,5
Italie,Rome,1,1
Norvege,Oslo,2,1


# QUESTIONS

### Question 1 : temps écoulé

Pour chaque visite de chaque personne, le temps écoulé depuis la première visite de cette personne. Exprimer le temps écoulé par un intervalle de temps résultant d'une différence entre deux dates. L'intervalle indique le nombre de mois et le nombre de jours.

Le schema attendu est (photoID , personID, date, datePremiereVisiste, temps_ecoule)

Astuce: commencer par compléter chaque visite avec la date de la première visite de la personne.

In [0]:
%sql

With T as
  (Select personID, min(date) as dateP 
   From VisitesDetail 
   Group by personID)
   
Select vd.photoID , 
       vd.personID, 
       vd.date,
       T.dateP,
       if(vd.date = T.dateP,'0 months 0 days',cast(vd.date - T.dateP as string)) as temps_ecoule
From VisitesDetail vd
Inner join T on vd.personID = T.personID

photoID,personID,date,dateP,temps_ecoule
p1,Bob,2020-09-03,2020-02-01,7 months 2 days
p2,Alice,2020-09-01,2019-12-25,8 months 7 days
p3,Bob,2020-09-04,2020-02-01,7 months 3 days
p4,Bob,2020-09-04,2020-02-01,7 months 3 days
p5,Alice,2020-09-04,2019-12-25,8 months 10 days
p6,Alice,2020-09-05,2019-12-25,8 months 11 days
p7,Alice,2020-10-05,2019-12-25,9 months 10 days
p8,Carole,2019-12-25,2019-11-11,1 months 14 days
p9,David,2019-12-25,2019-12-25,0 months 0 days
p10,Eva,2019-12-25,2019-12-25,0 months 0 days


### Question 2: Requête avec fenêtre glissante de taille fixe

Pour chaque visite de chaque personne, le nombre de jours depuis la visite précédente de cette personne. 

Le schéma attendu est (photoID, personID, date, precedenteDate, nbJours)

Astuce: penser à utiliser la fonction datediff pour comparer deux dates et obtenir un nombre de jours

In [0]:
%sql
Select photoID, 
       personID, 
       date,
       min(date) over (partition by personID order by date rows between 1 preceding and current row) as precedenteDate,
       DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row)) as nbJours
From VisitesDetail

photoID,personID,date,precedenteDate,nbJours
p16,Alice,2019-12-25,2019-12-25,0
p12,Alice,2020-02-01,2019-12-25,38
p17,Alice,2020-02-02,2020-02-01,1
p2,Alice,2020-09-01,2020-02-02,212
p5,Alice,2020-09-04,2020-09-01,3
p6,Alice,2020-09-05,2020-09-04,1
p7,Alice,2020-10-05,2020-09-05,30
p13,Bob,2020-02-01,2020-02-01,0
p1,Bob,2020-09-03,2020-02-01,215
p3,Bob,2020-09-04,2020-09-03,1


## Question 3 : Semaine glissante
Pour chaque jour de visite de chaque personne, le nombre de visite sur 7 jours glissants.

Schema (personID, date, nbVisite7jours)

In [0]:
%sql
Select personID,
       date,
       count(date) over (partition by personID order by date range between 7 preceding and 0 following) as nbVisite7jours
From VisitesDetail

personID,date,nbVisite7jours
Alice,2019-12-25,1
Alice,2020-02-01,1
Alice,2020-02-02,2
Alice,2020-09-01,1
Alice,2020-09-04,2
Alice,2020-09-05,3
Alice,2020-10-05,1
Bob,2020-02-01,1
Bob,2020-09-03,1
Bob,2020-09-04,3


## Question 4 : Trajets
On veut enrichir les visites avec une information de trajet.
Un trajet représente toutes les visites d'une personne telles que le nombre de jours entre deux visites consécutives soit inférieur à une semaine.

Schema : (photoID, personID, date, nbJours, numTrajet)

Astuces :
utiliser la réponse à la question 2. La fonction if dans la clause select peut indiquer si la visite est le début du trajet suivant ou non.

In [0]:
 %sql
-- VERSION OU LE NUMTRAJET SE RESET POUR CHAQUE PERSONNE

-- Q2 modifié
create or replace temporary view Question2 as
Select photoID, 
       personID, 
       date,
       min(date) over (partition by personID order by date rows between 1 preceding and current row) as precedenteDate,
       DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row)) as nbJours,
       -- Ajouter en plus par rapport à la Q2
       if(DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row))>7, 1, 0) as isTrajet
From VisitesDetail;

-- photoID, personID, date, nbJours, numTrajet
Select photoID,
       personID,
       date,
       nbJours,
       sum(isTrajet) over (partition by personID order by date) as numTrajet
From Question2;

photoID,personID,date,nbJours,numTrajet
p16,Alice,2019-12-25,0,0
p12,Alice,2020-02-01,38,1
p17,Alice,2020-02-02,1,1
p2,Alice,2020-09-01,212,2
p5,Alice,2020-09-04,3,2
p6,Alice,2020-09-05,1,2
p7,Alice,2020-10-05,30,3
p13,Bob,2020-02-01,0,0
p1,Bob,2020-09-03,215,1
p3,Bob,2020-09-04,1,1


In [0]:
%sql

-- VERSION OU LE NUMTRAJET EST UN NUMERO UNIQUE

-- Q2 modifié
create or replace temporary view Question2 as
Select photoID, 
       personID, 
       date,
       min(date) over (partition by personID order by date rows between 1 preceding and current row) as precedenteDate,
       DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row)) as nbJours,
       -- Ajouter en plus par rapport à la Q2
       if(DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row))>7 or DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row))=0, 1, 0) as isTrajet
From VisitesDetail;

-- photoID, personID, date, nbJours, numTrajet
Select photoID,
       personID,
       date,
       nbJours,
       sum(isTrajet) over (order by personID,date) as numTrajet
From Question2;

photoID,personID,date,nbJours,numTrajet
p16,Alice,2019-12-25,0,1
p12,Alice,2020-02-01,38,2
p17,Alice,2020-02-02,1,2
p2,Alice,2020-09-01,212,3
p5,Alice,2020-09-04,3,3
p6,Alice,2020-09-05,1,3
p7,Alice,2020-10-05,30,4
p13,Bob,2020-02-01,0,5
p1,Bob,2020-09-03,215,6
p3,Bob,2020-09-04,1,7


### 4 b)
Ajouter la condition: un trajet ne peut pas durer plus de 3 jours au total

In [0]:
 %sql
-- Q2 modifié
create or replace temporary view Question2 as
Select photoID, 
       personID, 
       date,
       min(date) over (partition by personID order by date rows between 1 preceding and current row) as precedenteDate,
       DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row)) as nbJours,
       -- Modifié par rapport à la Q4
       if(DATEDIFF(date,min(date) over (partition by personID order by date rows between 1 preceding and current row))>3, 1, 0) as isSup3
From VisitesDetail;

Select *
From Question2;

photoID,personID,date,precedenteDate,nbJours,isSup3
p16,Alice,2019-12-25,2019-12-25,0,0
p12,Alice,2020-02-01,2019-12-25,38,1
p17,Alice,2020-02-02,2020-02-01,1,0
p2,Alice,2020-09-01,2020-02-02,212,1
p5,Alice,2020-09-04,2020-09-01,3,0
p6,Alice,2020-09-05,2020-09-04,1,0
p7,Alice,2020-10-05,2020-09-05,30,1
p13,Bob,2020-02-01,2020-02-01,0,0
p1,Bob,2020-09-03,2020-02-01,215,1
p3,Bob,2020-09-04,2020-09-03,1,0


In [0]:
%sql 
-- Q4 modifié
create or replace temporary view Question4 as
Select *,
       --if(sum(isSup3) over (partition by personID order by date rows between 1 preceding and current row ) = 0, sum(nbJours) over(partition by personID order by date rows between 1 preceding and current row),0) as SumJSejour 
       if (isSup3 = 0,sum(nbJours) over(partition by personID order by date rows between 1 preceding and current row),0) as SumJSejour
From Question2;

Select *
from Question4;

photoID,personID,date,precedenteDate,nbJours,isSup3,SumJSejour
p16,Alice,2019-12-25,2019-12-25,0,0,0
p12,Alice,2020-02-01,2019-12-25,38,1,0
p17,Alice,2020-02-02,2020-02-01,1,0,39
p2,Alice,2020-09-01,2020-02-02,212,1,0
p5,Alice,2020-09-04,2020-09-01,3,0,215
p6,Alice,2020-09-05,2020-09-04,1,0,4
p7,Alice,2020-10-05,2020-09-05,30,1,0
p13,Bob,2020-02-01,2020-02-01,0,0,0
p1,Bob,2020-09-03,2020-02-01,215,1,0
p3,Bob,2020-09-04,2020-09-03,1,0,216


In [0]:
%sql
create or replace temporary view Tmp4b as
Select *,
       if(isSup3 = 1 or SumJSejour>3,1,0) as isTrajet
From Question4;

Select *
from Tmp4b;

photoID,personID,date,precedenteDate,nbJours,isSup3,SumJSejour,isTrajet
p16,Alice,2019-12-25,2019-12-25,0,0,0,0
p12,Alice,2020-02-01,2019-12-25,38,1,0,1
p17,Alice,2020-02-02,2020-02-01,1,0,39,1
p2,Alice,2020-09-01,2020-02-02,212,1,0,1
p5,Alice,2020-09-04,2020-09-01,3,0,215,1
p6,Alice,2020-09-05,2020-09-04,1,0,4,1
p7,Alice,2020-10-05,2020-09-05,30,1,0,1
p13,Bob,2020-02-01,2020-02-01,0,0,0,0
p1,Bob,2020-09-03,2020-02-01,215,1,0,1
p3,Bob,2020-09-04,2020-09-03,1,0,216,1


In [0]:
%sql
create or replace temporary view Question4b as
Select *,
       sum(isTrajet) over (partition by personID order by date) as numTrajet
From Tmp4b;

Select photoID,
       personID,
       date,
       nbJours,
       numTrajet
from Question4b;

photoID,personID,date,nbJours,numTrajet
p16,Alice,2019-12-25,0,0
p12,Alice,2020-02-01,38,1
p17,Alice,2020-02-02,1,2
p2,Alice,2020-09-01,212,3
p5,Alice,2020-09-04,3,4
p6,Alice,2020-09-05,1,5
p7,Alice,2020-10-05,30,6
p13,Bob,2020-02-01,0,0
p1,Bob,2020-09-03,215,1
p3,Bob,2020-09-04,1,2


## Question 5 : IMDB

Proposer des requetes OVER PARTITION BY  sur la base IMDB