<a href="https://colab.research.google.com/github/Yunpei24/BigDataBase/blob/main/TP5_Analyse_et_visualisation_de_donn%C3%A9es.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction
Le but principal de ce notebook est de maîtriser <b>Spark SQL</b> et de pouvoir défnir des fonctions de fenêtre Spark et des fonctions Python enregistrées dans le registre Spark afin d'être utilisées dans les requêtes SQL.

Le même jeu de données du précédent TP sera utilisé avec le même environnement d'exécution.


# Initialisation de l'environnement d'exécution

Installation du JDK

In [2]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

Téléchargement de l'archive du framework Apache Spark

In [3]:
# Download Spark
!wget -q https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz

Extraction de l'archive dans le dossier courant <mark>/content</mark>

In [4]:
# Unzip the file
!tar xf spark-3.3.1-bin-hadoop3.tgz

Installation des modules Python <b>pyspark</b> et <b>findspark</b>

In [5]:
!pip install -q pyspark
!pip install -q findspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m281.4/281.4 MB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.7/199.7 KB[0m [31m26.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


Test de l'installation de pyspark

In [6]:
!find /content -name "pyspark"

/content/spark-3.3.1-bin-hadoop3/bin/pyspark
/content/spark-3.3.1-bin-hadoop3/python/pyspark
/content/spark-3.3.1-bin-hadoop3/python/pyspark/python/pyspark


Création des variables d'environnement <mark>SPARK_HOME</mark> et <mark>JAVA_HOME</mark> pour situer respectivement les emplacements d'installation de Spark et Java 

In [7]:
import os
os.environ["SPARK_HOME"] =  "/content/spark-3.3.1-bin-hadoop3" 
os.environ["JAVA_HOME"] ="/usr/lib/jvm/java-8-openjdk-amd64"

Importation des bibliothèques Spark SQL

In [8]:
import findspark 
print("findspark.init() initialise les variables d'environnement pour spark") 
findspark.init() 

# Pyspark session objects
from pyspark.sql import SparkSession 
# Pyspark session configuration
from pyspark import SparkConf  

# Pyspark functions
import pyspark.sql.functions as f
from pyspark.sql import * 

# Pyspark SQL data types
from pyspark.sql.types import *

findspark.init() initialise les variables d'environnement pour spark


# Analyse et visualisation de données

## Définition de fonctions pour l'environnement PySpark

La fonction <mark>demarrer_spark</mark> permet d'initialiser une session <i>client</i> avec Spark

In [9]:
def demarrer_spark():
  local = "local[*]"
  appName = "TP3"
  configLocale = SparkConf().setAppName(appName).setMaster(local).\
  set("spark.executor.memory", "100G").\
  set("spark.driver.memory","50G").\
  set("spark.sql.catalogImplementation","in-memory").\
  set("spark.driver.maxResultSize", "10G")
  
  spark = SparkSession.builder.config(conf = configLocale).getOrCreate()
  sc = spark.sparkContext
  sc.setLogLevel("ERROR")
  
  # spark.conf.set("spark.sql.autoBroadcastJoinThreshold","-1")
  # On ajuste l'environnement d'exécution des requêtes à la taille du cluster (4 coeurs)
  # spark.conf.set("spark.sql.shuffle.partitions","200")    

  print("session démarrée, son id est ", sc.applicationId)
  return spark

Démarrage de la session

In [10]:
spark = demarrer_spark()

session démarrée, son id est  local-1674906511437


En vue de simplifier l'exécution des requêtes SQL, nous définissons la commande magique &#128526; <b><font color="blue">%%sql</font></b> pour exécuter les requêtes plus facilement

In [11]:
from IPython.core.magic import (register_line_magic, register_cell_magic, register_line_cell_magic)
import gc

def removeComments(query):
  result = ""
  for line in query.split('\n'):
    if not(line.strip().startswith("--")):
      result += line + "\n"
  return result

@register_line_cell_magic
def sql(line, cell=None):
    "To run a sql query. Use:  %%sql"
    val = cell if cell is not None else line
    tabRequetes = removeComments(val).split(";")
    resultat = None
    est_une_requete = False
    for r in tabRequetes:
        r = r.strip()
        if len(r) > 2:
          resultat = spark.sql(r)
          est_une_requete = r.lower().startswith('select') or r.lower().startswith('with')  
    if(est_une_requete):
      # Explain the execution plan
      #resultat.explain()
      # Display the result
      return display(resultat)
    else:
      return print('ok')

De même, nous redéfinissons la fonction <b>display</b> pour un meilleur affichage des données manipulées.

In [12]:
import pandas as pd

def display(df, n=10):
  pd.set_option('max_columns', None)
  pd.set_option('max_colwidth', None)
  pdf = df.limit(n).toPandas()
  # Free memory
  df.unpersist()
  # Force Spark to free memory
  spark.catalog.clearCache()
  # and Python too
  gc.collect(2)
  return pdf

print("display redéfini")

display redéfini


## Définition de fonctions de visualisation

Fonction d'exécution de requête SQL et conversion du résultat (un Dataframe Spark) en Dataframe Pandas

In [13]:
import gc

def getPandasDataFrame(sqlQuery):
  # Execute SQL Query with PySpark
  dfSpark = spark.sql(sqlQuery)
  # Convert Spark dataframe to Pandas dataframe
  pdf = dfSpark.toPandas()
  # Force Spark to free memory
  dfSpark.unpersist()
  spark.catalog.clearCache()
  # and Python too
  gc.collect(2)
  # Return the Pandas Dataframe
  return pdf

Fonctions de visualisation

In [14]:
import plotly.graph_objects as go
import plotly.express as px
import plotly.tools as pt
import numpy as np
import math

def drawLine(sql):
  # Getting Pandas Dataframe
  pdf = getPandasDataFrame(sql)
  # plotting the line chart
  fig = px.line(pdf, x=pdf.columns[0], y=pdf.columns[1])
  # showing the plot
  fig.show()

def drawBar(sql):
  # Getting Pandas Dataframe
  pdf = getPandasDataFrame(sql)
  # plotting the bar chart
  fig = px.bar(pdf, x=pdf.columns[0], y=pdf.columns[1])
  # showing the plot
  fig.show()

def drawHistogram(sql):
  # Getting Pandas Dataframe
  pdf = getPandasDataFrame(sql)
  # plotting the histogram chart
  fig = px.histogram(pdf, x=pdf.columns[0], y=pdf.columns[1])
  # showing the plot
  fig.show()

def drawHeatmap(sql, scale=lambda x: x):
  # Getting Pandas Dataframe
  pdf = getPandasDataFrame(sql)
  if len(pdf.columns) != 3 and not (pdf[pdf.columns[2]].dtype == np.float64 or pdf[pdf.columns[2]].dtype == np.int64):
    raise Exception("Sorry, no numbers below zero")
  source = pdf[pdf.columns[0]].tolist()
  target = pdf[pdf.columns[1]].tolist()
  value = pdf[pdf.columns[2]].tolist()
  # plotting the figure
  fig = go.Figure(data = go.Heatmap(x = source, y = target, z = [scale(x) for x in value])) 
  fig.show()

def drawPie(sql):
  # Getting Pandas Dataframe
  pdf = getPandasDataFrame(sql)
  # plotting the pie chart
  fig = px.pie(pdf, names=pdf.columns[0], values=pdf.columns[1])
  # showing the plot
  fig.show()

def drawStackedBar(sql):
  # Getting Pandas Dataframe
  pdf = getPandasDataFrame(sql)
  # plotting the stacked bar chart
  fig = px.bar(df, x=pdf.columns[0], y=pdf.columns[2], color=pdf.columns[1], hover_data=pdf.columns[1], barmode = 'stack')
  # showing the plot
  fig.show()

def drawSankey(sql):
  # Getting Pandas Dataframe
  pdf = getPandasDataFrame(sql)
  
  labels = []
  x = set(pdf[pdf.columns[0]].tolist())
  dicX = {}
  i = 0
  for e in x:
    dicX[e] = i
    labels.append(e)
    i += 1
    
  y = set(pdf[pdf.columns[1]].tolist())
  dicY = {}
  # i = len(labels)
  for e in y:
    if(e in dicX):
      dicY[e] = dicX[e]
    else:
      dicY[e] = i
      i += 1
    labels.append(e)

  fig = go.Figure(data=[go.Sankey(
    node = dict(
      thickness = 5,
      line = dict(color = "green", width = 0.1),
      label = labels,
      color = "blue"
    ),
    link = dict(
      # indices correspond to labels
      source = [dicX[e] for e in pdf[pdf.columns[0]].tolist()],
      target = [dicY[e] for e in pdf[pdf.columns[1]].tolist()],
      value = pdf[pdf.columns[2]].tolist()
  ))])

  # showing the plot
  fig.show()

## Récupération du jeu de données

Téléchargement du jeu

In [15]:
#!curl -L -o ecommerce-behavior-data-from-multi-category-store.zip 'https://drive.google.com/u/0/uc?id=1CVhmxsU3GY0FYGS1uP3m_tGbyGjEfuQc&export=download&confirm=t'
!curl -L -o ecommerce-behavior-data-from-multi-category-store.zip 'https://storage.googleapis.com/kaggle-data-sets/411512/835452/compressed/2019-Nov.csv.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20230128%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20230128T111731Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=2afcc1a011c86d89fe64d1c12bc1432f703c525f12c74f43fad4f455a5183c74589932fbabb73bce85de91427906abecec18c6929a894fd0ca8657683b665379deea648ef51f6bb4c114125998ee24b7fdd2b630cdc327e142d0f8130f2f5e9306d45293940e87b2c05aa32151f52ab4a85638d5920e6de0fbf13b8daaffd7fbeb21009fc42c8baf268a399a1419b0bf0c9a5a5150732d0d10d4a1b90c7b516d60a01ffb2dc3b42c9266f3acdecf42b791a074f379ec89295af92a337d89af4f092e6a74db6b74f75305604e9593e265dafdf6e25dbe9b9160840864260541f1a188473fa9c59514fd0d4136cd04066084275d95e238525b94333cac9a6b6ceb'

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 2740M  100 2740M    0     0  20.2M      0  0:02:15  0:02:15 --:--:-- 20.9M


In [16]:
#!curl -L -o ecommerce-behavior-data-from-multi-category-store.zip 'https://drive.google.com/file/d/1-6O0yyepogGUqqXHCrICu_KaZuGiNsWd/view?usp=share_link'

Extraction des données

In [17]:
!unzip -o ecommerce-behavior-data-from-multi-category-store.zip
!ls .

Archive:  ecommerce-behavior-data-from-multi-category-store.zip
  inflating: 2019-Nov.csv            
2019-Nov.csv
ecommerce-behavior-data-from-multi-category-store.zip
sample_data
spark-3.3.1-bin-hadoop3
spark-3.3.1-bin-hadoop3.tgz


Aperçu de format des données

In [18]:
!head -10 2019-Nov.csv

event_time,event_type,product_id,category_id,category_code,brand,price,user_id,user_session
2019-11-01 00:00:00 UTC,view,1003461,2053013555631882655,electronics.smartphone,xiaomi,489.07,520088904,4d3b30da-a5e4-49df-b1a8-ba5943f1dd33
2019-11-01 00:00:00 UTC,view,5000088,2053013566100866035,appliances.sewing_machine,janome,293.65,530496790,8e5f4f83-366c-4f70-860e-ca7417414283
2019-11-01 00:00:01 UTC,view,17302664,2053013553853497655,,creed,28.31,561587266,755422e7-9040-477b-9bd2-6a6e8fd97387
2019-11-01 00:00:01 UTC,view,3601530,2053013563810775923,appliances.kitchen.washer,lg,712.87,518085591,3bfb58cd-7892-48cc-8020-2f17e6de6e7f
2019-11-01 00:00:01 UTC,view,1004775,2053013555631882655,electronics.smartphone,xiaomi,183.27,558856683,313628f1-68b8-460d-84f6-cec7a8796ef2
2019-11-01 00:00:01 UTC,view,1306894,2053013558920217191,computers.notebook,hp,360.09,520772685,816a59f3-f5ae-4ccd-9b23-82aa8c23d33c
2019-11-01 00:00:01 UTC,view,1306421,2053013558920217191,computers.notebook,hp,514.56,51402

Chargement du jeu de données dans Spark

In [19]:
df = spark.read.csv("2019-Nov.csv", header=True, sep=',')
display(df)

Unnamed: 0,event_time,event_type,product_id,category_id,category_code,brand,price,user_id,user_session
0,2019-11-01 00:00:00 UTC,view,1003461,2053013555631882655,electronics.smartphone,xiaomi,489.07,520088904,4d3b30da-a5e4-49df-b1a8-ba5943f1dd33
1,2019-11-01 00:00:00 UTC,view,5000088,2053013566100866035,appliances.sewing_machine,janome,293.65,530496790,8e5f4f83-366c-4f70-860e-ca7417414283
2,2019-11-01 00:00:01 UTC,view,17302664,2053013553853497655,,creed,28.31,561587266,755422e7-9040-477b-9bd2-6a6e8fd97387
3,2019-11-01 00:00:01 UTC,view,3601530,2053013563810775923,appliances.kitchen.washer,lg,712.87,518085591,3bfb58cd-7892-48cc-8020-2f17e6de6e7f
4,2019-11-01 00:00:01 UTC,view,1004775,2053013555631882655,electronics.smartphone,xiaomi,183.27,558856683,313628f1-68b8-460d-84f6-cec7a8796ef2
5,2019-11-01 00:00:01 UTC,view,1306894,2053013558920217191,computers.notebook,hp,360.09,520772685,816a59f3-f5ae-4ccd-9b23-82aa8c23d33c
6,2019-11-01 00:00:01 UTC,view,1306421,2053013558920217191,computers.notebook,hp,514.56,514028527,df8184cc-3694-4549-8c8c-6b5171877376
7,2019-11-01 00:00:02 UTC,view,15900065,2053013558190408249,,rondell,30.86,518574284,5e6ef132-4d7c-4730-8c7f-85aa4082588f
8,2019-11-01 00:00:02 UTC,view,12708937,2053013553559896355,,michelin,72.72,532364121,0a899268-31eb-46de-898d-09b2da950b24
9,2019-11-01 00:00:02 UTC,view,1004258,2053013555631882655,electronics.smartphone,apple,732.07,532647354,d2d3d2c6-631d-489e-9fb5-06f340b85be0


Affichage du nombre d'enregistrements du jeu de données

In [20]:
df.count()

67501979

Affichage du schéma du Dataframe Spark

In [21]:
df.printSchema()

root
 |-- event_time: string (nullable = true)
 |-- event_type: string (nullable = true)
 |-- product_id: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- category_code: string (nullable = true)
 |-- brand: string (nullable = true)
 |-- price: string (nullable = true)
 |-- user_id: string (nullable = true)
 |-- user_session: string (nullable = true)



Casting de certaines colonnes aux types de données attendus

In [22]:
df = df.withColumn("event_time",df.event_time.cast(TimestampType()))
df = df.withColumn("product_id",df.product_id.cast(IntegerType()))
df = df.withColumn("category_id",df.category_id.cast(IntegerType()))
df = df.withColumn("price",df.price.cast(DoubleType()))
df = df.withColumn("user_id",df.user_id.cast(IntegerType()))

Affichage du nouveau schéma du Dataframe Spark

In [23]:
df.printSchema()

root
 |-- event_time: timestamp (nullable = true)
 |-- event_type: string (nullable = true)
 |-- product_id: integer (nullable = true)
 |-- category_id: integer (nullable = true)
 |-- category_code: string (nullable = true)
 |-- brand: string (nullable = true)
 |-- price: double (nullable = true)
 |-- user_id: integer (nullable = true)
 |-- user_session: string (nullable = true)



Matérialisation du dataframe comme une vue SQL avec la vue <mark>purchases</mark> qui pointe sur lui

In [24]:
df.createOrReplaceTempView('events')

## Activité 1

Test de notre première requête SQL. <b>Que fait-elle ?</b>

In [25]:
%%sql
SELECT brand, event_type, COUNT(*) AS nb FROM events GROUP BY brand, event_type

Unnamed: 0,brand,event_type,nb
0,irbis,view,18985
1,almada,view,13436
2,balmain,view,1547
3,riko,view,1755
4,mersco,view,2240
5,hairdorables,view,737
6,andrewfuchs,view,152
7,lorelli,cart,1155
8,fisherman,view,1285
9,boyscout,view,6978


Que fait cette deuxième requête ?

In [26]:
drawLine("SELECT brand, COUNT(*) AS nb FROM events GROUP BY brand")

Voici la liste des types d'évènement possibles : <i>purchase, view, cart</i> ...

In [27]:
%%sql
SELECT DISTINCT event_type FROM events

Unnamed: 0,event_type
0,purchase
1,view
2,cart


Et leur répartition dans le jeu de données

In [28]:
drawPie("SELECT event_type, COUNT(*) FROM events GROUP BY event_type")

Comment comprenez-vous cette requête et sa visualisation ?

In [29]:
sql = " SELECT brand, event_type, COUNT(*) AS nb FROM events GROUP BY brand, event_type"
drawHeatmap(sql, scale=math.log)

Que fait cette dernière requête ?
Comment comprenez-vous sa graphique ?

In [30]:
sql = "SELECT category_code, date_format(event_time, 'L'), SUM(price) AS amount FROM events WHERE event_type='purchase' GROUP BY category_code, date_format(event_time, 'L') HAVING category_code LIKE 'electronics.%'"
drawSankey(sql)

In [31]:
sql = "SELECT event_type as A, category_code as B, COUNT(*) FROM events WHERE event_type='cart' GROUP BY event_type, category_code \
 UNION SELECT category_code as A, event_type as B, COUNT(*) FROM events WHERE event_type='purchase' GROUP BY event_type, category_code"
drawSankey(sql)

In [32]:
spark.catalog.clearCache()
gc.collect(2)

239

## Activité 2
Nous continuons à travailler avec la même vue <mark>events</mark>. Le but est d’écrire vos propres requêtes <u>et de réflexir sur leurs meilleures présentations</u>.
<ol>
<li>Quel est le chiffre d'affaire réalisé selon les jours de la semaine ?</li>
<li>Donner l'évolution du nombre d'achats de produits selon les jours du mois.</li>
<li>Donner le top 3 des catégories de produits et leurs chiffres d'affaires par type d'évènement.</li>
<li>Donner le chiffre d'affaire gagné sur chaque marque (brand) selon le jour de la semaine.</li>
<li>Donner le top 3 des marques pour catégorie de produit.</li>
</ol>

In [33]:
# 1. Quel est le chiffre d'affaire réalisé selon les jours de la semaine ?


In [34]:
# 2. Donner l'évolution du nombre d'achats de produits selon les jours du mois.


In [35]:
# 3. Donner le top 3 des catégories de produits par type d'évènement.


In [36]:
# 4. Donner le chiffre d'affaire gagné sur chaque marque.


In [37]:
# 5. Donner le top 3 des marques pour catégorie de produit.
