# Notebook API Python Spark GraphFrames

**GraphFrames Quick-Start Guide:**
*   https://graphframes.github.io/graphframes/docs/_site/quick-start.html

**GraphFrames User Guide:**
*   https://graphframes.github.io/graphframes/docs/_site/user-guide.html

**GraphFrames Python API**
*   https://graphframes.github.io/graphframes/docs/_site/api/python/index.html



***Install pyspark and findspark:***

***Install GraphFrames :***

In [1]:
import igraph as ig
import os
# !find /usr/local -name "pyspark"
os.environ["SPARK_HOME"] = "/home/anyes/spark"
os.environ["JAVA_HOME"] = "/usr"

***Start the spark session:***

In [2]:
# Main imports
import findspark
from pyspark.sql import SparkSession
from pyspark import SparkConf

# for dataframe and udf
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.types import *
from datetime import *

import pandas as pd


# initialise environment variables for spark
findspark.init()

# Start spark session
# --------------------------
def start_spark():
  local = "local[*]"
  appName = "PLDAC"

  gf = "graphframes:graphframes:0.8.3-spark3.5-s_2.12"

  configLocale = SparkConf().setAppName(appName).setMaster(local).\
  set("spark.executor.memory", "6G").\
  set("spark.driver.memory","6G").\
  set("spark.sql.catalogImplementation","in-memory").\
  set("spark.jars.packages", gf)

  spark = SparkSession.builder.config(conf = configLocale).getOrCreate()
  sc = spark.sparkContext
  sc.setLogLevel("ERROR")

  spark.conf.set("spark.sql.autoBroadcastJoinThreshold","-1")

  # Adjust the query execution environment to the size of the cluster (4 cores)
  spark.conf.set("spark.sql.shuffle.partitions","4")
  print("session started, its id is ", sc.applicationId)
  return spark
spark = start_spark()

24/02/06 14:39:51 WARN Utils: Your hostname, anyes-Latitude-5480 resolves to a loopback address: 127.0.1.1; using 10.51.22.213 instead (on interface wlp2s0)
24/02/06 14:39:51 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address


:: loading settings :: url = jar:file:/home/anyes/spark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /home/anyes/.ivy2/cache
The jars for the packages stored in: /home/anyes/.ivy2/jars
graphframes#graphframes added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-3edd8e23-02ba-41b4-8c67-a238892c4604;1.0
	confs: [default]
	found graphframes#graphframes;0.8.3-spark3.5-s_2.12 in spark-packages
	found org.slf4j#slf4j-api;1.7.16 in central
:: resolution report :: resolve 597ms :: artifacts dl 13ms
	:: modules in use:
	graphframes#graphframes;0.8.3-spark3.5-s_2.12 from spark-packages in [default]
	org.slf4j#slf4j-api;1.7.16 from central in [default]
	---------------------------------------------------------------------
	|                  |            modules            ||   artifacts   |
	|       conf       | number| search|dwnlded|evicted|| number|dwnlded|
	---------------------------------------------------------------------
	|      default     |   2   |   0   |   0   |   0   ||   2   |   0   |
	----------------------------------

session started, its id is  local-1707226798546


In [3]:
#Import GraphFrames
from graphframes import GraphFrame
from graphframes.lib import AggregateMessages as AM
from graphframes.lib import Pregel

#For connectedComponents()
# !pwd
# !mkdir /content/checkpoints
spark.sparkContext.setCheckpointDir('./content/checkpoints')

#Import networkx
import matplotlib as mpl
import matplotlib.pyplot as plt
import networkx as nx

# Lecture des fichiers du dossier BDLE_10K

In [4]:
# Initialisez une session Spark
spark = SparkSession.builder.appName("Proteines_graph").getOrCreate()

parquet_folder = "./local/data/BDLE_10K"

# Récuperer tous les fichiers Parquet compressé avec Snappy
parquet_files = parquet_folder + "/*.snappy.parquet"

#Création du data frame
df = spark.read.format("parquet").option("compression", "snappy").load(parquet_files)

# Affichez les 10 premiére ligne du DataFrame
df.show(10)


                                                                                

+-----------+-----------+-----+
|     seqID1|     seqID2|  sim|
+-----------+-----------+-----+
|117761605:5|152890023:5| 97.8|
|152904885:3|155591878:2| 88.5|
|152887848:4|153682181:0|100.0|
|152937692:5| 80009514:2| 82.3|
|152990923:2|154549183:4| 98.0|
|152867782:1|153171917:1| 83.1|
| 15111981:2|153137370:1|100.0|
|152794195:0| 15280704:2| 96.9|
| 62963742:1| 63783418:5| 98.4|
|152170568:3|153062631:2| 97.6|
+-----------+-----------+-----+
only showing top 10 rows



In [6]:
# Nombre de lignes
nb_rows = df.count()

# Liste des noms des colonnes
columns_list = df.columns

# Nombre de colonnes
nb_columns = len(columns_list)

# Affichage des informations
print(f"Nombre de lignes : {nb_rows}")
print(f"Nombre de colonnes : {nb_columns}")
print(f"Noms des colonnes : {columns_list}")

Nombre de lignes : 20842
Nombre de colonnes : 3
Noms des colonnes : ['seqID1', 'seqID2', 'sim']


## Création d'un graphe avec Graphframes

In [7]:
# Créez un DataFrame distinct contenant tous les identifiants uniques de sommets
vertices = df.selectExpr("seqID1 as id").union(df.selectExpr("seqID2 as id")).distinct()

# Créez un DataFrame d'arêtes avec les colonnes "src", "dst", et "sim"
edges = df.select("seqID1", "seqID2", "sim").withColumnRenamed("seqID1", "src").withColumnRenamed("seqID2", "dst")

vertices.show(10)

edges.show(10)


                                                                                

+-----------+
|         id|
+-----------+
|152904885:3|
|152887848:4|
|152937692:5|
|152990923:2|
|152794195:0|
|152904832:4|
|152745429:3|
|153161980:3|
|152903373:4|
|153040013:0|
+-----------+
only showing top 10 rows

+-----------+-----------+-----+
|        src|        dst|  sim|
+-----------+-----------+-----+
|117761605:5|152890023:5| 97.8|
|152904885:3|155591878:2| 88.5|
|152887848:4|153682181:0|100.0|
|152937692:5| 80009514:2| 82.3|
|152990923:2|154549183:4| 98.0|
|152867782:1|153171917:1| 83.1|
| 15111981:2|153137370:1|100.0|
|152794195:0| 15280704:2| 96.9|
| 62963742:1| 63783418:5| 98.4|
|152170568:3|153062631:2| 97.6|
+-----------+-----------+-----+
only showing top 10 rows



In [8]:
# Créez le GraphFrame
graph = GraphFrame(vertices, edges)
nombre_noeuds = graph.vertices.count()
nombre_aretes = graph.edges.count()

print("Nombre de noeuds :", nombre_noeuds)
print("Nombre d'arêtes :", nombre_aretes)

                                                                                

Nombre de noeuds : 18500
Nombre d'arêtes : 20842


## Prendre que les arêtes qui ont un pourcentage de similarité supérieure ou égale à 100

In [9]:
graph_100_edges = graph.edges.filter("sim >= 100")
graph_100 = GraphFrame(vertices, graph_100_edges)
graph_100 = graph_100.dropIsolatedVertices()

nombre_noeuds = graph_100.vertices.count()
nombre_aretes = graph_100.edges.count()

print("Nombre de noeuds :", nombre_noeuds)
print("Nombre d'arêtes :", nombre_aretes)

                                                                                

Nombre de noeuds : 5908
Nombre d'arêtes : 4054


## Calcul des composantes connexes et le temps d'execution

### Graph 10k filtré

In [11]:
import time



start_time = time.time()
connected_components = graph_100.connectedComponents()
end_time = time.time()

print("Temps d'execution : ", end_time - start_time)

Temps d'execution :  27.308711290359497


### Graph 10K complet

In [12]:
import time

start_time = time.time()
connected_components_graph_1K = graph.connectedComponents()
end_time = time.time()

print("Temps d'execution du graphe 10K (Complet): ", end_time - start_time)

                                                                                

Temps d'execution du graphe 10K (Complet):  36.69870591163635


# Lecture des fichiers du dossier BDLE_1M

In [None]:
# Initialisez une session Spark
spark = SparkSession.builder.appName("Proteines_graph").getOrCreate()

parquet_folder = "./local/data/BDLE_1M"

# Récuperer tous les fichiers Parquet compressé avec Snappy
parquet_files = parquet_folder + "/*.snappy.parquet"

#Création du data frame
df = spark.read.format("parquet").option("compression", "snappy").load(parquet_files)

# Affichez les 10 premiére ligne du DataFrame
df.show(10)


+-----------+-----------+-----+
|     seqID1|     seqID2|  sim|
+-----------+-----------+-----+
| 28266027:2| 30697475:4|100.0|
|141099253:1|142374057:2| 87.8|
|100479579:0| 23509310:0| 83.9|
|113579361:3|114583521:5|100.0|
|127898390:3|142186630:2|100.0|
| 19430332:0| 78781103:4| 85.4|
|141834541:2|145255331:5|100.0|
|103259805:4| 58392840:4| 83.3|
|122611397:5|143667719:3|100.0|
| 23535857:4|  4695744:1| 95.8|
+-----------+-----------+-----+
only showing top 10 rows



In [None]:
# Nombre de lignes
nb_rows = df.count()

# Liste des noms des colonnes
columns_list = df.columns

# Nombre de colonnes
nb_columns = len(columns_list)

# Affichage des informations
print(f"Nombre de lignes : {nb_rows}")
print(f"Nombre de colonnes : {nb_columns}")
print(f"Noms des colonnes : {columns_list}")

Nombre de lignes : 1768595
Nombre de colonnes : 3
Noms des colonnes : ['seqID1', 'seqID2', 'sim']


## Création d'un graphe avec Graphframes

In [None]:
# Créez un DataFrame distinct contenant tous les identifiants uniques de sommets
vertices = df.selectExpr("seqID1 as id").union(df.selectExpr("seqID2 as id")).distinct()

# Créez un DataFrame d'arêtes avec les colonnes "src", "dst", et "sim"
edges = df.select("seqID1", "seqID2", "sim").withColumnRenamed("seqID1", "src").withColumnRenamed("seqID2", "dst")


In [None]:
# Créez le GraphFrame
graph_1M = GraphFrame(vertices, edges)
nombre_noeuds = graph_1M.vertices.count()
nombre_aretes = graph_1M.edges.count()

print("Nombre de noeuds :", nombre_noeuds)
print("Nombre d'arêtes :", nombre_aretes)

                                                                                

Nombre de noeuds : 1505821
Nombre d'arêtes : 1768595


## Prendre que les arêtes qui ont un pourcentage de similarité supérieure ou égale à 100

In [None]:
graph_1M_100_edges = graph_1M.edges.filter("sim >= 100")
graph_1M_100 = GraphFrame(vertices, graph_1M_100_edges)
graph_1M_100 = graph_1M_100.dropIsolatedVertices()

nombre_noeuds = graph_1M_100.vertices.count()
nombre_aretes = graph_1M_100.edges.count()

print("Nombre de noeuds :", nombre_noeuds)
print("Nombre d'arêtes :", nombre_aretes)

                                                                                

Nombre de noeuds : 529664
Nombre d'arêtes : 375095


## Calcul des composantes connexes et le temps d'execution

### Graph 1M filtré

In [None]:
import time



start_time = time.time()
connected_components = graph_1M_100.connectedComponents()
end_time = time.time()

print("Temps d'execution : ", end_time - start_time)

[Stage 1929:>                                                       (0 + 2) / 2]

Temps d'execution :  107.84025692939758


                                                                                

### Graph 1M complet

In [None]:
import time

start_time = time.time()
connected_components = graph_1M.connectedComponents()
end_time = time.time()

print("Temps d'execution du graphe 10K (Complet): ", end_time - start_time)



Temps d'execution du graphe 10K (Complet):  219.8739836215973


                                                                                

# Multi Processing

In [20]:
import multiprocessing

def processus(graph_100):
    graph_100.connectedComponents()

# Créer les deux processus
p1 = multiprocessing.Process(target=processus, args=(graph_100,))
p2 = multiprocessing.Process(target=processus, args=(graph_100,))

start_time = time.time()  # Enregistrer le temps de début

# Démarrer les processus
p1.start()
p2.start()

# Attendre que les processus se terminent
p1.join()
print("Le temps d'execution de p1 est ", time.time() - start_time , "secondes")

p2.join()
end_time = time.time()  # Enregistrer le temps de fin
execution_time = end_time - start_time  # Calculer le temps d'exécution
print("Le temps d'execution de p2 est ", time.time() - start_time , "secondes")


print("Les deux processus sont terminés")
print("Temps d'exécution total (pour les 2 processus):", execution_time, "secondes")



Le temps d'execution de p1 est  20.8945255279541 secondes
Le temps d'execution de p2 est  42.22213077545166 secondes
Les deux processus sont terminés
Temps d'exécution total (pour les 2 processus): 42.22197937965393 secondes
