## Spark graph

Dans les tutoriels pr√©c√©dents nous avons toujours travaill√© avec des dataset ou table.

Il existe un √©cosyst√®me spark pour traiter de gros graphes via l'api **graphx** historiquement que disponible en scala il existe **graphFrames** en python.

Essayons de jouer avec cette api.


### Cr√©ation du context Spark

In [1]:
from pyspark.sql import SparkSession
from pyspark import SparkConf, SparkContext
import os

conf = SparkConf()

#url par d√©faut d'une api kubernetes acc√©d√© depuis l'int√©rieur du cluster (ici le notebook tourne lui m√™me dans kubernetes)
conf.setMaster("k8s://https://kubernetes.default.svc:443")

#image des executors spark: pour des raisons de simplicit√© on r√©utilise l'image du notebook
conf.set("spark.kubernetes.container.image", os.environ['IMAGE_NAME'])

# Nom du compte de service pour contacter l'api kubernetes : attention le package du datalab cr√©e lui m√™me cette variable d'enviromment.
# Dans un pod du cluster kubernetes il faut lire le fichier /var/run/secrets/kubernetes.io/serviceaccount/token
# N√©anmoins ce param√®tre est inutile car le contexte kubernetes local de ce notebook est pr√©configur√©
# conf.set("spark.kubernetes.authenticate.driver.serviceAccountName", os.environ['KUBERNETES_SERVICE_ACCOUNT']) 

# Nom du namespace kubernetes
conf.set("spark.kubernetes.namespace", os.environ['KUBERNETES_NAMESPACE'])

# Nombre d'executeur spark, il se lancera autant de pods kubernetes que le nombre indiqu√©.
conf.set("spark.executor.instances", "10")

# M√©moire allou√© √† la JVM
# Attention par d√©faut le pod kubernetes aura une limite sup√©rieur qui d√©pend d'autres param√®tres.
# On manipulera plus bas pour v√©rifier la limite de m√©moire totale d'un executeur
conf.set("spark.executor.memory", "4g")

conf.set("spark.kubernetes.driver.pod.name", os.environ['KUBERNETES_POD_NAME'])

# Param√®tres d'enregistrement des logs spark d'application
# Attention ce param√®tres n√©cessitent la cr√©ation d'un dossier spark-history. Spark ne le fait pas lui m√™me pour des raisons obscurs
# import s3fs
# endpoint = "https://"+os.environ['AWS_S3_ENDPOINT']
# fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': endpoint})
# fs.touch('s3://tm8enk/spark-history/.keep')
# sparkconf.set("spark.eventLog.enabled","true")
# sparkconf.set("spark.eventLog.dir","s3a://tm8enk/spark-history")
#ici pour g√©rer le dateTimeFormatter d√©pendant de la verion de java...
conf.set("spark.sql.legacy.timeParserPolicy","LEGACY")
conf.set("spark.default.parallelism",10)
conf.set("spark.sql.shuffle.partitions",10)
conf.set("spark.jars.packages","graphframes:graphframes:0.8.1-spark3.0-s_2.12")


<pyspark.conf.SparkConf at 0x7fdd5c3bb430>

On note que :
* on a pris 10 executeurs et on surcharge spark pour, lors de shuffle ou repartition, que son niveau de parallelisme soit 10 plutot que 200
* on importe un jar au d√©marrage il va aller le chercher sur maven central, ce jar sera appell√© par la librairie python graphFrames √† travers Py4j.

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("graph").config(conf = conf).getOrCreate()



:: loading settings :: url = jar:file:/opt/spark/jars/ivy-2.5.0.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /home/jovyan/.ivy2/cache
The jars for the packages stored in: /home/jovyan/.ivy2/jars
graphframes#graphframes added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-4b2d4557-b063-420a-a465-474cfa3a9511;1.0
	confs: [default]
	found graphframes#graphframes;0.8.1-spark3.0-s_2.12 in spark-packages
	found org.slf4j#slf4j-api;1.7.16 in central
downloading https://repos.spark-packages.org/graphframes/graphframes/0.8.1-spark3.0-s_2.12/graphframes-0.8.1-spark3.0-s_2.12.jar ...
	[SUCCESSFUL ] graphframes#graphframes;0.8.1-spark3.0-s_2.12!graphframes.jar (70ms)
downloading https://repo1.maven.org/maven2/org/slf4j/slf4j-api/1.7.16/slf4j-api-1.7.16.jar ...
	[SUCCESSFUL ] org.slf4j#slf4j-api;1.7.16!slf4j-api.jar (19ms)
:: resolution report :: resolve 3496ms :: artifacts dl 93ms
	:: modules in use:
	graphframes#graphframes;0.8.1-spark3.0-s_2.12 from spark-packages in [default]
	org.slf4j#slf4j-api;1.7.16 from central in [default]
	-----------

In [3]:
%pip install graphframes

Collecting graphframes
  Downloading graphframes-0.6-py2.py3-none-any.whl (18 kB)
Collecting nose
  Downloading nose-1.3.7-py3-none-any.whl (154 kB)
     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 154 kB 7.0 MB/s            
[?25hInstalling collected packages: nose, graphframes
Successfully installed graphframes-0.6 nose-1.3.7
Note: you may need to restart the kernel to use updated packages.


### Constitution d'un graphe

Un graphe peut √™tre vu comme 2 datasets:
* Un **dataset de noeud** avec 2 colonnes : un identifiant et un attribut.
* Un **dataset d'arcs** reliant 2 noeuds : avec un identifiant de noeud source, un destination et un ou des attributs sur cet arc
 
A partir de ces 2 datasets que spark peut traiter comme des rdd √† travers le cluster, on peut travailler sur un graphe, voici un exemple simple :

In [4]:
from graphframes import *

vertices = [(1,"A"), (2,"B"), (3, "C")]
edges = [(1,2,"love"), (2,1,"hate"), (2,3,"follow")]

v = spark.createDataFrame(vertices, ["id", "name"])
e = spark.createDataFrame(edges, ["src", "dst", "action"])

premierGraphe = GraphFrame(v, e)

In [5]:
premierGraphe.edges.show()



+---+---+------+
|src|dst|action|
+---+---+------+
|  1|  2|  love|
|  2|  1|  hate|
|  2|  3|follow|
+---+---+------+



                                                                                

### Faisons un graphe sur les donn√©es twitter concernant l'insee

Attention les donn√©es sont aliment√©es et √† la r√©execution du notebook les √©l√©ments suivants auront peut-√™tre √©volu√©s, on peut filtrer sur la date des tweets si n√©cessaire avant le 16 avril pour retrouver le d√©roul√© ci-dessous

In [6]:
#on importe le schema
import pickle
schema = pickle.load( open( "../7-spark-streaming/schema.p", "rb" ) )

In [8]:
#on lit les donnn√©es
df = spark.read.format("json")  \
    .schema(schema) \
    .load("s3a://projet-spark-lab/diffusion/tweets/input")

2022-03-30 07:22:20,319 WARN util.package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.


Essayons de cr√©er le graph des tweets mentionnant l'insee avec comme noeud les user de twitter et comme arc, 2 utilisateurs sont reli√©s si l'√©metteur du tweet a metionn√© un autre utilisateur dans le tweet

Par exemple si alice tweet "@bob tu vas vu le dernier tweet de l'Insee" le noeud alice sera reli√© -> √† bob.

Nous avons de la chance les donn√©es de l'api twitter pr√©mache le travail.

Regardons pour commencer dans le tweet de l'api twitter les donn√©es suivantes:
* l'identififiant du tweet
* l'identifiant de l'utilisateur qui tweete
* son nombre de followers pour savoir s'il est influent
* la liste des hashtags pr√©sents dans le tweet (d√©j√† donn√© par twitter)
* une indicatrice pour savoir s'il y a des hashtag 
* le texte du tweet
* les user mentionn√©s dans le tweet sous forme de tableau (identifiant, name, screen_name)

In [10]:
from pyspark.sql.functions import col,explode,size,first
#.select("id","user.id","user.name","user.followers_count","entities.hashtags","text")
df.select(col("id").alias("id"),
         col("user.id").alias("user_id"),
         col("user.name").alias("name"),
         col("user.followers_count"),
         col("entities.hashtags.text").alias("hashtags"),
         size("entities.hashtags").alias("has_hashtag"),
         col("text"),
         col("entities.user_mentions")) \
 .filter(col("has_hashtag")>0) \
 .head(1) 

                                                                                

[Row(id=1380403542725365762, user_id=1229160600737132544, name='FREDERIC üá´üá∑üê∑üç¥', followers_count=1981, hashtags=['FakeNews'], has_hashtag=1, text='RT @ThierryMARIANI: Quand @MLP_officiel le d√©nonce, c‚Äôest une #FakeNews.\nQuand l‚Äô@InseeFr le confirme, cela devient h√©las une √©vidence que‚Ä¶', user_mentions=[Row(id=87212906, id_str='87212906', indices=[3, 18], name='Thierry MARIANI', screen_name='ThierryMARIANI'), Row(id=217749896, id_str='217749896', indices=[26, 39], name='Marine Le Pen', screen_name='MLP_officiel'), Row(id=217473382, id_str='217473382', indices=[81, 89], name='Insee', screen_name='InseeFr')])]

Pour cr√©er le dataset des noeuds:
* on r√©cup√©re les id et noms des √©metteurs de tweets

In [11]:
#vertices
tweeters=df.select(col("user.id").alias("id"), col("user.name").alias("name"))

* On r√©cup√®re les id et noms des user mentionn√©s (m√™me s'ils n'ont pas forc√©ment twitt√©s)

In [12]:
users_mentionned=df.select(explode(col("entities.user_mentions"))).select(col("col.id").alias("id"),col("col.screen_name").alias("name")).distinct()

On fait l'union des 2 dataframe et on va ne retenir qu'un nom (le nom dans la mention n'est pas toujours exact au nom du compte apparemment ca √©vitera les doublons)

In [13]:
vertices=tweeters.union(users_mentionned)

In [14]:
from pyspark.sql.functions import udf, collect_list
# on d√©finit un udf qui prend le premier √©l√©ment
udf_first = udf(lambda x: x[0])
# on groupe l'union des deux dataset par id d'utilisateur et on collect 
#sous la forme d'une liste leurs noms qui peuvent diff√©rer entre les mentions et le compte
# on applique l'udf pour ne retenir que le nom en t√™te

final_vertices=vertices.groupby("id").agg(udf_first(collect_list("name")).alias("name"))

In [15]:
final_vertices.show(10, truncate=False)

[Stage 9:>                                                          (0 + 1) / 1]

+-------+------------------------+
|id     |name                    |
+-------+------------------------+
|612473 |BBCNews                 |
|707913 |Fender                  |
|1012981|Jean-Yves Stervinou     |
|1162091|PierreCol               |
|1349111|Croquignol              |
|1536651|Rubin Sfadj             |
|1745171|Charles                 |
|1994321|FRANCE24                |
|2357391|Christophe Prieuur      |
|4478161|Adam Curtis stan account|
+-------+------------------------+
only showing top 10 rows



                                                                                

Faisons maintenant le dataset des arcs :
* on prend l'identifiant de l'√©metteur
* on prend duplique/explose la ligne pour avoir une ligne par mention dans le tweet
* on r√©cup√®re les hashtags
* on r√©cup√®re l'identifiant du tweet

on group by user_id et mention.id (user mentionn√©) et on agggr√®ge pour avoir :
* le nombre de tweets
* la liste des hashtags vus entre ces 2 users dans le sens user_id -> mention.id

In [16]:
from pyspark.sql.functions import count,collect_list,flatten
edges=df.select(col("user.id").alias("user_id"), \
               explode(col("entities.user_mentions")).alias("mention"),
               col("entities.hashtags.text").alias("hashtags"),
               "id") \
 .groupby(col("user_id").alias("src"), \
          col("mention.id").alias("dst")) \
 .agg(count("id").alias("nb"),
      flatten(collect_list("hashtags")).alias("hashtags"),
      collect_list("id").alias("id"))

In [17]:
edges.show()



+-------+-------------------+---+--------+--------------------+
|    src|                dst| nb|hashtags|                  id|
+-------+-------------------+---+--------+--------------------+
|1012981| 973130412628246529|  1|      []|[1385318639994290...|
|1349111|          217473382|  1|      []|[1426382322706919...|
|1536651|           17510568|  1|      []|[1382995514933850...|
|1745171|           16649457|  1|      []|[1436253710137667...|
|3639301|         4041503175|  1|      []|[1386964092682964...|
|4478161|          217473382|  1|      []|[1433405191211130...|
|4478161|         3077516146|  1|      []|[1394763627283066...|
|5523462|          268227446|  1|      []|[1394285638040567...|
|5891532|            5788732|  1|      []|[1394724638886875...|
|6274062|          200659061|  1|      []|[1425104376738336...|
|6465822|         2832878397|  1|      []|[1386338289511280...|
|6465822|1194947441734361089|  1|      []|[1386338289511280...|
|6504012|          393484793|  1|      [

                                                                                

### Cr√©er le graphe

Ca y est on a nos 2 structures:
* **identifiant**, name ici seul **identifiant** est n√©cessaire name vient donner plus d'infos on pourrait ajouter d'autres colonnes
* **identifianttwittant(src), identifiantmentionn√©(dst)**, nombre de fois, liste de hashtags, liste des ids de tweets ici seul les 2 premiers identifiants sont n√©cessaires le reste donne du contexte qu'on pourrait utiliser sur les arcs.


In [18]:
from graphframes import *
g = GraphFrame(final_vertices, edges)

Maintenant qu'on a ce graphe on va le mettre en cache car nous allons le manipuler plusieurs fois

In [19]:
g.cache()

GraphFrame(v:[id: bigint, name: string], e:[src: bigint, dst: bigint ... 3 more fields])

In [25]:
print("le graphe a "+ str(g.vertices.count()) +" noeuds et "+ str(g.edges.count()) + " arcs")

le graphe a 46124 noeuds et 75911 arcs


### Recherche des utilisateurs populaires

On peut via l'api appliquer diff√©rents algorithmes, il est d'usage dans les graphes de traiter des notions suivantes :
* la notion de degr√© (nombre de connexion d'un noeud)
* la notion de triangle (triplet de noeud totalement connect√©)
* la notion de chemin entre noeud

L'algorithme pageRank est un algorithme qui est connu pour etre utilis√© dans les moteurs de recherche, il peut etre execut√© sur un graphe pour juger de la "popularit√©" d'un noeud.

On s'attend √† ce que le comte de l'insee soit pas mal plac√©.


In [26]:
pagerank = g.pageRank(resetProbability=0.15,tol=0.01)

In [27]:
from pyspark.sql.functions import desc
pagerank.vertices.sort(desc("pagerank")).show(truncate=False)

+-------------------+--------------------------------------------------+------------------+
|id                 |name                                              |pagerank          |
+-------------------+--------------------------------------------------+------------------+
|217473382          |Insee                                             |2006.2580214097795|
|304576847          |maximetandonnet                                   |753.6780909654278 |
|1312779074088194049|ùïèùüöùîªùîºùïÑüáπüá¨üá¨üá≠                                |423.54102917543133|
|103918784          |davidlisnard                                      |372.26630218296174|
|546941531          |Guillaume Duval                                   |346.82728313325487|
|983334079981654016 |Docteur Peter EL BAZE                             |336.18135734295106|
|1214315619031478272|Mediavenir                                        |335.22836144910286|
|1499400284         |J_Bardella                               

Regardons pourquoi David Lisnard le maire de Cannes arrive dans le top des influenceurs

In [28]:
pagerank.edges.where((col("src")=="103918784") ).show(truncate=False)

+---------+---------+---+--------+---------------------------------------------------------------+------+
|src      |dst      |nb |hashtags|id                                                             |weight|
+---------+---------+---+--------+---------------------------------------------------------------+------+
|103918784|103918784|3  |[]      |[1380509496284430336, 1380509496284430336, 1380509496284430336]|0.5   |
|103918784|114222231|1  |[]      |[1430429793301024771]                                          |0.5   |
+---------+---------+---+--------+---------------------------------------------------------------+------+



In [29]:
pagerank.edges.where((col("dst")=="103918784") ).count()

545

David lisnard n'a tweet√© qu'une fois mais il s'est fait mentionn√© 545 fois autour de ce tweet.

https://twitter.com/davidlisnard/status/1380509496284430336

On peut regarder les utilisateurs ayant le plus √©t√© mentionn√©s

In [30]:
g.inDegrees.join(g.vertices,"id").orderBy(desc("inDegree")).show(10,False)

+-------------------+--------+--------------------------------------------------+
|id                 |inDegree|name                                              |
+-------------------+--------+--------------------------------------------------+
|217473382          |5159    |Insee                                             |
|304576847          |2660    |maximetandonnet                                   |
|1499400284         |1163    |J_Bardella                                        |
|1214315619031478272|1115    |Mediavenir                                        |
|1312779074088194049|983     |ùïèùüöùîªùîºùïÑüáπüá¨üá¨üá≠                                |
|983334079981654016 |883     |Docteur Peter EL BAZE                             |
|2305392175         |692     |superflameur                                      |
|945473418          |632     |Docteur Laurent Alexandre #JeSuisDoublementVaccin√©|
|204368725          |620     |Ian Brossat                                      

ou qui ont mentionn√© le plus

In [31]:
g.outDegrees.join(g.vertices,"id").orderBy(desc("outDegree")).show(10,False)

+-------------------+---------+--------------------------------------------------+
|id                 |outDegree|name                                              |
+-------------------+---------+--------------------------------------------------+
|1312779074088194049|150      |ùïèùüöùîªùîºùïÑüáπüá¨üá¨üá≠                                |
|891710670856753152 |125      |infos etc                                         |
|217473382          |109      |Insee                                             |
|1107619640409276417|92       |Trinpküçì‚úä 0.1% #ResistSR                          |
|1359816991033458689|91       |Cris Finland                                      |
|1209500610787196929|68       |Observatoire de l'immigration et de la d√©mographie|
|702991804661112832 |56       |Ari Kouts                                         |
|1378687476697550852|53       |BouleBille                                        |
|1222491562824949763|53       |Jacques                          

L'api propose d'autres algorithmes permettant:
* de clusteriser le graphe (connected ou strong connected components)
* de rechercher des patterns ou chemin dans le graphe ce qui pourrait etre int√©ressant pour voir par exemple une chaine de retweet.


Enfin on peut nous m√™me cr√©er nos propres algorithmes pour cela l'api propose une m√©thode aggregate messages permettant d'envoyer un message de noeud et noeud et d√©finir l'aggregation √† retenir

In [32]:
spark.stop()

2022-03-30 08:05:36,267 WARN k8s.ExecutorPodsWatchSnapshotSource: Kubernetes client has been closed.
