RDD Spark et Op√©ration. 

Un RDD est la structure de base pour le traitement des donn√©es dans Apache Spark. il s'agit d'une collection : 
- R√©silent : si un noeud tombe, spark peut en reconstruire le RDD √† partir des transformations initiales grace aux DAG
- Distribu√© -> Les donn√©es sont distribu√©es sur diff√©rents noeuds du cluster qui permet un traitement parall√®le. 
- Immutable -> Une fois cr√©e, un RDD ne peut pas √™tre modifi√©, mais on peut en g√©n√©rer un nouveau √† partir de transformation. 
- Layly Evaluated : les transformations appliqu√©es sur le RDD tel que map, filter ne sont pas appliqu√© qu'au moment d'une action comme : collect(), count() etc.
- Partitionn√© -> Spark divise automatiquement les donn√©es en partitions pour am√©liorer l'efficacit√© du calcul. 

- Transformations (cr√©ent un nouveau RDD) : map(), filter(), flatMap(), reduceByKey(), etc.
- Actions (d√©clenchent l‚Äôex√©cution des transformations) : collect(), count(), reduce(), saveAsTextFile(), etc.

In [1]:
from pyspark import SparkContext
from pyspark.sql import SparkSession
import random
#cr√©er un SparkContext
sc = SparkContext.getOrCreate()
spark = SparkSession.builder.appName("RDD_to_DF").getOrCreate()


# <span style="color:red; font-size:1em; font-weight:bold"> Diff√©rence entre SparkContext et SparkSession :</span> 



| üè∑Ô∏è Caract√©ristique  | ‚ö° SparkContext (`sc`) | üöÄ SparkSession (`spark`) |
|-----------------|-----------------|------------------|
| **D√©finition** | Point d‚Äôentr√©e original de Spark pour acc√©der au cluster. | API unifi√©e introduite dans Spark 2.0 qui regroupe `SparkContext`, `SQLContext` et `HiveContext`. |
| **Utilisation principale** | Manipulation bas niveau des RDDs. | Manipulation des DataFrames, SQL, streaming et interactions avec Spark SQL. |
| **Cr√©ation** | `sc = SparkContext.getOrCreate()` | `spark = SparkSession.builder.appName("App").getOrCreate()` |
| **Support SQL/DataFrame** | ‚ùå Non pris en charge directement. | ‚úÖ Prise en charge compl√®te (`spark.sql()`, `spark.read` etc.). |
| **Acc√®s au SparkContext** | ‚úÖ C'est lui-m√™me le contexte principal. | ‚úÖ Peut acc√©der √† `SparkContext` via `spark.sparkContext`. |


In [2]:
#Exemple de cr√©ation d'un RDD spark et de sa Transformation
data = [1,2,3,4,5,6,7,8,9,10]
rdd = sc.parallelize(data) # c√©tte op√©ration permet de cr√©er un RDD immutable. 
# Transformer les donn√©es : Nous allons les multiplier par 2
rdd_multiplie = rdd.map(lambda x: x * 2)

In [3]:
# Action : R√©cup√©ration des r√©sultats. 
result = rdd_multiplie.collect()
result

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

In [4]:
# lire le fichier .txt dans un RDD spark. 
text_rdd = sc.textFile('/home/jovyan/work/tears_in_rain.txt')

In [5]:
# Afficher les 3 premier √©l√©ments de notre RDD
text_rdd.take(3)

["I've seen things you people wouldn't believe. ",
 'Attack ships on fire off the shoulder of Orion. ',
 'I watched C-beams glitter in the dark near the Tannh√§user Gate. ']

In [6]:
print(f"le nombre d'√©l√©ment : {text_rdd.count()}")
print(f"les 10 premiers √©l√©ments  : {text_rdd.take(10)}")

le nombre d'√©l√©ment : 5
les 10 premiers √©l√©ments  : ["I've seen things you people wouldn't believe. ", 'Attack ships on fire off the shoulder of Orion. ', 'I watched C-beams glitter in the dark near the Tannh√§user Gate. ', 'All those moments will be lost in time, like tears in rain. ', 'Time to die.']


In [7]:
# Spliter les phrases en listes de Mots
split_text = text_rdd.map(lambda x: x.split())

In [8]:
split_text.take(1)

[["I've", 'seen', 'things', 'you', 'people', "wouldn't", 'believe.']]

<span style="color:red; font-size:1em; font-weight:bold">L'exemple suivant permet de voir les points suivants :</span> 

- G√©n√©ration d'une liste de nombre de 10 Millions contenues entre 1 et 1000 
- Cr√©ation d'un RDD Spark √† l'aide de la fontion parrallelize()
- Transformer les valeurs de la liste en Tuples pour pouvoir cr√©er un DataFrame spark. 
- Cr√©ation du DataFrame Spark √† l'aide de la fonction createDataFrame. 

Pourquoi devons nous transformer les valeurs de notre liste en Tuple pour cr√©er un DataFrame Spark ? 

La raison est due √† la structure des donn√©es dans Spark. G√©n√©ralement les donn√©es sont d√©finies sous forme de tuple ou chaque tuple repr√©sente une colonne. 

liste = [1,2,3,4] --> Spark ne saura pas l'interpr√©ter sous forme de lignes et des colonnes. Il est n√©cessaire de convertir en tuple sous forme de (1,), (2,)

In [None]:
number = 10_000_000
rdd_numbers = sc.parallelize(range(number)).map(lambda x: random.randint(1 , 1000))
df = spark.createDataFrame(rdd_numbers.map(lambda x: (x,)))
display(df.show(3))

# <span style="color:red; font-size:1em; font-weight:bold">Requ√™ter nos donn√©es grace √† SparkSql</span> 

Executer des requ√™tes sql sur un dataframe SPARK n√©cessite de cr√©er une vue d'une table en m√©moire. aveec la fonctione .createOrReplaceTempView pour le charger en m√©moire. A la suite de quoi nous pouvons ex√©cuter nos requ√™tes sql. 

- La vue permet de requ√™ter les donn√©es de mani√®res plus optimale. 
- Attention : Si la vue existe d√©ja, nous ne pouvons pas la r√©cr√©er. Il faudrait alors soit la supprimer ou utiliser une clause if not exits. 

In [None]:
# df.createTempView("my_view") # premi√®re option 
df.createOrReplaceTempView("my_view") # Deuxi√®me option 
result = spark.sql("select * from my_view where _1 = 994")
result.show()

In [11]:
display(result)

DataFrame[_1: bigint]

# <span style="color:red; font-size:1em; font-weight:bold">Manipuler nos DataFrames</span> 


In [12]:
# Premi√®re fa√ßon d'acc√©der √† nos colonne simplement en les r√©f√©ren√ßant entre [""]
df["_1"]

Column<'_1'>

### `functions` de PySpark
Acc√©der aux colonnes grace au module de PySpark sql qui s'appel functions. 
En revanche cette m√©thode ne fonction qu'√† l'int√©rieur des commandes sql. Raison pour laquelle on l'utilise dans la m√©thode select. 
Fonctions du module `functions` de PySpark

Le module **`functions`** de PySpark propose une large gamme de fonctions pour effectuer des manipulations et des agr√©gations sur les colonnes d'un DataFrame. Voici quelques-unes des fonctions les plus couramment utilis√©es :

### R√©sum√© des fonctions de `functions` de PySpark :

- **S√©lection** : `col()`, `alias()`, `when()`, `lit()`, `cast()`.
- **Agr√©gation** : `avg()`, `sum()`, `min()`, `max()`, `count()`, `countDistinct()`, `stddev()`, `variance()`, `first()`, `last()`.
- **Fen√™tre** : `row_number()`, `rank()`, `dense_rank()`, `ntile()`, `lag()`, `lead()`.
- **Math√©matiques** : `abs()`, `sqrt()`, `round()`, `exp()`, `log()`, `pow()`.
- **Cha√Ænes** : `length()`, `trim()`, `regexp_extract()`, `regexp_replace()`.
- **Dates** : `current_date()`, `current_timestamp()`, `date_format()`, `to_date()`, `year()`, `month()`, `dayofmonth()`.
- **Nulles** : `isNull()`, `isNotNull()`, `coalesce()`.
- **Autres transformations** : `collect_list()`, `collect_set()`, `concat_ws()`.


In [13]:
from pyspark.sql import functions as f 
result.select(f.col("_1"))

DataFrame[_1: bigint]

In [14]:
result.select(f.avg("_1"))

DataFrame[avg(_1): double]

### `Action` de PySpark

In [None]:
df.show()

In [16]:
df.take(2)

[Row(_1=23), Row(_1=42)]

In [17]:
df.count()

10000000

In [18]:
df.describe()

DataFrame[summary: string, _1: string]

In [19]:
df.describe().toPandas()

Unnamed: 0,summary,_1
0,count,10000000.0
1,mean,500.3427784
2,stddev,288.67221665815606
3,min,1.0
4,max,1000.0


In [20]:
display(df)

DataFrame[_1: bigint]

# <span style="color:red; font-size:1em; font-weight:bold">Utiliser Limit pour r√©cup√©rer qu'un nombre limiter de donn√©es</span> 

Lors de la manipulation des tr√®s gros volumes de donn√©es il faut veiller √† ne pas faire des op√©rations qui peuvent saturer la m√©moire. 

In [21]:
df.limit(5).describe().toPandas()

Unnamed: 0,summary,_1
0,count,5.0
1,mean,442.4
2,stddev,261.8659962652654
3,min,145.0
4,max,756.0


### `Sauvergarder nos r√©sultat`

### La m√©thode .write.mode("overwrite").csv()

Nous pr√©f√©rons cette m√©thode dans le cas ou notre DataFrame est tr√®s grand. √ßa permet de : 

- Gagner en performance : plus rapide d'√©crire les partitions que tout fusionner.
- Eviter les probl√®mes de m√©moires. 
- Quand les donn√©es sont  stock√©s sur  : HDFS, S3, Google Cloud Storage. 

Nous utiliserons cette m√©thodes si nous voulons garder les partitions de nos donn√©es. Ou si nous souhaitons les partitionner selon des crit√®res 
Exemple : Ann√©es et Mois. 

df.write.partitionBy("ann√©e", "mois").csv("hdfs://chemin_output", header=True)


In [24]:
df.write.mode("overwrite").csv("./home/jovyan/work/monDfIssueDePySpark")

### La m√©thode .coalesce(1).write.mode("overwrite").csv

Cette m√©thode est √† √©viter lorsque le jeu de donn√©es est extr√™mement lourd. En effet, elle n'est pas efficace et tr√®s gourmande en m√©moire. 
A utiliser uniquement si nous voulons avoir un seul jeu de donn√©es xlsx ou un pandas. 


- En comparaison le m√™me df de 10 000 000 d'enregistrement est enregistr√© en 3.4s en multipart contre 21.8s en une seule partie et 3.3 en Parquet en plusiuers partie et 20.9 en une seule partie. 

√ßa montre que le mode parquet reste quand m√™me le mode le plus efficace √† l'export. Mais tout d√©pend de notre besoin final et l'usage qui sera fait de la donn√©e une fois export√©e. ¬µ

In [23]:
df.coalesce(1).write.mode("overwrite").csv("./home/jovyan/work/monDfEnUnSeulFichier", header=True)


### Les fichier Parquet 
üöÄ Avantages du format Parquet :
‚úÖ Stockage optimis√© & compression :

Parquet stocke les donn√©es en colonnes et applique une compression efficace.
R√©sultat : Fichiers plus petits (jusqu‚Äô√† 75% d‚Äô√©conomie compar√© √† CSV).
‚úÖ Lecture rapide & s√©lective :

Spark ne charge que les colonnes utilis√©es dans une requ√™te, ce qui acc√©l√®re l'analyse.
Ex : avec CSV, Spark doit lire tout le fichier m√™me si on ne veut qu'une colonne.
‚úÖ G√®re les types de donn√©es & les sch√©mas :

Parquet conserve les types natifs (int, float, date, etc.), contrairement √† CSV o√π tout est en string.
‚úÖ Meilleur pour les traitements distribu√©s :

Supporte le partitionnement et l'indexation des fichiers ‚Üí booste la performance.
Fonctionne super bien avec Hive, AWS Athena, Google BigQuery.

In [None]:
# En plusieurs fichiers 
df.write.mode("overwrite").parquet("./home/jovyan/work/MonFichierParquet")


In [None]:
# En un seul fichier 
df.coalesce(1).write.mode("overwrite").parquet("./home/jovyan/work/MonFichierParquetEnUnSeulFichier")