Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.9-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (2.9 MB)
     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2.9 MB 3.6 MB/s            
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.9
Note: you may need to restart the kernel to use updated packages.


In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import regexp_replace, col, regexp_extract, split
import psycopg2

# 1. Cr√©er une session Spark
print("Cr√©ation de la session Spark...")
spark = SparkSession.builder \
    .appName("PostgresToSpark") \
    .config("spark.jars", "/usr/local/spark/jars/postgresql-42.3.9.jar") \
    .getOrCreate()

# 2. Configurer les param√®tres de connexion
print("Configuration des param√®tres de connexion JDBC pour PostgreSQL...")
jdbc_url = "jdbc:postgresql://postgres:5432/DB_Mastodon"
properties = {
    "user": "fadi",       
    "password": "fadi",   
    "driver": "org.postgresql.Driver"  
}

# 3. Lire les donn√©es depuis PostgreSQL
print("Lecture des donn√©es depuis la table 'Mostodon_BRONZ_bis' dans PostgreSQL...")
df = spark.read.jdbc(url=jdbc_url, table="Mostodon_BRONZ_bis", properties=properties)
print(f"Nombre de lignes lues : {df.count()}")

# 4. Nettoyer la colonne 'content' des balises HTML
print("Suppression des balises HTML dans la colonne 'content'...")
df_cleaned = df.withColumn("content", regexp_replace(col("content"), "<[^>]+>", ""))

# 5. Extraire les hashtags (mots pr√©c√©d√©s de #) et ajouter une nouvelle colonne 'tags'
print("Extraction des hashtags depuis la colonne 'content'...")
df_with_tags = df_cleaned.withColumn("tags", regexp_extract(col("content"), r'(#\w+)', 0))

# Si un contenu peut avoir plusieurs hashtags, on peut les s√©parer en utilisant 'split'
df_with_tags = df_with_tags.withColumn("tags", split(col("tags"), " "))

# 6. Filtrer les lignes avec certaines conditions
print("Filtrage des donn√©es en fonction des colonnes 'favourites_count', 'reblogs_count', 'replies_count'...")
df_max_values = df_with_tags.filter(
    (col("favourites_count") > 1) & 
    (col("reblogs_count") > 1) & 
    (col("replies_count") > 1)
)
print(f"Nombre de lignes apr√®s filtrage : {df_max_values.count()}")

# 7. Afficher les r√©sultats filtr√©s
df_max_values.show()

# 8. Connexion √† PostgreSQL via psycopg2
print("Connexion √† PostgreSQL avec psycopg2...")
conn = psycopg2.connect(
    host="postgres",  
    database="DB_Mastodon",
    user="fadi",
    password="fadi"
)
cursor = conn.cursor()

# 9. Cr√©ation de la table 'Mostodon_SILVER_bis' avec une colonne pour les 'tags'
print("Cr√©ation de la table 'Mostodon_SILVER_bis' avec une colonne 'tags' si elle n'existe pas d√©j√†...")
create_table_query = '''
CREATE TABLE IF NOT EXISTS Mostodon_SILVER_bis (
    id BIGINT PRIMARY KEY,
    username TEXT NOT NULL,
    display_name TEXT NOT NULL,
    content TEXT NOT NULL,
    favourites_count INT NOT NULL,
    reblogs_count INT NOT NULL,
    replies_count INT NOT NULL,
    tags TEXT  -- Colonne pour stocker les hashtags
);
'''
cursor.execute(create_table_query)
conn.commit()

# 10. Lire les IDs existants dans la table Mostodon_SILVER_bis
existing_ids = spark.read.jdbc(url=jdbc_url, table="Mostodon_SILVER_bis", properties=properties) \
    .select("id") \
    .rdd.flatMap(lambda x: x).collect()

# 11. Filtrer le DataFrame pour exclure les enregistrements existants
df_filtered = df_max_values.filter(~col("id").isin(existing_ids))

# 12. Insertion des donn√©es filtr√©es dans la table Mostodon_SILVER_bis
print("Insertion des donn√©es nettoy√©es avec les tags dans la table 'Mostodon_SILVER_bis' via Spark JDBC...")

# Convertir la colonne tags (array) en texte avant d'√©crire dans la base
df_filtered = df_filtered.withColumn("tags", col("tags").cast("string"))

# Insertion des donn√©es
df_filtered.write.jdbc(url=jdbc_url, table="Mostodon_SILVER_bis", mode="append", properties=properties)
print("Insertion termin√©e.")

# 13. Compter le nombre total d'entr√©es dans la table 'Mostodon_SILVER_bis'
print("Calcul du nombre total d'entr√©es dans la table 'Mostodon_SILVER_bis'...")
cursor.execute("SELECT COUNT(*) FROM Mostodon_SILVER_bis;")
count = cursor.fetchone()[0]
print(f"Nombre total d'entr√©es dans la table 'Mostodon_SILVER_bis' : {count}")

# 14. Fermer le curseur et la connexion PostgreSQL
cursor.close()
conn.close()
print("Connexion √† PostgreSQL ferm√©e.")

# 15. Fermer la session Spark
print("Fermeture de la session Spark...")
spark.stop()
print("Session Spark ferm√©e.")


Cr√©ation de la session Spark...
Configuration des param√®tres de connexion JDBC pour PostgreSQL...
Lecture des donn√©es depuis la table 'Mostodon_BRONZ_bis' dans PostgreSQL...
Nombre de lignes lues : 94855
Suppression des balises HTML dans la colonne 'content'...
Extraction des hashtags depuis la colonne 'content'...
Filtrage des donn√©es en fonction des colonnes 'favourites_count', 'reblogs_count', 'replies_count'...
Nombre de lignes apr√®s filtrage : 92145
+------------------+------------------+--------------------+--------------------+----------------+-------------+-------------+------------+
|                id|          username|        display_name|             content|favourites_count|reblogs_count|replies_count|        tags|
+------------------+------------------+--------------------+--------------------+----------------+-------------+-------------+------------+
|113284756705098796|       CACGraphics|        CAC Graphics|‚ÄúKeeneland Backst...|              46|           65|  