In [13]:
# Importation des bibliothèques nécessaires
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf, col, lower, regexp_replace, length
from pyspark.sql.types import StringType
from pyspark.ml.feature import Tokenizer, StopWordsRemover, CountVectorizer, IDF
from langdetect import detect, LangDetectException
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from sqlalchemy import create_engine
import pandas as pd

import nltk
nltk.download('vader_lexicon')

# 1. Créer une session Spark
spark = SparkSession.builder \
    .appName("Mastodon Sentiment Analysis") \
    .config("spark.jars", "/usr/local/spark/jars/postgresql-42.3.9.jar") \
    .getOrCreate()

# 2. Configurer les paramètres de connexion à la base PostgreSQL
jdbc_url = "jdbc:postgresql://postgres:5432/DB_Mastodon"
properties = {
    "user": "fadi",
    "password": "fadi",
    "driver": "org.postgresql.Driver"
}

# 3. Lire les données depuis PostgreSQL
df_gold = spark.read.jdbc(url=jdbc_url, table="Mostodon_GOLD_bis", properties=properties)

# 4. Détection de langue et nettoyage

# Fonction pour détecter la langue avec langdetect
def detect_language(text):
    try:
        return detect(text)
    except LangDetectException:
        return 'Other'

# UDF pour la détection de langue
detect_language_udf = udf(detect_language, StringType())

# Ajouter une colonne "Lang" pour la langue détectée
df_gold = df_gold.withColumn("Lang", detect_language_udf(col("content")))

# Filtrer les données pour ne garder que les textes en anglais
df_gold = df_gold.filter(df_gold.Lang == 'en')

# Nettoyage de texte (suppression des URLs, mise en minuscules et suppression des caractères spéciaux)
df_gold = df_gold.withColumn('content', lower(col('content')))
df_gold = df_gold.withColumn('content', regexp_replace('content', 'https?://\S+|www\.\S+', ''))
df_gold = df_gold.withColumn('content', regexp_replace('content', '[^a-zA-Z\s]', ''))
df_gold = df_gold.withColumn('content', regexp_replace('content', '\s+', ' '))

# Supprimer les textes trop courts (optionnel)
df_gold = df_gold.filter(length(col('content')) > 5)

# 5. Prétraitement du texte avec PySpark ML

# Tokenizer: Diviser le texte en mots
tokenizer = Tokenizer(inputCol="content", outputCol="words")
tokenized_data = tokenizer.transform(df_gold)

# Supprimer les mots vides (stopwords)
remover = StopWordsRemover(inputCol="words", outputCol="filtered_words")
data_no_stopwords = remover.transform(tokenized_data)

# Convertir les mots en vecteurs de caractéristiques avec CountVectorizer
vectorizer = CountVectorizer(inputCol="filtered_words", outputCol="raw_features")
vectorized_data = vectorizer.fit(data_no_stopwords).transform(data_no_stopwords)

# Utiliser TF-IDF pour pondérer les mots
idf = IDF(inputCol="raw_features", outputCol="features")
tfidf_data = idf.fit(vectorized_data).transform(vectorized_data)

# 6. Analyse de sentiment avec VADER

# Instancier VADER
sia = SentimentIntensityAnalyzer()

# Fonction pour obtenir le sentiment avec VADER
def get_vader_sentiment(text):
    scores = sia.polarity_scores(text)
    if scores['compound'] > 0.05:
        return 'Positive'
    elif scores['compound'] < -0.05:
        return 'Negative'
    else:
        return 'Neutral'

# UDF pour l'analyse de sentiment avec VADER
get_vader_sentiment_udf = udf(get_vader_sentiment, StringType())

# Ajouter une colonne "Sentiment" avec le résultat de VADER
df_gold = df_gold.withColumn("Sentiment", get_vader_sentiment_udf(col("content")))

# 7. Enregistrer les résultats dans PostgreSQL

# Sélectionner les colonnes id, username, content, et sentiment
final_df = df_gold.select('id', 'username', 'content', 'Sentiment').toPandas()

# Enregistrer dans PostgreSQL
engine = create_engine('postgresql://fadi:fadi@postgres:5432/DB_Mastodon')
final_df.to_sql('sentiment_analysis_results', engine, if_exists='replace', index=False)

# Fermer la session Spark
spark.stop()


[nltk_data] Downloading package vader_lexicon to
[nltk_data]     /home/jovyan/nltk_data...
