In [1]:
from pyspark.sql import SparkSession
from pyspark.ml.feature import Tokenizer, CountVectorizer
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.sql.functions import when

In [2]:
# Créer la session Spark avec les dépendances nécessaires
spark = SparkSession.builder \
    .appName("Sentiment Analysis") \
    .config("spark.jars.packages", 
            "org.apache.spark:spark-mllib_2.12:3.3.0,org.postgresql:postgresql:42.2.25") \
    .getOrCreate()
spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true")

# URL JDBC pour PostgreSQL
jdbc_url = "jdbc:postgresql://192.168.1.10:5432/postgres"

# Propriétés JDBC
jdbc_properties = {
    "user": "postgres",
    "password": "test2021",
    "driver": "org.postgresql.Driver"
}

In [3]:
# Charger les données de la table 'toots'
df = spark.read.jdbc(url=jdbc_url, table="toots", properties=jdbc_properties)

In [4]:
# Vérifier le schéma et afficher les données
df.printSchema()
df.show(5)

root
 |-- user: string (nullable = true)
 |-- content: string (nullable = true)
 |-- timestamp: timestamp (nullable = true)
 |-- language: string (nullable = true)
 |-- date: date (nullable = true)
 |-- time: string (nullable = true)

+---------+--------------------+-------------------+--------+----------+-----+
|     user|             content|          timestamp|language|      date| time|
+---------+--------------------+-------------------+--------+----------+-----+
| uavideos|<p>Video : <a hre...|2024-10-13 08:15:50|      en|2024-10-13|08:15|
|   guigui|<p>the certificat...|2024-10-13 08:15:54|      en|2024-10-13|08:15|
|i8FunInfo|<p><a href="https...|2024-10-13 08:15:31|      en|2024-10-13|08:15|
|    f1bot|<p>Autosport (@au...|2024-10-13 08:15:53|      en|2024-10-13|08:15|
|    f1bot|<p>Autosport (@au...|2024-10-13 08:15:53|      en|2024-10-13|08:15|
+---------+--------------------+-------------------+--------+----------+-----+
only showing top 5 rows



In [5]:
# Créer une colonne 'label' pour les sentiments
# Ajustez la logique en fonction des critères que vous souhaitez utiliser
df = df.withColumn("label", when(df.content.contains("good"), 1)
                             .when(df.content.contains("bad"), 0)
                             .otherwise(2))  # 2 pour neutre ou inconnu

In [6]:
# Filtrer les données pour ne garder que les sentiments positifs et négatifs
train_data = df.filter(df.label != 2)  # Exclure les neutres
train_data = train_data.dropna(subset=["content", "label"])  # Supprimer les lignes avec des valeurs manquantes

In [7]:
# Prétraitement du texte
tokenizer = Tokenizer(inputCol="content", outputCol="words")
tokenized_data = tokenizer.transform(train_data)

vectorizer = CountVectorizer(inputCol="words", outputCol="features")
vectorized_data = vectorizer.fit(tokenized_data).transform(tokenized_data)

In [8]:
# Entraînement du modèle de classification
lr = LogisticRegression(featuresCol="features", labelCol="label")
train_data, test_data = vectorized_data.randomSplit([0.8, 0.2])
model = lr.fit(train_data)

In [9]:
# Prédictions sur les données de test
predictions = model.transform(test_data)

In [10]:
# Évaluation du modèle
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)
print(f"Accuracy: {accuracy}")

Accuracy: 0.8


In [11]:
# Appliquer le modèle sur l'ensemble de données complet
batch_predictions = model.transform(vectorized_data)

In [14]:
# Afficher un aperçu des données avec les prédictions
predictions_overview = batch_predictions.select("user", "content", "prediction", "label")
predictions_overview.show(10)

+---------------+--------------------------------+----------+-----+
|           user|                         content|prediction|label|
+---------------+--------------------------------+----------+-----+
|     kirancodes|            <p><span>If you h...|       1.0|    1|
|   LydiaConwell|            <p>I see there's ...|       1.0|    1|
|chestnutvinegar|            <p>One is good en...|       1.0|    1|
|  fractaldoctor|            <p>Without origin...|       1.0|    1|
|       WorldSBK|            <p>It's not only ...|       1.0|    1|
|   Naija247news|            <p>Seven Ships Ex...|       1.0|    1|
|   shaunsocials|            <p>They had a bad...|       0.0|    0|
|     burgatshow|            <p>Tegnap en volt...|       1.0|    0|
|         brutus|<p>希少素材×サルトリアの技〈L...|       1.0|    1|
|        jfmezei|            <p>So on the Cana...|       1.0|    1|
+---------------+--------------------------------+----------+-----+
only showing top 10 rows



In [13]:
# Stocker les résultats dans PostgreSQL
results = batch_predictions.select("user", "content", "prediction")
results.write.jdbc(url=jdbc_url, table="sentiment_results", properties=jdbc_properties, mode="append")