In [8]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_timestamp

# Créer une session Spark
spark = SparkSession.builder \
    .appName("CSV to PostgreSQL") \
    .getOrCreate()

# Spécifiez le chemin de votre fichier CSV
csv_file_path = "/tmp/tweets.csv"

# Lire le fichier CSV dans un DataFrame
df = spark.read.csv(csv_file_path, header=True, inferSchema=True)

# Afficher les schémas et les données brutes
print("Schéma du DataFrame:")
df.printSchema()
print("Données brutes:")
df.show()

# Conversion du champ date_time en format Timestamp
df = df.withColumn("timestamp", to_timestamp(col("date_time"), "yyyy-MM-dd HH:mm:ss"))

# Suppression des enregistrements sans texte ou horodatage
df_cleaned = df.filter(col("content").isNotNull())

# Optionnel : Filtrage par langue (par exemple, les tweets en anglais uniquement)
df_cleaned = df_cleaned.filter(col("language") == "en")

# Affichage des données nettoyées
print("Données nettoyées:")
df_cleaned.show()

# Configurer les paramètres de connexion à PostgreSQL
postgres_url = "jdbc:postgresql://postgres:5432/twitterdb"
properties = {
    "user": "fadi",
    "password": "fadi",
    "driver": "org.postgresql.Driver"
}

# Écrire le DataFrame nettoyé dans la table PostgreSQL
df_cleaned.write.jdbc(url=postgres_url, table="X_TWEET", mode="overwrite", properties=properties)

print("Données nettoyées enregistrées dans PostgreSQL avec succès.")

Schéma du DataFrame:
root
 |-- author: string (nullable = true)
 |-- content: string (nullable = true)
 |-- country: string (nullable = true)
 |-- date_time: string (nullable = true)
 |-- id: string (nullable = true)
 |-- language: string (nullable = true)
 |-- latitude: string (nullable = true)
 |-- longitude: string (nullable = true)
 |-- number_of_likes: string (nullable = true)
 |-- number_of_shares: string (nullable = true)

Données brutes:
+--------------------+--------------------+----------------+----------------+-----------+--------+--------+---------+---------------+----------------+
|              author|             content|         country|       date_time|         id|language|latitude|longitude|number_of_likes|number_of_shares|
+--------------------+--------------------+----------------+----------------+-----------+--------+--------+---------+---------------+----------------+
|           katyperry|Is history repeat...|            NULL|12/01/2017 19:52|8.19633E+17|      en