In [1]:
from confluent_kafka import Consumer, KafkaError
import psycopg2
import json

# Configuration du consommateur Kafka
conf = {
    'bootstrap.servers': 'host.docker.internal:9092',  # Adresse de votre broker Kafka
    'group.id': 'my_group',                           # Identifiant du groupe de consommateurs
    'auto.offset.reset': 'earliest'                   # Lire depuis le début si aucun offset n'existe
}

# Création du consommateur Kafka
consumer = Consumer(conf)

# Connexion à PostgreSQL
pg_conf = {
    'host': 'postgres',  # ou 'localhost' si vous ne l'exécutez pas dans Docker
    'port': '5432',
    'database': 'mastodondb',
    'user': '',
    'password': ''
}

try:
    # Établir une connexion à PostgreSQL
    print("Connexion à PostgreSQL...")
    conn = psycopg2.connect(**pg_conf)
    cursor = conn.cursor()

    # Créer une table pour les données brutes (Bronze)
    print("Création de la table bronze_mastodon si elle n'existe pas déjà...")
    cursor.execute("""
    CREATE TABLE IF NOT EXISTS bronze_mastodon (
        id BIGINT PRIMARY KEY,
        content TEXT,
        username TEXT,
        reblogs_count BIGINT,
        favourites_count BIGINT,
        replies_count BIGINT,
        language TEXT,
        url TEXT,
        media_url TEXT,
        media_preview_url TEXT,
        hashtags TEXT,
        created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
    )
    """)
    conn.commit()
    print("Table bronze_mastodon prête.")

    # Souscription au topic Kafka
    consumer.subscribe(['mastodon_stream'])
    print("Souscription au topic 'mastodon_stream' réussie.")

    while True:
        # Poll pour les nouveaux contenus
        print("Polling Kafka pour de nouveaux contenus...")
        msg = consumer.poll(1.0)  # Attendre jusqu'à 1 seconde pour un contenu

        if msg is None:
            continue
        if msg.error():
            print(f"Erreur Kafka: {msg.error()}")
            if msg.error().code() == KafkaError._PARTITION_EOF:
                continue
            else:
                print(f"Erreur irrécupérable: {msg.error()}")
                break

        try:
            # Décoder le contenu reçu de Kafka
            content_value = msg.value().decode('utf-8')
            content_json = json.loads(content_value)

            # Récupérer les hashtags s'ils sont présents
            hashtags = content_json.get('hashtags', [])
            if isinstance(hashtags, list):
                hashtags_str = ', '.join(hashtags)  # Convertir la liste de hashtags en chaîne de texte
                print(f"Hashtags reçus : {hashtags_str}")  # Afficher uniquement les hashtags
            else:
                print("Aucun hashtag reçu.")

        except json.JSONDecodeError as e:
            print(f"Erreur lors du décodage du contenu JSON : {e}")
        except Exception as e:
            print(f"Erreur inattendue : {e}")

except KeyboardInterrupt:
    print("Interruption par l'utilisateur.")

except Exception as e:
    print(f"Erreur générale : {e}")

finally:
    # Fermer les connexions
    print("Fermeture des connexions...")
    consumer.close()
    if cursor:
        cursor.close()
    if conn:
        conn.close()
    print("Connexions fermées.")


Topic 'mastodon_stream' already exists.
Sending toot to Kafka: {'id': 113262416950095858, 'created_at': '2024-10-06 20:42:06+00:00', 'content': '<p>Betta Fish: My new betta baby – Iggy <a href="https://www.flakefood.com/602245/betta-fish-my-new-betta-baby-iggy/" rel="nofollow noopener noreferrer" target="_blank"><span class="invisible">https://www.</span><span class="ellipsis">flakefood.com/602245/betta-fis</span><span class="invisible">h-my-new-betta-baby-iggy/</span></a> <a href="https://vive.im/tags/BettaFish" class="mention hashtag" rel="nofollow noopener noreferrer" target="_blank">#<span>BettaFish</span></a></p>', 'username': 'flakefood', 'replies_count': 76, 'reblogs_count': 21, 'favourites_count': 20, 'hashtags': 'bettafish', 'language': 'en', 'url': 'https://vive.im/@flakefood/113262416782434997', 'media_attachments': [{'url': 'https://files.mastodon.social/cache/media_attachments/files/113/262/416/828/056/166/original/1873f91fdca73353.jpg', 'preview_url': 'https://files.masto

KeyboardInterrupt: 