In [None]:
import feedparser
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import google.generativeai as genai
import os
import json
import time  # Pour gérer les délais entre les appels API

# Configurer l'API Key pour Generative AI (Gemini Flash)
GENAI_API_KEY = "" 
os.environ["API_KEY"] = GENAI_API_KEY
genai.configure(api_key=os.environ["API_KEY"])

# Notion API Configuration
NOTION_API_URL = "https://api.notion.com/v1/pages"
NOTION_API_KEY = ""  
DATABASE_ID = "144e6de098618089bdb0cc4b71dea02f"

# Fonction pour nettoyer le HTML et obtenir le texte brut
def clean_html(html_content):
    soup = BeautifulSoup(html_content, "html.parser")
    return soup.get_text()  # Retourne le texte brut sans balises HTML

# Fonction pour convertir une date Feedparser en ISO 8601
def convert_to_iso8601(date_str):
    try:
        # Parse la date avec le format de Feedparser
        parsed_date = datetime.strptime(date_str, "%a, %d %b %Y %H:%M:%S %z")
        # Convertit en format ISO 8601
        return parsed_date.isoformat()
    except ValueError:
        return None  # Retourne None si la date est invalide ou absente

# Fonction pour analyser le contenu avec Gemini Flash
def analyze_article_with_gemini(article):
    try:
        # Configure le modèle à utiliser
        model = genai.GenerativeModel("gemini-1.5-flash")
        
        # Prompt pour analyser l'article
        prompt = f"""
        Voici un article :
        Titre : {article['title']}
        Résumé : {article['summary']}
        
        Analyse le contenu de cet article et retourne :
        1. Une catégorie principale (exemple : Technologie, Innovation, Programmation).
        2. Jusqu'à 5 mots-clés basés sur le contenu.

        Réponds dans ce format JSON :
        {{
            "category": "Nom de la catégorie",
            "keywords": ["mot-clé1", "mot-clé2", "mot-clé3"]
        }}
        """
        
        # Appelle le modèle pour générer une réponse
        response = model.generate_content(prompt)
        
        # Traite la réponse : Nettoie les balises Markdown et espace inutile
        response_text = response.text.strip().strip("```json").strip("```").strip()
        print(f"Réponse nettoyée : {response_text}")  # Debugging
        
        # Convertir la réponse en JSON
        return json.loads(response_text)  # Utiliser json.loads pour parser
    except json.JSONDecodeError as e:
        print(f"Erreur lors de la conversion JSON : {e}")
        return {"category": "Non classé", "keywords": []}
    except Exception as e:
        print(f"Erreur lors de l'analyse avec Gemini Flash : {e}")
        return {"category": "Non classé", "keywords": []}

# Liste des flux RSS (Feedly et Google Alerts)
rss_feeds = [
    "http://javascript.developpez.com/index/rss",  # lien feedly
    "https://www.google.com/alerts/feeds/11440117351863688430/4739719902568766787",  # Google Alert
]

# Liste des mots-clés spécifiques pour filtrer
keywords_list = [
    "react", "compilateur", "meta", "open source", "performance", "webstorm", "jetbrains", "edi", "javascript",
    "développement web", "rust", "api", "langage de programmation", "node.js", "typescript", "json", "npm", "ia",
    "malware", "securite", "cryptomonnaie"
]


# Fonction pour analyser les flux RSS
def parse_rss_feeds(feeds):
    articles = []
    for feed_url in feeds:
        print(f"Analyse du flux RSS : {feed_url}")
        feed = feedparser.parse(feed_url)
        
        # Vérifie si le flux est valide
        if 'title' in feed.feed:
            print(f"Flux trouvé : {feed.feed.title}")
        else:
            print("Erreur : Flux non valide.")
            continue
        
        for entry in feed.entries:
            article = {
                "title": entry.title,
                "link": entry.link,
                "published": entry.published if "published" in entry else "N/A",
                "summary": entry.summary if "summary" in entry else "N/A"
            }
            articles.append(article)
    return articles

# Filtrer les articles selon les mots-clés et la catégorie (après analyse de Gemini)
def filter_articles(articles):
    filtered = []
    for article in articles:
        # Ajout d'un délai pour éviter de surcharger l'API
        time.sleep(1)  # Attendre 1 seconde entre chaque appel
        
        # Analyse l'article avec Gemini Flash
        analysis = analyze_article_with_gemini(article)
        category = analysis.get("category", "Non classé")
        keywords = analysis.get("keywords", [])

        # Inclure l'article s'il a une catégorie ou des mots-clés pertinents
        if category != "Non classé" or any(keyword in keywords_list for keyword in keywords):
            article["category"] = category
            article["keywords"] = keywords
            filtered.append(article)
    return filtered

# Ajouter un article à Notion
def add_article_to_notion(article):
    # Nettoyage du résumé
    cleaned_summary = clean_html(article["summary"])
    iso_date = convert_to_iso8601(article["published"])

    headers = {
        "Authorization": f"Bearer {NOTION_API_KEY}",
        "Content-Type": "application/json",
        "Notion-Version": "2022-06-28"
    }

    # Préparer les données à envoyer à Notion
    data = {
        "parent": {"database_id": DATABASE_ID},
        "properties": {
            "Title": {"title": [{"text": {"content": article["title"]}}]},
            "Link": {"url": article["link"]},
            "Published": {"date": {"start": iso_date} if iso_date else None},
            "Summary": {"rich_text": [{"text": {"content": cleaned_summary}}]},
            "Category": {"select": {"name": article.get("category", "Non classé")}},
            "Keywords": {"multi_select": [{"name": keyword} for keyword in article.get("keywords", [])]}
        }
    }

    # Envoyer les données à Notion
    response = requests.post(NOTION_API_URL, headers=headers, json=data)
    if response.status_code == 200:
        print(f"Article ajouté à Notion : {article['title']}")
    else:
        print(f"Erreur lors de l'ajout à Notion : {response.status_code}, {response.text}")

# Fonction principale
if __name__ == "__main__":
    # Étape 1 : Analyse des flux RSS
    collected_articles = parse_rss_feeds(rss_feeds)
    
    # Étape 2 : Filtrer les articles selon les mots-clés
    filtered_articles = filter_articles(collected_articles)
    
    # Étape 3 : Envoi des articles filtrés à Notion
    print(f"\nAjout des articles filtrés à Notion...")
    for article in filtered_articles:
        add_article_to_notion(article)

    print(f"\n{len(filtered_articles)} articles filtrés ajoutés à Notion.")


Analyse du flux RSS : http://javascript.developpez.com/index/rss
Flux trouvé : Flux JavaScript Developpez
Analyse du flux RSS : https://www.google.com/alerts/feeds/11440117351863688430/4739719902568766787
Flux trouvé : Google Alert - javascript
Réponse nettoyée : {
  "category": "Programmation",
  "keywords": ["WebStorm", "JetBrains", "IDE", "SQL", "IA"]
}
Réponse nettoyée : {
  "category": "Sécurité informatique",
  "keywords": ["malware", "NPM", "supply chain attack", "bibliothèque malveillante", "sécurité des développeurs"]
}
Réponse nettoyée : {
  "category": "Technologie",
  "keywords": ["IA", "Chatbot", "Claude", "JavaScript", "Anthropic"]
}
Réponse nettoyée : {
  "category": "Programmation",
  "keywords": ["JetBrains", "WebStorm", "Rider", "EDI", "Licence gratuite"]
}
Réponse nettoyée : {
  "category": "Programmation",
  "keywords": ["Svelte", "JavaScript", "Framework", "Compilation", "Web"]
}
Réponse nettoyée : {
  "category": "Technologie",
  "keywords": ["WebAssembly", "Wasme