# Structuration du tableau de veille

In [17]:
import os
import pandas as pd
from pathlib import Path
import shutil

In [18]:
# Récupération du fichier d'attribution des articles aux veilleurs
df = pd.read_csv("attribution_articles_veilleurs_08072025.csv", index_col=0)
df.head()

Unnamed: 0,veilleur_id,title,nom_fichier
0,veilleur_1,Pourquoi le Groenland est l'objet des plus gra...,LePointfr_1744820405000_2360
1,veilleur_1,"Les secrets bien gardés de Montecristo, « l'îl...",LePointfr_1745384703000_4434
2,veilleur_1,Auray La goélette Tara fait une escale dédiée ...,LeTélégramme_1745654087000_896
3,veilleur_1,De bonnes nouvelles,LaMontagne_1745532298000_5906
4,veilleur_1,De bonnes nouvelles,LaMontagne_1745532298000_5906


## Créer un dossier avec tous les articles à lire

In [19]:
# Emplacement des articles
dossier_source = "C:/Users/aurel/Documents/Pro/ClimatMedias/Methodo_presse/20260612_Factiva_extract"
dossier_cible = "articles_pack_base"

In [20]:
# Crée le dossier cible s'il n'existe pas
os.makedirs(dossier_cible, exist_ok=True)

# Boucle sur les noms de fichiers depuis ton DataFrame
for fichier in df["nom_fichier"].dropna().unique():
    nom_fichier_pdf = f"{fichier}.pdf"
    chemin_source = os.path.join(dossier_source, nom_fichier_pdf)
    chemin_cible = os.path.join(dossier_cible, nom_fichier_pdf)

    if os.path.exists(chemin_source):
        shutil.copy2(chemin_source, chemin_cible)
    else:
        print(f"⚠️ Fichier non trouvé : {nom_fichier_pdf}")


## Mapping des fichiers sur le drive

In [21]:
# Dossier racine contenant les sous-dossiers des veilleurs
base_dir = Path(dossier_cible)

# Récupérer tous les chemins de fichiers PDF dans les sous-dossiers
pdf_files = list(base_dir.rglob("*.pdf"))

# Extraire les noms de fichier sans extension
nom_fichiers = [f.stem for f in pdf_files]

# Générer un template de mapping
drive_links = {nom: "" for nom in nom_fichiers}

# Afficher le dictionnaire avec les clés   
drive_links

{'AujourdhuienFrance_1745371900000_322': '',
 'Globenewswire_1745337604000_283': '',
 'Globenewswire_1745509530000_662': '',
 'LaMontagne_1745532298000_5906': '',
 'LeFigaro_1744772485000_1907': '',
 'LeHuffPost_1745524807000_693': '',
 'LeParisien_1745285431000_148': '',
 'LeParisien_1745285501000_2190': '',
 'LeParisien_1745285501000_2191': '',
 'LePointfr_1744820405000_2360': '',
 'LePointfr_1744862703000_613': '',
 'LePointfr_1745384703000_4434': '',
 'LePoint_1744884280000_3602': '',
 'LeTélégramme_1745387656000_394': '',
 'LeTélégramme_1745473991000_5442': '',
 'LeTélégramme_1745654087000_896': '',
 'LHumanité_1745348674000_1706': '',
 'Libération_1745578060000_155': '',
 'Libération_1745578061000_156': '',
 'SudOuest_1745208282000_1215': '',
 'SudOuest_1745469056000_5319': ''}

In [22]:
# Après avoir uploadé le dossier sur le drive, faire le mapping des fichiers:
drive_links = {
    'AujourdhuienFrance_1745371900000_322': 'https://drive.google.com/file/d/1HHfO89ifMR34KLx6dXHpFBxKZuSCAmKT/view?usp=drive_link',
    'Globenewswire_1745337604000_283': 'https://drive.google.com/file/d/1zo_dSgbCQSlOVfXWd5KcUaRcJTQ22qVF/view?usp=drive_link',
    'Globenewswire_1745509530000_662': 'https://drive.google.com/file/d/1ZF4-627XInLwx8Da9_xQB3JFff349C5F/view?usp=drive_link',
    'LaMontagne_1745532298000_5906': 'https://drive.google.com/file/d/12RW8KxihrVKhzS6XhFHFHuPHwPJHpazP/view?usp=drive_link',
    'LeFigaro_1744772485000_1907': 'https://drive.google.com/file/d/1-AWdP1zbDWeEdWU8P74TrwBhew3voqcw/view?usp=drive_link',
    'LeHuffPost_1745524807000_693': 'https://drive.google.com/file/d/1jHDDEKKsOSOTytUSuUwxFx925tlBczBw/view?usp=drive_link',
    'LeParisien_1745285431000_148': 'https://drive.google.com/file/d/1QydGL8V3F3l7hrX8f-T2i-glyNxUqrqM/view?usp=drive_link',
    'LeParisien_1745285501000_2190': 'https://drive.google.com/file/d/1ZfZqW0m1GYYsDvV917WUuPwDqGUJdu8P/view?usp=drive_link',
    'LeParisien_1745285501000_2191': 'https://drive.google.com/file/d/13yOF9NhRnNcUakBDx9Xj3PenPs8k2XmF/view?usp=drive_link',
    'LePointfr_1744820405000_2360': 'https://drive.google.com/file/d/1plDr7nhohKtIWPYZAeiUG9eIvo-tN994/view?usp=drive_link',
    'LePointfr_1744862703000_613': 'https://drive.google.com/file/d/1wjHcf8ZpEpCMqTVkYmxNXNiXChup_Dg7/view?usp=drive_link',
    'LePointfr_1745384703000_4434': 'https://drive.google.com/file/d/17qPE7nNCBLV4uNZZ8wlbQKCqFObGnz5G/view?usp=drive_link',
    'LePoint_1744884280000_3602': 'https://drive.google.com/file/d/1MXMgvNlR7kkkOKeL14Y0_TgLsfILoKSI/view?usp=drive_link',
    'LeTélégramme_1745387656000_394': 'https://drive.google.com/file/d/1M3mLoPCaaFxSq1T-9lvnx2kzUA1Scrpf/view?usp=drive_link',
    'LeTélégramme_1745473991000_5442': 'https://drive.google.com/file/d/1IJyTKe1L3xtSbD4IRgnH4HWTOg3_cQPq/view?usp=drive_link',
    'LeTélégramme_1745654087000_896': 'https://drive.google.com/file/d/1Rz_pdtsjgP5XC6A4qCjClg2Oeh_oIqs8/view?usp=drive_link',
    'LHumanité_1745348674000_1706': 'https://drive.google.com/file/d/1egh-SgFHTryY_Y2nTKwkyTzau0-WJeh5/view?usp=drive_link',
    'Libération_1745578060000_155': 'https://drive.google.com/file/d/1DN7NIXQLrr78_ART9380skfCSVal6m7Q/view?usp=drive_link',
    'Libération_1745578061000_156': 'https://drive.google.com/file/d/1FgMWKSO3bLBlffLAMNrOuno4rZELjcAr/view?usp=drive_link',
    'SudOuest_1745208282000_1215': 'https://drive.google.com/file/d/1-Z22bvrDdalUJrqWSDg05DZDHazm7ECk/view?usp=drive_link',
    'SudOuest_1745469056000_5319': 'https://drive.google.com/file/d/1PBmD6M6NGZeHM1axcdkezAdyNaLE_34O/view?usp=drive_link'
}

In [23]:
# Créer la colonne avec les url
df["url"] = df["nom_fichier"].map(drive_links)
df

Unnamed: 0,veilleur_id,title,nom_fichier,url
0,veilleur_1,Pourquoi le Groenland est l'objet des plus gra...,LePointfr_1744820405000_2360,https://drive.google.com/file/d/1plDr7nhohKtIW...
1,veilleur_1,"Les secrets bien gardés de Montecristo, « l'îl...",LePointfr_1745384703000_4434,https://drive.google.com/file/d/17qPE7nNCBLV4u...
2,veilleur_1,Auray La goélette Tara fait une escale dédiée ...,LeTélégramme_1745654087000_896,https://drive.google.com/file/d/1Rz_pdtsjgP5XC...
3,veilleur_1,De bonnes nouvelles,LaMontagne_1745532298000_5906,https://drive.google.com/file/d/12RW8KxihrVKhz...
4,veilleur_1,De bonnes nouvelles,LaMontagne_1745532298000_5906,https://drive.google.com/file/d/12RW8KxihrVKhz...
...,...,...,...,...
115,veilleur_9,Groenland : l'incroyable eldorado des glaces,LePoint_1744884280000_3602,https://drive.google.com/file/d/1MXMgvNlR7kkkO...
116,veilleur_9,Mohamed Fikrat : Le secteur financier appelé à...,Libération_1745578061000_156,https://drive.google.com/file/d/1FgMWKSO3bLBlf...
117,veilleur_9,Pourquoi le Groenland est l'objet des plus gra...,LePointfr_1744820405000_2360,https://drive.google.com/file/d/1plDr7nhohKtIW...
118,veilleur_9,Quelles conséquences de l’érosion du littoral ...,SudOuest_1745208282000_1215,https://drive.google.com/file/d/1-Z22bvrDdalUJ...


## Création d'un fichier excel dans chaque dossier

In [24]:
# Dossier racine
veilleur_dir = Path("articles_veilleurs")

for veilleur_id in df["veilleur_id"].unique():
    # Filtrer les lignes correspondant à ce veilleur
    df_veilleur = df[df["veilleur_id"] == veilleur_id][["veilleur_id", "title", "url"]].copy()

    # Définir le chemin du fichier Excel à enregistrer
    dossier_veilleur = os.path.join(veilleur_dir, veilleur_id)
    fichier_excel = os.path.join(dossier_veilleur,f"{veilleur_id}.xlsx")
   
    # Précision du pack
    df_veilleur["pack"] = "Base"

    # Sauvegarder dans le dossier du veilleur
    df_veilleur[["veilleur_id", "pack", "title", "url"]].to_excel(fichier_excel, index=False)

# IDEM Pack PREMIUM

In [25]:
# Récupération du fichier d'attribution des articles aux veilleurs
df_premium = pd.read_csv("attribution_articles_veilleurs_pack_premium_09072025.csv", index_col=0)
df_premium.head()

Unnamed: 0,veilleur_id,title,nom_fichier
0,veilleur_1,La consultation publique sur le projet de porc...,LaMontagne_1745356777000_3215
1,veilleur_1,Saint-Brieuc « Dire qu’on ne fait rien ce n’es...,LeTélégramme_1745387667000_4237
2,veilleur_1,Un groupe massivement aidé et des actionnaires...,LHumanité_1745435002000_4314
3,veilleur_1,"Déforestation, changement climatique... Les pl...",LeFigaroPremium_1745415556000_477
4,veilleur_1,MCôtes-d'Armor Marais du Launay : comment la f...,LeTélégramme_1745387669000_4302


## Créer un dossier avec tous les articles à lire

In [26]:
# Emplacement des articles
dossier_source = "C:/Users/aurel/Documents/Pro/ClimatMedias/Methodo_presse/20260612_Factiva_extract"
dossier_cible_premium = "articles_pack_premium"

In [27]:
# Crée le dossier cible s'il n'existe pas
os.makedirs(dossier_cible_premium, exist_ok=True)

# Boucle sur les noms de fichiers depuis ton DataFrame
for fichier in df_premium["nom_fichier"].dropna().unique():
    nom_fichier_pdf = f"{fichier}.pdf"
    chemin_source = os.path.join(dossier_source, nom_fichier_pdf)
    chemin_cible_premium = os.path.join(dossier_cible_premium, nom_fichier_pdf)

    if os.path.exists(chemin_source):
        shutil.copy2(chemin_source, chemin_cible_premium)
    else:
        print(f"⚠️ Fichier non trouvé : {nom_fichier_pdf}")


## Mapping des fichiers sur le drive

In [28]:
# Dossier racine contenant les sous-dossiers des veilleurs
base_dir = Path(dossier_cible_premium)

# Récupérer tous les chemins de fichiers PDF dans les sous-dossiers
pdf_files = list(base_dir.rglob("*.pdf"))

# Extraire les noms de fichier sans extension
nom_fichiers = [f.stem for f in pdf_files]

# Générer un template de mapping
drive_links = {nom: "" for nom in nom_fichiers}

# Afficher le dictionnaire avec les clés   
drive_links

{'AujourdhuienFrance_1745285429000_144': '',
 'AujourdhuienFrance_1745285430000_145': '',
 'LaCroix_1745566626000_2141': '',
 'LaMontagne_1745356777000_3215': '',
 'LeFigaroPremium_1745415556000_477': '',
 'LeFigaro_1744772518000_2773': '',
 'LeFigaro_1745463678000_2981': '',
 'LeMonde_1744455618000_3319': '',
 'LeMonde_1745406209000_1578': '',
 'LeParisien_1745285431000_2153': '',
 'LeParisien_1745372490000_340': '',
 'LeParisien_1745483535000_638': '',
 'LePointfr_1744803305000_2185': '',
 'LePointfr_1745337903000_6963': '',
 'LeTélégramme_1745387667000_4237': '',
 'LeTélégramme_1745387669000_4302': '',
 'LHumanité_1745435002000_4314': '',
 'SudOuest_1745294549000_2360': '',
 'SudOuest_1745381063000_3802': '',
 'SudOuest_1745467382000_531': ''}

In [29]:
# Après avoir uploadé le dossier sur le drive, faire le mapping des fichiers:
drive_links = {
    'AujourdhuienFrance_1745285429000_144': 'https://drive.google.com/file/d/1nsZvcp7RZpTc_AB9ghzAYC6hPmNLeUCb/view?usp=drive_link',
    'AujourdhuienFrance_1745285430000_145': 'https://drive.google.com/file/d/1zaBCvI01NbDPt2EelgoUBCNftvFnaz3P/view?usp=drive_link',
    'LaCroix_1745566626000_2141': 'https://drive.google.com/file/d/1Ew-qypuaGtV20HMRpZJQYIpsq9yw6PbR/view?usp=drive_link',
    'LaMontagne_1745356777000_3215': 'https://drive.google.com/file/d/1Ah5zkwIo_ABuU1-0_3f9T0di5VtoCGpE/view?usp=drive_link',
    'LeFigaroPremium_1745415556000_477': 'https://drive.google.com/file/d/16lPHkeqGZff0v9P9BgXZMPRaqI2WfqS6/view?usp=drive_link',
    'LeFigaro_1744772518000_2773': 'https://drive.google.com/file/d/1jAARpMm0D8zmtBtRElK2pGVlq908w0TQ/view?usp=drive_link',
    'LeFigaro_1745463678000_2981': 'https://drive.google.com/file/d/1d0BO_8F8NBJhzVUxwv1IZauv-UgLV_I4/view?usp=drive_link',
    'LeMonde_1744455618000_3319': 'https://drive.google.com/file/d/1caIl5BY8ZiF78Uq2x-w3YEDG3etMvTYU/view?usp=drive_link',
    'LeMonde_1745406209000_1578': 'https://drive.google.com/file/d/1ksYkR05Uvm31eZ-egycR8kesx4U-oq2t/view?usp=drive_link',
    'LeParisien_1745285431000_2153': 'https://drive.google.com/file/d/1nd0BLbZABauUQ7wutVNEP4UrCP1hWrQG/view?usp=drive_link',
    'LeParisien_1745372490000_340': 'https://drive.google.com/file/d/1p6VCnnwGI7lI3Y6kzFBtNrGEF4WDFphK/view?usp=drive_link',
    'LeParisien_1745483535000_638': 'https://drive.google.com/file/d/1ZdJ6MGpIGkj0RAFA1wheqtLJw2m2XJQj/view?usp=drive_link',
    'LePointfr_1744803305000_2185': 'https://drive.google.com/file/d/1aXUvzKOcodoJY0Ek-pZM41i4_N32qcfl/view?usp=drive_link',
    'LePointfr_1745337903000_6963': 'https://drive.google.com/file/d/1n_nsCt7nQpO2g0v4pX9ybGbpFtA1-HOn/view?usp=drive_link',
    'LeTélégramme_1745387667000_4237': 'https://drive.google.com/file/d/1hSiBdu8UysqGS1sXA9mMWdael3G0kluW/view?usp=drive_link',
    'LeTélégramme_1745387669000_4302': 'https://drive.google.com/file/d/1hGDhLvANipoEwsrgqm6EXDpYDXiFmAMu/view?usp=drive_link',
    'LHumanité_1745435002000_4314': 'https://drive.google.com/file/d/1Gr-2zotFtYGw5f202dmN70lIsiEy81RG/view?usp=drive_link',
    'SudOuest_1745294549000_2360': 'https://drive.google.com/file/d/1Juuis9YYEOp2m39J-M7Cgcu-wIooTFKu/view?usp=drive_link',
    'SudOuest_1745381063000_3802': 'https://drive.google.com/file/d/1-fgiGHXqEl6pNF0aIuHu1mjIvVqt8XAW/view?usp=drive_link',
    'SudOuest_1745467382000_531': 'https://drive.google.com/file/d/1onV0OYoRWXyDRYHaaHIjOt8JJgQDXv_Q/view?usp=drive_link'
}


In [30]:
# Créer la colonne avec les url
df_premium["url"] = df_premium["nom_fichier"].map(drive_links)
df_premium

Unnamed: 0,veilleur_id,title,nom_fichier,url
0,veilleur_1,La consultation publique sur le projet de porc...,LaMontagne_1745356777000_3215,https://drive.google.com/file/d/1Ah5zkwIo_ABuU...
1,veilleur_1,Saint-Brieuc « Dire qu’on ne fait rien ce n’es...,LeTélégramme_1745387667000_4237,https://drive.google.com/file/d/1hSiBdu8UysqGS...
2,veilleur_1,Un groupe massivement aidé et des actionnaires...,LHumanité_1745435002000_4314,https://drive.google.com/file/d/1Gr-2zotFtYGw5...
3,veilleur_1,"Déforestation, changement climatique... Les pl...",LeFigaroPremium_1745415556000_477,https://drive.google.com/file/d/16lPHkeqGZff0v...
4,veilleur_1,MCôtes-d'Armor Marais du Launay : comment la f...,LeTélégramme_1745387669000_4302,https://drive.google.com/file/d/1hGDhLvANipoEw...
...,...,...,...,...
115,veilleur_9,MCôtes-d'Armor Marais du Launay : comment la f...,LeTélégramme_1745387669000_4302,https://drive.google.com/file/d/1hGDhLvANipoEw...
116,veilleur_9,Saint-Brieuc « Dire qu’on ne fait rien ce n’es...,LeTélégramme_1745387667000_4237,https://drive.google.com/file/d/1hSiBdu8UysqGS...
117,veilleur_9,Ces entrepreneuses vous habillent en mode éthique,LeParisien_1745285431000_2153,https://drive.google.com/file/d/1nd0BLbZABauUQ...
118,veilleur_9,Chaud devant; Comment faire un nid sans chimie...,LeMonde_1744455618000_3319,https://drive.google.com/file/d/1caIl5BY8ZiF78...


## Ajout des données dans le fichier excel de chaque dossier

In [31]:
# Dossier racine
veilleur_dir = Path("articles_veilleurs")

for veilleur_id in df_premium["veilleur_id"].unique():
    # Filtrer les lignes correspondant à ce veilleur
    df_veilleur_premium = df_premium[df_premium["veilleur_id"] == veilleur_id][["veilleur_id", "title", "url"]].copy()
    # Précision du pack
    df_veilleur_premium["pack"] = "premium"
    df_veilleur_premium = df_veilleur_premium[["veilleur_id", "pack", "title", "url"]]
    
    # Définir le chemin du fichier Excel à enregistrer
    dossier_veilleur = os.path.join(veilleur_dir, veilleur_id)
    fichier_excel = os.path.join(dossier_veilleur,f"{veilleur_id}.xlsx")
    
    # Ajouter les données à la première feuille
    with pd.ExcelWriter(fichier_excel, engine='openpyxl', mode='a', if_sheet_exists='overlay') as writer:
        # Lire les données existantes pour trouver où reprendre
        existing_data = pd.read_excel(fichier_excel)
        start_row = len(existing_data) + 1

        # Écrire à la suite sans entête (header=False pour éviter de réécrire les noms de colonnes)
        df_veilleur_premium[["veilleur_id", "pack", "title", "url"]].to_excel(writer, index=False, header=False, startrow=start_row)
