In [1]:
# 📦 INSTALLATION
!pip install flashtext openpyxl

Collecting flashtext
  Downloading flashtext-2.7.tar.gz (14 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: flashtext
  Building wheel for flashtext (setup.py) ... [?25l[?25hdone
  Created wheel for flashtext: filename=flashtext-2.7-py2.py3-none-any.whl size=9300 sha256=779120be5cec5807ba707d1bf5753591c33098c37fc2798b97a5f653e548983e
  Stored in directory: /root/.cache/pip/wheels/49/20/47/f03dfa8a7239c54cbc44ff7389eefbf888d2c1873edaaec888
Successfully built flashtext
Installing collected packages: flashtext
Successfully installed flashtext-2.7


In [4]:

# 📚 IMPORTS
import pandas as pd
import os
import zipfile
from google.colab import files
from flashtext import KeywordProcessor
from tqdm import tqdm
import concurrent.futures
import shutil
import re

def main():
    # 📥 TÉLÉVERSEMENT DES FICHIERS
    print("➡️ Téléversez le fichier ZIP contenant les fichiers .xlsx...")
    uploaded = files.upload()
    zip_filename = list(uploaded.keys())[0]

    print("➡️ Téléversez le fichier Excel des taxons (colonnes: Virus, Variant, Genus, Family)...")
    uploaded = files.upload()
    taxon_filename = list(uploaded.keys())[0]

    # 📂 EXTRACTION DU ZIP
    input_dir = "extracted_files"
    os.makedirs(input_dir, exist_ok=True)
    with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
        zip_ref.extractall(input_dir)

    # 🔍 CHARGEMENT DES FICHIERS EXCEL
    excel_files = [
        os.path.join(root, file)
        for root, _, files_ in os.walk(input_dir)
        for file in files_
        if file.lower().endswith(".xlsx")
    ]
    if not excel_files:
        raise Exception("❌ Aucun fichier .xlsx trouvé dans le dossier.")

    # 📄 CHARGEMENT DES DONNÉES TAXONOMIQUES
    df_taxons = pd.read_excel(taxon_filename, engine='openpyxl')
    df_taxons.columns = df_taxons.columns.str.strip()

    required_columns = {'Virus', 'Variant', 'Genus', 'Family'}
    if not required_columns.issubset(df_taxons.columns):
        missing = required_columns - set(df_taxons.columns)
        raise ValueError(f"❌ Colonnes manquantes dans le fichier taxons: {missing}")

    # 🧠 CRÉATION DES DICTIONNAIRES DE CORRESPONDANCE
    dict_virus_variants = {}
    dict_virus_genus = {}
    dict_genus_family = {}

    for row in df_taxons.itertuples(index=False):
        virus = str(row.Virus).strip()
        variants = [v.strip() for v in str(row.Variant).replace(";", ",").split(",") if v.strip()]
        dict_virus_variants[virus] = variants

        genus = str(row.Genus).strip()
        if genus and genus.lower() != 'nan':
            dict_virus_genus[virus] = genus

        family = str(row.Family).strip()
        if genus and genus.lower() != 'nan' and family and family.lower() != 'nan':
            dict_genus_family[genus] = family

    # 🔍 INITIALISATION DES PROCESSEURS FLASHTEXT
    kp_virus = KeywordProcessor(case_sensitive=False)
    for virus, variants in dict_virus_variants.items():
        for variant in variants:
            kp_virus.add_keyword(variant, virus)
        kp_virus.add_keyword(virus, virus)

    kp_genus = KeywordProcessor(case_sensitive=False)
    for virus, genus in dict_virus_genus.items():
        kp_genus.add_keyword(virus, genus)
        kp_genus.add_keyword(genus, genus)

    kp_family = KeywordProcessor(case_sensitive=False)
    for genus, family in dict_genus_family.items():
        kp_family.add_keyword(genus, family)

    # ⚙️ FONCTIONS DE DÉTECTION
    def detecter_virus(texte):
        if pd.isna(texte):
            return set()
        found = kp_virus.extract_keywords(str(texte))
        return set(found) if found else set()

    def detecter_genus(texte):
        if pd.isna(texte):
            return set()
        found = kp_genus.extract_keywords(str(texte))
        return set(found) if found else set()

    def detecter_famille(texte):
        if pd.isna(texte):
            return set()
        found = kp_family.extract_keywords(str(texte))
        return set(found) if found else set()

    # ⚙️ FONCTION DE TRAITEMENT D'UN FICHIER
    def traiter_fichier(filepath):
        try:
            filename = os.path.basename(filepath)
            print(f"🔎 Traitement de : {filename}")

            df = pd.read_excel(filepath, engine='openpyxl')
            colonnes_requises = {"Titre", "Résumé", "Entities_bc5cdr", "Entities_bionlp"}

            if not colonnes_requises.issubset(df.columns):
                missing = colonnes_requises - set(df.columns)
                print(f"❌ Colonnes manquantes dans {filename}: {missing}")
                return None

            titre_resume = df["Titre"].fillna("") + " " + df["Résumé"].fillna("")
            entites_concat = df["Entities_bionlp"].fillna("") + " " + df["Entities_bc5cdr"].fillna("")

            virus_detectés_liste = []
            genus_par_défaut_liste = []

            for t1, t2 in zip(titre_resume, entites_concat):
                virus_set = detecter_virus(t1) | detecter_virus(t2)
                if virus_set:
                    virus_detectés_liste.append(", ".join(sorted(virus_set)))
                    genus_par_défaut_liste.append("")
                else:
                    virus_detectés_liste.append("")
                    genus_alt = detecter_genus(t1)
                    genus_par_défaut_liste.append(", ".join(sorted(genus_alt)) if genus_alt else "")

            df["Virus_detectés"] = virus_detectés_liste
            df["Genus_par_défaut"] = genus_par_défaut_liste

            df["Genus_detectés"] = df["Virus_detectés"].apply(
                lambda viruses: ", ".join(sorted({
                    dict_virus_genus.get(virus.strip(), "")
                    for virus in viruses.split(",")
                    if virus.strip() in dict_virus_genus
                })) if viruses.strip() else ""
            )

            df["Genus_detectés"] = df.apply(
                lambda row: row["Genus_detectés"] if row["Genus_detectés"] else row["Genus_par_défaut"],
                axis=1
            )

            df["Familles_detectées"] = df["Genus_detectés"].apply(
                lambda genera: ", ".join(sorted({
                    dict_genus_family.get(genus.strip(), "")
                    for genus in genera.split(",")
                    if genus.strip() in dict_genus_family
                })) if pd.notna(genera) else ""
            )

            # Fallback pour présence virus par regex si aucune détection précédente
            df["presence_virus"] = [
                ", ".join(re.findall(r'\b[\w\-]*(virus|dae)\b', txt, re.IGNORECASE))
                if (not v or v.strip() == "") and (not g or g.strip() == "") and re.search(r'\b[\w\-]*(virus|dae)\b', txt, re.IGNORECASE) else ""
                for v, g, txt in zip(df["Virus_detectés"], df["Genus_detectés"], titre_resume)

                ]


            return df, filename
        except Exception as e:
            print(f"❌ Erreur lors du traitement de {filepath}: {str(e)}")
            return None

    # 📂 DOSSIER DE SORTIE
    output_dir = "fichiers_des_virus"
    os.makedirs(output_dir, exist_ok=True)

    # 🔁 TRAITEMENT DES FICHIERS EN PARALLÈLE
    with concurrent.futures.ThreadPoolExecutor() as executor:
        futures = {executor.submit(traiter_fichier, filepath): filepath for filepath in excel_files}

        for future in tqdm(concurrent.futures.as_completed(futures),
                          total=len(futures),
                          desc="🔄 Traitement des fichiers"):
            result = future.result()
            if result is not None:
                df, filename = result
                output_path = os.path.join(output_dir, filename)
                df.to_excel(output_path, index=False, engine='openpyxl')
                print(f"✅ Sauvegardé : {output_path}")

    # 📦 COMPRESSION EN FICHIER ZIP
    zip_output_path = os.path.join(os.getcwd(), "fichiers_virus_annotés")
    shutil.make_archive(zip_output_path, "zip", output_dir)

    # 📤 TÉLÉCHARGEMENT DU ZIP
    files.download(f"{zip_output_path}.zip")
    print(f"📦 Archive ZIP générée et prête à être téléchargée: {zip_output_path}.zip")

if __name__ == "__main__":
    main()


➡️ Téléversez le fichier ZIP contenant les fichiers .xlsx...


Saving Step3_extractions_des_pays_dans_les_affiliations.zip to Step3_extractions_des_pays_dans_les_affiliations (1).zip
➡️ Téléversez le fichier Excel des taxons (colonnes: Virus, Variant, Genus, Family)...


Saving liste_virus_final.xlsx to liste_virus_final (1).xlsx
🔎 Traitement de : Ivory Coast_entites.xlsx🔎 Traitement de : Sudan_entites.xlsx

🔎 Traitement de : Mozambique_entites.xlsx
🔎 Traitement de : Seychelles_entites.xlsx
🔎 Traitement de : Tanzania_entites.xlsx
🔎 Traitement de : Madagascar_entites.xlsx


🔄 Traitement des fichiers:   0%|          | 0/54 [00:00<?, ?it/s]

🔎 Traitement de : Mali_entites.xlsx


🔄 Traitement des fichiers:   2%|▏         | 1/54 [00:00<00:24,  2.17it/s]

✅ Sauvegardé : fichiers_des_virus/Seychelles_entites.xlsx
🔎 Traitement de : Liberia_entites.xlsx
🔎 Traitement de : South Sudan_entites.xlsx
🔎 Traitement de : S╞o Tomé and Príncipe_entites.xlsx
🔎 Traitement de : Guine Bissau_entites.xlsx
🔎 Traitement de : Niger_entites.xlsx
🔎 Traitement de : Ghana_entites.xlsx
🔎 Traitement de : Burkina Faso_entites.xlsx
🔎 Traitement de : Tunisia_entites.xlsx
🔎 Traitement de : Benin_entites.xlsx
🔎 Traitement de : Angola_entites.xlsx
🔎 Traitement de : Kenya_entites.xlsx


🔄 Traitement des fichiers:   4%|▎         | 2/54 [00:05<02:34,  2.97s/it]

✅ Sauvegardé : fichiers_des_virus/Madagascar_entites.xlsx
🔎 Traitement de : Eswatini_entites.xlsx
🔎 Traitement de : South Africa_entites.xlsx


🔄 Traitement des fichiers:   6%|▌         | 3/54 [00:07<02:24,  2.83s/it]

✅ Sauvegardé : fichiers_des_virus/Mali_entites.xlsx


🔄 Traitement des fichiers:   7%|▋         | 4/54 [00:08<01:40,  2.01s/it]

✅ Sauvegardé : fichiers_des_virus/South Sudan_entites.xlsx
🔎 Traitement de : Libya_entites.xlsx
🔎 Traitement de : Central African Republic_entites.xlsx
🔎 Traitement de : Chad_entites.xlsx
🔎 Traitement de : Guinea_entites.xlsx
🔎 Traitement de : Zambia_entites.xlsx🔎 Traitement de : Egypt_entites.xlsx

🔎 Traitement de : Equatorial Guinea_entites.xlsx
🔎 Traitement de : Comoros_entites.xlsx
🔎 Traitement de : Gambia_entites.xlsx


🔄 Traitement des fichiers:  11%|█         | 6/54 [00:16<02:16,  2.84s/it]

🔎 Traitement de : Uganda_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Mozambique_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/S╞o Tomé and Príncipe_entites.xlsx
🔎 Traitement de : Nigeria_entites.xlsx


🔄 Traitement des fichiers:  13%|█▎        | 7/54 [00:18<01:59,  2.54s/it]

✅ Sauvegardé : fichiers_des_virus/Liberia_entites.xlsx
🔎 Traitement de : Burundi_entites.xlsx
🔎 Traitement de : Gabon_entites.xlsx


🔄 Traitement des fichiers:  15%|█▍        | 8/54 [00:22<02:13,  2.90s/it]

✅ Sauvegardé : fichiers_des_virus/Sudan_entites.xlsx
🔎 Traitement de : Morocco_entites.xlsx
🔎 Traitement de : Somalia_entites.xlsx


🔄 Traitement des fichiers:  17%|█▋        | 9/54 [00:29<03:08,  4.19s/it]

🔎 Traitement de : Rwanda_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Ivory Coast_entites.xlsx


🔄 Traitement des fichiers:  19%|█▊        | 10/54 [00:30<02:24,  3.28s/it]

✅ Sauvegardé : fichiers_des_virus/Guine Bissau_entites.xlsx


🔄 Traitement des fichiers:  20%|██        | 11/54 [00:31<01:44,  2.44s/it]

✅ Sauvegardé : fichiers_des_virus/Benin_entites.xlsx
🔎 Traitement de : Malawi_entites.xlsx
🔎 Traitement de : Togo_entites.xlsx


🔄 Traitement des fichiers:  22%|██▏       | 12/54 [00:32<01:30,  2.16s/it]

✅ Sauvegardé : fichiers_des_virus/Niger_entites.xlsx


🔄 Traitement des fichiers:  24%|██▍       | 13/54 [00:33<01:13,  1.78s/it]

✅ Sauvegardé : fichiers_des_virus/Angola_entites.xlsx


🔄 Traitement des fichiers:  26%|██▌       | 14/54 [00:34<00:58,  1.47s/it]

✅ Sauvegardé : fichiers_des_virus/Eswatini_entites.xlsx
🔎 Traitement de : Cabo Verde_entites.xlsx
🔎 Traitement de : Mauritania_entites.xlsx
🔎 Traitement de : Zimbabwe_entites.xlsx
🔎 Traitement de : Senegal_entites.xlsx
🔎 Traitement de : Djibouti_entites.xlsx
🔎 Traitement de : Ethiopia_entites.xlsx


🔄 Traitement des fichiers:  28%|██▊       | 15/54 [00:46<03:00,  4.64s/it]

✅ Sauvegardé : fichiers_des_virus/Burkina Faso_entites.xlsx
🔎 Traitement de : Eritrea_entites.xlsx


🔄 Traitement des fichiers:  30%|██▉       | 16/54 [00:49<02:38,  4.17s/it]

✅ Sauvegardé : fichiers_des_virus/Libya_entites.xlsx
🔎 Traitement de : Botswana_entites.xlsx
🔎 Traitement de : Algeria_entites.xlsx
🔎 Traitement de : Mauritius_entites.xlsx
🔎 Traitement de : Sierra Leone_entites.xlsx
🔎 Traitement de : South Africa1_entites.xlsx
🔎 Traitement de : Lesotho_entites.xlsx
🔎 Traitement de : Cameroon_entites.xlsx
🔎 Traitement de : Namibia_entites.xlsx
🔎 Traitement de : Congo_entites.xlsx


🔄 Traitement des fichiers:  31%|███▏      | 17/54 [01:00<03:53,  6.30s/it]

✅ Sauvegardé : fichiers_des_virus/Tanzania_entites.xlsx


🔄 Traitement des fichiers:  33%|███▎      | 18/54 [01:04<03:21,  5.60s/it]

✅ Sauvegardé : fichiers_des_virus/Central African Republic_entites.xlsx


🔄 Traitement des fichiers:  35%|███▌      | 19/54 [01:05<02:27,  4.21s/it]

✅ Sauvegardé : fichiers_des_virus/Chad_entites.xlsx


🔄 Traitement des fichiers:  37%|███▋      | 20/54 [01:11<02:37,  4.64s/it]

✅ Sauvegardé : fichiers_des_virus/Tunisia_entites.xlsx


🔄 Traitement des fichiers:  39%|███▉      | 21/54 [01:13<02:09,  3.93s/it]

✅ Sauvegardé : fichiers_des_virus/Ghana_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Equatorial Guinea_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Comoros_entites.xlsx


🔄 Traitement des fichiers:  44%|████▍     | 24/54 [01:14<00:55,  1.84s/it]

✅ Sauvegardé : fichiers_des_virus/Guinea_entites.xlsx


🔄 Traitement des fichiers:  46%|████▋     | 25/54 [01:14<00:44,  1.54s/it]

✅ Sauvegardé : fichiers_des_virus/Gambia_entites.xlsx


🔄 Traitement des fichiers:  48%|████▊     | 26/54 [01:15<00:40,  1.44s/it]

✅ Sauvegardé : fichiers_des_virus/Zambia_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Burundi_entites.xlsx


🔄 Traitement des fichiers:  52%|█████▏    | 28/54 [01:16<00:24,  1.05it/s]

✅ Sauvegardé : fichiers_des_virus/Gabon_entites.xlsx


🔄 Traitement des fichiers:  54%|█████▎    | 29/54 [01:19<00:36,  1.47s/it]

✅ Sauvegardé : fichiers_des_virus/Kenya_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Somalia_entites.xlsx


🔄 Traitement des fichiers:  57%|█████▋    | 31/54 [01:20<00:26,  1.15s/it]

✅ Sauvegardé : fichiers_des_virus/Morocco_entites.xlsx


🔄 Traitement des fichiers:  61%|██████    | 33/54 [01:21<00:17,  1.20it/s]

✅ Sauvegardé : fichiers_des_virus/Rwanda_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Togo_entites.xlsx


🔄 Traitement des fichiers:  65%|██████▍   | 35/54 [01:21<00:09,  1.92it/s]

✅ Sauvegardé : fichiers_des_virus/Cabo Verde_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Mauritania_entites.xlsx


🔄 Traitement des fichiers:  67%|██████▋   | 36/54 [01:22<00:11,  1.57it/s]

✅ Sauvegardé : fichiers_des_virus/Malawi_entites.xlsx


🔄 Traitement des fichiers:  69%|██████▊   | 37/54 [01:26<00:25,  1.50s/it]

✅ Sauvegardé : fichiers_des_virus/Uganda_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Djibouti_entites.xlsx


🔄 Traitement des fichiers:  72%|███████▏  | 39/54 [01:31<00:28,  1.87s/it]

✅ Sauvegardé : fichiers_des_virus/South Africa_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Eritrea_entites.xlsx


🔄 Traitement des fichiers:  76%|███████▌  | 41/54 [01:32<00:17,  1.36s/it]

✅ Sauvegardé : fichiers_des_virus/Zimbabwe_entites.xlsx


🔄 Traitement des fichiers:  78%|███████▊  | 42/54 [01:33<00:15,  1.30s/it]

✅ Sauvegardé : fichiers_des_virus/Senegal_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Botswana_entites.xlsx


🔄 Traitement des fichiers:  81%|████████▏ | 44/54 [01:37<00:15,  1.57s/it]

✅ Sauvegardé : fichiers_des_virus/Nigeria_entites.xlsx


🔄 Traitement des fichiers:  83%|████████▎ | 45/54 [01:38<00:12,  1.36s/it]

✅ Sauvegardé : fichiers_des_virus/Algeria_entites.xlsx


🔄 Traitement des fichiers:  85%|████████▌ | 46/54 [01:39<00:09,  1.23s/it]

✅ Sauvegardé : fichiers_des_virus/Sierra Leone_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Lesotho_entites.xlsx


🔄 Traitement des fichiers:  91%|█████████ | 49/54 [01:40<00:03,  1.37it/s]

✅ Sauvegardé : fichiers_des_virus/Mauritius_entites.xlsx
✅ Sauvegardé : fichiers_des_virus/Namibia_entites.xlsx


🔄 Traitement des fichiers:  93%|█████████▎| 50/54 [01:41<00:03,  1.23it/s]

✅ Sauvegardé : fichiers_des_virus/Congo_entites.xlsx


🔄 Traitement des fichiers:  94%|█████████▍| 51/54 [01:42<00:02,  1.04it/s]

✅ Sauvegardé : fichiers_des_virus/Cameroon_entites.xlsx


🔄 Traitement des fichiers:  96%|█████████▋| 52/54 [01:45<00:02,  1.39s/it]

✅ Sauvegardé : fichiers_des_virus/Ethiopia_entites.xlsx


🔄 Traitement des fichiers:  98%|█████████▊| 53/54 [01:52<00:03,  3.09s/it]

✅ Sauvegardé : fichiers_des_virus/Egypt_entites.xlsx


🔄 Traitement des fichiers: 100%|██████████| 54/54 [01:56<00:00,  2.16s/it]

✅ Sauvegardé : fichiers_des_virus/South Africa1_entites.xlsx





<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

📦 Archive ZIP générée et prête à être téléchargée: /content/fichiers_virus_annotés.zip
