In [1]:
# üì¶ INSTALLATION
!pip install flashtext openpyxl

Collecting flashtext
  Downloading flashtext-2.7.tar.gz (14 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: flashtext
  Building wheel for flashtext (setup.py) ... [?25l[?25hdone
  Created wheel for flashtext: filename=flashtext-2.7-py2.py3-none-any.whl size=9300 sha256=779120be5cec5807ba707d1bf5753591c33098c37fc2798b97a5f653e548983e
  Stored in directory: /root/.cache/pip/wheels/49/20/47/f03dfa8a7239c54cbc44ff7389eefbf888d2c1873edaaec888
Successfully built flashtext
Installing collected packages: flashtext
Successfully installed flashtext-2.7


In [4]:

# üìö IMPORTS
import pandas as pd
import os
import zipfile
from google.colab import files
from flashtext import KeywordProcessor
from tqdm import tqdm
import concurrent.futures
import shutil
import re

def main():
    # üì• T√âL√âVERSEMENT DES FICHIERS
    print("‚û°Ô∏è T√©l√©versez le fichier ZIP contenant les fichiers .xlsx...")
    uploaded = files.upload()
    zip_filename = list(uploaded.keys())[0]

    print("‚û°Ô∏è T√©l√©versez le fichier Excel des taxons (colonnes: Virus, Variant, Genus, Family)...")
    uploaded = files.upload()
    taxon_filename = list(uploaded.keys())[0]

    # üìÇ EXTRACTION DU ZIP
    input_dir = "extracted_files"
    os.makedirs(input_dir, exist_ok=True)
    with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
        zip_ref.extractall(input_dir)

    # üîç CHARGEMENT DES FICHIERS EXCEL
    excel_files = [
        os.path.join(root, file)
        for root, _, files_ in os.walk(input_dir)
        for file in files_
        if file.lower().endswith(".xlsx")
    ]
    if not excel_files:
        raise Exception("‚ùå Aucun fichier .xlsx trouv√© dans le dossier.")

    # üìÑ CHARGEMENT DES DONN√âES TAXONOMIQUES
    df_taxons = pd.read_excel(taxon_filename, engine='openpyxl')
    df_taxons.columns = df_taxons.columns.str.strip()

    required_columns = {'Virus', 'Variant', 'Genus', 'Family'}
    if not required_columns.issubset(df_taxons.columns):
        missing = required_columns - set(df_taxons.columns)
        raise ValueError(f"‚ùå Colonnes manquantes dans le fichier taxons: {missing}")

    # üß† CR√âATION DES DICTIONNAIRES DE CORRESPONDANCE
    dict_virus_variants = {}
    dict_virus_genus = {}
    dict_genus_family = {}

    for row in df_taxons.itertuples(index=False):
        virus = str(row.Virus).strip()
        variants = [v.strip() for v in str(row.Variant).replace(";", ",").split(",") if v.strip()]
        dict_virus_variants[virus] = variants

        genus = str(row.Genus).strip()
        if genus and genus.lower() != 'nan':
            dict_virus_genus[virus] = genus

        family = str(row.Family).strip()
        if genus and genus.lower() != 'nan' and family and family.lower() != 'nan':
            dict_genus_family[genus] = family

    # üîç INITIALISATION DES PROCESSEURS FLASHTEXT
    kp_virus = KeywordProcessor(case_sensitive=False)
    for virus, variants in dict_virus_variants.items():
        for variant in variants:
            kp_virus.add_keyword(variant, virus)
        kp_virus.add_keyword(virus, virus)

    kp_genus = KeywordProcessor(case_sensitive=False)
    for virus, genus in dict_virus_genus.items():
        kp_genus.add_keyword(virus, genus)
        kp_genus.add_keyword(genus, genus)

    kp_family = KeywordProcessor(case_sensitive=False)
    for genus, family in dict_genus_family.items():
        kp_family.add_keyword(genus, family)

    # ‚öôÔ∏è FONCTIONS DE D√âTECTION
    def detecter_virus(texte):
        if pd.isna(texte):
            return set()
        found = kp_virus.extract_keywords(str(texte))
        return set(found) if found else set()

    def detecter_genus(texte):
        if pd.isna(texte):
            return set()
        found = kp_genus.extract_keywords(str(texte))
        return set(found) if found else set()

    def detecter_famille(texte):
        if pd.isna(texte):
            return set()
        found = kp_family.extract_keywords(str(texte))
        return set(found) if found else set()

    # ‚öôÔ∏è FONCTION DE TRAITEMENT D'UN FICHIER
    def traiter_fichier(filepath):
        try:
            filename = os.path.basename(filepath)
            print(f"üîé Traitement de : {filename}")

            df = pd.read_excel(filepath, engine='openpyxl')
            colonnes_requises = {"Titre", "R√©sum√©", "Entities_bc5cdr", "Entities_bionlp"}

            if not colonnes_requises.issubset(df.columns):
                missing = colonnes_requises - set(df.columns)
                print(f"‚ùå Colonnes manquantes dans {filename}: {missing}")
                return None

            titre_resume = df["Titre"].fillna("") + " " + df["R√©sum√©"].fillna("")
            entites_concat = df["Entities_bionlp"].fillna("") + " " + df["Entities_bc5cdr"].fillna("")

            virus_detect√©s_liste = []
            genus_par_d√©faut_liste = []

            for t1, t2 in zip(titre_resume, entites_concat):
                virus_set = detecter_virus(t1) | detecter_virus(t2)
                if virus_set:
                    virus_detect√©s_liste.append(", ".join(sorted(virus_set)))
                    genus_par_d√©faut_liste.append("")
                else:
                    virus_detect√©s_liste.append("")
                    genus_alt = detecter_genus(t1)
                    genus_par_d√©faut_liste.append(", ".join(sorted(genus_alt)) if genus_alt else "")

            df["Virus_detect√©s"] = virus_detect√©s_liste
            df["Genus_par_d√©faut"] = genus_par_d√©faut_liste

            df["Genus_detect√©s"] = df["Virus_detect√©s"].apply(
                lambda viruses: ", ".join(sorted({
                    dict_virus_genus.get(virus.strip(), "")
                    for virus in viruses.split(",")
                    if virus.strip() in dict_virus_genus
                })) if viruses.strip() else ""
            )

            df["Genus_detect√©s"] = df.apply(
                lambda row: row["Genus_detect√©s"] if row["Genus_detect√©s"] else row["Genus_par_d√©faut"],
                axis=1
            )

            df["Familles_detect√©es"] = df["Genus_detect√©s"].apply(
                lambda genera: ", ".join(sorted({
                    dict_genus_family.get(genus.strip(), "")
                    for genus in genera.split(",")
                    if genus.strip() in dict_genus_family
                })) if pd.notna(genera) else ""
            )

            # Fallback pour pr√©sence virus par regex si aucune d√©tection pr√©c√©dente
            df["presence_virus"] = [
                ", ".join(re.findall(r'\b[\w\-]*(virus|dae)\b', txt, re.IGNORECASE))
                if (not v or v.strip() == "") and (not g or g.strip() == "") and re.search(r'\b[\w\-]*(virus|dae)\b', txt, re.IGNORECASE) else ""
                for v, g, txt in zip(df["Virus_detect√©s"], df["Genus_detect√©s"], titre_resume)

                ]


            return df, filename
        except Exception as e:
            print(f"‚ùå Erreur lors du traitement de {filepath}: {str(e)}")
            return None

    # üìÇ DOSSIER DE SORTIE
    output_dir = "fichiers_des_virus"
    os.makedirs(output_dir, exist_ok=True)

    # üîÅ TRAITEMENT DES FICHIERS EN PARALL√àLE
    with concurrent.futures.ThreadPoolExecutor() as executor:
        futures = {executor.submit(traiter_fichier, filepath): filepath for filepath in excel_files}

        for future in tqdm(concurrent.futures.as_completed(futures),
                          total=len(futures),
                          desc="üîÑ Traitement des fichiers"):
            result = future.result()
            if result is not None:
                df, filename = result
                output_path = os.path.join(output_dir, filename)
                df.to_excel(output_path, index=False, engine='openpyxl')
                print(f"‚úÖ Sauvegard√© : {output_path}")

    # üì¶ COMPRESSION EN FICHIER ZIP
    zip_output_path = os.path.join(os.getcwd(), "fichiers_virus_annot√©s")
    shutil.make_archive(zip_output_path, "zip", output_dir)

    # üì§ T√âL√âCHARGEMENT DU ZIP
    files.download(f"{zip_output_path}.zip")
    print(f"üì¶ Archive ZIP g√©n√©r√©e et pr√™te √† √™tre t√©l√©charg√©e: {zip_output_path}.zip")

if __name__ == "__main__":
    main()


‚û°Ô∏è T√©l√©versez le fichier ZIP contenant les fichiers .xlsx...


Saving Step3_extractions_des_pays_dans_les_affiliations.zip to Step3_extractions_des_pays_dans_les_affiliations (1).zip
‚û°Ô∏è T√©l√©versez le fichier Excel des taxons (colonnes: Virus, Variant, Genus, Family)...


Saving liste_virus_final.xlsx to liste_virus_final (1).xlsx
üîé Traitement de : Ivory Coast_entites.xlsxüîé Traitement de : Sudan_entites.xlsx

üîé Traitement de : Mozambique_entites.xlsx
üîé Traitement de : Seychelles_entites.xlsx
üîé Traitement de : Tanzania_entites.xlsx
üîé Traitement de : Madagascar_entites.xlsx


üîÑ Traitement des fichiers:   0%|          | 0/54 [00:00<?, ?it/s]

üîé Traitement de : Mali_entites.xlsx


üîÑ Traitement des fichiers:   2%|‚ñè         | 1/54 [00:00<00:24,  2.17it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Seychelles_entites.xlsx
üîé Traitement de : Liberia_entites.xlsx
üîé Traitement de : South Sudan_entites.xlsx
üîé Traitement de : S‚ïûo Tom√© and Pr√≠ncipe_entites.xlsx
üîé Traitement de : Guine Bissau_entites.xlsx
üîé Traitement de : Niger_entites.xlsx
üîé Traitement de : Ghana_entites.xlsx
üîé Traitement de : Burkina Faso_entites.xlsx
üîé Traitement de : Tunisia_entites.xlsx
üîé Traitement de : Benin_entites.xlsx
üîé Traitement de : Angola_entites.xlsx
üîé Traitement de : Kenya_entites.xlsx


üîÑ Traitement des fichiers:   4%|‚ñé         | 2/54 [00:05<02:34,  2.97s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Madagascar_entites.xlsx
üîé Traitement de : Eswatini_entites.xlsx
üîé Traitement de : South Africa_entites.xlsx


üîÑ Traitement des fichiers:   6%|‚ñå         | 3/54 [00:07<02:24,  2.83s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Mali_entites.xlsx


üîÑ Traitement des fichiers:   7%|‚ñã         | 4/54 [00:08<01:40,  2.01s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/South Sudan_entites.xlsx
üîé Traitement de : Libya_entites.xlsx
üîé Traitement de : Central African Republic_entites.xlsx
üîé Traitement de : Chad_entites.xlsx
üîé Traitement de : Guinea_entites.xlsx
üîé Traitement de : Zambia_entites.xlsxüîé Traitement de : Egypt_entites.xlsx

üîé Traitement de : Equatorial Guinea_entites.xlsx
üîé Traitement de : Comoros_entites.xlsx
üîé Traitement de : Gambia_entites.xlsx


üîÑ Traitement des fichiers:  11%|‚ñà         | 6/54 [00:16<02:16,  2.84s/it]

üîé Traitement de : Uganda_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Mozambique_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/S‚ïûo Tom√© and Pr√≠ncipe_entites.xlsx
üîé Traitement de : Nigeria_entites.xlsx


üîÑ Traitement des fichiers:  13%|‚ñà‚ñé        | 7/54 [00:18<01:59,  2.54s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Liberia_entites.xlsx
üîé Traitement de : Burundi_entites.xlsx
üîé Traitement de : Gabon_entites.xlsx


üîÑ Traitement des fichiers:  15%|‚ñà‚ñç        | 8/54 [00:22<02:13,  2.90s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Sudan_entites.xlsx
üîé Traitement de : Morocco_entites.xlsx
üîé Traitement de : Somalia_entites.xlsx


üîÑ Traitement des fichiers:  17%|‚ñà‚ñã        | 9/54 [00:29<03:08,  4.19s/it]

üîé Traitement de : Rwanda_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Ivory Coast_entites.xlsx


üîÑ Traitement des fichiers:  19%|‚ñà‚ñä        | 10/54 [00:30<02:24,  3.28s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Guine Bissau_entites.xlsx


üîÑ Traitement des fichiers:  20%|‚ñà‚ñà        | 11/54 [00:31<01:44,  2.44s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Benin_entites.xlsx
üîé Traitement de : Malawi_entites.xlsx
üîé Traitement de : Togo_entites.xlsx


üîÑ Traitement des fichiers:  22%|‚ñà‚ñà‚ñè       | 12/54 [00:32<01:30,  2.16s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Niger_entites.xlsx


üîÑ Traitement des fichiers:  24%|‚ñà‚ñà‚ñç       | 13/54 [00:33<01:13,  1.78s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Angola_entites.xlsx


üîÑ Traitement des fichiers:  26%|‚ñà‚ñà‚ñå       | 14/54 [00:34<00:58,  1.47s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Eswatini_entites.xlsx
üîé Traitement de : Cabo Verde_entites.xlsx
üîé Traitement de : Mauritania_entites.xlsx
üîé Traitement de : Zimbabwe_entites.xlsx
üîé Traitement de : Senegal_entites.xlsx
üîé Traitement de : Djibouti_entites.xlsx
üîé Traitement de : Ethiopia_entites.xlsx


üîÑ Traitement des fichiers:  28%|‚ñà‚ñà‚ñä       | 15/54 [00:46<03:00,  4.64s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Burkina Faso_entites.xlsx
üîé Traitement de : Eritrea_entites.xlsx


üîÑ Traitement des fichiers:  30%|‚ñà‚ñà‚ñâ       | 16/54 [00:49<02:38,  4.17s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Libya_entites.xlsx
üîé Traitement de : Botswana_entites.xlsx
üîé Traitement de : Algeria_entites.xlsx
üîé Traitement de : Mauritius_entites.xlsx
üîé Traitement de : Sierra Leone_entites.xlsx
üîé Traitement de : South Africa1_entites.xlsx
üîé Traitement de : Lesotho_entites.xlsx
üîé Traitement de : Cameroon_entites.xlsx
üîé Traitement de : Namibia_entites.xlsx
üîé Traitement de : Congo_entites.xlsx


üîÑ Traitement des fichiers:  31%|‚ñà‚ñà‚ñà‚ñè      | 17/54 [01:00<03:53,  6.30s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Tanzania_entites.xlsx


üîÑ Traitement des fichiers:  33%|‚ñà‚ñà‚ñà‚ñé      | 18/54 [01:04<03:21,  5.60s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Central African Republic_entites.xlsx


üîÑ Traitement des fichiers:  35%|‚ñà‚ñà‚ñà‚ñå      | 19/54 [01:05<02:27,  4.21s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Chad_entites.xlsx


üîÑ Traitement des fichiers:  37%|‚ñà‚ñà‚ñà‚ñã      | 20/54 [01:11<02:37,  4.64s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Tunisia_entites.xlsx


üîÑ Traitement des fichiers:  39%|‚ñà‚ñà‚ñà‚ñâ      | 21/54 [01:13<02:09,  3.93s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Ghana_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Equatorial Guinea_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Comoros_entites.xlsx


üîÑ Traitement des fichiers:  44%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 24/54 [01:14<00:55,  1.84s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Guinea_entites.xlsx


üîÑ Traitement des fichiers:  46%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 25/54 [01:14<00:44,  1.54s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Gambia_entites.xlsx


üîÑ Traitement des fichiers:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 26/54 [01:15<00:40,  1.44s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Zambia_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Burundi_entites.xlsx


üîÑ Traitement des fichiers:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 28/54 [01:16<00:24,  1.05it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Gabon_entites.xlsx


üîÑ Traitement des fichiers:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 29/54 [01:19<00:36,  1.47s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Kenya_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Somalia_entites.xlsx


üîÑ Traitement des fichiers:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 31/54 [01:20<00:26,  1.15s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Morocco_entites.xlsx


üîÑ Traitement des fichiers:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 33/54 [01:21<00:17,  1.20it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Rwanda_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Togo_entites.xlsx


üîÑ Traitement des fichiers:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 35/54 [01:21<00:09,  1.92it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Cabo Verde_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Mauritania_entites.xlsx


üîÑ Traitement des fichiers:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 36/54 [01:22<00:11,  1.57it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Malawi_entites.xlsx


üîÑ Traitement des fichiers:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 37/54 [01:26<00:25,  1.50s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Uganda_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Djibouti_entites.xlsx


üîÑ Traitement des fichiers:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 39/54 [01:31<00:28,  1.87s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/South Africa_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Eritrea_entites.xlsx


üîÑ Traitement des fichiers:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 41/54 [01:32<00:17,  1.36s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Zimbabwe_entites.xlsx


üîÑ Traitement des fichiers:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 42/54 [01:33<00:15,  1.30s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Senegal_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Botswana_entites.xlsx


üîÑ Traitement des fichiers:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 44/54 [01:37<00:15,  1.57s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Nigeria_entites.xlsx


üîÑ Traitement des fichiers:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 45/54 [01:38<00:12,  1.36s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Algeria_entites.xlsx


üîÑ Traitement des fichiers:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 46/54 [01:39<00:09,  1.23s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Sierra Leone_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Lesotho_entites.xlsx


üîÑ Traitement des fichiers:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 49/54 [01:40<00:03,  1.37it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Mauritius_entites.xlsx
‚úÖ Sauvegard√© : fichiers_des_virus/Namibia_entites.xlsx


üîÑ Traitement des fichiers:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 50/54 [01:41<00:03,  1.23it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Congo_entites.xlsx


üîÑ Traitement des fichiers:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 51/54 [01:42<00:02,  1.04it/s]

‚úÖ Sauvegard√© : fichiers_des_virus/Cameroon_entites.xlsx


üîÑ Traitement des fichiers:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 52/54 [01:45<00:02,  1.39s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Ethiopia_entites.xlsx


üîÑ Traitement des fichiers:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 53/54 [01:52<00:03,  3.09s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/Egypt_entites.xlsx


üîÑ Traitement des fichiers: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 54/54 [01:56<00:00,  2.16s/it]

‚úÖ Sauvegard√© : fichiers_des_virus/South Africa1_entites.xlsx





<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

üì¶ Archive ZIP g√©n√©r√©e et pr√™te √† √™tre t√©l√©charg√©e: /content/fichiers_virus_annot√©s.zip
