# Gestion des m√©tadonn√©es des esp√®ces

Nous scannons les dossiers disponibles afin d'en faire un dataframe et r√©utiliser ces informations.
 Puis nous r√©cup√©rons les m√©tadonn√©es depuis l'API Mistral gr√¢ce √† un prompt optimis√© (optimisation du grounding, du prompt engineering)
 un sleep de 3s a √©t√© ajout√© afin d'√©viter de trop spam l'API

In [6]:
import pandas as pd
import os
from dotenv import load_dotenv
from mistralai import Mistral
import time

In [7]:
folder_all_animals = [d for d in os.listdir("data/OpenAnimalTracks/raw_imgs") if os.path.isdir(os.path.join("data/OpenAnimalTracks/raw_imgs", d))]
df_all_animals = pd.DataFrame(folder_all_animals, columns=["Nom du dossier"])

# Charger les variables d'environnement
load_dotenv()

# Nombre total d'animaux √† scanner
total_animaux = len(df_all_animals)
reste_a_scanner = total_animaux

api_key = os.environ.get("API_KEY")
if not api_key:
    raise ValueError("La cl√© API n'est pas d√©finie dans les variables d'environnement.")

model = "open-mistral-nemo"

client = Mistral(api_key=api_key)

fichier_csv = "data/csv/metadata.csv"

# Supprimer le fichier s'il existe d√©j√†
if os.path.exists(fichier_csv):
    os.remove(fichier_csv)

donnees_animaux = []

for index, animal in enumerate(df_all_animals["Nom du dossier"]):

    reste_a_scanner = total_animaux - (index + 1)

    print(f"üîç Recherche des informations pour {animal}...")
    print(f"Il reste {reste_a_scanner} animaux √† scanner")

    prompt = f"""
    En fran√ßais, donne-moi les informations suivantes sur {animal} :
    - le nom de l'esp√®ce,
    - la famille,
    - le nom latin,
    - la population estim√©e (uniquement un nombre, sans texte, sans unit√©, sans ponctuation sauf le point ou la virgule pour les milliers),
    - la localisation (uniquement le ou les pays, s√©par√©s par un espace).
    - la description, une courte phrase d√©crivant l'animal.

    Attention :
    - Ne mets pas d'explication ou de phrase, uniquement les valeurs demand√©es.
    - Pour la population, √©cris uniquement un nombre sans texte. Par exemple : 1000000 au lieu de '1 million d'esp√®ces environ'.
    - Pour la localisation, √©cris uniquement le ou les pays s√©par√©s par un espace.
    - Pour la Description, je souhaite 30 mots grand maximum.
    - Le nom de l'esp√®ce sera syst√©matiquement traduit en fran√ßais

    Pr√©sente les informations sous ce format exact :
    Esp√®ce : <nom de l'esp√®ce>
    Famille : <famille>
    Nom latin : <nom latin>
    Description: <description>
    Population estim√©e : <population estim√©e>
    Localisation : <localisation>
    """

    try:
        chat_response = client.chat.complete(
            model=model,
            messages=[{"role": "user", "content": prompt}]
        )

        # Extraire la r√©ponse
        reponse = chat_response.choices[0].message.content

        # Parser la r√©ponse pour extraire les valeurs
        informations = {}
        for ligne in reponse.split("\n"):
            if ":" in ligne:
                cle, valeur = ligne.split(":", 1)
                informations[cle.strip()] = valeur.strip()

        # Ajouter les informations √† la liste
        donnees_animaux.append(informations)

    except Exception as e:
        print(f"Erreur lors de la r√©cup√©ration des infos pour {animal} : {e}")

    # Pause pour √©viter d'√™tre banni
    print("‚è≥ Attente de 3 secondes avant la prochaine requ√™te...")
    time.sleep(3)

# Cr√©ation du DataFrame
df_animaux = pd.DataFrame(donnees_animaux)

display(df_animaux)

# Sauvegarde dans un CSV
df_animaux.to_csv(fichier_csv, index=False)

print(f"Les informations des animaux ont √©t√© enregistr√©es dans {fichier_csv}.")


üîç Recherche des informations pour blackbear...
Il reste 17 animaux √† scanner
‚è≥ Attente de 3 secondes avant la prochaine requ√™te...
üîç Recherche des informations pour mouse...
Il reste 16 animaux √† scanner
‚è≥ Attente de 3 secondes avant la prochaine requ√™te...
üîç Recherche des informations pour horse...
Il reste 15 animaux √† scanner
‚è≥ Attente de 3 secondes avant la prochaine requ√™te...
üîç Recherche des informations pour gray_fox...
Il reste 14 animaux √† scanner
‚è≥ Attente de 3 secondes avant la prochaine requ√™te...
üîç Recherche des informations pour coyote...
Il reste 13 animaux √† scanner
‚è≥ Attente de 3 secondes avant la prochaine requ√™te...
üîç Recherche des informations pour skunk...
Il reste 12 animaux √† scanner
‚è≥ Attente de 3 secondes avant la prochaine requ√™te...
üîç Recherche des informations pour american_mink...
Il reste 11 animaux √† scanner
‚è≥ Attente de 3 secondes avant la prochaine requ√™te...
üîç Recherche des informations pour mountainl

Unnamed: 0,Esp√®ce,Famille,Nom latin,Description,Population estim√©e,Localisation
0,Ours noir,Ursidae,Ursus americanus,"L'ours noir est un ours de taille moyenne, au ...",900000,Canada √âtats-Unis Mexique
1,Souris domestique,Murid√©s,Mus musculus,"Petite souris grise aux yeux rouges, vivant so...",700000000,Monde entier
2,Cheval,√âquid√©s,Equus ferus caballus,"Mammif√®re domestiqu√©, connu pour son utilisati...",58000000,"France, √âtats-Unis, Chine, Russie, Br√©sil"
3,Renard gris,Canid√©s,Urocyon cinereoargenteus,Le renard gris est un petit canid√© au pelage g...,4000000,√âtats-Unis Mexique
4,Coyote,Canid√©s,Canis latrans,"Le coyote est un canid√© de taille moyenne, au ...",3000000,√âtats-Unis Canada Mexique
5,Skunk,Mustelidae,Mephitis mephitis,Le skunk est un petit mammif√®re carnivore conn...,3000000,√âtats-Unis Canada
6,Vison d'Am√©rique,Mustelidae,Neogale vison,Petit must√©lid√© semi-aquatique au pelage brun-...,1000000,Canada √âtats-Unis
7,Puma concolor,Felidae,Puma concolor,"Grand f√©lin de couleur brun-jaune, avec une qu...",300000,"Am√©rique du Nord, Am√©rique centrale, Am√©rique ..."
8,Eider √† duvet,Anatidae,Somateria mollissima,"Canard marin au plumage blanc et noir, avec un...",1500000,"Canada, Russie, Norv√®ge, Islande, Groenland"
9,Rat domestique,Murid√©s,Rattus norvegicus,Petit mammif√®re nocturnal aux longues griffes ...,600000000,"France, Chine, Inde, √âtats-Unis"


Les informations des animaux ont √©t√© enregistr√©es dans data/csv/metadata.csv.
