In [None]:
import pandas as pd
# Importation des biblioth√®ques n√©cessaires
from pyspark.sql import SparkSession
import os
import sys

from dotenv import load_dotenv
from mistralai import Mistral


In [None]:
# Variables
# Param√®tres de connexion MySQL
db_url = "jdbc:mysql://mysql-container:3306/wildlens?serverTimezone=UTC"
db_properties = { "user": "root", "password": "root", "driver": "com.mysql.cj.jdbc.Driver" }

In [None]:
# Initialisation de SparkSession
spark = SparkSession.builder \
    .appName("WildLens ETL - MSPR 24-25") \
    .config("spark.jars", "/installation/mysql-connector-j-9.1.0.jar") \
    .getOrCreate()

# Gestion des m√©tadonn√©es des esp√®ces

 Dans un premier temps, nous scannons les dossiers disponibles afin d'en faire un dataframe et r√©utiliser ces informations.
 Puis nous r√©cup√©rons les m√©tadonn√©es depuis l'API Mistral gr√¢ce √† un prompt optimis√© (optimisation du grounding, du prompt engineering)
 un sleep de 3s a √©t√© ajout√© afin d'√©viter de trop spam l'API

In [None]:
# Chargement des informations sur les esp√®ces
species_info_path = './data/csv/infos_especes.csv'
species_info_df = spark.read.csv(species_info_path, sep=";",header=True, inferSchema=True)

folder_all_animals = [d for d in os.listdir("data/OpenAnimalTracks/raw_imgs") if os.path.isdir(os.path.join("data/OpenAnimalTracks/raw_imgs", d))]
df_all_animals = pd.DataFrame(folder_all_animals, columns=["Nom du dossier"])
display(df_all_animals)

In [None]:
import time

# Charger les variables d'environnement
load_dotenv()

# R√©cup√©rer la cl√© API
api_key = os.environ.get("API_KEY")
if not api_key:
    raise ValueError("La cl√© API n'est pas d√©finie dans les variables d'environnement.")

# Mod√®le utilis√©
model = "open-mistral-nemo"

# Initialiser le client Mistral
client = Mistral(api_key=api_key)

# D√©finition du fichier CSV
fichier_csv = "infos_animaux.csv"

# Supprimer le fichier s'il existe d√©j√†
if os.path.exists(fichier_csv):
    os.remove(fichier_csv)

# Liste pour stocker les informations des animaux
donnees_animaux = []

# R√©cup√©rer les informations pour chaque animal avec un d√©lai entre les requ√™tes
for animal in df_all_animals["Nom du dossier"]:
    print(f"üîç Recherche des informations pour {animal}...")

    # G√©n√©ration du prompt
    prompt = f"""
    En fran√ßais, donne-moi les informations suivantes sur {animal} :
    - le nom de l'esp√®ce,
    - la famille,
    - le nom latin,
    - la population estim√©e (uniquement un nombre, sans texte, sans unit√©, sans ponctuation sauf le point ou la virgule pour les milliers),
    - la localisation (uniquement le ou les pays, s√©par√©s par un espace).
    - la description, une courte phrase d√©crivant l'animal.

    Attention :
    - Ne mets pas d'explication ou de phrase, uniquement les valeurs demand√©es.
    - Pour la population, √©cris uniquement un nombre sans texte. Par exemple : 1000000 au lieu de '1 million d'esp√®ces environ'.
    - Pour la localisation, √©cris uniquement le ou les pays s√©par√©s par un espace.
    - Pour la Description, je souhaite 30 mots grand maximum.
    - Le nom de l'esp√®ce sera syst√©matiquement traduit en fran√ßais

    Pr√©sente les informations sous ce format exact :
    Esp√®ce : <nom de l'esp√®ce>
    Famille : <famille>
    Nom latin : <nom latin>
    Description: <description>
    Population estim√©e : <population estim√©e>
    Localisation : <localisation>
    """

    # Appel √† l'API Mistral
    try:
        chat_response = client.chat.complete(
            model=model,
            messages=[{"role": "user", "content": prompt}]
        )

        # Extraire la r√©ponse
        reponse = chat_response.choices[0].message.content

        # Parser la r√©ponse pour extraire les valeurs
        informations = {}
        for ligne in reponse.split("\n"):
            if ":" in ligne:
                cle, valeur = ligne.split(":", 1)
                informations[cle.strip()] = valeur.strip()

        # Ajouter les informations √† la liste
        donnees_animaux.append(informations)

    except Exception as e:
        print(f"‚ö†Ô∏è Erreur lors de la r√©cup√©ration des infos pour {animal} : {e}")

    # Pause pour √©viter d'√™tre banni
    print("‚è≥ Attente de 3 secondes avant la prochaine requ√™te...")
    time.sleep(3)

# Cr√©ation du DataFrame
df_animaux = pd.DataFrame(donnees_animaux)

display(df_animaux)

# Sauvegarde dans un CSV
df_animaux.to_csv(fichier_csv, index=False)

print(f"‚úÖ Les informations des animaux ont √©t√© enregistr√©es dans {fichier_csv}.")


# Gestion des images
Dans un premier temps, nous allons faire une premi√®re analyse des images: leurs nombre par esp√®ces (donc, par dossier), leurs tailles moyenne, leurs poid moyen, etc...

In [None]:
# Sauvegarde au format CSV
cleaned_df.write.csv("./output/data/nettoye.csv", header=True, mode="overwrite")

# Sauvegarde au format Parquet
cleaned_df.write.parquet("./output/data/nettoye.parquet", mode="overwrite")


In [None]:
# √âcrire les donn√©es dans la table MySQL
cleaned_df.write \
    .jdbc(url=db_url, table="Animaux", mode="overwrite", properties=db_properties)
