# Analyse et visualisation de données avec Python
## Automatisation du traitement des données
Questions
* Comment automatiser le traitement des données dans Python?
* Comment structurer le traitement avec des fonctions?

Objectifs
* Utiliser des boucles `for` pour automatiser l'analyse de données.
* Générer des fichiers avec des noms uniques.
* Construire du code réutilisable en Python.
* Écrire des fonctions avec des conditions (`if`, `then`, `else`).

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("data/surveys.csv")
species_df = pd.read_csv("data/species.csv")

## Automatiser l'analyse de données avec des boucles `for`

In [None]:
dossier_annees = "fichiers_par_annee"
dossier_annees

In [None]:
surveys_df['year']
    # Créer un nom de fichier unique pour chaque année
    # nom_fichier = os.path.join(dossier_annees, f"surveys_{annee}.csv")
    # print(nom_fichier)

    # Sauvegarder les données complètes de l'année en cours
    # surveys_annee = surveys_df[surveys_df['year'] == ].dropna()
    # surveys_annee.to_csv(, index=False)

# os.listdir(dossier_annees)

### Exercice - Création de fichiers différents
Au lieu de diviser les données par année, nous voudrions les diviser par nom complet d'espèce. Il faut donc au préalable joindre les deux dataframes.

In [None]:
dossier_especes = "fichiers_especes"
dossier_especes  # Créer le dossier

In [None]:
merged_left = pd.merge(left=surveys_df, right=species_df,
                       how=, on=)
merged_left.head()

In [None]:
for espece in :
    # Créer un nom de fichier unique pour chaque espèce
    nom_fichier = os.path.join(, f"surveys_{espece}.csv")
    print(nom_fichier)

    # Sélectionner les données complètes de l'espèce en cours
    merged_left_espece = merged_left[ == espece].dropna()
    merged_left_espece.to_csv(nom_fichier, index=False)

## Développer du code modulaire et réutilisable avec des fonctions
Dans cet exemple, on veut créer un système de fonctions pour générer un fichier par année selon un intervalle donné :
* Spécifier le nom de dossier en argument, de même que le préfixe de chaque fichier.
* Dans la fonction principale :
  * Utiliser `None` par défaut pour `annee_debut` et `annee_fin`.
  * Créer le dossier automatiquement, mais en testant son existence avant.
  * Boucler sur toutes les années de l'intervalle validé.
  * Retourner le nom des fichiers créés.
* Dans la fonction secondaire :
  * Créer le fichier pour une année
  * Retourner le nom du fichier.

In [None]:
# def ecrire_csv_une_annee(donnees, dossier_cible, prefixe, cette_annee):
    """
    Écrire un fichier CSV avec les données d'une année. Retourne le nom de fichier.

    donnees --- le DataFrame
    dossier_cible --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    cette_annee --- année à sélectionner
    """

    # Créer un nom de fichier unique pour chaque année
    nom_fichier = os.path.join(dossier_cible, f"{}{}.csv")

    # Sauvegarder les données complètes de l'année en cours
    surveys_annee = donnees[donnees['year'] == ].dropna()
    # surveys_annee.to_csv(nom_fichier, index=False)

    nom_fichier

In [None]:
def ecrire_csv_annees(donnees, dossier_cible, prefixe,
                       = None,  = None):
    """
    Écrire des fichiers CSV avec les données de plusieurs années.

    donnees --- le DataFrame
    dossier_cible --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    annee_debut --- première année --- défaut: None - depuis le tout début
    annee_fin --- dernière année --- défaut: None - jusqu'à la toute fin
    """

    dossier_cible  os.listdir('.')
        print(f'Le dossier "{dossier_cible}" existe')
    
        dossier_cible
        print(f'Nouveau dossier: "{dossier_cible}"')

    if
        annee_debut = donnees['year']

    if not annee_fin:
        annee_fin = donnees['year']

    noms_de_fichier =

    # "annee_fin" est la dernière année à traiter, donc il faut annee_fin + 1
    for annee in range(annee_debut, annee_fin + 1):
        nom_fichier = (donnees, dossier_cible, prefixe, )
        noms_de_fichier

    noms_de_fichier

In [None]:
ecrire_csv_annees(surveys_df, "final", "resultats_", 1995, 1998)

In [None]:
os.listdir("final")

In [None]:
ecrire_csv_annees(surveys_df, "final", "resultats_")