# Analyse et visualisation de données avec Python
## Automatisation du traitement des données
Questions
* Comment automatiser le traitement des données dans Python?
* Comment structurer le traitement avec des fonctions?

Objectifs
* Utiliser des boucles `for` pour automatiser l'analyse de données.
* Générer des fichiers avec des noms uniques.
* Construire du code réutilisable en Python.
* Écrire des fonctions avec des conditions (`if`, `then`, `else`).

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("../data/surveys.csv")
species_df = pd.read_csv("../data/species.csv")

## Automatiser l'analyse de données avec des boucles `for`

In [None]:
import os

In [None]:
dossier_annees = "fichiers_par_annee"
os.mkdir(dossier_annees)

In [None]:
os.listdir('.')

In [None]:
for annee in surveys_df['year'].unique():
    # Créer un nom de fichier unique pour chaque année
    nom_fichier = os.path.join(dossier_annees, "surveys_" + str(annee) + ".csv")
    print(nom_fichier)

    # Sélectionner les données complètes de l'année en cours
    surveys_annee = surveys_df[surveys_df['year'] == annee]
    surveys_annee.to_csv(nom_fichier, index=False)

os.listdir(dossier_annees)

### Exercice - Création de fichiers différents
Au lieu de diviser les données par année, nous voudrions les diviser par nom complet d'espèce. Il faut donc au préalable joindre les deux dataframes.

In [None]:
dossier_especes = "fichiers_especes"
os.mkdir(dossier_especes)  # Créer le dossier

In [None]:
merged_left = pd.merge(left=surveys_df, right=species_df, how='left', on="species_id")

for espece in merged_left['species'].unique():
    # Créer un nom de fichier unique pour chaque espèce
    nom_fichier = os.path.join(dossier_especes, "surveys_" + str(espece) + ".csv")
    print(nom_fichier)

    # Sélectionner les données complètes de l'espèce en cours
    merged_left_espece = merged_left[merged_left['species'] == espece].dropna()
    merged_left_espece.to_csv(nom_fichier, index=False)

os.listdir(dossier_especes)

## Développer du code modulaire et réutilisable avec des fonctions
* On veut créer le dossier automatiquement, mais en testant sont existence avant.
* Utiliser `None` par défaut pour `annee_debut` et `annee_fin`.
* On veut que la 2e fonction retourne les fichiers créés.

In [None]:
def ecrire_csv_une_annee(donnees, dossier_cible, prefixe, cette_annee):
    """
    Écrire un fichier CSV avec les données d'une année. Retourne le nom de fichier.

    donnees --- le DataFrame
    dossier_cible --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    cette_annee --- année à sélectionner
    """

    # Créer un nom de fichier unique pour chaque année
    nom_fichier = os.path.join(dossier_cible, prefixe + str(cette_annee) + ".csv")

    # Sélectionner les données complètes de l'année en cours
    surveys_annee = donnees[donnees['year'] == cette_annee]
    surveys_annee.to_csv(nom_fichier, index=False)

    return nom_fichier

In [None]:
def ecrire_csv_annees(donnees, dossier_cible, prefixe,
                      annee_debut = None, annee_fin = None):
    """
    Écrire des fichiers CSV avec les données de plusieurs années.

    donnees --- le DataFrame
    dossier_cible --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    annee_debut --- première année --- défaut: None - depuis le tout début
    annee_fin --- dernière année --- défaut: None - jusqu'à la toute fin
    """

    if dossier_cible in os.listdir('.'):
        print('Le dossier "{}" existe'.format(dossier_cible))
    else:
        os.mkdir(dossier_cible)
        print('Nouveau dossier: "{}"'.format(dossier_cible))

    if not annee_debut:
        annee_debut = min(donnees['year'])

    if not annee_fin:
        annee_fin = max(donnees['year'])

    noms_de_fichier = []

    # "annee_fin" est la dernière année à traiter, donc il faut annee_fin+1
    for annee in range(annee_debut, annee_fin + 1):
        nom_fichier = ecrire_csv_une_annee(donnees, dossier_cible, prefixe, annee)
        noms_de_fichier.append(nom_fichier)

    return noms_de_fichier

In [None]:
ecrire_csv_annees(surveys_df, "final", "resultats_", 1995, 1998)

In [None]:
os.listdir("final")

In [None]:
ecrire_csv_annees(surveys_df, "final", "resultats_")