# Analyse et visualisation de données avec Python
## Automatisation du traitement des données
Questions
* Comment automatiser le traitement des données dans Python?
* Comment structurer le traitement avec des fonctions?

Objectifs
* Utiliser des boucles `for` pour automatiser l'analyse de données.
* Générer des fichiers avec des noms uniques.
* Construire du code réutilisable en Python.
* Écrire des fonctions avec des conditions (`if`, `then`, `else`).

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
surveys_df = pd.read_csv("../data/surveys.csv")
species_df = pd.read_csv("../data/species.csv")

## Automatiser l'analyse de données avec des boucles `for`

In [None]:
import os

In [None]:
dossier_annees = "fichiers_par_annee"
os.###(dossier_annees)

In [None]:
os.###('.')

In [None]:
surveys_df['year']###
    # Créer un nom de fichier unique pour chaque année
    # nom_fichier = os.path.join(dossier_annees, "surveys_" + str(###) + ".csv")
    # print(nom_fichier)

    # Sélectionner les données complètes de l'année en cours
    # surveys_### = surveys_df[surveys_df['year'] == ###]
    # surveys_annee.###(nom_fichier, index=###)

# os.listdir(dossier_annees)

### Exercice - Création de fichiers différents
Au lieu de diviser les données par année, nous voudrions les diviser par nom complet d'espèce. Il faut donc au préalable joindre les deux dataframes.

In [None]:
dossier_### = "fichiers_especes"
os.###(dossier_especes)  # Créer le dossier

In [None]:
merged_left = pd.merge(left=surveys_df, right=species_df, how='###', on="species###")

for espece in merged_left['###'].unique():
    # Créer un nom de fichier unique pour chaque espèce
    nom_fichier = os.path.join(###, "surveys_" + str(###) + ".csv")
    print(nom_fichier)

    # Sélectionner les données complètes de l'espèce en cours
    merged_left_espece = merged_left[merged_left### == ###].dropna()
    merged_left_espece.###(nom_fichier, index=###)

# os.###(dossier_especes)

## Développer du code modulaire et réutilisable avec des fonctions

In [None]:
### one_year_csv_writer(all_data, folder_to_save, prefix, this_year):
    """
    Écrire un fichier CSV avec les données d'une année.

    all_data --- le DataFrame
    folder_to_save --- dossier dans lequel sauvegarder le fichier
    prefix --- préfixe au nom de fichier CSV
    this_year --- année à sélectionner
    """

    # Sélectionner les données complètes de l'année en cours
    data_for_year = ###_data[###_data['year'] == ###_year]

    # Sauvegarder les données dans un fichier indépendant
    filename = os.path.join(folder_to_save, prefix + ###(###_year) + ".csv")
    data_for_year.to_csv(filename, index=False)

In [None]:
###(one_year_csv_writer)

In [None]:
one_year_csv_writer(surveys_df, folder_###, "###_surveys_", 2002)
os.listdir(folder_years)

In [None]:
def yearly_data_csv_writer(all_data, folder_to_save, prefix, ###, ###):
    """
    Écrire des fichiers CSV avec les données de plusieurs années.

    all_data --- le DataFrame
    folder_to_save --- dossier dans lequel sauvegarder le fichier
    prefix --- préfixe au nom de fichier CSV
    start_year --- première année à sélectionner
    end_year --- dernière année à sélectionner
    """

    # "end_year" est la dernière année à traiter, donc il faut end_year+1
    for year in ###(start_year, end_year ###):
        one_year_csv_writer(all_data, folder_to_save, prefix, year)

In [None]:
yearly_data_csv_writer(surveys_df, folder_years, "###_surveys_", ###, ###)
os.listdir(folder_years)

## Tester les arguments avec des conditions
* On veut créer le dossier automatiquement.
* Utiliser `None` par défaut pour `start_year` et `end_year`.
* On veut que la fonction retourne les fichiers créés.

In [None]:
def one_year_csv_writer(all_data, folder_to_save, prefix, this_year):
    """
    Écrire un fichier CSV avec les données d'une année. Retourne le nom de fichier.

    all_data --- le DataFrame
    folder_to_save --- dossier dans lequel sauvegarder le fichier
    prefix --- préfixe au nom de fichier CSV
    this_year --- année à sélectionner
    """

    # Sélectionner les données complètes de l'année en cours
    data_for_year = all_data[all_data['year'] == this_year]

    # Sauvegarder les données dans un fichier indépendant
    filename = os.path.join(folder_to_save, prefix + str(this_year) + ".csv")
    data_for_year.to_csv(filename, index=False)

    ### ###

In [None]:
def yearly_data_csv_writer(all_data, folder_to_save, prefix,
                           start_year = ###, end_year = ###):
    """
    Écrire des fichiers CSV avec les données de plusieurs années.

    all_data --- le DataFrame
    folder_to_save --- dossier dans lequel sauvegarder le fichier
    prefix --- préfixe au nom de fichier CSV
    start_year --- première année --- défaut: None - toutes les données
    end_year --- dernière année --- défaut: None - toutes les données
    """

    ### folder_to_save ### os.listdir('.'):
        print('Le dossier existe')
    ###:
        os.mkdir(folder_to_save)
        print('Nouveau dossier')

    if ### start_year:
        start_year = ###(all_data['year'])
    if not end_year:
        end_year = ###(all_data['year'])

    filenames = ###

    # "end_year" est la dernière année à traiter, donc il faut end_year+1
    for year in range(start_year, end_year + 1):
        filenames.###(one_year_csv_writer(all_data, folder_to_save, prefix, year))

    ###

In [None]:
yearly_data_csv_writer(surveys_df, 'final', 'results_', 1995, 1998)

In [None]:
yearly_data_csv_writer(surveys_df, 'final', 'results_')