# Analyse et visualisation de données avec Python
## Automatisation du traitement des données
Questions
* Comment automatiser le traitement des données dans Python?
* Comment structurer le traitement avec des fonctions?

Objectifs
* Utiliser des boucles `for` pour automatiser l'analyse de données.
* Générer des fichiers avec des noms uniques.
* Construire du code réutilisable en Python.
* Écrire des fonctions avec des conditions (`if`, `then`, `else`).

## Charger nos données

In [None]:
# Charger le module pandas
import pandas as pd

# Charger les données
valeurs = pd.read_csv("../data/valeurs.csv")
compagnies = pd.read_csv("../data/compagnies.csv")

## Automatiser l'analyse de données avec des boucles `for`

In [None]:
import ###

In [None]:
dossier_annees = "fichiers_par_annee"
###

In [None]:
os.###('.')

In [None]:
# Sélectionner les données complètes pour l'année 2016
valeurs2016 = valeurs[valeurs['year'] == 2016].dropna()

# Sauvegarder les données sélectionnées
valeurs2016.###(###(dossier_annees, "valeurs_2016.csv"), index=False)
os.###(dossier_annees)

In [None]:
valeurs['year']###

In [None]:
### valeurs['year'].unique():
    fichier=os.path.join(dossier_annees, "valeurs_" + str(###) + ".csv")
    print(fichier)

In [None]:
### valeurs['year'].unique():
    # Sélectionner les données complètes de l'année en cours
    valeurs_annee = valeurs[valeurs['year'] == ###].dropna()
    
    # Sauvegarder les données dans un fichier indépendant
    fichier=os.path.join(dossier_annees, "valeurs_" + str(###) + ".csv")
    valeurs_annee.###(###, index=False)

os.listdir(dossier_annees)

### Exercice - Création de fichiers différents
Au lieu de diviser les données par année, nous voudrions les diviser par pays. Il faut donc au préalable joindre les deux dataframes.

In [None]:
dossier_pays = "fichiers_par_pays"
os.###(###)

In [None]:
valeurs_cie = pd.merge(left=compagnies, right=valeurs, how='right', on='company_ID')

for ###
    # Sélectionner les données complètes du pays en cours
    valeurs_cie_pays = valeurs_cie[valeurs_cie[###] == pays].dropna()
    
    # Sauvegarder les données dans un fichier indépendant
    fichier=os.path.join(dossier_###, "valeurs_" + str(###) + ".csv")
    ###.to_csv(fichier, index=False)

os.listdir(###)

## Développer du code modulaire et réutilisable avec des fonctions

In [None]:
###
    """
    Écrire un fichier avec les données d'un seul pays

    donnees --- le DataFrame
    nom_dossier --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    code_pays --- chaîne de 3 charactères du pays
    """

    # Sélectionner les données complètes du pays en cours
    donnees_pays = ###[###['country'] == ###].dropna()

    # Sauvegarder les données dans un fichier indépendant
    fichier=os.path.join(###, ### + str(###) + ".csv")
    donnees_pays.to_csv(fichier, index=False)

In [None]:
###(sauvegarder_pays)

In [None]:
sauvegarder_pays(valeurs_cie, dossier_pays, "valeurs_", ###)

In [None]:
def ###(donnees, nom_dossier, prefixe, ###):
    """
    Écrire un fichier par pays

    donnees --- le DataFrame
    nom_dossier --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    codes_pays --- liste de chaînes de 3 charactères du pays
    """

    for ### in ###:
        sauvegarder_pays(donnees, nom_dossier, prefixe, ###)

In [None]:
sauvegarder_les_pays(valeurs_cie, dossier_pays, "valeurs_",
                     ["BEL", "FRA", "GBR"###)

## Tester les arguments avec des conditions
* On veut créer le dossier automatiquement
* Par défaut, les codes de pays sont une liste vide signifiant tous les pays
* On veut que la fonction retourne les fichiers créés

In [None]:
def sauvegarder_pays(donnees, nom_dossier, prefixe, code_pays):
    """
    Écrire un fichier avec les données d'un seul pays.
    Retourner le nom de fichier.

    donnees --- le DataFrame
    nom_dossier --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    code_pays --- chaîne de 3 charactères du pays
    """

    # Sélectionner les données complètes du pays en cours
    donnees_pays = donnees[donnees['country'] == code_pays].dropna()

    # Sauvegarder les données dans un fichier indépendant
    fichier=os.path.join(nom_dossier, prefixe + str(code_pays) + ".csv")
    donnees_pays.to_csv(fichier, index=False)

    ###

In [None]:
def sauvegarder_les_pays(donnees, nom_dossier, prefixe, codes_pays ###):
    """
    Écrire un fichier par pays. Retourner la liste de fichiers créés.

    donnees --- le DataFrame
    nom_dossier --- dossier dans lequel sauvegarder le fichier
    prefixe --- préfixe au nom de fichier CSV
    codes_pays --- liste de chaînes de 3 charactères du pays --- défaut: [] - tous les pays
    """

    ### os.listdir('.'):
        print('Le dossier existe déjà')
    else:
        os.###(nom_dossier)
        print('Création du dossier')

    ###
        codes_pays = donnees['country'].unique()
        
    fichiers ###

    for pays in codes_pays:
        fichiers.###(sauvegarder_pays(donnees, nom_dossier, prefixe, pays))

    ###

In [None]:
sauvegarder_les_pays(valeurs_cie, "par_pays", "valeurs_",
                     ["BEL", "FRA", "GBR"])

In [None]:
sauvegarder_les_pays(valeurs_cie, "par_pays", "valeurs_")