# Projet Data Visualisation
## Transformation des données pour leur utilisation

In [None]:
import pandas as pd

### Lecture des données

In [None]:
df_operations = pd.read_excel("../data/operation_20200101_20211231.xlsx")[["Libellé", "Date", "Montant", "Catégorie"]]
df_operations = df_operations.loc[df_operations["Montant"] < 0]

In [None]:
df_operations.head()

In [None]:
df_expenses_cat = pd.read_excel("../data/expenses_by_category.xlsx").rename(columns={"Unnamed: 0": "Catégorie", "Autres inactifs":"Etudiants"})[["Catégorie", "Etudiants", "Ensemble"]][:-1]

In [None]:
df_expenses_cat.head()

### Comparaison et mapping des catégories

In [None]:
df_operations["Catégorie"].unique()

In [None]:
df_expenses_cat["Catégorie"].unique()

In [None]:
categories_mapping_operations = {
    "Habitation":["Habitation", "Travaux", "Electricité, gaz, eau", "Impôts : taxe foncière", "Impôts : taxe habitation",
                 "Habitation secondaire", "Loyer", "Jardin", "Assurance logement", "Ménage/repassage",
                 "Ameublement/équipement"],
    "Loisirs":["Loisirs", "Multimédia", "Vacances", "Animaux", "Sport", "Sorties", "Cadeaux", "Evènements", "Jeux",
              "Hôtels", "Livres", "Restaurant"],
    "Communications":["Téléphone", "Internet/TV", "Communications"],
    "Alimentation" :["Alimentation", "Cantine"],
    "Transports":["Transports", "Véhicule", "Moto", "Péages", "Essence", "Location Voiture", "Assurance auto",
                 "Assurance moto", "Parking"],
    "Santé/Bien être":["Santé/Bien être", "Soin du corps", "Services à la personne", "Mutuelle de santé", "Pharmacie",
                      "Assurance santé", "Aides à domicile", "Coiffeur"],
    "Habillement":["Habillement", "Chaussures", "Accessoires"],
    "Autres":["Frais Pro", "Enfants", "Amendes", "Frais de justice", "Frais de scolarité", "Gardes d'enfant", "Dons", 
             "Impôts : autres", "Assurances : autres", "Autres dépenses",
             "Impôts : revenus", "Epargne", "Prêts", "Agios", "Frais bancaires", "Assurance vie", "Bourse", 
             "Retrait d'argent", "Prêt relais"]
}
categories_mapping_operations = {subcat:cat for cat in categories_mapping_operations.keys() for subcat in categories_mapping_operations[cat]}

In [None]:
categories_mapping_expenses_cat = {
    'Produits alimentaires et boissons non alcoolisées':"Alimentation",
    'Boissons alcoolisées et tabac':"Alimentation",
    "Articles d'habillement et chaussures":"Habillement",
    'Logement, eau, gaz, électricité et autres combustibles':"Habitation",
    'Meubles, articles de ménage et entretien courant de la maison' :"Habitation",
    'Santé' : "Santé/Bien être",
    'Transports':"Transports",
    'Communications': "Communications",
    'Loisirs et culture':"Loisirs",
    'Enseignement':"Autres",
    'Restauration et hôtels':"Loisirs",
    'Biens et services divers (1)':"Autres"
}

### Transformation des données

In [None]:
df_operations["Catégorie"] = df_operations["Catégorie"].map(categories_mapping_operations)

In [None]:
df_operations["Catégorie"].value_counts()

In [None]:
df_expenses_cat["Catégorie"] = df_expenses_cat["Catégorie"].map(categories_mapping_expenses_cat)
df_expenses_cat = df_expenses_cat.groupby("Catégorie").sum().reset_index()
df_expenses_cat

### Sauvegarde des données

In [None]:
df_operations.to_csv("../data/operations.csv", index=False)
df_expenses_cat.to_csv("../data/repartition_categories.csv", index=False)