# Document principal du projet

## Création de la base de données


On se sert directement du fichier *src/services/init/initialisation.json*. Ce fichier contient une liste de codes-barres que l'on utilise pour instancier la base de données *src/database/barcodes.json*.

On doit d'abord s'assurer d'être au bon endroit et d'avoir le bon *working directory*, à savoir : *Projet-python-pour-la-data-science---ENSAE-Paris*.

In [1]:
import os

def set_working_directory(target_dir_name):
    current_dir = os.getcwd()
    
    while os.path.basename(current_dir) != target_dir_name:
        parent_dir = os.path.dirname(current_dir)
        # Si on atteint la racine sans trouver le dossier cible, on arrête pour éviter une boucle infinie
        if current_dir == parent_dir:  
            raise FileNotFoundError(f"Le dossier cible '{target_dir_name}' n'a pas été trouvé dans l'arborescence.")
        current_dir = parent_dir  # Remonter d'un niveau

    os.chdir(current_dir)
    print(f"Le working directory est maintenant : {os.getcwd()}")

# Exemple d'utilisation
try:
    set_working_directory("Projet-python-pour-la-data-science---ENSAE-Paris")
except FileNotFoundError as e:
    print(e)


Le working directory est maintenant : c:\Users\trema\OneDrive\Bureau\ENSAE Paris\Cours\S1\4. Python pour la data science\Projet-python-pour-la-data-science---ENSAE-Paris


On importe ensuite la class **Barcodes** puis on l'initialise. 

In [2]:
from src.services.barcodes import Barcodes
import os

# On instancie la base de données si cela n'a pas déjà été fait
bar = Barcodes()
bar.initialiser_database()

Une fois que cela a été fait, on peut désormais créer une nouvelle catégorie, appelée **categorie_clean**, celle-ci permet de regrouter différents produits qui ont des caractéristiques communes. Ensuite, on peut afficher un aperçu de la base de données (BDD).

In [3]:
from src.services.traitement import Traitement
# Création d'une instance
traitement = Traitement()

# On récupère de DataFrame
df = traitement.df

# Affichage des données transformées
print(f"Nom des colonnes :\n{[name for name in df.columns]}")
print('-'*60 + '\n')
print("Les 2 premières lignes de la BDD")
print(df.head(2))

Nom des colonnes :
['Nom', 'Nutriscore', 'Ecoscore', 'Taux de sel (100g)', 'Taux de matieres grasses (100g)', 'Taux de matieres grasses saturees (100g)', 'Taux de proteine (100g)', 'Taux de sucre (100g)', 'Energie (Kcal) (100g)', 'Categorie_clean']
------------------------------------------------------------

Les 2 premières lignes de la BDD
                                   Nom Nutriscore  Ecoscore  \
Barcode                                                       
3073781055016        Fagotin tradition          d      47.0   
3564707128117  Ricotta bio 8% Mat. Gr.          c      60.0   

              Taux de sel (100g) Taux de matieres grasses (100g)  \
Barcode                                                            
3073781055016                1.4                              28   
3564707128117                0.4                               8   

              Taux de matieres grasses saturees (100g)  \
Barcode                                                  
3073781055016 