---

# **Notebook 12 : Filtrage et Normalisation des Noms de Pays pour les Pays Affiliés au Nutri-Score**

---

### **1. Importation des Bibliothèques**


In [1]:
import os
import pandas as pd

### **2. Définition de la Liste des Pays Affiliés au Nutri-Score**

Voici la liste des pays affiliés que nous allons garder pour l'analyse.

In [2]:
# Liste des pays affiliés au Nutri-Score en français
pays_affilies_nutri_score = [
    "France", "Belgique", "Allemagne", "Luxembourg",
    "Pays-Bas", "Espagne", "Suisse"
]

### **3. Dictionnaire de Correspondance des Noms de Pays**

Nous allons créer un dictionnaire qui mappe les noms de pays dans différentes langues vers leur équivalent en français.

In [3]:
# Dictionnaire de correspondance des noms de pays avec synonymes
synonymes_pays = {
    "France": ["France", "Frankreich", "Francia", "França"],
    "Belgique": ["Belgium", "Belgique", "België", "Belgie"],
    "Allemagne": ["Germany", "Deutschland", "Allemagne", "Alemania"],
    "Luxembourg": ["Luxembourg", "Luxemburg"],
    "Pays-Bas": ["Netherlands", "Pays-Bas", "Nederland", "Holland"],
    "Espagne": ["Spain", "Espagne", "España"],
    "Suisse": ["Switzerland", "Suisse", "Schweiz", "Svizzera"],
    # Ajoutez d'autres correspondances si nécessaire
}

# Création du dictionnaire de correspondance
correspondance_pays = {synonyme: pays for pays, synonymes in synonymes_pays.items() for synonyme in synonymes}


---

### **4. Fonction de Filtrage et de Normalisation des Données**

Cette fonction parcourt les fichiers, normalise les noms de pays en utilisant le dictionnaire `correspondance_pays`, puis applique le filtre pour conserver uniquement les pays affiliés.

In [8]:
# Fonction pour normaliser et filtrer les pays affiliés au Nutri-Score
def filtrer_et_normaliser_pays(input_directory, output_directory):
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    for file_name in os.listdir(input_directory):
        file_path = os.path.join(input_directory, file_name)
        output_file_path = os.path.join(output_directory, file_name)

        # Charger les données avec gestion d'encodage
        try:
            df = pd.read_csv(file_path, encoding='ISO-8859-1')
        except UnicodeDecodeError:
            print(f"Problème d'encodage pour {file_name}. Réessai avec 'utf-8'.")
            df = pd.read_csv(file_path, encoding='utf-8', errors='replace')
        
        # Vérifier si la colonne 'countries' est présente
        if 'countries' not in df.columns:
            print(f"Colonne 'countries' non trouvée dans {file_name}. Fichier ignoré.")
            continue
        
        # Normaliser les noms de pays
        df['countries'] = df['countries'].apply(lambda x: correspondance_pays.get(x, x) if isinstance(x, str) else x)
        
        # Filtrer pour conserver uniquement les pays affiliés
        df_filtered = df[df['countries'].isin(pays_affilies_nutri_score)]
        
        # Enregistrer les données filtrées dans un nouveau fichier
        df_filtered.to_csv(output_file_path, index=False)
        print(f"Fichier filtré et sauvegardé : {output_file_path}")

# Répertoires d'entrée et de sortie
input_directory = 'note-books/phase_1_data/09_translated_countries'
output_directory = 'note-books/phase_1_data/12_filtrage_pays_nutri_score'

# Exécuter la fonction
filtrer_et_normaliser_pays(input_directory, output_directory)


---

### **5. Définition des Répertoires d'Entrée et de Sortie**

Nous définissons ici les répertoires d’entrée pour les fichiers CSV traduits et de sortie pour les fichiers filtrés.

In [9]:
# Répertoires d'entrée et de sortie
input_directory = 'note-books/phase_1_data/09_translated_countries'
output_directory = 'note-books/phase_1_data/12_filtrage_pays_nutri_score'

---

### **6. Exécution de la Fonction de Filtrage et de Normalisation**

Nous exécutons maintenant la fonction `filtrer_et_normaliser_pays` pour appliquer la normalisation et le filtrage.

In [10]:
# Exécuter la fonction
filtrer_et_normaliser_pays(input_directory, output_directory)

Fichier filtré et sauvegardé : note-books/phase_1_data/12_filtrage_pays_nutri_score/chunk_35_filtered_part_0.csv
Fichier filtré et sauvegardé : note-books/phase_1_data/12_filtrage_pays_nutri_score/chunk_34_filtered_part_0.csv


KeyError: 'countries'

### **Explications**

- **Normalisation des noms de pays** : La fonction utilise le dictionnaire `correspondance_pays` pour convertir les noms de pays dans d’autres langues en leur équivalent français.
- **Filtrage des pays affiliés** : Une fois normalisés, seuls les pays affiliés au Nutri-Score sont conservés.
- **Organisation structurée** : Les fichiers CSV filtrés et normalisés sont enregistrés dans le répertoire `12_filtrage_pays_nutri_score`.

---