---

# **Notebook 9 : Tri des Pays en Langue Latine dans les Données de Produit**

---

### **1. Importation des bibliothèques**

Cette première section est dédiée à l'importation des bibliothèques nécessaires pour la manipulation des fichiers et des données.


In [21]:
# Importation des bibliothèques
import os
import pandas as pd
import re

---

### **2. Définition de la fonction de comptage des pays**

Cette fonction lit les fichiers dans le dossier des chunks, filtre les noms de pays pour exclure ceux en caractères non-latins, compte les occurrences de chaque pays, et organise le résultat par ordre croissant.


In [22]:
def filtrer_pays_langue_latine(input_directory, output_directory):
    # Créer le répertoire de sortie s'il n'existe pas
    os.makedirs(output_directory, exist_ok=True)

    # Parcourir les fichiers dans le dossier des chunks
    for file_name in os.listdir(input_directory):
        input_file_path = os.path.join(input_directory, file_name)
        
        # Lire chaque chunk
        chunk_iter = pd.read_csv(input_file_path, sep=',', chunksize=10000, low_memory=False, on_bad_lines="skip")
        
        for i, chunk in enumerate(chunk_iter):
            if 'countries' in chunk.columns:
                # Nettoyer et filtrer les noms de pays pour garder uniquement les caractères latins
                chunk['countries_cleaned'] = chunk['countries'].apply(
                    lambda x: [country.strip() for country in re.split(r',|\s', str(x)) if re.match(r'^[a-zA-Z\s]+$', country)]
                )
                
                # Supprimer la colonne temporaire 'countries_cleaned' pour conserver les données d'origine
                chunk = chunk.drop(columns=['countries_cleaned'])

                # Définir le chemin de sortie pour le fichier chunk filtré
                output_file_path = os.path.join(output_directory, f"{file_name.split('.')[0]}_filtered_part_{i}.csv")

                # Enregistrer chaque chunk filtré dans un fichier distinct
                chunk.to_csv(output_file_path, index=False)
                print(f"Chunk filtré sauvegardé dans {output_file_path}")


### **3. Définition des Répertoires d'Entrée et de Sortie**

Cette section enregistre le tableau résultant, trié par ordre croissant, dans un fichier CSV pour une utilisation ultérieure.


In [23]:
# Répertoires d'entrée et de sortie
input_directory = 'note-books/phase_1_data/07_chunk_no_redundant_columns'
output_directory = 'note-books/phase_1_data/08_data_countries'


### **4. Exécution de la Fonction**

Exécutez la fonction filtrer_pays_langue_latine pour appliquer le filtrage tout en conservant toutes les colonnes d'origine.


In [24]:
# Exécuter la fonction
filtrer_pays_langue_latine(input_directory, output_directory)


Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_17_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_17_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_34_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_16_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_31_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_30_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_21_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_19_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_20_filtered_part_0.csv
Chunk filtré sauvegardé dans note-books/phase_1_data/08_data_countries/chunk_20_filtered_part_0.csv


### **Explications :**


- **Filtrage des Pays en Langue Latine**: La fonction traite les données dans chaque chunk et filtre les noms de pays pour ne garder que ceux écrits avec des caractères latins.
- **Conservation des Colonnes**: Toutes les colonnes d'origine sont conservées dans le fichier final.
- **Enregistrement en CSV Consolidé** : Le fichier final conserve toutes les données des fichiers CSV originaux avec le filtrage appliqué sur la colonne countries.

--- 