# Nettoyage et préparation du dataset de vins

In [15]:
import pandas as pd

file_path = "../data/raw/winemag-data_first150k.csv"

# Chargement et nettoyage par chunks

In [18]:
chunksize = 20000
clean_chunks = []

for chunk in pd.read_csv(file_path, chunksize=chunksize):
    # Renommage des colonnes
    chunk = chunk.rename(columns={
        "Unnamed: 0": "id",
        "region_1": "primary_region",
        "region_2": "secondary_region",
    })

    # Suppression des lignes complètement vides
    chunk = chunk.dropna(how="all")

    # Suppression des doublons
    chunk = chunk.drop_duplicates()

    clean_chunks.append(chunk)

# Concaténation de tous les chunks
df_clean = pd.concat(clean_chunks, ignore_index=True)

# Suppression finale des doublons sur l'ensemble du dataset
df_clean = df_clean.drop_duplicates()

print(f"Nombre de lignes après nettoyage : {len(df_clean)}")
print(f"\nAperçu des données :")
print(df_clean.head())

Nombre de lignes après nettoyage : 150930

Aperçu des données :
   id country                                        description  \
0   0      US  This tremendous 100% varietal wine hails from ...   
1   1   Spain  Ripe aromas of fig, blackberry and cassis are ...   
2   2      US  Mac Watson honors the memory of a wine once ma...   
3   3      US  This spent 20 months in 30% new French oak, an...   
4   4  France  This is the top wine from La Bégude, named aft...   

                            designation  points  price        province  \
0                     Martha's Vineyard      96  235.0      California   
1  Carodorum Selección Especial Reserva      96  110.0  Northern Spain   
2         Special Selected Late Harvest      96   90.0      California   
3                               Reserve      96   65.0          Oregon   
4                            La Brûlade      95   66.0        Provence   

      primary_region   secondary_region             variety  \
0        Napa Valle

In [19]:
print("\nValeurs manquantes par colonne :")
missing_values = df_clean.isnull().sum()
missing_percent = (missing_values / len(df_clean)) * 100
missing_df = pd.DataFrame({
    'Valeurs manquantes': missing_values,
    'Pourcentage': missing_percent
})
print(missing_df[missing_df['Valeurs manquantes'] > 0].sort_values('Pourcentage', ascending=False))



Valeurs manquantes par colonne :
                  Valeurs manquantes  Pourcentage
secondary_region               89977    59.615053
designation                    45735    30.302127
primary_region                 25060    16.603724
price                          13695     9.073743
country                            5     0.003313
province                           5     0.003313


# Sauvegarde des données nettoyées

In [21]:
df_clean.to_csv("../data/cleaned/wine_data_cleaned.csv", index=False)
print(f"\nDonnées sauvegardées : {len(df_clean)} lignes")


Données sauvegardées : 150930 lignes
