# Analyse de la qualit√© des donn√©es du fichier Clients_Master


## R√©sum√© des anomalies observ√©es
- 18 doublons (3%)
- 17% de villes non renseign√©es
<br> --> saisie manuelle facultative
- 61% des lignes comportent des villes qui n'existe pas ou son mal orthographi√©es (Pariss)
<br> --> saisie manuelle (faute de frappe, mauvais champs s√©lectionn√©)

## Proposition d'une correction
- supprimer les doublons (pas de perte de donn√©es)
<br>--> 18 lignes supprim√©es
- correction automatique avec Fuzzy matching = 1 353 lignes corrig√©es
- suppression des noms de villes invalides non corrigeables
<br> --> donn√©e inexploitable = 103 villes null

In [19]:
import pandas as pd
import numpy as np
import requests
from fuzzywuzzy import process

In [3]:
df_clients = pd.read_csv('../data/raw/Clients_Master.csv')

In [7]:
print("AUDIT DATAFRAME CLIENTS")

display(df_clients.head())
display(df_clients.info())

print("\n---Taux de valeurs manquantes (%)---")
missing_percentage = df_clients.isnull().sum() / len(df_clients) * 100
print(missing_percentage[missing_percentage > 0].sort_values(ascending=False))

print("\n---V√©rification des doublons---")
clients_doublons = df_clients.duplicated().sum()
print(f"Nombre total de doublons: {clients_doublons} / soit {clients_doublons/len(df_clients) * 100:.2f}%")


AUDIT DATAFRAME CLIENTS


Unnamed: 0,client_id,nom,prenom,email,ville,date_inscription,derniere_activite
0,1,Rey,Alexandrie,alexandrie.rey@live.com,Lejeune,2023-10-15,2025-01-21
1,2,Lagarde,Eug√®ne,eug√®ne.lagarde@yahoo.fr,,2024-07-31,2025-08-25
2,3,Gaudin,Aim√©e,aim√©e.gaudin@sfr.fr,Lopezdan,2024-01-03,2025-10-19
3,4,Faivre,No√´l,no√´l.faivre@voila.fr,Saint Eug√®ne,2023-08-01,2025-07-11
4,5,Faure,V√©ronique,v√©ronique.faure@club-internet.fr,Sainte Jacques-les-Bains,2023-02-14,2025-10-23


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 520 entries, 0 to 519
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   client_id          520 non-null    int64 
 1   nom                520 non-null    object
 2   prenom             520 non-null    object
 3   email              520 non-null    object
 4   ville              428 non-null    object
 5   date_inscription   520 non-null    object
 6   derniere_activite  520 non-null    object
dtypes: int64(1), object(6)
memory usage: 28.6+ KB


None


---Taux de valeurs manquantes (%)---
ville    17.692308
dtype: float64

---V√©rification des doublons---
Nombre total de doublons: 18 / soit 3.46%


## On v√©rifie si les villes renseign√©es existent
## Le script est long (~1min30 pour tester chaque ville)

In [12]:
print("\n--- VALIDATION DES NOMS DE VILLES ---")

def valider_villes_dataframe(df, colonne_ville='ville'):
    villes_uniques = df[colonne_ville].dropna().unique()

    villes_invalides = []
    villes_valides = []

    for ville in villes_uniques:
        url = f"https://geo.api.gouv.fr/communes?nom={ville}&limit=1"
        try:
            response = requests.get(url, timeout=5)
            if response.status_code == 200 and len(response.json()) > 0:
                villes_valides.append(ville)
            else:
                villes_invalides.append(ville)
        except:
            villes_invalides.append(ville)

    print(f"Villes valides : {len(villes_valides)} soit {len(villes_valides)/len(villes_uniques)*100:.0f}%")
    print(f"Villes invalides : {len(villes_invalides)} soit {len(villes_invalides)/len(villes_uniques)*100:.0f}%")

    if villes_invalides:
        # Afficher les lignes concern√©es
        mask_invalides = df[colonne_ville].isin(villes_invalides)
        print(f"\nNombre de lignes affect√©es : {mask_invalides.sum()} soit {mask_invalides.sum()/len(df_clients)*100:.0f}%")
        display(df[mask_invalides][[colonne_ville]].head(10))

    return villes_valides, villes_invalides

villes_valides, villes_invalides = valider_villes_dataframe(df_clients)



--- VALIDATION DES NOMS DE VILLES ---
Villes valides : 87 soit 24%
Villes invalides : 272 soit 76%

Nombre de lignes affect√©es : 317 soit 61%


Unnamed: 0,ville
0,Lejeune
2,Lopezdan
4,Sainte Jacques-les-Bains
6,Petit-sur-Mer
14,Sainte Lucieboeuf
15,Augernec
16,Pichon-sur-Mer
17,Blanc-sur-Mer
19,Saint ValentineVille
22,Saint Thomasdan


# Correction du dataframe

## Suppression des doublons

In [15]:
print("\n--- SUPPRESSION DES DOUBLONS ---")

df_clients_without_duplicate = df_clients.drop_duplicates()
print(f"Lignes avant : {len(df_clients)}")
print(f"Lignes apr√®s : {len(df_clients_without_duplicate)}")
print(f"Nombre de doublons restants: {df_clients_without_duplicate.duplicated().sum()}")


print("\n--- SAUVEGARDE DU FICHIER NETTOYE ---")

# Sauvegarder dans le dossier processed
df_clients_without_duplicate.to_csv('../data/processed/Clients_Master_corrected.csv', index=False)


--- SUPPRESSION DES DOUBLONS ---
Lignes avant : 520
Lignes apr√®s : 502
Nombre de doublons restants: 0

--- SAUVEGARDE DU FICHIER NETTOYE ---


# Correction des noms de ville par Fuzzy Matching 
### √† installer la librairie : pip install fuzzywuzzy python-Levenshtein
### ‚ö†Ô∏è Script long: >7min

In [20]:
# Chargement du DataFrame pr√©c√©demment nettoy√©
df_clients_cleaned = pd.read_csv('../data/processed/Clients_Master_corrected.csv')

# Charger le r√©f√©rentiel des communes
url_communes = "https://www.data.gouv.fr/fr/datasets/r/dbe8a621-a9c4-4bc3-9cae-be1699c5ff25"
communes_france = pd.read_csv(url_communes, sep=',')

# Cr√©er une liste des noms de communes (en conservant la casse originale)
noms_communes_lower = set(communes_france['nom_commune_complet'].str.lower())
noms_communes_original = communes_france['nom_commune_complet'].tolist()

print(f"‚úÖ {len(noms_communes_lower)} communes charg√©es")

def corriger_ville_automatique(nom_ville, villes_reference):
    """Trouve la ville la plus proche dans le r√©f√©rentiel"""
    if pd.isna(nom_ville):
        return None

    meilleur_match, score = process.extractOne(nom_ville, villes_reference)

    if score > 80:  # Seuil de similarit√©
        return meilleur_match
    return None

print("\n--- VALIDATION ET CORRECTION DES VILLES ---")

# Identifier les villes invalides
villes_uniques = df_clients_cleaned['ville'].dropna().unique()
villes_a_corriger = {}

for ville in villes_uniques:
    if ville.lower() not in noms_communes_lower:
        # Ville invalide, chercher une correction
        ville_corrigee = corriger_ville_automatique(ville, noms_communes_original)
        if ville_corrigee:
            villes_a_corriger[ville] = ville_corrigee
        else:
            villes_a_corriger[ville] = None


# Appliquer les corrections
if villes_a_corriger:
    print(f"\n--- APPLICATION DES CORRECTIONS ---")

    nb_corrections = 0
    nb_null = 0

    for ville_invalide, ville_corrigee in villes_a_corriger.items():
        if ville_corrigee:
            # Correction automatique r√©ussie
            df_clients_cleaned['ville'] = df_clients_cleaned['ville'].replace(ville_invalide, ville_corrigee)
            nb_corrections += (df_clients_cleaned['ville'] == ville_corrigee).sum()
        else:
            # Aucune correction trouv√©e ‚Üí remplacer par null
            mask_invalide = df_clients_cleaned['ville'] == ville_invalide
            nb_null += mask_invalide.sum()
            df_clients_cleaned.loc[mask_invalide, 'ville'] = None

    print(f"‚úÖ {nb_corrections} lignes corrig√©es")
    print(f"‚ö†Ô∏è {nb_null} lignes avec un nom de ville inexploitable -> remplac√© par null")
else:
    print("\n‚úÖ Toutes les villes sont valides, aucune correction n√©cessaire")

# Afficher le r√©sultat
print(f"\nüìã √âtat final apr√®s correction")
print(f"Villes valides : {df_clients_cleaned['ville'].notna().sum()}")
print(f"Villes null : {df_clients_cleaned['ville'].isna().sum()}")

‚úÖ 33610 communes charg√©es

--- VALIDATION ET CORRECTION DES VILLES ---

--- APPLICATION DES CORRECTIONS ---
‚úÖ 1353 lignes corrig√©es
‚ö†Ô∏è 13 lignes avec un nom de ville inexploitable -> remplac√© par null

üìã √âtat final apr√®s correction
Villes valides : 399
Villes null : 103


In [22]:
# Validation de la correction apport√©e
villes_valides, villes_invalides = valider_villes_dataframe(df_clients_cleaned)

Villes valides : 179 soit 98%
Villes invalides : 4 soit 2%

Nombre de lignes affect√©es : 4 soit 1%


Unnamed: 0,ville
105,Le Mesnil-Mauger
129,√âvaill√©
275,Saint-Gabriel-Br√©cy
443,St barthelemy


### Ce sont des faux-n√©gatifs, ces quatres villes existent bien.
<br>Il doit y avoir un probl√®me de r√©f√©rencement entre les deux sources utilis√©es pour la correction
<br> On peut consid√©rer que la correction a r√©ussi √† traiter tout ce qui √©tait possible

In [23]:
print("\n--- SAUVEGARDE DU FICHIER AVEC VILLES CORRIGEES ---")

# Sauvegarder dans le dossier processed
df_clients_cleaned.to_csv('../data/processed/Clients_Master_corrected.csv', index=False)


--- SAUVEGARDE DU FICHIER AVEC VILLES CORRIGEES ---
