# <font color=#0c2290> Projet d√©tection de fraudes au chronotackygraphe üìä

def generer_rapport(df_suspects, fichier_sortie='rapport_fraudes.csv'):
    """
    G√©n√®re un rapport des cas suspects
    """
    if len(df_suspects) == 0:
        print("\n‚úì Aucune fraude potentielle d√©tect√©e")
        return
    
    # Colonnes √† inclure dans le rapport
    colonnes_rapport = [
        'nom',
        'adresse',
        'activite',
        'distance_domicile_km',
        'score_risque',
        'latitude_domicile',
        'longitude_domicile',
        'latitude_position',
        'longitude_position'
    ]
    
    # Filtrer les colonnes existantes
    colonnes_disponibles = [col for col in colonnes_rapport if col in df_suspects.columns]
    df_rapport = df_suspects[colonnes_disponibles].copy()
    
    # Arrondir les valeurs num√©riques
    df_rapport['distance_domicile_km'] = df_rapport['distance_domicile_km'].round(2)
    df_rapport['score_risque'] = df_rapport['score_risque'].round(1)
    
    # Sauvegarder le rapport
    df_rapport.to_csv(fichier_sortie, index=False, encoding='utf-8-sig')
    
    print(f"\n {len(df_suspects)} cas suspects d√©tect√©s!")
    print(f"\nTop 5 des cas les plus suspects:")
    print("-" * 80)
    
    for idx, row in df_rapport.head(5).iterrows():
        print(f"\nChauffeur: {row['nom']}")
        print(f"  Distance du domicile: {row['distance_domicile_km']:.2f} km")
        print(f"  Score de risque: {row['score_risque']:.1f}/100")
        print(f"  Activit√©: {row.get('activite', 'N/A')}")
    
    print(f"\n‚úì Rapport complet sauvegard√© dans: {fichier_sortie}")


def main():
    """
    Fonction principale
    """
    print("=" * 80)
    print("D√âTECTION DE FRAUDES POTENTIELLES - CHAUFFEURS")
    print("=" * 80)
    print()
    
    # Configuration
    fichier_domiciles = 'chauffeurs_domiciles.csv'
    fichier_positions = 'chauffeurs_positions.csv'
    seuil_distance = 5  # km
    
    print(f"Param√®tres:")
    print(f"  - Seuil de distance: {seuil_distance} km")
    print()
    
    # Charger les donn√©es
    df_domiciles = charger_donnees_domiciles(fichier_domiciles)
    df_positions = charger_donnees_positions(fichier_positions)
    
    if df_domiciles is None or df_positions is None:
        print("\n Impossible de charger les donn√©es")
        return
    
    # D√©tecter les fraudes
    print("\nAnalyse en cours...")
    df_suspects = detecter_fraudes(df_domiciles, df_positions, seuil_distance)
    
    # G√©n√©rer le rapport
    generer_rapport(df_suspects)
    
    print("\n" + "=" * 80)
    print("Analyse termin√©e")
    print("=" * 80)


## **Importer les biblioth√®ques**

import pandas as pd
from math import radians, cos, sin, asin, sqrt
from datetime import datetime

### **Calcul des kilom√®tres entre deux points (Latitude / Longitude)**

def calculer_distance_haversine(lat1: float, lon1: float, lat2: float, lon2: float) -> float:
    """
    Calcule la distance en kilom√®tres entre deux points
    g√©ographiques en utilisant la formule de Haversine.

    Parameters
    ----------
    lat1 : float -> Latitude du point de d√©part (en degr√©s).
    lon1 : float -> Longitude du point de d√©part (en degr√©s).
    lat2 : float -> Latitude du point d'arriv√©e (en degr√©s).
    lon2 : float -> Longitude du point d'arriv√©e (en degr√©s).

    Returns
    -------
    float -> Distance en kilom√®tres entre les deux points.
    """

    # Conversion des degr√©s en radians
    lat1, lon1, lat2, lon2 = map(radians, [lat1, lon1, lat2, lon2])

    # Calcul des diff√©rences
    dlat = lat2 - lat1
    dlon = lon2 - lon1

    # Application de la formule de Haversine
    a = sin(dlat / 2) ** 2 + cos(lat1) * cos(lat2) * sin(dlon / 2) ** 2
    c = 2 * asin(sqrt(a))

    # Rayon de la Terre en kilom√®tres
    r = 6371

    return c * r

### Exemple d'utilisation

if __name__ == "__main__":
    # Paris -> Lyon
    distance = calculer_distance_haversine(48.8566, 2.3522, 45.7640, 4.8357)
    print(f"Distance Paris -> Lyon : {distance:.2f} km")

## **Chargement du fichier des positions des domiciles des chauffeurs**
## ===============================================================

### **Chemin vers le fichier CSV**
df = pd.read_csv(
    "Users", "bourtguize", "Desktop", "dataSuits",
    "FORMATION DATA ANALYST - Septembre 2025",
    "DOSSIER MODULE 6 - Projet final & Pr√©pa pro",
    "Data-projet", "data", "personnel_coordonnees.csv"
)

### **Liste des encodages √† tester**
ENCODAGES = ["utf-8", "latin-1", "cp1252", "iso-8859-1"]

### **Colonnes requises apr√®s renommage**
COLONNES_REQUISES = ["nom", "latitude_domicile", "longitude_domicile"]

#### **=============================================================**
#### Format attendu : nom, latitude_domicile, longitude_domicile
#### **=============================================================**

### **Correspondance des colonnes brutes -> nom attendu**
COLONNES_RENOMMAGE = {
    "Nom":       "nom",
    "latitude":  "latitude_domicile",
    "longitude": "longitude_domicile",
}


def load_domiciles_file(file_path: str = FILE_PATH) -> pd.DataFrame | None:
    """
    Charge le fichier CSV des domiciles des chauffeurs.

    Tente plusieurs encodages successivement jusqu'√† un
    chargement r√©ussi. V√©rifie ensuite la pr√©sence des
    colonnes obligatoires apr√®s renommage.

    Parameters
    ----------
    file_path : str -> Chemin vers le fichier CSV.

    Returns
    -------
    pd.DataFrame | None
        DataFrame nettoy√© si le fichier est valide,
        None sinon.
    """

    for encoding in ENCODAGES:
        try:
            # --- Lecture du fichier CSV ---
            df = pd.read_csv(file_path, encoding=encoding, sep=";")

            # --- Renommage des colonnes ---
            df = df.rename(columns=COLONNES_RENOMMAGE)

            # --- V√©rification des colonnes requises ---
            colonnes_manquantes = [
                col for col in COLONNES_REQUISES if col not in df.columns
            ]

            if colonnes_manquantes:
                print(f"‚úó Colonnes manquantes : {colonnes_manquantes}")
                print(f"  Colonnes pr√©sentes  : {list(df.columns)}")
                return None

            # --- Retour du DataFrame valid√© ---
            print(f"‚úì {len(df)} chauffeurs charg√©s (encodage : {encoding})")
            return df

        except (UnicodeDecodeError, UnicodeError):
            # Encodage incompatible -> on teste le suivant
            continue

        except Exception as e:
            print(f"‚úó Erreur avec l'encodage '{encoding}' : {e}")
            continue

    # Aucun encodage ne a fonctionn√©
    print("‚úó Aucun encodage compatible trouv√© pour le fichier.")
    return None

#### Test : uniquement si ouvre fichier directement
### =============================================================
if __name__ == "__main__":

    # Chargement du fichier domiciles
    df_domiciles = load_domiciles_file()

    if df_domiciles is not None:
        print("\n--- Aper√ßu des donn√©es ---")
        print(df_domiciles.head())
    else:
        print("\n‚úó √âchec du chargement du fichier.")

### **def charger_donnees_positions(fichier_positions):**
## ======================================================

    encodages = ['utf-8', 'latin1', 'iso-8859-1', 'cp1252', 'utf-16']
    
    for encoding in encodages:
        try:
            # Ajouter sep=';' pour le s√©parateur point-virgule
            df = pd.read_csv("/Users/bourtguize/Desktop/dataSuits/FORMATION DATA ANALYST - Septembre 2025/DOSSIER MODULE 6 - Projet final & PreÃÅpa pro/Data-projet/temps de service_juin.csv", encoding=encoding, sep=';')
            
            # Renommer les colonnes pour correspondre aux noms attendus
            df = df.rename(columns={
                'Chauffeur': 'nom',
                'Latitude': 'latitude_position',
                'Longitude': 'longitude_position',
                'Code de travail': 'activite'
            })
            
            # V√©rifier les colonnes requises
            colonnes_requises = ['nom', 'latitude_position', 'longitude_position', 'activite']
            colonnes_manquantes = [col for col in colonnes_requises if col not in df.columns]
            
            if colonnes_manquantes:
                print(f"Colonnes manquantes dans le fichier positions: {colonnes_manquantes}")
                print(f"Colonnes pr√©sentes: {list(df.columns)}")
                return None
            
            print(f"‚úì {len(df)} positions charg√©es depuis le fichier positions (encodage: {encoding})")
            print(f"  Colonnes: {list(df.columns)}")
            return df
            
        except (UnicodeDecodeError, UnicodeError):
            continue
        except Exception as e:
            print(f"Erreur avec encodage {encoding}: {e}")
            continue
    
    print(f"Impossible de lire le fichier avec les encodages test√©s: {encodages}")
    return None

In [681]:
df_test2 = pd.read_excel("/Users/bourtguize/Desktop/dataSuits/FORMATION DATA ANALYST - Septembre 2025/DOSSIER MODULE 6 - Projet final & Pr√©pa pro/Data-projet/temps de service_juin.xlsx")
print("Colonnes:", df_test2.columns.tolist())
print()
print(df_test2.head())

Colonnes: ['Date et heure de d√©but', 'Date et heure de fin', 'Longitude', 'Latitude', 'Position', 'V√©hicule', 'Chauffeur', 'Code de travail', 'Description', 'Dur√©e']

  Date et heure de d√©but Date et heure de fin  Longitude  Latitude  \
0    2024-06-07 07:01:00  2024-06-07 07:03:00     4.0002   43.6516   
1    2024-06-07 07:03:00  2024-06-07 07:07:00     4.0002   43.6516   
2    2024-06-07 07:07:00  2024-06-07 07:28:00     3.9994   43.6587   
3    2024-06-07 07:28:00  2024-06-07 07:40:00     3.9992   43.6587   
4    2024-06-07 07:40:00  2024-06-07 08:47:00     3.9359   43.5935   

                                            Position           V√©hicule  \
0  FRA - Rue Jules Milhau (1-) - 34670 - Baillarg...  K1619 (FR-898-VC)   
1  FRA - Rue Jules Milhau (1-) - 34670 - Baillarg...  K1619 (FR-898-VC)   
2  FRA - Avenue de la Biste (350-) - 34670 - Bail...  K1619 (FR-898-VC)   
3  FRA - Avenue de la Biste (350-) - 34670 - Bail...  K1619 (FR-898-VC)   
4  FRA - Route de Vaugui√®res (-

In [682]:
# √Ä ex√©cuter AVANT d'appeler detecter_fraudes
df_positions = df_positions.rename(columns={
    'Chauffeur': 'nom',
    'Latitude': 'latitude_position',
    'Longitude': 'longitude_position',
    'Code de travail': 'activite'
})
print("‚úì Colonnes renomm√©es")

‚úì Colonnes renomm√©es


In [683]:
# Configuration
fichier_domiciles = '/Users/bourtguize/Desktop/dataSuits/FORMATION DATA ANALYST - Septembre 2025/DOSSIER MODULE 6 - Projet final & Pr√©pa pro/Data-projet/data/liste_personnel_avec_coordonnees_1.csv'

fichier_positions = '/Users/bourtguize/Desktop/dataSuits/FORMATION DATA ANALYST - Septembre 2025/DOSSIER MODULE 6 - Projet final & Pr√©pa pro/Data-projet/temps de service_juin.csv'

seuil_distance = 0.5  # km

In [684]:
def process_data(df_merged, seuil_distance_km= 0.5):
    # Fix the first line that had a syntax error
    df_merged['Date et heure de d√©but'] = pd.to_datetime(df_merged['Date et heure de d√©but'])
    df_merged['Date et heure de fin'] = pd.to_datetime(df_merged['Date et heure de fin'])
    df_merged['Jour'] = df_merged['Date et heure de d√©but'].dt.strftime('%Y-%m-%d')
    
    # Convertir datetime.time en minutes
    def time_to_minutes(time_obj):
        if pd.isna(time_obj):
            return 0
        try:
            # Si c'est un objet time
            if hasattr(time_obj, 'hour'):
                return time_obj.hour * 60 + time_obj.minute + time_obj.second / 60
            # Si c'est une cha√Æne
            else:
                parts = str(time_obj).split(':')
                return int(parts[0]) * 60 + int(parts[1]) + (int(parts[2]) if len(parts) > 2 else 0) / 60
        except:
            return 0
    
    df_merged['Dur√©e_minutes'] = df_merged['Dur√©e'].apply(time_to_minutes)
    
    # Filtrer uniquement les chauffeurs "en travail"
    df_travail = df_merged[df_merged['Description'].str.lower().str.contains('travail', na=False)]
    
    if len(df_travail) == 0:
        print("Aucun chauffeur en activit√© de travail trouv√©")
        return pd.DataFrame()
    
    # Calculer la distance pour chaque position
    df_travail = df_travail.copy()
    df_travail['distance_domicile_km'] = df_travail.apply(
        lambda row: calculer_distance_haversine(
            row['latitude_domicile'],
            row['longitude_domicile'],
            row['latitude_position'],
            row['longitude_position']
        ),
        axis=1
    )
    
    # Identifier les cas suspects (distance < seuil)
    df_suspects = df_travail[df_travail['distance_domicile_km'] < seuil_distance_km].copy()
    
    # Calculer un score de risque (plus proche = plus suspect)
    df_suspects['score_risque'] = (1 - (df_suspects['distance_domicile_km'] / seuil_distance_km)) * 100
    
    # Trier par score de risque d√©croissant
    df_suspects = df_suspects.sort_values('score_risque', ascending=False)
    
    return df_suspects

In [685]:
print(type(df_positions['Dur√©e'].iloc[0]))
print(df_positions['Dur√©e'].head())

<class 'datetime.time'>
0    00:14:00
1    00:25:00
2    00:17:00
3    00:01:00
4    00:05:00
Name: Dur√©e, dtype: object


In [686]:
print("\n=== D√âTECTION DES FRAUDES ===")
df_suspects = detecter_fraudes(df_domiciles, df_positions, seuil_distance)

if df_suspects is not None and len(df_suspects) > 0:
    print(f"\n {len(df_suspects)} cas suspects d√©tect√©s !")
    print("\nAper√ßu des cas suspects :")
    print(df_suspects[['nom', 'distance_domicile_km', 'score_risque']].head(10))
    
    # Saugegarder
    chemin_sortie = '/Users/bourtguize/Desktop/fraudes_detectees.csv'
    df_suspects.to_csv(chemin_sortie, index=False, sep=';', encoding='utf-8')
    print(f"\n‚úì Fichier sauvegard√© sur le Bureau : fraudes_detectees.csv")
else:
    print("\nAucune fraude d√©tect√©e")


=== D√âTECTION DES FRAUDES ===
Colonnes dans df_merged apr√®s fusion:
['Date et heure de d√©but', 'Position', 'latitude_position', 'longitude_position', 'Date et heure de fin', 'V√©hicule', 'nom', 'activite', 'Description', 'Dur√©e', 'Pr√©nom', "Date d'embauche", 'Date de naissance', 'Carte N¬∞', 'Adresse 1', 'code_postal', 'commune', 'latitude_domicile', 'longitude_domicile']

Aucun chauffeur en activit√© de travail trouv√©

Aucune fraude d√©tect√©e


In [687]:
def main():
    
    print("=" * 80)
    print("D√âTECTION DE FRAUDES POTENTIELLES - CHAUFFEURS")
    print("=" * 80)
    print()

In [688]:
# Configuration
fichier_domiciles = '/Users/bourtguize/Desktop/dataSuits/FORMATION DATA ANALYST - Septembre 2025/DOSSIER MODULE 6 - Projet final & Pr√©pa pro/Data-projet/data/liste_personnel_avec_coordonnees_1.csv'

fichier_positions = '/Users/bourtguize/Desktop/dataSuits/FORMATION DATA ANALYST - Septembre 2025/DOSSIER MODULE 6 - Projet final & Pr√©pa pro/Data-projet/temps de service_juin.csv'

seuil_distance = 0,5 # km

print(f"Param√®tres:")
print(f"  - Seuil de distance: {seuil_distance} km")
print()

Param√®tres:
  - Seuil de distance: (0, 5) km



## **D√©tecter les fraudes**
## ==============================
print("\nAnalyse en cours...")

# Renommer les colonnes si n√©cessaire
if 'Chauffeur' in df_positions.columns and 'nom' not in df_positions.columns:
    # Check if 'Code de travail' exists before renaming
    rename_dict = {
        'Chauffeur': 'nom',
        'Latitude': 'latitude_position',
        'Longitude': 'longitude_position'
    }
    
    # Only add 'Code de travail' to rename dict if it exists
    if 'Code de travail' in df_positions.columns:
        rename_dict['Code de travail'] = 'activite'
    
    df_positions = df_positions.rename(columns=rename_dict)
    print("‚úì Colonnes de df_positions renomm√©es")

# Supprimer les colonnes en double
df_positions = df_positions.loc[:, ~df_positions.columns.duplicated()]

print("‚úì Colonnes en double supprim√©es")
print("Colonnes finales:", df_positions.columns.tolist())

# Check if df_domiciles and df_positions are not None before proceeding
if df_domiciles is None:
    print("Erreur: df_domiciles est None. Veuillez v√©rifier les √©tapes pr√©c√©dentes.")
    # Initialize with empty DataFrame if needed
    # df_domiciles = pd.DataFrame()
elif df_positions is None:
    print("Erreur: df_positions est None. Veuillez v√©rifier les √©tapes pr√©c√©dentes.")
    # Initialize with empty DataFrame if needed
    # df_positions = pd.DataFrame()
else:
    print("\nAnalyse en cours...")
    # Make sure the detecter_fraudes function doesn't require 'activite' column
    # or handle its absence properly
    df_suspects = detecter_fraudes(df_domiciles, df_positions, seuil_distance)
    
    # Check if df_suspects is not None before generating report
    if df_suspects is not None:
        # G√©n√©rer le rapport
        generer_rapport(df_suspects)
    else:
        print("Erreur: La d√©tection de fraudes n'a pas retourn√© de r√©sultats valides.")

In [690]:
import pandas as pd

fichier_csv = '/Users/bourtguize/Desktop/dataSuits/FORMATION DATA ANALYST - Septembre 2025/DOSSIER MODULE 6 - Projet final & Pr√©pa pro/Data-projet/data/liste_personnel_avec_coordonnees_1.csv'

# Essayer de charger avec diff√©rents s√©parateurs
try:
    # Essai 1 : avec point-virgule
    df_test = pd.read_csv(fichier_csv, sep=';', encoding='utf-8')
    print("‚úì Chargement r√©ussi avec sep=';'")
    print(f"Lignes : {len(df_test)}")
    print(f"Colonnes : {df_test.columns.tolist()}")
except Exception as e:
    print(f"Erreur avec sep=';' : {e}")
    
    try:
        # Essai 2 : avec virgule
        df_test = pd.read_csv(fichier_csv, sep=',', encoding='utf-8')
        print("‚úì Chargement r√©ussi avec sep=','")
        print(f"Lignes : {len(df_test)}")
        print(f"Colonnes : {df_test.columns.tolist()}")
    except Exception as e2:
        print(f"Erreur avec sep=',' : {e2}")

‚úì Chargement r√©ussi avec sep=';'
Lignes : 105
Colonnes : ['Nom', 'Pr√©nom', "Date d'embauche", 'Date de naissance', 'Carte N¬∞', 'Adresse 1', 'code_postal', 'commune', 'latitude', 'longitude']


In [691]:
print("=== V√âRIFICATION DES DONN√âES ===")
print(f"df_domiciles existe : {'df_domiciles' in locals()}")
print(f"df_positions existe : {'df_positions' in locals()}")

if 'df_domiciles' in locals() and df_domiciles is not None:
    print(f"‚úì df_domiciles : {len(df_domiciles)} lignes")
    print(f"  Colonnes : {df_domiciles.columns.tolist()}")
else:
    print("‚úó df_domiciles n'est pas charg√© correctement")

if 'df_positions' in locals() and df_positions is not None:
    print(f"‚úì df_positions : {len(df_positions)} lignes")
    print(f"  Colonnes : {df_positions.columns.tolist()}")
else:
    print("‚úó df_positions n'est pas charg√© correctement")

=== V√âRIFICATION DES DONN√âES ===
df_domiciles existe : True
df_positions existe : True
‚úì df_domiciles : 105 lignes
  Colonnes : ['nom', 'Pr√©nom', "Date d'embauche", 'Date de naissance', 'Carte N¬∞', 'Adresse 1', 'code_postal', 'commune', 'latitude_domicile', 'longitude_domicile']
‚úì df_positions : 37411 lignes
  Colonnes : ['Date et heure de d√©but', 'Position', 'latitude_position', 'longitude_position', 'Date et heure de fin', 'V√©hicule', 'nom', 'activite', 'Description', 'Dur√©e']


In [692]:
# Recharger df_domiciles
print("=== RECHARGEMENT DE df_domiciles ===")
df_domiciles = charger_donnees_domiciles(fichier_domiciles)

if df_domiciles is not None:
    print(f"‚úì df_domiciles charg√© : {len(df_domiciles)} lignes")
    print(f"  Colonnes : {df_domiciles.columns.tolist()}")
    
    # V√©rifier les colonnes n√©cessaires
    print("\n=== V√âRIFICATION DES COLONNES ===")
    print(f"'nom' pr√©sent : {'nom' in df_domiciles.columns}")
    print(f"'latitude_domicile' pr√©sent : {'latitude_domicile' in df_domiciles.columns}")
    print(f"'longitude_domicile' pr√©sent : {'longitude_domicile' in df_domiciles.columns}")
else:
    print("ERREUR : df_domiciles n'a pas pu √™tre charg√©")
    print("\nEssayons de charger manuellement...")
    
    # Chargement manuel
    df_domiciles = pd.read_csv(fichier_domiciles, sep=';', encoding='utf-8')
    df_domiciles = df_domiciles.rename(columns={
        'Nom': 'nom',
        'latitude': 'latitude_domicile',
        'longitude': 'longitude_domicile'
    })
    print(f"‚úì Chargement manuel r√©ussi : {len(df_domiciles)} lignes")
    print(f"  Colonnes : {df_domiciles.columns.tolist()}")

=== RECHARGEMENT DE df_domiciles ===
Colonnes manquantes dans le fichier domiciles: ['latitude_domicile', 'longitude_domicile']
Colonnes pr√©sentes: ['D√©but Edition', 'Fin Edition', 'nom', 'Pr√©nom', 'V√©hicule', 'Kilom√®tres', 'Amplitude', 'Effectif', 'R√©mun√©r√©', 'Jours travaill√©s', "Jours d'absence", 'Travail', 'Conduite', 'Repos']
ERREUR : df_domiciles n'a pas pu √™tre charg√©

Essayons de charger manuellement...
‚úì Chargement manuel r√©ussi : 105 lignes
  Colonnes : ['nom', 'Pr√©nom', "Date d'embauche", 'Date de naissance', 'Carte N¬∞', 'Adresse 1', 'code_postal', 'commune', 'latitude_domicile', 'longitude_domicile']


In [693]:
# Lancer la d√©tection
print("\n=== D√âTECTION DES FRAUDES ===")
df_suspects = detecter_fraudes(df_domiciles, df_positions, seuil_distance)

if df_suspects is not None and len(df_suspects) > 0:
    print(f"\n‚úì {len(df_suspects)} cas suspects d√©tect√©s !")
    
    # Afficher un aper√ßu
    print("\nAper√ßu des cas suspects :")
    print(df_suspects[['nom', 'distance_domicile_km', 'score_risque', 'Dur√©e_minutes']].head(10))
    
    # Sauvegarder
    chemin_sortie = '/Users/bourtguize/Desktop/fraudes_detectees.csv'
    df_suspects.to_csv(chemin_sortie, index=False, sep=';', encoding='utf-8')
    print(f"\n‚úì Fichier sauvegard√© sur le Bureau : fraudes_detectees.csv")
else:
    print("\nAucune fraude d√©tect√©e avec les crit√®res actuels")
    print(f"Seuil de distance utilis√© : {seuil_distance} km")


=== D√âTECTION DES FRAUDES ===
Colonnes dans df_merged apr√®s fusion:
['Date et heure de d√©but', 'Position', 'latitude_position', 'longitude_position', 'Date et heure de fin', 'V√©hicule', 'nom', 'activite', 'Description', 'Dur√©e', 'Pr√©nom', "Date d'embauche", 'Date de naissance', 'Carte N¬∞', 'Adresse 1', 'code_postal', 'commune', 'latitude_domicile', 'longitude_domicile']

Aucun chauffeur en activit√© de travail trouv√©

Aucune fraude d√©tect√©e avec les crit√®res actuels
Seuil de distance utilis√© : (0, 5) km


In [694]:
# Voir les valeurs dans 'activite' et 'Description'
print("=== Valeurs uniques dans 'activite' ===")
print(df_positions['activite'].value_counts())
print()
print("=== Valeurs uniques dans 'Description' ===")
print(df_positions['Description'].value_counts())

=== Valeurs uniques dans 'activite' ===
activite
AA    17595
RD    16631
AR     3134
AO       51
Name: count, dtype: int64

=== Valeurs uniques dans 'Description' ===
Description
Travail     17595
Conduite    16631
Repos        3134
Dispo          51
Name: count, dtype: int64


In [695]:
# Fusion manuelle pour v√©rifier
df_merged_test = pd.merge(df_positions, df_domiciles, on='nom', how='inner')

print(f"=== R√âSULTAT DE LA FUSION ===")
print(f"Lignes apr√®s fusion : {len(df_merged_test)}")
print()

# V√©rifier les noms dans les deux DataFrames
print("=== EXEMPLES DE NOMS dans df_positions ===")
print(df_positions['nom'].unique()[:10])
print()
print("=== EXEMPLES DE NOMS dans df_domiciles ===")
print(df_domiciles['nom'].unique()[:10])
print()

# V√©rifier la colonne Description apr√®s fusion
if len(df_merged_test) > 0:
    print("=== Valeurs dans 'Description' apr√®s fusion ===")
    print(df_merged_test['Description'].value_counts())
    print()
    
    # Filtrer sur Travail
    df_travail = df_merged_test[df_merged_test['Description'].str.lower().str.contains('travail', na=False)]
    print(f"Lignes avec 'Travail' : {len(df_travail)}")
    
    if len(df_travail) > 0:
        print("\n=== EXEMPLE DE DONN√âES ===")
        print(df_travail[['nom', 'latitude_position', 'longitude_position', 'latitude_domicile', 'longitude_domicile', 'Description']].head())
else:
    print("‚ö† AUCUNE CORRESPONDANCE lors de la fusion !")
    print("Les noms ne correspondent pas entre les deux fichiers")

=== R√âSULTAT DE LA FUSION ===
Lignes apr√®s fusion : 37261

=== EXEMPLES DE NOMS dans df_positions ===
['ODIN' 'PRUDHOMME' 'RICHET' 'LAGRAOUI' 'POIRIER-DIT-CAULIER' 'ABERT'
 'BIARGE' 'BENOIT' 'BOISSIERE' 'MARTY']

=== EXEMPLES DE NOMS dans df_domiciles ===
['BENOIT' 'LE GAGNE' 'TAILLASSON' 'BUMENN' 'FERREIRA NETO' 'PRUDHOMME'
 'CARVALHO PINTO' 'LANSARD' 'GREITER' 'MALCHEAUX']

=== Valeurs dans 'Description' apr√®s fusion ===
Description
Travail     17534
Conduite    16574
Repos        3098
Dispo          55
Name: count, dtype: int64

Lignes avec 'Travail' : 17534

=== EXEMPLE DE DONN√âES ===
    nom  latitude_position  longitude_position  latitude_domicile  \
0  ODIN            43.6516              4.0003            43.6889   
2  ODIN            43.7402              4.2218            43.6889   
4  ODIN            43.7405              4.2218            43.6889   
6  ODIN            43.7363              4.2335            43.6889   
8  ODIN            43.6581              3.9988         

In [678]:
# Extraire le dernier mot du nom (nom de famille) dans df_positions
df_positions['nom'] = df_positions['nom'].str.strip().str.split(' ').str[-1].str.upper()

print("=== V√âRIFICATION APR√àS CORRECTION ===")
print("Exemples de noms dans df_positions :")
print(df_positions['nom'].unique()[:10])
print()
print("Exemples de noms dans df_domiciles :")
print(df_domiciles['nom'].unique()[:10])

=== V√âRIFICATION APR√àS CORRECTION ===
Exemples de noms dans df_positions :
['ODIN' 'PRUDHOMME' 'RICHET' 'LAGRAOUI' 'POIRIER-DIT-CAULIER' 'ABERT'
 'BIARGE' 'BENOIT' 'BOISSIERE' 'MARTY']

Exemples de noms dans df_domiciles :
['BENOIT' 'LE GAGNE' 'TAILLASSON' 'BUMENN' 'FERREIRA NETO' 'PRUDHOMME'
 'CARVALHO PINTO' 'LANSARD' 'GREITER' 'MALCHEAUX']


In [679]:
# Lancer la d√©tection
print("\n=== D√âTECTION DES FRAUDES ===")
df_suspects = detecter_fraudes(df_domiciles, df_positions, seuil_distance)

if df_suspects is not None and len(df_suspects) > 0:
    print(f"\n‚úì {len(df_suspects)} cas suspects d√©tect√©s !")
    print("\nAper√ßu des cas suspects :")
    print(df_suspects[['nom', 'distance_domicile_km', 'score_risque']].head(10))
    
    # Sauvegarder
    chemin_sortie = '/Users/bourtguize/Desktop/fraudes_detectees.csv'
    df_suspects.to_csv(chemin_sortie, index=False, sep=';', encoding='utf-8')
    print(f"\n‚úì Fichier sauvegard√© sur le Bureau : fraudes_detectees.csv")
else:
    print("\nAucune fraude d√©tect√©e")


=== D√âTECTION DES FRAUDES ===
Colonnes dans df_merged apr√®s fusion:
['Date et heure de d√©but', 'Position', 'latitude_position', 'longitude_position', 'Date et heure de fin', 'V√©hicule', 'nom', 'activite', 'Description', 'Dur√©e', 'Pr√©nom', "Date d'embauche", 'Date de naissance', 'Carte N¬∞', 'Adresse 1', 'code_postal', 'commune', 'latitude_domicile', 'longitude_domicile']

Aucun chauffeur en activit√© de travail trouv√©

Aucune fraude d√©tect√©e
