In [23]:
import pandas as pd
import numpy as np

import plotly.express as px

from math import radians, sin, cos, sqrt, atan2

from sklearn.preprocessing import  OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.cluster import KMeans, DBSCAN
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import silhouette_score

"""from haversine import haversine"""


'from haversine import haversine'

In [24]:
df = pd.read_csv("src/fraud test.csv")
df.describe(include="all")

Unnamed: 0.1,Unnamed: 0,trans_date_trans_time,cc_num,merchant,category,amt,first,last,gender,street,...,lat,long,city_pop,job,dob,trans_num,unix_time,merch_lat,merch_long,is_fraud
count,555719.0,555719,555719.0,555719,555719,555719.0,555719,555719,555719,555719,...,555719.0,555719.0,555719.0,555719,555719,555719,555719.0,555719.0,555719.0,555719.0
unique,,226976,,693,14,,341,471,2,924,...,,,,478,910,555719,,,,
top,,15/12/2020 21:26,,fraud_Kilback LLC,gas_transport,,Christopher,Smith,F,444 Robert Mews,...,,,,Film/video editor,23/03/1977,2da90c7d74bd46a0caf3777415b3ebd3,,,,
freq,,16,,1859,56370,,11443,12146,304886,1474,...,,,,4119,2408,1,,,,
mean,277859.0,,4.178387e+17,,,69.39281,,,,,...,38.543253,-90.231325,88221.89,,,,1380679000.0,38.542798,-90.23138,0.00386
std,160422.401459,,1.309837e+18,,,156.745941,,,,,...,5.061336,13.72178,300390.9,,,,5201104.0,5.095829,13.733071,0.062008
min,0.0,,60416210000.0,,,1.0,,,,,...,20.0271,-165.6723,23.0,,,,1371817000.0,19.027422,-166.671575,0.0
25%,138929.5,,180043000000000.0,,,9.63,,,,,...,34.6689,-96.798,741.0,,,,1376029000.0,34.755302,-96.905129,0.0
50%,277859.0,,3521420000000000.0,,,47.29,,,,,...,39.3716,-87.4769,2408.0,,,,1380762000.0,39.376593,-87.445204,0.0
75%,416788.5,,4635330000000000.0,,,83.01,,,,,...,41.8948,-80.1752,19685.0,,,,1385867000.0,41.954163,-80.264637,0.0


In [25]:
# Séparation des données en deux dataset selon le coté frauduleux de la transaction
df_frauds = df[df['is_fraud'] == 1]
sample = df[df['is_fraud'] == 0]

# Échantillonnage du dataset de transactions non frauduleuses pour avoir la même taille que le dataset de transactions frauduleuses
dsam = sample.sample(2145, random_state=0)

# Fusion des deux datasets
frames = [df_frauds, dsam]
result = pd.concat(frames)

# Mélange des données dans le dataset
result = result.sample(frac = 1)
result.shape

(4290, 23)

In [26]:
result.describe(include="all")

Unnamed: 0.1,Unnamed: 0,trans_date_trans_time,cc_num,merchant,category,amt,first,last,gender,street,...,lat,long,city_pop,job,dob,trans_num,unix_time,merch_lat,merch_long,is_fraud
count,4290.0,4290,4290.0,4290,4290,4290.0,4290,4290,4290,4290,...,4290.0,4290.0,4290.0,4290,4290,4290,4290.0,4290.0,4290.0,4290.0
unique,,4237,,680,14,,309,430,2,798,...,,,,445,786,4290,,,,
top,,30/06/2020 23:16,,fraud_Kilback LLC,grocery_pos,,Christopher,Williams,F,444 Robert Mews,...,,,,Science writer,22/09/1997,c44e19d5f6ae81f3f9bb9c7e0cee09da,,,,
freq,,3,,26,693,,119,106,2352,24,...,,,,44,24,1,,,,
mean,261787.03007,,3.810071e+17,,,299.209186,,,,,...,38.783911,-90.376413,82394.83,,,,1380186000.0,38.784218,-90.380031,0.5
std,149535.273281,,1.261528e+18,,,374.387217,,,,,...,5.025407,13.864927,276430.7,,,,4910323.0,5.052313,13.871188,0.500058
min,370.0,,60416210000.0,,,1.02,,,,,...,20.0271,-165.6723,23.0,,,,1371824000.0,19.161782,-166.033127,0.0
25%,135552.0,,38859500000000.0,,,20.39,,,,,...,34.9298,-96.7456,861.0,,,,1375913000.0,34.975099,-96.777858,0.0
50%,259887.0,,3500170000000000.0,,,88.58,,,,,...,39.5994,-87.8235,2676.0,,,,1380066000.0,39.589137,-87.703727,0.5
75%,385890.5,,4452370000000000.0,,,467.1275,,,,,...,42.0765,-80.158,15647.0,,,,1384815000.0,42.049737,-80.108471,1.0


In [27]:
# Définition des colonnes à enlever pour le modèle de clustering
to_drop = ['cc_num', 'first', 'last', 'street', 'city' ,'state', 'zip', 'trans_num']
clean_data = result.drop(columns=to_drop)

In [28]:
# Définition de la fonction de calcul de la distance
def haversine_distance(lat1, lon1, lat2, lon2):
    R = 6371.0  # Rayon de la Terre en kilomètres

    # Convertir les latitudes et longitudes en radians
    lat1 = radians(lat1)
    lon1 = radians(lon1)
    lat2 = radians(lat2)
    lon2 = radians(lon2)

    # Différences de latitude et longitude
    dlat = lat2 - lat1
    dlon = lon2 - lon1

    # Formule haversine
    a = sin(dlat / 2)**2 + cos(lat1) * cos(lat2) * sin(dlon / 2)**2
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    
    # Distance en kilomètres
    distance = R * c
    
    return distance
    # Assurez-vous que cette fonction est correctement indentée ici

# Calcul de la distance pour chaque ligne du DataFrame
clean_data['distance'] = clean_data.apply(lambda row: haversine_distance(row['lat'], row['long'], row['merch_lat'], row['merch_long']), axis=1)

# Affichage des premières lignes du DataFrame avec la nouvelle colonne
print(clean_data.head())

        Unnamed: 0 trans_date_trans_time                          merchant  \
115796      115796      31/07/2020 23:07  fraud_Stehr, Jewess and Schimmel   
211899      211899      04/09/2020 02:02                   fraud_Emard Inc   
552397      552397      31/12/2020 00:27                 fraud_Kling-Grant   
138539      138539      09/08/2020 02:59                fraud_Rau and Sons   
185387      185387      25/08/2020 02:47           fraud_McGlynn-Jaskolski   

             category     amt gender      lat     long  city_pop  \
115796       misc_net  774.14      M  38.8856 -77.1802    116155   
211899  gas_transport   10.69      F  38.0174 -84.4854    296965   
552397    grocery_net   56.43      F  42.7012 -92.0762        53   
138539    grocery_pos  327.62      F  41.5855 -93.6719    222785   
185387       misc_pos  746.60      F  39.8936 -79.7856       328   

                                                job         dob   unix_time  \
115796  Armed forces training and education

In [29]:
clean_data.describe(include="all")

Unnamed: 0.1,Unnamed: 0,trans_date_trans_time,merchant,category,amt,gender,lat,long,city_pop,job,dob,unix_time,merch_lat,merch_long,is_fraud,distance
count,4290.0,4290,4290,4290,4290.0,4290,4290.0,4290.0,4290.0,4290,4290,4290.0,4290.0,4290.0,4290.0,4290.0
unique,,4237,680,14,,2,,,,445,786,,,,,
top,,30/06/2020 23:16,fraud_Kilback LLC,grocery_pos,,F,,,,Science writer,22/09/1997,,,,,
freq,,3,26,693,,2352,,,,44,24,,,,,
mean,261787.03007,,,,299.209186,,38.783911,-90.376413,82394.83,,,1380186000.0,38.784218,-90.380031,0.5,76.41612
std,149535.273281,,,,374.387217,,5.025407,13.864927,276430.7,,,4910323.0,5.052313,13.871188,0.500058,29.209701
min,370.0,,,,1.02,,20.0271,-165.6723,23.0,,,1371824000.0,19.161782,-166.033127,0.0,1.959344
25%,135552.0,,,,20.39,,34.9298,-96.7456,861.0,,,1375913000.0,34.975099,-96.777858,0.0,56.089232
50%,259887.0,,,,88.58,,39.5994,-87.8235,2676.0,,,1380066000.0,39.589137,-87.703727,0.5,78.884395
75%,385890.5,,,,467.1275,,42.0765,-80.158,15647.0,,,1384815000.0,42.049737,-80.108471,1.0,99.072109


In [30]:
mean_distance_fraudulent = clean_data.loc[clean_data["is_fraud"] == 1, "distance"].mean()

print("Moyenne de la distance pour les transactions frauduleuses :", mean_distance_fraudulent)

Moyenne de la distance pour les transactions frauduleuses : 76.21390498710234


In [31]:
# Sélection des features nécessaires pour le clustering
data_geo = clean_data[["merch_lat", "merch_long", "is_fraud"]]

In [32]:
# Première répartition des transactions

# Créer une palette de couleurs personnalisée avec le rouge pour les valeurs de is_fraud égales à 1
color_scale = px.colors.diverging.RdYlBu_r

# Modifier la couleur pour les valeurs de is_fraud égales à 1 en rouge
color_scale[0] = 'blue'

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = data_geo['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = data_geo['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2  # Niveau de zoom pour afficher toutes les données

fig = px.scatter_mapbox(
        data_geo,
        lat="merch_lat",
        lon="merch_long",
        color="is_fraud",
        mapbox_style="carto-positron",
        title="Répartition géographiques de l'échantillon des transactions",
        color_continuous_scale=color_scale,
        center=dict(lon=center_longitude, lat=center_latitude), 
        zoom=zoom_level
)

fig.show()

# Standardisation des données

In [33]:
num_feat = [0, 1, 2]
num_trans = StandardScaler()

preprocessor = ColumnTransformer(
    transformers=[
        ("num", num_trans, num_feat)])

X= preprocessor.fit_transform(data_geo)
print(X[0:5, :])

[[ 0.02863359  1.0146229   1.        ]
 [-0.29764015  0.39060744  1.        ]
 [ 0.69373321 -0.06704586 -1.        ]
 [ 0.36824633 -0.28525642  1.        ]
 [ 0.18283677  0.70626651  1.        ]]


In [34]:
df_fr = data_geo[data_geo['is_fraud']==1]

# Clustering des transactions frauduleuses
## Silhouette

In [35]:
from sklearn.metrics import silhouette_score

sil = []
k = []

## Commencez à i=3 pour exclure n_clusters=2
for i in range(2, 31):
    kmeans = KMeans(n_clusters=i, random_state=0, n_init='auto')
    kmeans.fit(df_fr)
    sil.append(silhouette_score(df_fr, kmeans.labels_))
    k.append(i)

# Créer une data frame
cluster_scores = pd.DataFrame(sil)
k_frame = pd.Series(k)

# Créer une figure avec Plotly Express
fig = px.bar(data_frame=cluster_scores, x=k, y=cluster_scores.iloc[:, -1])

# Ajouter un titre et des étiquettes d'axe
fig.update_layout(
    yaxis_title="Silhouette Score",
    xaxis_title="# Clusters",
    title="Silhouette Score par cluster"
)

fig.show()  # Afficher la figure

On peut voir grâce à la méthode Silhouette que la répartition en clusters est le plus efficace sur les valeurs 3, 7 et 24 en nombres de clusters

## ELBOW

In [36]:
# Instanciate KMeans with k=3 and initialisation with k-means++
# You should always use k-means++ as it alleviate the problem of local minimum convergence
kmeans = KMeans(n_clusters=10, random_state=0)

# Fit kmeans to our dataset
kmeans.fit(df_fr)
# Let's create a loop that will collect the Within-sum-of-square (wcss) for each value K
# Let's use .inertia_ parameter to get the within sum of square value for each value K
wcss =  []
k = []
for i in range (1,21):
    kmeans = KMeans(n_clusters= i, random_state = 0, n_init = 'auto')
    kmeans.fit(df_fr)
    wcss.append(kmeans.inertia_)
    k.append(i)
# Create DataFrame
wcss_frame = pd.DataFrame(wcss)
k_frame = pd.Series(k)

# Create figure
fig= px.line(
    wcss_frame,
    x=k_frame,
    y=wcss_frame.iloc[:,-1]
)

# Create title and axis labels
fig.update_layout(
    yaxis_title="Inertia",
    xaxis_title="# Clusters",
    title="Inertia per cluster"
)

# Render
#fig.show(renderer="notebook")
fig.show() # if using workspace

In [37]:
kmeans = KMeans(n_clusters=8, random_state=0)
kmeans.fit(df_fr)

# Prédire les clusters pour chaque échantillon
df_fr['cluster'] = kmeans.labels_

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = df_fr['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = df_fr['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2  # Niveau de zoom pour afficher toutes les données

# Créer une carte interactive avec Plotly Express en spécifiant le centre et le zoom
fig = px.scatter_mapbox(df_fr, lon='merch_long', lat='merch_lat', color='cluster', 
                        mapbox_style="carto-positron", title='Clusters des données géographiques selon la méthode Elbow',
                        center=dict(lon=center_longitude, lat=center_latitude), zoom=zoom_level)

# Afficher la carte interactive
fig.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



On peut voir grâce à la méthode Elbow, que la répartition en cluster n'est pas optimale et peut s'avérer anarchique. Bien que les zones de villes ne soient découpées entre les deux clusters, cette méthode manque de précision

### DBSCAN

In [55]:
eps = 1
min_samples = 3
p = 1.5

In [63]:
db = DBSCAN(eps=eps, min_samples=min_samples, metric="minkowski", p=p, algorithm='brute')
db.fit(df_fr)
display(np.unique(db.labels_, return_counts=True))

# Créer une copie du DataFrame si nécessaire
df_fr_copy = df_fr.copy()

# Convertir les étiquettes de cluster en int64
cluster_labels = db.labels_.astype('int64')

# Ajouter les labels de cluster à votre DataFrame en utilisant .loc
df_fr_copy.loc[:, 'cluster'] = cluster_labels

#
# Calculer le nombre d'éléments dans chaque cluster
cluster_sizes = df_fr_copy[df_fr_copy['cluster'] != -1]['cluster'].value_counts()

# Trier les clusters par ordre croissant de nombre d'éléments
sorted_clusters = cluster_sizes.sort_values()

# Créer une palette de couleurs divergente
colorscale = px.colors.diverging.balance[::-1]  # Utilisation d'une palette de couleurs divergente

# Mapper chaque cluster à une couleur en fonction de sa taille
cluster_color_mapping = {cluster: i for i, cluster in enumerate(sorted_clusters.index)}

# Ajouter les labels de cluster à votre DataFrame en utilisant .loc
df_fr_copy.loc[:, 'cluster'] = df_fr_copy['cluster'].map(cluster_color_mapping)

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = df_fr_copy['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = df_fr_copy['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2.5  # Niveau de zoom pour afficher toutes les données

# Créer une carte interactive avec Plotly Express en spécifiant le centre et le zoom
fig_fraud = px.scatter_mapbox(df_fr_copy[df_fr_copy['cluster'] != -1], lon='merch_long', lat='merch_lat', color='cluster', 
                        mapbox_style="carto-positron", title='Clusters des zones de transactions frauduleuses selon la méthode DBSCAN',
                        center=dict(lon=center_longitude, lat=center_latitude), zoom=zoom_level,
                        color_continuous_scale=colorscale)

# Afficher la carte interactive
fig_fraud.show()
#

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = df_fr_copy['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = df_fr_copy['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2.5  # Niveau de zoom pour afficher toutes les données

# Spécifier une palette de couleurs différente
colorscale = px.colors.qualitative.Bold

# Créer une carte interactive avec Plotly Express en spécifiant le centre et le zoom
fig = px.scatter_mapbox(df_fr_copy[df_fr_copy['cluster'] != -1], lon='merch_long', lat='merch_lat', color='cluster', 
                        mapbox_style="carto-positron", title='Clusters des zones de transactions frauduleuses selon la méthode DBSCAN',
                        center=dict(lon=center_longitude, lat=center_latitude), zoom=zoom_level,
                        color_continuous_scale=colorscale)

# Afficher la carte interactive
fig.show()


(array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       dtype=int64),
 array([ 18, 329, 332, 431, 363,  27,  43, 216,  36,  14,  12,  46,  22,
         12,  11,  11,  71,  16,  28,   9,   8,   3,  19,  14,   7,  17,
          6,   7,   9,   5,   3], dtype=int64))


Setting an item of incompatible dtype is deprecated and will raise in a future error of pandas. Value '[0 1 2 ... 0 3 0]' has dtype incompatible with int32, please explicitly cast to a compatible dtype first.


Setting an item of incompatible dtype is deprecated and will raise in a future error of pandas. Value '[26. 27. 29. ... 26. 28. 26.]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.



On peut voir, grâce au dbscan, que les transactions frauduleuses sont réparties principalement autour de grandes villes. Cependant la côte Est est beaucoup plus touchée par le phénomène que la côte Ouest.

# Clustering avec l'ensemble des données

In [40]:
clean_data.head()

Unnamed: 0.1,Unnamed: 0,trans_date_trans_time,merchant,category,amt,gender,lat,long,city_pop,job,dob,unix_time,merch_lat,merch_long,is_fraud,distance
115796,115796,31/07/2020 23:07,"fraud_Stehr, Jewess and Schimmel",misc_net,774.14,M,38.8856,-77.1802,116155,Armed forces training and education officer,09/05/1932,1375312074,38.928867,-76.307646,1,75.653081
211899,211899,04/09/2020 02:02,fraud_Emard Inc,gas_transport,10.69,F,38.0174,-84.4854,296965,Software engineer,30/12/1962,1378260174,37.280622,-84.962473,1,92.064876
552397,552397,31/12/2020 00:27,fraud_Kling-Grant,grocery_net,56.43,F,42.7012,-92.0762,53,Sports administrator,05/10/1972,1388449679,42.288767,-91.309928,0,77.782365
138539,138539,09/08/2020 02:59,fraud_Rau and Sons,grocery_pos,327.62,F,41.5855,-93.6719,222785,Wellsite geologist,24/01/1956,1376017167,40.644497,-94.336415,1,118.520812
185387,185387,25/08/2020 02:47,fraud_McGlynn-Jaskolski,misc_pos,746.6,F,39.8936,-79.7856,328,Tree surgeon,25/07/1983,1377398871,39.707859,-80.584417,1,71.298229


In [41]:
from sklearn.metrics import silhouette_score

sil = []
k = []

## Commencez à i=3 pour exclure n_clusters=2
for i in range(3, 31):
    kmeans = KMeans(n_clusters=i, random_state=0, n_init='auto')
    kmeans.fit(data_geo)
    sil.append(silhouette_score(data_geo, kmeans.labels_))
    k.append(i)

# Créer une data frame
cluster_scores = pd.DataFrame(sil)
k_frame = pd.Series(k)

# Créer une figure avec Plotly Express
fig = px.bar(data_frame=cluster_scores, x=k, y=cluster_scores.iloc[:, -1])

# Ajouter un titre et des étiquettes d'axe
fig.update_layout(
    yaxis_title="Silhouette Score",
    xaxis_title="# Clusters",
    title="Silhouette Score par cluster (excluant n_clusters=2)"
)

fig.show()  # Afficher la figure

In [42]:
# Instanciate KMeans with k=3 and initialisation with k-means++
# You should always use k-means++ as it alleviate the problem of local minimum convergence
kmeans = KMeans(n_clusters=10, random_state=0)

# Fit kmeans to our dataset
kmeans.fit(data_geo)
# Let's create a loop that will collect the Within-sum-of-square (wcss) for each value K
# Let's use .inertia_ parameter to get the within sum of square value for each value K
wcss =  []
k = []
for i in range (1,21):
    kmeans = KMeans(n_clusters= i, random_state = 0, n_init = 'auto')
    kmeans.fit(data_geo)
    wcss.append(kmeans.inertia_)
    k.append(i)
# Create DataFrame
wcss_frame = pd.DataFrame(wcss)
k_frame = pd.Series(k)

# Create figure
fig= px.line(
    wcss_frame,
    x=k_frame,
    y=wcss_frame.iloc[:,-1]
)

# Create title and axis labels
fig.update_layout(
    yaxis_title="Inertia",
    xaxis_title="# Clusters",
    title="Inertia per cluster"
)

# Render
#fig.show(renderer="notebook")
fig.show() # if using workspace

In [43]:
# Créer une copie du DataFrame si nécessaire
data_geo_copy = data_geo.copy()

# Créer une instance de KMeans et l'ajuster aux données
kmeans = KMeans(n_clusters=8, random_state=0)
kmeans.fit(data_geo_copy)

# Prédire les clusters pour chaque échantillon
data_geo_copy.loc[:, 'cluster'] = kmeans.labels_

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = data_geo_copy['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = data_geo_copy['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2  # Niveau de zoom pour afficher toutes les données

# Créer une carte interactive avec Plotly Express en spécifiant le centre et le zoom
fig = px.scatter_mapbox(data_geo_copy, lon='merch_long', lat='merch_lat', color='cluster', 
                        mapbox_style="carto-positron", title='Clusters des données géographiques selon la méthode KMeans',
                        center=dict(lon=center_longitude, lat=center_latitude), zoom=zoom_level)

# Afficher la carte interactive
fig.show()


In [44]:
db = DBSCAN(eps=2, min_samples=5, metric="manhattan")
db.fit(df_fr)
np.unique(db.labels_, return_counts=True)

(array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19], dtype=int64),
 array([  7, 329, 369, 432, 372,  27,  48, 260,  14,  12,  76,  12,  11,
         71,  16,  28,  19,  14,  11,   8,   9], dtype=int64))

In [46]:
db = DBSCAN(eps=2, min_samples=5, metric="manhattan")
db.fit(df_fr)
display(np.unique(db.labels_, return_counts=True))

# Créer une copie du DataFrame si nécessaire
df_fr_copy = df_fr.copy()

# Convertir les étiquettes de cluster en int64
cluster_labels = db.labels_.astype('int64')

# Ajouter les labels de cluster à votre DataFrame en utilisant .loc
df_fr_copy.loc[:, 'cluster'] = cluster_labels

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = df_fr_copy['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = df_fr_copy['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2.5  # Niveau de zoom pour afficher toutes les données

# Spécifier une palette de couleurs différente
colorscale = px.colors.qualitative.Bold

# Créer une carte interactive avec Plotly Express en spécifiant le centre et le zoom
fig = px.scatter_mapbox(df_fr_copy[df_fr_copy['cluster'] != -1], lon='merch_long', lat='merch_lat', color='cluster', 
                        mapbox_style="carto-positron", title='Clusters des zones de transactions frauduleuses selon la méthode DBSCAN',
                        center=dict(lon=center_longitude, lat=center_latitude), zoom=zoom_level,
                        color_continuous_scale=colorscale)

# Afficher la carte interactive
fig.show()


(array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19], dtype=int64),
 array([  7, 329, 369, 432, 372,  27,  48, 260,  14,  12,  76,  12,  11,
         71,  16,  28,  19,  14,  11,   8,   9], dtype=int64))


Setting an item of incompatible dtype is deprecated and will raise in a future error of pandas. Value '[0 1 2 ... 0 3 0]' has dtype incompatible with int32, please explicitly cast to a compatible dtype first.



In [64]:
db = DBSCAN(eps=eps, min_samples=min_samples, metric="minkowski", p=p, algorithm='brute')
db.fit(data_geo)
display(np.unique(db.labels_, return_counts=True))

# Créer une copie du DataFrame si nécessaire
data_geo_copy = data_geo.copy()

# Convertir les étiquettes de cluster en int64
cluster_labels = db.labels_.astype('int64')

# Ajouter les labels de cluster à votre DataFrame en utilisant .loc
data_geo_copy.loc[:, 'cluster'] = cluster_labels

#
# Calculer le nombre d'éléments dans chaque cluster
cluster_sizes = data_geo_copy[data_geo_copy['cluster'] != -1]['cluster'].value_counts()

# Trier les clusters par ordre croissant de nombre d'éléments
sorted_clusters = cluster_sizes.sort_values()

# Créer une palette de couleurs divergente
colorscale = px.colors.diverging.balance[::-1]  # Utilisation d'une palette de couleurs divergente

# Mapper chaque cluster à une couleur en fonction de sa taille
cluster_color_mapping = {cluster: i for i, cluster in enumerate(sorted_clusters.index)}

# Ajouter les labels de cluster à votre DataFrame en utilisant .loc
data_geo_copy.loc[:, 'cluster'] = data_geo_copy['cluster'].map(cluster_color_mapping)

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = data_geo_copy['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = data_geo_copy['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2.5  # Niveau de zoom pour afficher toutes les données

# Créer une carte interactive avec Plotly Express en spécifiant le centre et le zoom
fig_all = px.scatter_mapbox(data_geo_copy[data_geo_copy['cluster'] != -1], lon='merch_long', lat='merch_lat', color='cluster', 
                        mapbox_style="carto-positron", title='Clusters des zones de transactions selon la méthode DBSCAN',
                        center=dict(lon=center_longitude, lat=center_latitude), zoom=zoom_level,
                        color_continuous_scale=colorscale)

# Afficher la carte interactive
fig_all.show()
#

# Définir le centre de la carte et le niveau de zoom pour afficher toutes les données
center_longitude = data_geo_copy['merch_long'].mean()  # Utiliser la moyenne des longitudes comme centre
center_latitude = data_geo_copy['merch_lat'].mean()  # Utiliser la moyenne des latitudes comme centre
zoom_level = 2.5  # Niveau de zoom pour afficher toutes les données

# Spécifier une palette de couleurs différente
colorscale = px.colors.qualitative.Bold

# Créer une carte interactive avec Plotly Express en spécifiant le centre et le zoom
fig = px.scatter_mapbox(data_geo_copy[data_geo_copy['cluster'] != -1], lon='merch_long', lat='merch_lat', color='cluster', 
                        mapbox_style="carto-positron", title='Clusters des zones de transactions selon la méthode DBSCAN',
                        center=dict(lon=center_longitude, lat=center_latitude), zoom=zoom_level,
                        color_continuous_scale=colorscale)

# Afficher la carte interactive
fig.show()


(array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32,
        33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49,
        50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65],
       dtype=int64),
 array([ 76, 339, 367, 335, 176, 261, 290, 287, 372,  66,  27,  42, 309,
         36,  12,  21, 176,  36, 215, 154,  21,  40,  14,  26,  12,  46,
         18,  22,  11,  11,  71,  16,   7,  14,  63,  28,   9,  10,   8,
          4,  21,   6,  31,  14,   5,  17,   7,  28,  10,  10,   6,   7,
          5,  12,   4,   9,   5,   8,   5,   3,   3,   3,   4,   6,   3,
          7,   3], dtype=int64))


Setting an item of incompatible dtype is deprecated and will raise in a future error of pandas. Value '[ 0  1  2 ... 11  6  2]' has dtype incompatible with int32, please explicitly cast to a compatible dtype first.


Setting an item of incompatible dtype is deprecated and will raise in a future error of pandas. Value '[63. 64. 62. ... 61. 59. 62.]' has dtype incompatible with int64, please explicitly cast to a compatible dtype first.



In [65]:
display(fig_fraud.show())
display(fig_all.show())

None

None