Voici une explication générale sur la signification probable de chaque colonne dans ce type d'ensemble de données de fraude de carte de crédit :

1. **trans_date_trans_time** : Date et heure de la transaction.
2. **merchant** : Nom ou identifiant du commerçant où la transaction a eu lieu.
3. **category** : Catégorie du commerce (par exemple, épicerie, achats en ligne), ce qui permet de voir si certains types de magasins sont plus sujets à la fraude.
4. **amt** : Montant de la transaction en monnaie locale. Cette variable peut aider à identifier des montants typiques de fraudes.
5. **city** : Ville où la transaction a été effectuée.
6. **state** : État ou région administrative de la transaction, pour les données des États-Unis, cela pourrait être un code d'État.
7. **lat** et **long** : Latitude et longitude de l'emplacement du titulaire de la carte. Ces coordonnées permettent d'analyser la distribution géographique des transactions.
8. **city_pop** : Population de la ville où la transaction a eu lieu. Cela peut donner des informations sur le profil de fraude en fonction de la taille de la ville.
9. **job** : Profession du titulaire de la carte, qui peut influencer les habitudes de dépenses.
10. **dob** : Date de naissance du titulaire de la carte, qui pourrait aider à comprendre les comportements d'achat en fonction de l'âge.
11. **trans_num** : Identifiant unique de la transaction. Cela permet de suivre individuellement chaque transaction.
12. **merch_lat** et **merch_long** : Latitude et longitude du commerçant, qui indiquent où la transaction a été effectuée par rapport à l'emplacement du titulaire de la carte.
13. **is_fraud** : Indicateur de fraude (1 pour une transaction frauduleuse, 0 pour une transaction légitime). C’est la variable cible pour identifier les fraudes.



In [11]:

import pandas as pd

# Load the dataset
data = pd.read_csv("fraud_data.csv")


data_info = data.info()


data_info


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14446 entries, 0 to 14445
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   trans_date_trans_time  14446 non-null  object 
 1   merchant               14446 non-null  object 
 2   category               14446 non-null  object 
 3   amt                    14446 non-null  float64
 4   city                   14446 non-null  object 
 5   state                  14446 non-null  object 
 6   lat                    14446 non-null  float64
 7   long                   14446 non-null  float64
 8   city_pop               14446 non-null  int64  
 9   job                    14446 non-null  object 
 10  dob                    14446 non-null  object 
 11  trans_num              14446 non-null  object 
 12  merch_lat              14446 non-null  float64
 13  merch_long             14446 non-null  float64
 14  is_fraud               14446 non-null  object 
dtypes:

In [5]:
# Count the number of rows and columns in the dataset
num_rows, num_columns = data.shape
num_rows, num_columns


(14446, 15)

Les 4 premières lignes de données

In [7]:

data_head = data.head()
data_head

Unnamed: 0,trans_date_trans_time,merchant,category,amt,city,state,lat,long,city_pop,job,dob,trans_num,merch_lat,merch_long,is_fraud
0,04-01-2019 00:58,"""Stokes, Christiansen and Sipes""",grocery_net,14.37,Wales,AK,64.7556,-165.6723,145,"""Administrator, education""",09-11-1939,a3806e984cec6ac0096d8184c64ad3a1,65.654142,-164.722603,1
1,04-01-2019 15:06,Predovic Inc,shopping_net,966.11,Wales,AK,64.7556,-165.6723,145,"""Administrator, education""",09-11-1939,a59185fe1b9ccf21323f581d7477573f,65.468863,-165.473127,1
2,04-01-2019 22:37,Wisozk and Sons,misc_pos,49.61,Wales,AK,64.7556,-165.6723,145,"""Administrator, education""",09-11-1939,86ba3a888b42cd3925881fa34177b4e0,65.347667,-165.914542,1
3,04-01-2019 23:06,Murray-Smitham,grocery_pos,295.26,Wales,AK,64.7556,-165.6723,145,"""Administrator, education""",09-11-1939,3a068fe1d856f0ecedbed33e4b5f4496,64.445035,-166.080207,1
4,04-01-2019 23:59,Friesen Lt,health_fitness,18.17,Wales,AK,64.7556,-165.6723,145,"""Administrator, education""",09-11-1939,891cdd1191028759dc20dc224347a0ff,65.447094,-165.446843,1


Les 4 dernières lignes 

In [12]:
data_tail = data.tail()
data_tail

Unnamed: 0,trans_date_trans_time,merchant,category,amt,city,state,lat,long,city_pop,job,dob,trans_num,merch_lat,merch_long,is_fraud
14441,22-01-2019 00:37,Hudson-Grady,shopping_pos,122.0,Athena,OR,45.8289,-118.4971,1302,Dealer,18-10-1976,699a4c06b22711bf3e0d8ef91232d356,46.442439,-118.524214,0
14442,22-01-2019 00:41,"""Nienow, Ankunding and Collie""",misc_pos,9.07,Gardiner,OR,43.7857,-124.1437,260,"""Engineer, maintenance""",01-09-1956,080d620d24815c7d6c637cf0b71dde8e,42.901265,-124.995317,0
14443,22-01-2019 00:42,Pacocha-O'Reilly,grocery_pos,104.84,Alva,WY,44.6873,-104.4414,110,"""Administrator, local government""",16-05-1973,3c346c8cd627c5fe3ed57430db2e9ae7,45.538062,-104.542117,0
14444,22-01-2019 00:48,"""Bins, Balistreri and Beatty""",shopping_pos,268.16,Wales,AK,64.7556,-165.6723,145,"""Administrator, education""",09-11-1939,e66ffcc95ba7fc490486242af1205d04,64.081462,-165.898698,0
14445,22-01-2019 00:55,Daugherty-Thompson,food_dining,50.09,Unionville,MO,40.4815,-92.9951,3805,"""Investment banker, corporate""",15-09-1950,65e7370f473f9b9d75796c8033a7c929,40.387243,-92.224871,0


In [10]:
#Description des données
data_summary = data.describe()
data_summary

Unnamed: 0,amt,lat,long,city_pop,merch_lat,merch_long
count,14446.0,14446.0,14446.0,14446.0,14446.0,14446.0
mean,124.430073,39.787692,-110.874225,106537.0,39.787991,-110.874892
std,231.352587,5.317039,12.985813,290291.6,5.360593,12.995596
min,1.0,20.0271,-165.6723,46.0,19.032689,-166.670685
25%,12.08,36.7154,-120.4158,493.0,36.794655,-120.146253
50%,51.52,39.6662,-111.0985,1645.0,39.620953,-111.192629
75%,101.03,41.9404,-101.136,35439.0,42.27574,-100.446822
max,3261.47,66.6933,-89.6287,2383912.0,67.510267,-88.646366


Pour une exploration approfondie des informations sur les individus, les villes, et les états etc...

#### Analyse des villes (city) :

Compter les ***occurrences*** de chaque ville pour voir quelles villes sont les plus actives.
Observer la distribution des fraudes par ville pour identifier celles qui pourraient être plus sujettes à la fraude.

In [15]:
# Convert 'dob' to datetime to calculate ages and get current year
data['dob'] = pd.to_datetime(data['dob'], errors='coerce')
current_year = pd.Timestamp.now().year
data['age'] = current_year - data['dob'].dt.year


In [16]:
# Analyse des villes (city) - top 10 cities by transaction count and fraud count
city_counts = data['city'].value_counts().head(10)
city_fraud_counts = data[data['is_fraud'] == '1']['city'].value_counts().head(10)

In [20]:
#
city_counts

city
Phoenix          297
Centerview       197
Orient           192
Fort Washakie    187
Sutherland       187
Superior         183
Thompson         178
Newhall          169
Meridian         165
Conway           163
Name: count, dtype: int64

In [21]:
city_fraud_counts

city
Wales            30
San Jose         27
Thompson         24
Albuquerque      24
Aurora           23
Ravenna          22
Westerville      22
Fort Washakie    21
Mesa             20
Glendale         20
Name: count, dtype: int64

In [23]:
# Analyse des états (state) - top 10 states by transaction count and fraud count
state_counts = data['state'].value_counts().head(10)
state_fraud_counts = data[data['is_fraud'] == '1']['state'].value_counts().head(10)

state_counts


state
CA    3375
MO    2329
NE    1460
OR    1211
WA    1150
WY    1100
NM    1003
CO     856
AZ     673
UT     597
Name: count, dtype: int64

In [24]:
state_fraud_counts

state
CA    410
MO    267
NE    238
OR    197
WA    126
NM    121
WY    119
CO    115
UT     73
AK     65
Name: count, dtype: int64

In [None]:
# Analyse de la population des villes (city_pop)
city_pop_summary = data['city_pop'].describe()
city_pop_fraud = data[data['is_fraud'] == '1']['city_pop'].describe()