# EDA

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder

In [None]:
df = pd.read_csv("card_credit_fraud.csv", delimiter=";", decimal=",")
df.head()

Notre Dataframe ne s'affiche pas correctement lorsqu'on utilise `df.head()`. Après inspection de notre CSV, il semblerait que le problème soit les guillemets entourant chacune des lignes du CSV. Nous pouvons donc retirer ces guillemets et voir ce que cela donne :

## Avant
![image.png](src/trouver_guillemets.png)

## Après
![image2.png](src/csv_sans_guillemet.png)


Notre Dataframe devrait maintenant s'afficher correctement :


In [None]:
df = pd.read_csv("card_credit_fraud.csv", delimiter=";", decimal=",")
df.head()

# Observation du dataframe

**Taille** : 1008213 lignes par 11 colonnes.

**Présence de valeur null** : Aucune valeur null

**Description de nos features** : 

| Colonne          | Description                                                                                                                |
|------------------|----------------------------------------------------------------------------------------------------------------------------|
| transactionId    | Sert d'index                                                                                                               |
| step             | Heure à laquelle la transaction s'est passée. Minimum = 1 Maximum = 743 ; 743 / 24 ~= 31                                |
| type             | Le type de la transaction. Peut prendre plusieurs valeurs sous forme de chaînes de caractères. Pour mapper les données, utiliser `LabelEncoder de sklearn.preprocessing` |
| amount           | Le montant de chaque transaction                                                                                          |
| nameOrig         | Numéro de compte de l'émetteur. Pour mapper les données, utiliser `LabelEncoder de sklearn.preprocessing`                                                                                            |
| oldbalanceOrg    | Solde de l'émetteur avant la transaction                                                                                   |
| newbalanceOrg    | Solde de l'émetteur après la transaction                                                                                   |
| nameDest         | Numéro de compte du destinataire. Pour mapper les données, utiliser `LabelEncoder de sklearn.preprocessing`                                                                                          |
| oldbalanceDest   | Solde du destinataire avant la transaction                                                                                 |
| newbalanceDest   | Solde du destinataire après la transaction                                                                                 |
| isFraud          | Notre cible, non fraude = 0 ; fraude = 1                                                                                   |



In [None]:
print("Taille du df : ", df.shape)
print()
print("Présence de valeur nul:", df.isnull().any())
print()
print("Valeur maximum dans step :", df["step"].max())
print()
print()

## Visualisation de la répartition des données

Nous pouvons constater que notre dataset est grandement déséquilibré. 99,2% des data points ne sont pas des fraudes et seulement 0.08% constituent réellement des fraudes. un déséquilibre des classes risqueraient de biaisé l'entraînement des modèles et les prédictions qui en résulteront.

In [None]:
# Create the pie chart
plt.pie(df["isFraud"].value_counts(), labels=[0,1], autopct='%1.1f%%')

# Add a title and adjust the font size
plt.title('Distribution of fraud and non-fraud in our dataset', fontsize=14)

# Add a legend and adjust the font size
plt.legend(["Non-Fraud", "Fraud"], fontsize=12)

# Add some padding to the plot
plt.tight_layout()

# Display the plot
plt.show()


## Nettoyage des données

### Drop des datapoints dont le type est différents de "TRANSFER" ou "CASH_OUT"

Les valeurs que peuvent prendre certaines features dans nos datapoints semble optionnel à l'identification d'une fraude.

Comme on peut le constater ci-dessous, les data points qualifiés comme fraudes ont systématiquement comme valeurs pour la colonne ["type"] `TRANSFER` ou `CASH_OUT`. Toutes transactions qui n'est pas d'un de ces deux types ne peux pas être considéré comme une fraude. Nous pouvons donc retirer de notre df tout enregitrement dont la valeurs de ["type"] est différente de `TRANSFER` ou `CASH_OUT`.

In [None]:
filtered_df_with_transfer_and_cash_out = df[(df['type'] == "TRANSFER") | (df['type'] == "CASH_OUT")]

print("Quantité de fraude / non fraude dans le df d'origine", df["isFraud"].value_counts(), \
      ""
      "Quantité de fraude / non fraude dans le df filtré avec transfer et cash_out : " , filtered_df_with_transfer_and_cash_out["isFraud"].value_counts())

# Create the pie chart
plt.pie(df["isFraud"].value_counts(), labels=[0,1], autopct='%1.1f%%')

# Add a title and adjust the font size
plt.title('Distribution of fraud and non-fraud in our dataset', fontsize=14)

# Add a legend and adjust the font size
plt.legend([f"Non-Fraud : ", "Fraud"], fontsize=12)

# Add some padding to the plot
plt.tight_layout()

# Display the plot
plt.show()

## Mappage des données
 

In [None]:
le = LabelEncoder()

df['type_encoded'] = le.fit_transform(df['type'])
df['nameOrig_encoded'] = le.fit_transform(df['nameOrig'])
df['nameDest_encoded'] = le.fit_transform(df['nameDest'])


df.drop(["type", "nameOrig", "nameDest"], inplace=True, axis=1)

df = df.reindex(columns=["transactionId", "step", "amount", "nameOrig_encoded", "oldbalanceOrg", "newbalanceOrig", "nameDest_encoded", "oldbalanceDest", "newbalanceDest", "isFraud"])

In [None]:
df

## Graphique de la nouvelle distribution des données

In [None]:
# Create the pie chart
plt.pie(filtered_df_with_transfer_and_cash_out["isFraud"].value_counts(), labels=[0,1], autopct='%1.1f%%')

# Add a title and adjust the font size
plt.title('Distribution of fraud and non-fraud in our dataset', fontsize=14)

# Add a legend and adjust the font size
plt.legend(["Non-Fraud", "Fraud"], fontsize=12)

# Add some padding to the plot
plt.tight_layout()

# Display the plot
plt.show()

## En résumé

**Taille** : 452933 lignes par 11 colonnes.

**Présence de valeur null** : Aucune valeur null

**Description de nos features** : 

| Colonne          | Description                                                                                                                |
|------------------|----------------------------------------------------------------------------------------------------------------------------|
| transactionId    | Sert d'index                                                                                                               |
| step             | Heure à laquelle la transaction s'est passée. Minimum = 1 Maximum = 743 ; 743 / 24 ~= 31                                |
| type_encoded             | Le type de la transaction. Peut prendre plusieurs valeurs sous forme de chaînes de caractères. Données mappée avec `LabelEncoder de sklearn.preprocessing` |
| amount           | Le montant de chaque transaction                                                                                          |
| nameOrig_encoded         | Numéro de compte de l'émetteur. Données mappée avec `LabelEncoder de sklearn.preprocessing`                                                                                            |
| oldbalanceOrg    | Solde de l'émetteur avant la transaction                                                                                   |
| newbalanceOrg    | Solde de l'émetteur après la transaction                                                                                   |
| nameDest_encoded         | Numéro de compte du destinataire. Données mappée avec `LabelEncoder de sklearn.preprocessing`                                                                                          |
| oldbalanceDest   | Solde du destinataire avant la transaction                                                                                 |
| newbalanceDest   | Solde du destinataire après la transaction                                                                                 |
| isFraud          | Notre cible, non fraude = 0 ; fraude = 1                                                                                   |

![image.png](src/distribution_class_dataset_filtrer_transfer_cashout.png)


# Entraînement des modèles

In [None]:

df

Plan :

train_test_split

for each models :
    train with no over/undersampling 
    train using Nearmiss
    train using smote





