# Credit Card Fraud Dataset


Limpieza y transformación de datos usando el dataset de Fraude de Tarjetas de Crédito


> Nota: El dataset está disponible en: [Credit Card Dataset](https://www.kaggle.com/datasets/kartik2112/fraud-detection/data)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("./fraudTrain.csv")
df.head()

In [None]:
df.shape

In [None]:
df.describe()

In [None]:
df.dtypes

## Eliminar Columnas

In [None]:
df.drop(columns=["Unnamed: 0", "cc_num", "first", "last", "street", "lat", "long", "zip", "dob", "trans_num", "unix_time", "merch_lat", "merch_long"], inplace=True)

In [None]:
df.head()

## Limpieza de Valores Nulos

In [None]:
df.isna().sum()

In [None]:
df.duplicated().sum()

In [None]:
df["state"].value_counts()

## Transformación de Columnas

In [None]:
state_abbreviations = {
    'AL': 'Alabama',
    'AK': 'Alaska',
    'AZ': 'Arizona',
    'AR': 'Arkansas',
    'CA': 'California',
    'CO': 'Colorado',
    'CT': 'Connecticut',
    'DE': 'Delaware',
    'FL': 'Florida',
    'GA': 'Georgia',
    'HI': 'Hawaii',
    'ID': 'Idaho',
    'IL': 'Illinois',
    'IN': 'Indiana',
    'IA': 'Iowa',
    'KS': 'Kansas',
    'KY': 'Kentucky',
    'LA': 'Louisiana',
    'ME': 'Maine',
    'MD': 'Maryland',
    'MA': 'Massachusetts',
    'MI': 'Michigan',
    'MN': 'Minnesota',
    'MS': 'Mississippi',
    'MO': 'Missouri',
    'MT': 'Montana',
    'NE': 'Nebraska',
    'NV': 'Nevada',
    'NH': 'New Hampshire',
    'NJ': 'New Jersey',
    'NM': 'New Mexico',
    'NY': 'New York',
    'NC': 'North Carolina',
    'ND': 'North Dakota',
    'OH': 'Ohio',
    'OK': 'Oklahoma',
    'OR': 'Oregon',
    'PA': 'Pennsylvania',
    'RI': 'Rhode Island',
    'SC': 'South Carolina',
    'SD': 'South Dakota',
    'TN': 'Tennessee',
    'TX': 'Texas',
    'UT': 'Utah',
    'VT': 'Vermont',
    'VA': 'Virginia',
    'WA': 'Washington',
    'WV': 'West Virginia',
    'WI': 'Wisconsin',
    'WY': 'Wyoming'
}

df['state'] = df['state'].map(state_abbreviations)
df['state'].unique()

Hay algunos valores que no coinciden con alguno de los valores del diccionario, por ello estos datos se eliminan

In [None]:
df.isna().sum()

In [None]:
df.dropna(inplace=True)
df.isna().sum()

### Cambio de la columna is_fraud para ser tratada como booleano

In [None]:
df["is_fraud"] = df["is_fraud"].map({0: "FALSE", 1: "TRUE"})

### Cambio de la columna merchant para quitar una expresión

In [None]:
df['merchant'] = df['merchant'].str.replace('fraud_', '', regex=False)

In [None]:
df.head()

## Exportación del dataset limpio

In [None]:
df.to_csv("./fraudTrain_cleaned.csv", index=False)