# EDA Anailisis de Fraude

## Caso de Uso:
Crear un modelo de aprendizaje supervisado, tipo clasificacion, el cual pueda predecir si una transaccion se trata de un fraude o no en un banco
    

In [None]:
# Importamo las librerías a utilizar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import warnings
warnings.filterwarnings("ignore")

### Creacion de las funciones a utilizar en nuestro analisis

In [None]:
# Esta funcion ayuda al momento de visualizacion de las diferentes variables dentro del dataset para poder comparar en base 
#la funcion objetivo como es el comportamiento de la demas variables
def dame_variables_categoricas(dataset=None):
    if dataset is None:
        print(u'\nFaltan argumentos por pasar a la función')
        return 1
    lista_variables_categoricas = []
    other = []
    for i in dataset.columns:
        if (dataset[i].dtype!=float) & (dataset[i].dtype!=int):
            unicos = int(len(np.unique(dataset[i].dropna(axis=0, how='all'))))
            if unicos < 100:
                lista_variables_categoricas.append(i)
            else:
                other.append(i)

    return lista_variables_categoricas, other




def plot_feature(df, col_name, isContinuous, target):
    """
    Visualize a variable with and without faceting on the loan status.
    - df dataframe
    - col_name is the variable name in the dataframe
    - full_name is the full variable name
    - continuous is True if the variable is continuous, False otherwise
    """
    f, (ax1, ax2) = plt.subplots(nrows=1, ncols=2, figsize=(12,3), dpi=90)
    
    count_null = df[col_name].isnull().sum()
    if isContinuous:
        
        sns.histplot(df.loc[df[col_name].notnull(), col_name], kde=False, ax=ax1)
    else:
        sns.countplot(df[col_name], order=sorted(df[col_name].unique()), color='#5975A4', saturation=1, ax=ax1)
    ax1.set_xlabel(col_name)
    ax1.set_ylabel('Count')
    ax1.set_title(col_name+ ' Numero de nulos: '+str(count_null))
    plt.xticks(rotation = 90)


    if isContinuous:
        sns.boxplot(x=col_name, y=target, data=df, ax=ax2)
        ax2.set_ylabel('')
        ax2.set_title(col_name + ' by '+target)
    else:
        data = df.groupby(col_name)[target].value_counts(normalize=True).to_frame('proportion').reset_index() 
        data.columns = [i, target, 'proportion']
        #sns.barplot(x = col_name, y = 'proportion', hue= target, data = data, saturation=1, ax=ax2)
        sns.barplot(x = col_name, y = 'proportion', hue= target, data = data, saturation=1, ax=ax2)
        ax2.set_ylabel(target+' fraction')
        ax2.set_title(target)
        plt.xticks(rotation = 90)
    ax2.set_xlabel(col_name)
    
    plt.tight_layout()

def get_deviation_of_mean_perc(pd_data, list_variables_numericas, target, multiplier):
    """
    Devuelve el porcentaje de valores que exceden del intervalo de confianza
    :type series:
    :param multiplier:
    :return:
    """
    pd_final = pd.DataFrame()
    
    for i in list_variables_numericas:
        
        series_mean = pd_data[i].mean()
        series_std = pd_data[i].std()
        std_amp = multiplier * series_std
        left = series_mean - std_amp
        right = series_mean + std_amp
        size_s = pd_data[i].size
        
        perc_goods = pd_data[i][(pd_data[i] >= left) & (pd_data[i] <= right)].size/size_s
        perc_excess = pd_data[i][(pd_data[i] < left) | (pd_data[i] > right)].size/size_s
        
        if perc_excess>0:    
            pd_concat_percent = pd.DataFrame(pd_data[target][(pd_data[i] < left) | (pd_data[i] > right)]\
                                            .value_counts(normalize=True).reset_index()).T
            pd_concat_percent.columns = [pd_concat_percent.iloc[0:], 
                                          pd_concat_percent.iloc[0:]]
            pd_concat_percent = pd_concat_percent.drop('index',axis=0)
            pd_concat_percent['variable'] = i
            pd_concat_percent['sum_outlier_values'] = pd_data[i][(pd_data[i] < left) | (pd_data[i] > right)].size
            pd_concat_percent['porcentaje_sum_null_values'] = perc_excess
            pd_final = pd.concat([pd_final, pd_concat_percent], axis=0).reset_index(drop=True)
            
    if pd_final.empty:
        print('No existen variables con valores nulos')
        
    return pd_final


def get_corr_matrix(dataset = None, metodo='pearson', size_figure=[10,8]):
    # Para obtener la correlación de Spearman, sólo cambiar el metodo por 'spearman'

    if dataset is None:
        print(u'\nHace falta pasar argumentos a la función')
        return 1
    sns.set(style="white")
    # Compute the correlation matrix
    corr = dataset.corr(method=metodo) 
    # Set self-correlation to zero to avoid distraction
    for i in range(corr.shape[0]):
        corr.iloc[i, i] = 0
    # Set up the matplotlib figure
    f, ax = plt.subplots(figsize=size_figure)
    # Draw the heatmap with the mask and correct aspect ratio
    sns.heatmap(corr, center=0,
                square=True, linewidths=.5,  cmap ='viridis' ) #cbar_kws={"shrink": .5}
    plt.show()
    
    return 0

## Creacion de dataframes y verificacion de los datos a analizar dentro de los dataframes

Creamos el dataframe con el que vamos a trabajar y evaluamos las variables y los tipos de variables para identificar si existe la necesidad de hacer cambios en el dataset original para poder seguir con el desarrollo posterior del analisis

In [None]:
# Importamos el set de datos que vamos a utilizar en el analisis
url="C:/Users/karla/Documents/CUNEF/5_machine_learning/2_practicas/Fraude/data/Copia de Original_dataset_payments_fraud.csv"

df_fraud=pd.read_csv(url, sep=';')
df_fraud.head()

In [None]:
#Hacemos transformacion de variables para las que se encuentran con un formato incorrecto
df_fraud=df_fraud.assign(**{'connection_time':lambda df: df['connection_time'].str.replace(',','.').astype(float)})

In [None]:
#Eliminamos algunas columnas que contienen variables sensibles para el analisis
df_fraud=df_fraud.drop(["race","gender"],axis=1)
df_fraud

In [None]:
# Comprobamos que las columnas fueron correctamente eliminadas del dataset y la informacion que se encuentra en el dataset
#fue correctamente transformada
df_fraud.shape

In [None]:
df_fraud.info()

In [None]:
df_fraud.dtypes.sort_values().to_frame("Type_variable").groupby(by="Type_variable").size().to_frame('count').reset_index()

 - Se puede observar que todas las **variables que podrian ser sensibles para el momento del analisis fueron eliminadas,** asi como tambien cada una de las variables se encuentra en su correcta caracteristica luego de las transformaciones realizadas
 
 - Del total de las variables obtenidas, se puede resumir que dentro del set de datos que se esta trabajando existen **6 variables enteras, 6 flotantes y 3 variables caracteristicas**. Posteriormente antes del analisis se va a evaluar si estas variables categoricas deben de ser transformada a variable numerica para el correcto analisis con el modelo.

## Verificacion de la variable objetivo a trabajar

In [None]:
# Verificamos el comportamiento de la variable objetivo dentro de nuestro dataset para identificar como se procederan a 
# dividir el set de datos de training y el de test
df_fraud_porc=df_fraud.isFraud.value_counts(normalize=True).rename("porcentaje").mul(100).reset_index().round(2)
df_fraud_cant=df_fraud.isFraud.value_counts().rename("cantidad").reset_index()

df_isFraud=pd.merge(df_fraud_porc, df_fraud_cant, how= "inner", on=["index"])
df_isFraud=pd.DataFrame(df_isFraud)
df_isFraud

In [None]:
graph=sns.catplot(data=df_isFraud, x="index", y="porcentaje", kind="bar")
graph.set(xlabel="Existencia de Fraude")

- En la grafica creada, 0 representan las veces que una transaccion no fue un fraude y 1 aquellas veces que una transaccion si fue un fraude. Podemos ver que los datos de la variable objetivo no estan balanceados, esto quiere decir que existen mas casos en que las transacciones realizadas no fueron fraudes con un 99.89% de los casos, y un restante 0.11% de veces que las transacciones realizadas si fueron fraudes.

- Esta gran variacion en relacion a nuestra variable objetivo va a tener un alto impacto al momento de proceder con la division de los datos entre el dataframe de training y el dataframe de test.

## Verificacion de datos duplicados y datos faltantes dentro del dataframe creado

### - Verificacion de filas duplicadas dentro del dataframe

In [None]:
# verificamos si existen duplicados para identificar como proceder csi existe gran cantidad
print(df_fraud.shape, df_fraud.drop_duplicates().shape)

- En el dataset con el cual estamos trabajando **no existen valores duplicados** por tanto nuestro dataset no sufre ninguna modificacion en esta etapa.

### - Verificar de valores faltantes o nulos dentro del dataframe

In [None]:
null_columns=df_fraud.isnull().sum().sort_values(ascending=False).rename("null_values").reset_index()
total_rows=df_fraud.count().rename("total_rows").astype(int).reset_index()


null_columns=pd.merge(null_columns,total_rows, how="inner", on=["index"])
null_columns["miss_percentage"]=(null_columns['null_values']/len(df_fraud)).mul(100)
null_columns

In [None]:
df_fraud.device.unique()

In [None]:
#Verificacion de filas con valores faltantes
null_rows=df_fraud.isnull().sum(axis = 1).sort_values(ascending=False)#.rename("null_values").reset_index()
null_rows.shape

- El analisis muestra que para las columnas de "device", asi como "zone", el aproximadamente 9% de los datos se encuentran como nulos, como la cantidad de nulos es muy reducida entonces **se sigue trabajando con estas columnas.**
- En relacion a las filas, no existe ninguna fila con valores nulos.

## Comportamiento de cada una de las variables a analizar

In [None]:
warnings.filterwarnings('ignore')

for i in list(df_fraud.columns):
    if (df_fraud[i].dtype==float) & (i!='isFraud'):
         plot_feature(df_fraud, col_name=i, isContinuous=True, target='isFraud')
    elif  i!='isFraud':
        plot_feature(df_fraud, col_name=i, isContinuous=False, target='isFraud')