![](https://www.dii.uchile.cl/wp-content/uploads/2021/06/Magi%CC%81ster-en-Ciencia-de-Datos.png)

# Proyecto: Innovación Tecnológica en Bodoque Bank

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

### Cuerpo Docente:

- Profesor: Pablo Badilla, Ignacio Meza De La Jara
- Auxiliar: Sebastián Tinoco
- Ayudante: Diego Cortez M., Felipe Arias T.

*Por favor, lean detalladamente las instrucciones de la tarea antes de empezar a escribir.*


----

## Reglas

- Fecha de entrega: 01/06/2021
- **Grupos de 2 personas.**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Estrictamente prohibida la copia. 
- Pueden usar cualquier material del curso que estimen conveniente.

# Motivación

![](https://www.geekmi.news/__export/1621969098810/sites/debate/img/2021/05/25/juan-carlos-bodoque-1.jpg_554688468.jpg)

Juan Carlos Bodoque, el famoso periodista y empresario, decidió diversificar su portafolio de negocios y crear su propio banco. Después de varios años de investigar y analizar el mercado financiero, finalmente logró fundar su entidad bancaria con el objetivo de ofrecer a sus clientes una experiencia personalizada y confiable en sus transacciones financieras. 

Sin embargo, con las nuevas tecnologías, aparecen nuevos desafíos para la joven entidad bancaria. Por ello, Bodoque decide invertir en un equipo de expertos en tecnología y finanzas, para que Bodoque Bank implemente las últimas innovaciones en seguridad y servicio al cliente para garantizar la satisfacción y fidelización de sus clientes.

El primer objetivo de la entidad bancaria será la detección de potenciales clientes fraudulentos, para ello Bodoque Bank les hace entrega de un extenso dataset en el que se registran las actividades que han realizado sus clientes durante los últimos meses. Uno de los puntos que resaltan al pasar el conjunto de datos es que el nombre de los usuarios está protegido y que consideren cada una de las filas como una muestra independiente de la otra.

Tras la solicitud, uno de los mayores accionistas del banco llamado Mario Hugo, les sugiere que al momento de realizar el proyecto tomen las siguientes consideraciones:

- Realicen un análisis exhaustivo de cada variable, ya que los directores tienden a ser quisquillosos con puntos o definiciones sin algún fundamento claro.
- Deben ser muy claros de cómo encontrar los outliers y si es posible expliquen cómo están determinando que un cliente es fraudulento.
- Es muy probable que existan clientes con diferentes comportamientos bancarios, por lo que sería muy buena decisión de separar a los clientes en grupos etarios.


### Definición Formal del Problema

El dataset con el que se trabajará en este primer proyecto será [_The Bank Account Fraud (BAF)_](https://www.kaggle.com/datasets/sgpjesus/bank-account-fraud-dataset-neurips-2022). Este consiste en un dataset para evaluar métodos de detección de fraudes bancarios, el cuál según sus autores es:

- Realista: Se basa en un actualizado dataset de casos reales de detección de fraude bancario.
- Sesgado: Poseen distintos tipos de bias.
- Desbalanceado: Clase positiva extremadamente pequeña.
- Dinámico: Presenta datos temporales y cambios de distribución.
- Preserva la privacidad: Protege a los potenciales clientes a través de la aplicación de privacidad diferencial.

El proyecto tiene por objetivo evaluar los conocimientos adquiridos en la primera mitad del curso, consistente en manejo de datos tabulares (I/O, manipulación, agregaciones, merge y visualizaciones) más la primera parte de modelos consistente en preprocesamiento de datos y detección de anomalías. Por ende, el proyecto consiste en dos tareas principales:

1. Generar un Análisis exploratorio de Datos (EDA) que describa completamente el dataset.
2. Buscar anomalías de forma automatizada.

**Importante:** Esta permitido el uso de librerías externas a las vistas en clases para profundizar aún mas en los análisis. Sin embargo, al momento de utilizar cualquier método deberán explicar qué hace y el porqué de su aplicación.


---

## Secciones requeridas en la entrega

La siguiente lista detalla las secciones que debe contener su notebook para resolver el proyecto. Es importante que al momento de desarrollar cada una de las secciones, estas sean escritas en un formato tipo **informe**, donde describan detalladamente cada uno de los puntos realizados.

### 1. Introducción [0.5 Puntos]

Elaborar una breve introducción con todo lo necesario para entender qué realizarán durante su proyecto. La idea es que describan de manera formal el proyecto con sus propias palabras y logren describir algunos aspectos básicos tanto del dataset como del análisis a realizar sobre los datos.

Por lo anterior, en esta sección ustedes deberán ser capaces de:

- Describir la tarea asociada al dataset.
- Describir brevemente los datos de entrada que les provee el problema.
- Plantear hipótesis de cómo podrían abordar el problema.

### 2. Lectura y Manejo de Datos [1 Punto]

Este punto tiene por objetivo evaluar la capacidad de leer y manejar distintas fuentes de datos y unirlas.
Para esto, se les provee de 3 datasets distintos: 

- `df_1.parquet` que contiene una cierta cantidad de ejemplos.
- `df_2.parquet` que contiene el resto de los ejemplos.
- `df_email_phone.parquet` que contiene características exclusivas relacionadas a los emails y teléfonos de los ejemplos.

Tanto `df_1` como `df_2` son dataframes que contienen conjuntos (no necesariamente disjuntos) de ejemplos obtenidos a partir de distintas fuentes (la primera más confiable que la segunda)  mientras que `df_email_phone` contiene nuevas características que deben ser fusionadas con el conjunto de ejemplos.
Dicho esto, para este punto se le solicita:

1. Cargar los datasets usando pandas.
2. Explorar superficialmente los datsets por medio de `.head(5)` e `.info()` y reportar número de filas y columnas de cada dataset.
3. Unir los datasets con los conjuntos de ejemplos en un único dataset.
4. Combinar el datasets con ejemplos con las nuevas características usando la estrategia `outer`.
5. Explorar nulos y duplicados de datos (i.e., generar conteos de cada uno y ver algunos de sus ejemplos), explicar su origen y entregar una solución sencilla a estos casos.
6. Limpiar datos y reportar modificaciones a los datasets originales (cuántos ejemplos se eliminaron, cuántos ejemplos quedaron finalmente, etc...).
7. Realizar una segmentación etaria de los datos creando una columna llamada `segmentacion_etaria` para clasificar a los diferentes usuarios. Para la segmentación utilice los siguientes rangos:
   - Joven (Menor a 18 años)
   - Adulto-Joven (18 - 26 años)
   - Adulto (27- 59 años)
   - Persona Mayor (60 años o mas).


### 3. Análisis Exploratorio de Datos [1 Punto]

Esta sección se busca evaluar la capacidad de generar reportes y conclusiones a partir de los patrones observados en estos.

- Utilizando `pandas-profiling` (nombre de la librería: `ydata-profiling`), explore:

    * Analizar cantidad de datos nulos, tipos de datos, duplicados, distribuciones de las variables a través de histogramas.
    * Generar visualizaciones de las interacciones (como por ejemplo, una scatter matrix) en las distintas variables.
    * Ver las correlaciones entre las distintas variables y los valores faltantes de cada una de estas. 
    * Reportar los patrones interesantes observados. Ejemplos:
        - Se observó que las variables numéricas A, B y C siguen una distribución normal / exponencial / logarítmica / no presenta distribución conocida debido a que (usar información sobre el descripción de cada variable)....
        - La mayoría de los ejemplos de las variables I, J y K tienen valor 0.
        - La variable M presenta gran cantidad de outliers.
        - Se observó que las variables categóricas E y F están bien balanceadas / presentan un gran desbalance.
        - Del gráfico de correlaciones se puede inferir que X, Y y Z tienen una correlación alta/baja entre ellas.



### 4. Preparación de Datos [1 Punto]

*Esta sección consiste en generar los distintos pasos para preparar sus datos con el fin de luego poder crear su modelo.*

Dentro de los aspectos minimos que se les solicitarán en este desarrollo estan:

- Definir preprocesadores para datos categóricos y ordinales.
- Setear las transformaciones en un `ColumnTransformer`.
- Transformar todo el datset.

**Notas**: 

- Las variables `id` y `fraud_bool` no deben ser transformadas, pero si pasadas a la siguiente etapa. (Estudiar la transformación `passthrough`).
- La salida de la transformación debe ser un pandas dataframe. Para esto, investiguen acerca de la nueva [`set_output` API](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_set_output.html). Si se levanta un error por matriz sparse, desactiven su uso en la transformación correspondiente.

### 5. Visualización en baja dimensionalidad [1 Punto]

Programar un script para proyectar los datos en baja dimensionalidad usando `PCA` o `UMAP`.

**Notas**: 

- Para realizar las proyecciones no consideren la variable `fraud_bool`, ya que esto provocaría un _data leakage_ (i.e., usar información del futuro para analizar el mismo fenómeno que quieren descubrir).
- Utilice un muestreo significativo del dataframe (10k a 25k ejemplos) para generar las proyecciones. De lo contrario, probablemente el proyector no sea capaz de asignar todos los recursos necesarios y lance alguna excepción.

Luego, por cada segmento etario generado en la sección 2, implemente un gráfico de dispersión (idealmente en plotly express) la proyección en 2D generada y coloree cada punto según la etiqueta `fraud_bool`.

Reportar si existen patrones y/o relaciones interesantes con respecto a variables de interés.


### 6. Explorar Anomalías [1.5 Puntos]

Proponer una técnica para detectar clientes fraudulentos en base a detección de anomalías. 
Al igual que el punto anterior, la técnica que proponga debe ser aplicada por separado en los diferentes segmentos etarios descritos en el punto 2 (es decir, debe entrenar un detector de anomalías para cada uno de estos grupos). 

Luego, al igual que el punto anterior, genere un gráfico de dispersión con las proyecciones 2D en donde el coloreado sea ahora las etiquetas predichas por el detector de anomalías.

Por último, usando queries de numpy/pandas, calcule dos ratios (P y R):

- P: Cantidad de ejemplos predichos correctamente como fraude / cantidad total de datos predichos como fraude.
- R: Cantidad de ejemplos predichos correctamente como fraude / cantidad total de ejemplos que eran realmente fraude.


De los resultados obtenidos responda las siguientes preguntas:

- ¿Qué significan los ratios y sus valores?
- ¿Qué tan correctas fueron las predicciones realizadas por su modelo según los ratios calculados?
- ¿Son coherentes los resultados obtenidos?.
- ¿Cómo se comportan los casos de fraudes para los diferentes rangos etarios?

Justifique cada una de sus respuestas.

---

## Esquema de la Tarea


Pueden usar el siguiente esquema para organizar la tarea (y borrar todo lo anterior).
Obviamente **no deben limitarse a lo que está escrito en esta**: puede incrementar en caso de más técnicas y obviar algunas partes en caso que alguna y otro punto no aplique a su problema.

Pueden borrar las instrucciones anteriores y quedarse solo con lo que viene a continuación.

---
<br>

<br>

<br>



# Proyecto

### Equipo:

- Tomás Ceballos
- Pablo Angel


### Link de repositorio de GitHub: `\<https://github.com/tomas100h/LaboratorioDeProgramacionCientificaParaCienciaDeLosDatos\>`




## 1. Introducción


**Describir la tarea asociada**

**Describir los datos de entrada que se recibieron**

**Plantear hipótesis de cómo abordar el problema**

En este conjunto de datos, contamos con diversas variables bancarias correspondientes a clientes que están solicitando abrir una cuenta en el banco. La tarea principal asociada a este conjunto de datos es detectar fraudes bancarios; es decir, identificar a los clientes que están presentando información falsa o fraudulenta en su solicitud. Para ello, el conjunto de datos proporciona diferentes aspectos sobre el solicitante, como su ingreso, la validez de sus datos, la cantidad de solicitudes que ha enviado al banco, entre otros. Estas variables suelen estar vinculadas a aspectos bancarios o relacionados con la veracidad de los datos proporcionados.

Para abordar esta tarea, se propone realizar un análisis de valores atípicos (outliers), ya que es posible que los registros con datos fraudulentos difieran de los demás. Por tanto, un análisis de outliers podría ser capaz de detectar solicitudes fraudulentas, dado que estos casos podrían desviarse de los patrones observados en las solicitudes legítimas.

## 2. Lectura y Manejo de Datos




### 2.1 Cargar datos en dataframes

In [1]:
# Librerias de manejo de datos
import numpy as np
import pandas as pd 

from IPython.display import display

#Libreria para visualizar
#!pip install --upgrade plotly
import plotly.figure_factory as ff
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

#Librerias de sklearn
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, OrdinalEncoder
from sklearn.decomposition import PCA
from sklearn.ensemble import IsolationForest
from sklearn.pipeline import Pipeline

In [2]:
# Si usted está utilizando Colabolatory le puede ser útil este código para cargar los archivos.
try:
    from google.colab import drive
    drive.mount("/content/drive")
    path = '/content/drive/My Drive/Proyecto_01'
except: 
    path = '/Users/tomasceballos/Universidad/Lab/Proyecto1'
    print('Ignorando conexión drive-colab')

Ignorando conexión drive-colab


In [3]:
# Leemos el primer archivo parquet
df_1 = pd.read_parquet(path + '/df_1.parquet')

# Leemos el segundo archivo parquet
df_2 = pd.read_parquet(path + '/df_2.parquet')

# Leemos el tercer archivo parquet
df_email_phone = pd.read_parquet(path + '/df_email_phone.parquet')

### 2.2 Exploración inicial

Ahora para poder analizar de forma automatizada todos los dataframes, vamos a crear una función que realice un EDA de manera general. Con todos los datos que nos entrega esta función no va a ser necesario utilizar el método *info()* de los dataframes. Con esta función se van a entregar los siguientes datos:

* Número de filas y columnas del dataset
* Los nombres de las columnas
* Las primeras 5, últimas 5, y 5 filas aleatorias del dataset
* La descripción numérica del dataset, es decir, una descripción general de las columnas numéricas de este
* Tipo de datos por columna
* Valores nulos por columna
* Valores nulos en total
* Valores únicos por columna



In [4]:
def exploratory_data_analysis(dataframe):
    pd.options.display.max_rows = 100
    
    print('1.- El DataFrame tiene', dataframe.shape[0],'filas y', dataframe.shape[1], 'columnas\n')
    print('2.- El DataFrame esta compuesto por las siguientes columnas: ', list(dataframe.columns),'\n')
    print('3.- Ejemplos de filas del DataFrame:\n')
    print('Primeras 5 filas:')
    display(dataframe.head(5))
    print('\n Últimas 5 filas:')
    display(dataframe.tail(5))
    print('\n Muestreo aleatorio de 5 filas:')
    display(dataframe.sample(5))
    print('\n 4.- Descripción numérica del Dataframe:\n')
    display(dataframe.describe())
    print('\n 5.- Tipo de datos por columna:')
    display(dataframe.dtypes)
    print('\n 6.- Cantidad de valores nulos por columna:')
    display(dataframe.isna().sum())
    print('\n 7.- Cantidad de valores nulos en total:')
    display(dataframe.isna().sum().sum())
    print('\n 8.- Cantidad de valores únicos por columna:')
    display(dataframe.nunique())

In [5]:
exploratory_data_analysis(df_1)

1.- El DataFrame tiene 389782 filas y 29 columnas

2.- El DataFrame esta compuesto por las siguientes columnas:  ['id', 'fraud_bool', 'income', 'prev_address_months_count', 'current_address_months_count', 'customer_age', 'days_since_request', 'intended_balcon_amount', 'payment_type', 'zip_count_4w', 'velocity_6h', 'velocity_24h', 'velocity_4w', 'bank_branch_count_8w', 'employment_status', 'credit_risk_score', 'housing_status', 'bank_months_count', 'has_other_cards', 'proposed_credit_limit', 'foreign_request', 'source', 'session_length_in_minutes', 'device_os', 'keep_alive_session', 'device_fraud_count', 'month', 'x1', 'x2'] 

3.- Ejemplos de filas del DataFrame:

Primeras 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
104446,729517,0,0.7,-1,305,60,0.030059,-1.599455,AC,990,...,500.0,0,INTERNET,8.865992,windows,0,0,2,-0.245425,0.568811
269483,149585,0,0.8,-1,140,50,0.015659,3.951994,AA,1269,...,200.0,0,INTERNET,4.654872,linux,1,0,7,0.009336,-2.096682
4102,64486,0,0.9,-1,171,50,0.001409,28.159779,AB,4430,...,1500.0,0,INTERNET,3.720953,linux,1,0,1,2.229616,-0.005823
351767,825283,0,0.5,-1,85,30,0.027292,-1.310498,AB,1698,...,200.0,0,INTERNET,2.91267,windows,1,0,3,-0.193945,0.861207
126377,8308,0,0.9,-1,39,30,0.010945,-1.450972,AC,569,...,200.0,0,INTERNET,2.28368,other,1,0,3,-2.44065,0.354986



 Últimas 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
8689,500233,0,0.3,-1,190,30,0.024909,-0.848016,AB,1682,...,1500.0,0,INTERNET,4.043459,linux,1,0,2,-0.972253,-0.164525
341572,764920,0,0.2,-1,308,20,0.042292,-1.670041,AD,1669,...,1000.0,0,INTERNET,12.412305,linux,1,0,2,-0.433835,-2.137383
93740,479316,0,0.8,52,156,40,0.014419,42.877023,AA,759,...,1500.0,0,INTERNET,1.407784,windows,1,0,3,-1.108988,0.467937
34890,453943,0,0.8,-1,384,50,0.018356,43.489859,AA,894,...,200.0,0,INTERNET,6.288238,other,0,0,0,-0.870616,-0.221149
193209,607582,0,0.8,-1,43,50,0.032342,-1.276301,AB,1514,...,200.0,0,INTERNET,5.671012,windows,0,0,1,-1.111151,-0.779366



 Muestreo aleatorio de 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
393664,687438,0,0.6,-1,25,50,0.008755,-1.027563,AB,832,...,2000.0,0,INTERNET,32.284627,windows,1,0,3,0.067855,-0.39835
368097,790347,0,0.6,-1,309,40,0.0241,-0.607486,AA,1331,...,1500.0,0,INTERNET,6.335011,linux,1,0,2,1.363825,-1.552758
61152,813582,0,0.9,-1,46,20,0.009209,-1.452308,AB,3300,...,200.0,1,INTERNET,3.418655,windows,1,0,6,0.785683,0.85239
300645,706267,0,0.9,-1,59,30,0.003111,43.796358,AA,1451,...,200.0,0,INTERNET,1.1757,other,1,0,6,-1.068812,1.516358
67360,350066,0,0.4,-1,34,60,0.021992,-0.173396,AB,1246,...,1500.0,0,INTERNET,1.280168,linux,1,0,4,-0.655873,2.002991



 4.- Descripción numérica del Dataframe:



Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,zip_count_4w,velocity_6h,...,bank_months_count,has_other_cards,proposed_credit_limit,foreign_request,session_length_in_minutes,keep_alive_session,device_fraud_count,month,x1,x2
count,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,...,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0,389782.0
mean,499848.005603,0.011081,0.578593,14.725716,99.266274,41.356066,0.8982626,8.571027,1518.623882,5492.044466,...,11.139091,0.249768,550.722429,0.023898,7.816942,0.555906,0.0,3.655446,0.012611,0.010676
std,288668.519647,0.10468,0.288225,43.142125,94.051447,13.753951,4.97121,20.560324,966.525083,2938.767195,...,12.131114,0.432879,506.326217,0.152732,8.242139,0.496865,0.0,2.116485,1.012885,1.014503
min,0.0,0.0,0.1,-1.0,-1.0,10.0,3.112791e-08,-15.537329,1.0,-174.109691,...,-1.0,0.0,190.0,0.0,-1.0,0.0,0.0,0.0,-4.602975,-4.846414
25%,249505.5,0.0,0.3,-1.0,27.0,30.0,0.007473412,-1.179831,886.0,3338.460577,...,1.0,0.0,200.0,0.0,3.149521,0.0,0.0,2.0,-0.669224,-0.672295
50%,499452.0,0.0,0.6,-1.0,64.0,50.0,0.01571523,-0.834662,1208.0,5189.775212,...,6.0,0.0,200.0,0.0,5.248347,1.0,0.0,4.0,0.004778,0.003866
75%,749926.75,0.0,0.8,-1.0,154.0,50.0,0.02699353,-0.059201,1844.0,7371.002553,...,25.0,0.0,1000.0,0.0,9.358599,1.0,0.0,5.0,0.685736,0.684303
max,999998.0,1.0,0.9,382.0,429.0,90.0,76.35261,112.702504,6650.0,16754.959024,...,32.0,1.0,2100.0,1.0,85.567848,1.0,0.0,7.0,5.518076,6.542492



 5.- Tipo de datos por columna:


id                                int64
fraud_bool                        int64
income                          float64
prev_address_months_count         int64
current_address_months_count      int64
customer_age                      int64
days_since_request              float64
intended_balcon_amount          float64
payment_type                     object
zip_count_4w                      int64
velocity_6h                     float64
velocity_24h                    float64
velocity_4w                     float64
bank_branch_count_8w              int64
employment_status                object
credit_risk_score                 int64
housing_status                   object
bank_months_count                 int64
has_other_cards                   int64
proposed_credit_limit           float64
foreign_request                   int64
source                           object
session_length_in_minutes       float64
device_os                        object
keep_alive_session                int64



 6.- Cantidad de valores nulos por columna:


id                              0
fraud_bool                      0
income                          0
prev_address_months_count       0
current_address_months_count    0
customer_age                    0
days_since_request              0
intended_balcon_amount          0
payment_type                    0
zip_count_4w                    0
velocity_6h                     0
velocity_24h                    0
velocity_4w                     0
bank_branch_count_8w            0
employment_status               0
credit_risk_score               0
housing_status                  0
bank_months_count               0
has_other_cards                 0
proposed_credit_limit           0
foreign_request                 0
source                          0
session_length_in_minutes       0
device_os                       0
keep_alive_session              0
device_fraud_count              0
month                           0
x1                              0
x2                              0
dtype: int64


 7.- Cantidad de valores nulos en total:


0


 8.- Cantidad de valores únicos por columna:


id                              389782
fraud_bool                           2
income                               9
prev_address_months_count          371
current_address_months_count       411
customer_age                         9
days_since_request              388087
intended_balcon_amount          389002
payment_type                         5
zip_count_4w                      6024
velocity_6h                     389583
velocity_24h                    389620
velocity_4w                     389479
bank_branch_count_8w              2280
employment_status                    7
credit_risk_score                  534
housing_status                       7
bank_months_count                   33
has_other_cards                      2
proposed_credit_limit               12
foreign_request                      2
source                               2
session_length_in_minutes       388566
device_os                            5
keep_alive_session                   2
device_fraud_count       

In [6]:
exploratory_data_analysis(df_2)

1.- El DataFrame tiene 747410 filas y 29 columnas

2.- El DataFrame esta compuesto por las siguientes columnas:  ['id', 'fraud_bool', 'income', 'prev_address_months_count', 'current_address_months_count', 'customer_age', 'days_since_request', 'intended_balcon_amount', 'payment_type', 'zip_count_4w', 'velocity_6h', 'velocity_24h', 'velocity_4w', 'bank_branch_count_8w', 'employment_status', 'credit_risk_score', 'housing_status', 'bank_months_count', 'has_other_cards', 'proposed_credit_limit', 'foreign_request', 'source', 'session_length_in_minutes', 'device_os', 'keep_alive_session', 'device_fraud_count', 'month', 'x1', 'x2'] 

3.- Ejemplos de filas del DataFrame:

Primeras 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
699954,303612,0,0.8,-1,21,40,0.010837,-0.853976,AD,239,...,200.0,0,INTERNET,48.12739,other,0,0,3,0.236931,0.077061
701206,568066,0,0.9,-1,70,50,0.711485,25.137456,AA,1873,...,200.0,0,INTERNET,8.792273,windows,1,0,3,0.571536,1.151563
270304,893344,0,0.7,-1,133,50,0.006856,-0.81533,AC,675,...,1000.0,0,INTERNET,15.916225,other,1,0,7,0.224252,-0.590459
346538,247688,0,0.8,-1,207,50,0.026194,-0.736615,AB,999,...,200.0,0,INTERNET,0.509942,linux,1,0,6,0.648528,-0.315911
147297,674478,0,0.8,-1,24,50,0.012646,10.744253,AA,3198,...,500.0,1,INTERNET,10.562945,other,0,0,6,0.041475,0.383332



 Últimas 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
626893,28360,0,0.8,-1,137,30,0.018466,49.088586,AA,915,...,500.0,0,INTERNET,4.090987,other,0,0,1,-0.563622,-0.204385
747411,428637,0,0.6,-1,60,50,0.026457,-0.949519,AD,3145,...,200.0,0,INTERNET,9.759439,windows,1,0,5,-0.874186,0.310623
121778,41856,0,0.7,25,18,30,1.426644,10.441915,AA,1188,...,200.0,0,INTERNET,2.899507,other,1,0,3,1.642429,-0.026783
568036,656236,0,0.6,-1,85,60,0.008277,-0.914454,AB,1021,...,200.0,0,INTERNET,4.031749,linux,0,0,5,-2.168143,0.745766
384611,988191,0,0.9,-1,56,30,0.006165,-1.10313,AD,1922,...,200.0,0,INTERNET,3.843607,linux,0,0,4,-1.662247,1.576214



 Muestreo aleatorio de 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
647845,716671,0,0.9,31,85,50,8.895732,-1.129958,AC,1698,...,200.0,0,INTERNET,10.36186,windows,0,0,3,1.49243,1.657096
362536,434749,0,0.6,98,13,50,0.006873,-0.456877,AC,871,...,200.0,0,INTERNET,10.763875,linux,0,0,2,0.887272,-1.522875
649274,360113,0,0.4,-1,37,30,0.004185,-1.0352,AB,2491,...,200.0,0,INTERNET,33.028236,other,1,0,0,-0.783003,0.955248
218036,69048,0,0.6,-1,269,50,0.003733,-0.536203,AB,878,...,200.0,0,INTERNET,2.035212,other,1,0,6,0.361893,-0.126662
571708,285352,0,0.9,31,33,50,0.003991,-0.820457,AB,1135,...,1000.0,0,INTERNET,6.36024,linux,1,0,5,0.574024,-0.871318



 4.- Descripción numérica del Dataframe:



Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,zip_count_4w,velocity_6h,...,bank_months_count,has_other_cards,proposed_credit_limit,foreign_request,session_length_in_minutes,keep_alive_session,device_fraud_count,month,x1,x2
count,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,...,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0,747410.0
mean,500251.605708,0.010973,0.578524,14.605949,99.127609,41.337445,0.9035222,8.555753,1518.484254,5491.685202,...,11.153443,0.249583,552.080317,0.02387,7.817974,0.55642,0.0,3.656616,0.015617,0.011188
std,288750.620564,0.104174,0.288247,42.896994,94.070215,13.772967,5.015799,20.518142,965.950459,2940.707374,...,12.126832,0.432772,506.725127,0.152646,8.242699,0.496807,0.0,2.117112,1.013224,1.012026
min,3.0,0.0,0.1,-1.0,-1.0,10.0,3.112791e-08,-14.981743,1.0,-155.43073,...,-1.0,0.0,190.0,0.0,-1.0,0.0,0.0,0.0,-4.977864,-4.78337
25%,250120.25,0.0,0.3,-1.0,27.0,30.0,0.007414064,-1.179983,886.0,3336.506724,...,1.0,0.0,200.0,0.0,3.153643,0.0,0.0,2.0,-0.666256,-0.669171
50%,500827.5,0.0,0.6,-1.0,64.0,50.0,0.01562815,-0.833807,1209.0,5193.782151,...,6.0,0.0,200.0,0.0,5.249156,1.0,0.0,4.0,0.010293,0.005562
75%,750219.5,0.0,0.8,-1.0,153.0,50.0,0.02685132,-0.063765,1845.0,7366.452368,...,25.0,0.0,1000.0,0.0,9.36866,1.0,0.0,5.0,0.687275,0.68339
max,999999.0,1.0,0.9,399.0,423.0,90.0,76.5775,112.613538,6526.0,16754.200917,...,32.0,1.0,2100.0,1.0,85.161998,1.0,0.0,7.0,6.434867,6.284777



 5.- Tipo de datos por columna:


id                                int64
fraud_bool                        int64
income                          float64
prev_address_months_count         int64
current_address_months_count      int64
customer_age                      int64
days_since_request              float64
intended_balcon_amount          float64
payment_type                     object
zip_count_4w                      int64
velocity_6h                     float64
velocity_24h                    float64
velocity_4w                     float64
bank_branch_count_8w              int64
employment_status                object
credit_risk_score                 int64
housing_status                   object
bank_months_count                 int64
has_other_cards                   int64
proposed_credit_limit           float64
foreign_request                   int64
source                           object
session_length_in_minutes       float64
device_os                        object
keep_alive_session                int64



 6.- Cantidad de valores nulos por columna:


id                              0
fraud_bool                      0
income                          0
prev_address_months_count       0
current_address_months_count    0
customer_age                    0
days_since_request              0
intended_balcon_amount          0
payment_type                    0
zip_count_4w                    0
velocity_6h                     0
velocity_24h                    0
velocity_4w                     0
bank_branch_count_8w            0
employment_status               0
credit_risk_score               0
housing_status                  0
bank_months_count               0
has_other_cards                 0
proposed_credit_limit           0
foreign_request                 0
source                          0
session_length_in_minutes       0
device_os                       0
keep_alive_session              0
device_fraud_count              0
month                           0
x1                              0
x2                              0
dtype: int64


 7.- Cantidad de valores nulos en total:


0


 8.- Cantidad de valores únicos por columna:


id                              584118
fraud_bool                           2
income                               9
prev_address_months_count          370
current_address_months_count       413
customer_age                         9
days_since_request              580339
intended_balcon_amount          582360
payment_type                         5
zip_count_4w                      6139
velocity_6h                     583689
velocity_24h                    583786
velocity_4w                     583466
bank_branch_count_8w              2304
employment_status                    7
credit_risk_score                  540
housing_status                       7
bank_months_count                   32
has_other_cards                      2
proposed_credit_limit               12
foreign_request                      2
source                               2
session_length_in_minutes       581771
device_os                            5
keep_alive_session                   2
device_fraud_count       

In [7]:
exploratory_data_analysis(df_email_phone)

1.- El DataFrame tiene 934730 filas y 7 columnas

2.- El DataFrame esta compuesto por las siguientes columnas:  ['id', 'name_email_similarity', 'date_of_birth_distinct_emails_4w', 'email_is_free', 'device_distinct_emails_8w', 'phone_home_valid', 'phone_mobile_valid'] 

3.- Ejemplos de filas del DataFrame:

Primeras 5 filas:


Unnamed: 0,id,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
987231,624588,0.555653,15,0,1,0,1
79954,620810,0.849718,2,0,1,0,0
567130,580633,0.110898,3,0,1,1,0
500891,6379,0.67125,15,0,1,0,1
55399,366511,0.772932,7,0,1,0,1



 Últimas 5 filas:


Unnamed: 0,id,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
89156,437057,0.181835,3,1,1,1,0
590568,492432,0.486547,4,0,1,1,1
950861,109950,0.549603,10,1,1,1,1
656247,346972,0.063439,1,1,1,0,1
986114,226280,0.204169,10,1,1,1,1



 Muestreo aleatorio de 5 filas:


Unnamed: 0,id,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
35256,357840,0.485654,11,1,1,0,1
129649,800504,0.060513,9,1,1,0,1
381801,366463,0.0778,9,0,1,1,1
265868,791703,0.616118,4,1,1,0,1
585226,271275,0.120555,3,1,1,0,1



 4.- Descripción numérica del Dataframe:



Unnamed: 0,id,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
count,934730.0,934730.0,934730.0,934730.0,934730.0,934730.0,934730.0
mean,500013.586976,0.4876156,7.771928,0.518645,1.022067,0.493399,0.856989
std,288635.77562,0.2914544,4.815612,0.499653,0.191637,0.499957,0.350085
min,0.0,5.024707e-08,0.0,0.0,-1.0,0.0,0.0
25%,249989.5,0.2145474,4.0,0.0,1.0,0.0,1.0
50%,500075.5,0.4858929,7.0,1.0,1.0,0.0,1.0
75%,749965.75,0.7545305,11.0,1.0,1.0,1.0,1.0
max,999999.0,1.0,39.0,1.0,2.0,1.0,1.0



 5.- Tipo de datos por columna:


id                                    int64
name_email_similarity               float64
date_of_birth_distinct_emails_4w      int64
email_is_free                         int64
device_distinct_emails_8w             int64
phone_home_valid                      int64
phone_mobile_valid                    int64
dtype: object


 6.- Cantidad de valores nulos por columna:


id                                  0
name_email_similarity               0
date_of_birth_distinct_emails_4w    0
email_is_free                       0
device_distinct_emails_8w           0
phone_home_valid                    0
phone_mobile_valid                  0
dtype: int64


 7.- Cantidad de valores nulos en total:


0


 8.- Cantidad de valores únicos por columna:


id                                  934730
name_email_similarity               933577
date_of_birth_distinct_emails_4w        40
email_is_free                            2
device_distinct_emails_8w                4
phone_home_valid                         2
phone_mobile_valid                       2
dtype: int64

### 2.3 Unir dataframes

Ahora se procede a unir los dataframes con la función concat de pandas para poder unir sin limpiar los datos del dataframe 2 al dataframe 1.

In [8]:
merged_df = pd.concat([df_1, df_2])

In [9]:
exploratory_data_analysis(merged_df)

1.- El DataFrame tiene 1137192 filas y 29 columnas

2.- El DataFrame esta compuesto por las siguientes columnas:  ['id', 'fraud_bool', 'income', 'prev_address_months_count', 'current_address_months_count', 'customer_age', 'days_since_request', 'intended_balcon_amount', 'payment_type', 'zip_count_4w', 'velocity_6h', 'velocity_24h', 'velocity_4w', 'bank_branch_count_8w', 'employment_status', 'credit_risk_score', 'housing_status', 'bank_months_count', 'has_other_cards', 'proposed_credit_limit', 'foreign_request', 'source', 'session_length_in_minutes', 'device_os', 'keep_alive_session', 'device_fraud_count', 'month', 'x1', 'x2'] 

3.- Ejemplos de filas del DataFrame:

Primeras 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
104446,729517,0,0.7,-1,305,60,0.030059,-1.599455,AC,990,...,500.0,0,INTERNET,8.865992,windows,0,0,2,-0.245425,0.568811
269483,149585,0,0.8,-1,140,50,0.015659,3.951994,AA,1269,...,200.0,0,INTERNET,4.654872,linux,1,0,7,0.009336,-2.096682
4102,64486,0,0.9,-1,171,50,0.001409,28.159779,AB,4430,...,1500.0,0,INTERNET,3.720953,linux,1,0,1,2.229616,-0.005823
351767,825283,0,0.5,-1,85,30,0.027292,-1.310498,AB,1698,...,200.0,0,INTERNET,2.91267,windows,1,0,3,-0.193945,0.861207
126377,8308,0,0.9,-1,39,30,0.010945,-1.450972,AC,569,...,200.0,0,INTERNET,2.28368,other,1,0,3,-2.44065,0.354986



 Últimas 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
626893,28360,0,0.8,-1,137,30,0.018466,49.088586,AA,915,...,500.0,0,INTERNET,4.090987,other,0,0,1,-0.563622,-0.204385
747411,428637,0,0.6,-1,60,50,0.026457,-0.949519,AD,3145,...,200.0,0,INTERNET,9.759439,windows,1,0,5,-0.874186,0.310623
121778,41856,0,0.7,25,18,30,1.426644,10.441915,AA,1188,...,200.0,0,INTERNET,2.899507,other,1,0,3,1.642429,-0.026783
568036,656236,0,0.6,-1,85,60,0.008277,-0.914454,AB,1021,...,200.0,0,INTERNET,4.031749,linux,0,0,5,-2.168143,0.745766
384611,988191,0,0.9,-1,56,30,0.006165,-1.10313,AD,1922,...,200.0,0,INTERNET,3.843607,linux,0,0,4,-1.662247,1.576214



 Muestreo aleatorio de 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
466068,53308,0,0.4,-1,68,30,0.012903,-1.095881,AC,768,...,2000.0,0,INTERNET,6.210188,other,0,0,6,-1.615957,0.77474
207493,400337,0,0.4,-1,364,50,0.005815,-0.820416,AB,578,...,1500.0,0,INTERNET,27.678927,linux,1,0,3,-0.298256,-0.400733
204692,269840,0,0.5,-1,254,50,0.005205,31.657252,AA,600,...,200.0,0,INTERNET,2.538667,windows,1,0,3,0.114328,-0.052816
320714,132056,0,0.5,-1,30,70,0.013859,31.864698,AA,859,...,200.0,0,INTERNET,3.219983,windows,1,0,7,-1.724249,-0.839501
732486,220510,0,0.5,-1,47,60,0.043011,31.364463,AA,1262,...,200.0,0,INTERNET,3.940742,windows,0,0,2,0.531948,-0.458637



 4.- Descripción numérica del Dataframe:



Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,zip_count_4w,velocity_6h,...,bank_months_count,has_other_cards,proposed_credit_limit,foreign_request,session_length_in_minutes,keep_alive_session,device_fraud_count,month,x1,x2
count,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,...,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0
mean,500113.3,0.01100957,0.5785479,14.647,99.17514,41.34383,0.9017195,8.560989,1518.532,5491.808,...,11.14852,0.2496465,551.6149,0.02387987,7.81762,0.5562438,0.0,3.656215,0.0145864,0.01101237
std,288722.4,0.1043474,0.2882396,42.98119,94.06376,13.76645,5.000559,20.5326,966.147,2940.041,...,12.1283,0.4328086,506.5886,0.152675,8.242504,0.4968268,0.0,2.116896,1.013109,1.012876
min,0.0,0.0,0.1,-1.0,-1.0,10.0,3.112791e-08,-15.53733,1.0,-174.1097,...,-1.0,0.0,190.0,0.0,-1.0,0.0,0.0,0.0,-4.977864,-4.846414
25%,249918.5,0.0,0.3,-1.0,27.0,30.0,0.007434452,-1.179949,886.0,3337.138,...,1.0,0.0,200.0,0.0,3.152311,0.0,0.0,2.0,-0.6672525,-0.6702569
50%,500347.5,0.0,0.6,-1.0,64.0,50.0,0.0156594,-0.8341029,1209.0,5192.389,...,6.0,0.0,200.0,0.0,5.248896,1.0,0.0,4.0,0.00845692,0.004949004
75%,750113.2,0.0,0.8,-1.0,154.0,50.0,0.02689542,-0.06162908,1845.0,7368.034,...,25.0,0.0,1000.0,0.0,9.365151,1.0,0.0,5.0,0.6867563,0.6837339
max,999999.0,1.0,0.9,399.0,429.0,90.0,76.5775,112.7025,6650.0,16754.96,...,32.0,1.0,2100.0,1.0,85.56785,1.0,0.0,7.0,6.434867,6.542492



 5.- Tipo de datos por columna:


id                                int64
fraud_bool                        int64
income                          float64
prev_address_months_count         int64
current_address_months_count      int64
customer_age                      int64
days_since_request              float64
intended_balcon_amount          float64
payment_type                     object
zip_count_4w                      int64
velocity_6h                     float64
velocity_24h                    float64
velocity_4w                     float64
bank_branch_count_8w              int64
employment_status                object
credit_risk_score                 int64
housing_status                   object
bank_months_count                 int64
has_other_cards                   int64
proposed_credit_limit           float64
foreign_request                   int64
source                           object
session_length_in_minutes       float64
device_os                        object
keep_alive_session                int64



 6.- Cantidad de valores nulos por columna:


id                              0
fraud_bool                      0
income                          0
prev_address_months_count       0
current_address_months_count    0
customer_age                    0
days_since_request              0
intended_balcon_amount          0
payment_type                    0
zip_count_4w                    0
velocity_6h                     0
velocity_24h                    0
velocity_4w                     0
bank_branch_count_8w            0
employment_status               0
credit_risk_score               0
housing_status                  0
bank_months_count               0
has_other_cards                 0
proposed_credit_limit           0
foreign_request                 0
source                          0
session_length_in_minutes       0
device_os                       0
keep_alive_session              0
device_fraud_count              0
month                           0
x1                              0
x2                              0
dtype: int64


 7.- Cantidad de valores nulos en total:


0


 8.- Cantidad de valores únicos por columna:


id                              934858
fraud_bool                           2
income                               9
prev_address_months_count          373
current_address_months_count       416
customer_age                         9
days_since_request              925125
intended_balcon_amount          930349
payment_type                         5
zip_count_4w                      6238
velocity_6h                     933695
velocity_24h                    933964
velocity_4w                     933273
bank_branch_count_8w              2320
employment_status                    7
credit_risk_score                  544
housing_status                       7
bank_months_count                   33
has_other_cards                      2
proposed_credit_limit               12
foreign_request                      2
source                               2
session_length_in_minutes       930312
device_os                            5
keep_alive_session                   2
device_fraud_count       

### 2.4 Unir nuevas variables

Luego, para unir los dos dataframes, es decir el dataframe que contiene a df_1 y df_2, con el dataframe que contiene números de teléfono y emails, lo que se utiliza es la estrategia **outer join** para poder utilizar la función merge de pandas, ya que 

In [10]:
final_df = pd.merge(merged_df, df_email_phone, how="outer", on='id')

### 2.5 Verificar nulos y duplicados, generar explicaciones sobre sus fuentes y proponer soluciones.



Para poder analizar el dataframe final, vamos a hacer un análisis exploratorio primero para poder ver de qué se compone este.

In [11]:
exploratory_data_analysis(final_df)

1.- El DataFrame tiene 1198151 filas y 35 columnas

2.- El DataFrame esta compuesto por las siguientes columnas:  ['id', 'fraud_bool', 'income', 'prev_address_months_count', 'current_address_months_count', 'customer_age', 'days_since_request', 'intended_balcon_amount', 'payment_type', 'zip_count_4w', 'velocity_6h', 'velocity_24h', 'velocity_4w', 'bank_branch_count_8w', 'employment_status', 'credit_risk_score', 'housing_status', 'bank_months_count', 'has_other_cards', 'proposed_credit_limit', 'foreign_request', 'source', 'session_length_in_minutes', 'device_os', 'keep_alive_session', 'device_fraud_count', 'month', 'x1', 'x2', 'name_email_similarity', 'date_of_birth_distinct_emails_4w', 'email_is_free', 'device_distinct_emails_8w', 'phone_home_valid', 'phone_mobile_valid'] 

3.- Ejemplos de filas del DataFrame:

Primeras 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,device_fraud_count,month,x1,x2,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
0,729517,0.0,0.7,-1.0,305.0,60.0,0.030059,-1.599455,AC,990.0,...,0.0,2.0,-0.245425,0.568811,0.883485,2.0,1.0,1.0,0.0,1.0
1,729517,0.0,0.7,-1.0,305.0,60.0,0.030059,-1.599455,AC,990.0,...,0.0,2.0,-0.245425,0.568811,0.883485,2.0,1.0,1.0,0.0,1.0
2,149585,0.0,0.8,-1.0,140.0,50.0,0.015659,3.951994,AA,1269.0,...,0.0,7.0,0.009336,-2.096682,0.113208,4.0,1.0,1.0,1.0,1.0
3,149585,0.0,0.8,-1.0,140.0,50.0,0.015659,3.951994,AA,1269.0,...,0.0,7.0,0.009336,-2.096682,0.113208,4.0,1.0,1.0,1.0,1.0
4,64486,0.0,0.9,-1.0,171.0,50.0,0.001409,28.159779,AB,4430.0,...,0.0,1.0,2.229616,-0.005823,0.792797,4.0,0.0,1.0,0.0,1.0



 Últimas 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,device_fraud_count,month,x1,x2,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
1198146,36622,,,,,,,,,,...,,,,,0.488584,26.0,1.0,2.0,0.0,1.0
1198147,507501,,,,,,,,,,...,,,,,0.615749,3.0,0.0,1.0,1.0,1.0
1198148,468237,,,,,,,,,,...,,,,,0.493888,3.0,1.0,1.0,1.0,0.0
1198149,469817,,,,,,,,,,...,,,,,0.006752,2.0,0.0,1.0,1.0,0.0
1198150,549209,,,,,,,,,,...,,,,,0.761055,7.0,0.0,1.0,1.0,1.0



 Muestreo aleatorio de 5 filas:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,device_fraud_count,month,x1,x2,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
294625,235124,0.0,0.1,-1.0,24.0,20.0,1.60702,-1.758863,AB,324.0,...,0.0,6.0,-1.007436,-1.450839,0.167828,15.0,0.0,0.0,0.0,1.0
763204,979792,0.0,0.8,-1.0,372.0,30.0,0.004189,45.371091,AA,888.0,...,0.0,7.0,-0.385672,0.689419,0.461299,11.0,1.0,1.0,0.0,1.0
859876,960486,0.0,0.1,-1.0,38.0,60.0,0.000311,-1.274401,AB,1230.0,...,0.0,3.0,-0.245928,0.368073,0.845085,5.0,1.0,1.0,1.0,0.0
44044,498813,0.0,0.7,-1.0,59.0,40.0,0.031323,-1.152415,AC,999.0,...,0.0,2.0,0.463203,-0.290162,0.750026,11.0,1.0,1.0,1.0,1.0
434761,991694,0.0,0.6,-1.0,164.0,20.0,0.04085,-0.804477,AD,446.0,...,0.0,6.0,-0.490727,1.261245,,,,,,



 4.- Descripción numérica del Dataframe:



Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,zip_count_4w,velocity_6h,...,device_fraud_count,month,x1,x2,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
count,1198151.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,1137192.0,...,1137192.0,1137192.0,1137192.0,1137192.0,1118424.0,1118424.0,1118424.0,1118424.0,1118424.0,1118424.0
mean,500128.3,0.01100957,0.5785479,14.647,99.17514,41.34383,0.9017195,8.560989,1518.532,5491.808,...,0.0,3.656215,0.0145864,0.01101237,0.487562,7.776952,0.5181559,1.022179,0.4933549,0.8569478
std,288741.5,0.1043474,0.2882396,42.98119,94.06376,13.76645,5.000559,20.5326,966.147,2940.041,...,0.0,2.116896,1.013109,1.012876,0.2914812,4.814635,0.4996705,0.1915275,0.4999561,0.3501262
min,0.0,0.0,0.1,-1.0,-1.0,10.0,3.112791e-08,-15.53733,1.0,-174.1097,...,0.0,0.0,-4.977864,-4.846414,5.024707e-08,0.0,0.0,-1.0,0.0,0.0
25%,249951.5,0.0,0.3,-1.0,27.0,30.0,0.007434452,-1.179949,886.0,3337.138,...,0.0,2.0,-0.6672525,-0.6702569,0.2144731,4.0,0.0,1.0,0.0,1.0
50%,500273.0,0.0,0.6,-1.0,64.0,50.0,0.0156594,-0.8341029,1209.0,5192.389,...,0.0,4.0,0.00845692,0.004949004,0.4857949,7.0,1.0,1.0,0.0,1.0
75%,750252.5,0.0,0.8,-1.0,154.0,50.0,0.02689542,-0.06162908,1845.0,7368.034,...,0.0,5.0,0.6867563,0.6837339,0.7544987,11.0,1.0,1.0,1.0,1.0
max,999999.0,1.0,0.9,399.0,429.0,90.0,76.5775,112.7025,6650.0,16754.96,...,0.0,7.0,6.434867,6.542492,1.0,39.0,1.0,2.0,1.0,1.0



 5.- Tipo de datos por columna:


id                                    int64
fraud_bool                          float64
income                              float64
prev_address_months_count           float64
current_address_months_count        float64
customer_age                        float64
days_since_request                  float64
intended_balcon_amount              float64
payment_type                         object
zip_count_4w                        float64
velocity_6h                         float64
velocity_24h                        float64
velocity_4w                         float64
bank_branch_count_8w                float64
employment_status                    object
credit_risk_score                   float64
housing_status                       object
bank_months_count                   float64
has_other_cards                     float64
proposed_credit_limit               float64
foreign_request                     float64
source                               object
session_length_in_minutes       


 6.- Cantidad de valores nulos por columna:


id                                      0
fraud_bool                          60959
income                              60959
prev_address_months_count           60959
current_address_months_count        60959
customer_age                        60959
days_since_request                  60959
intended_balcon_amount              60959
payment_type                        60959
zip_count_4w                        60959
velocity_6h                         60959
velocity_24h                        60959
velocity_4w                         60959
bank_branch_count_8w                60959
employment_status                   60959
credit_risk_score                   60959
housing_status                      60959
bank_months_count                   60959
has_other_cards                     60959
proposed_credit_limit               60959
foreign_request                     60959
source                              60959
session_length_in_minutes           60959
device_os                         


 7.- Cantidad de valores nulos en total:


2185214


 8.- Cantidad de valores únicos por columna:


id                                  995817
fraud_bool                               2
income                                   9
prev_address_months_count              373
current_address_months_count           416
customer_age                             9
days_since_request                  925125
intended_balcon_amount              930349
payment_type                             5
zip_count_4w                          6238
velocity_6h                         933695
velocity_24h                        933964
velocity_4w                         933273
bank_branch_count_8w                  2320
employment_status                        7
credit_risk_score                      544
housing_status                           7
bank_months_count                       33
has_other_cards                          2
proposed_credit_limit                   12
foreign_request                          2
source                                   2
session_length_in_minutes           930312
device_os  

En este caso se puede ver que el dataframe está compuesto de 1.198.151 filas, sin embargo, posee 995.817 *id* únicas, por lo que claramente se pueden ver que hay *ids* de clientes repetidas que van a tener que ser tratadas. También se pueden ver una cantidad de NaN en el dataframe (sin contar id), con 60.959 valores nulos para todas las columnas de los dos primeros dataframes, y 79.727 para las columnas del dataframe de teléfonos y emails. Revisando numéricamente el dataframe, hay valores que llaman la atención para los clientes de este banco, y que se plantea el siguiente tratamiento:
* **prev_address_months_count**: Se tiene que esta variable va desde -1 a 399, cuando en la descripción de este dice que va desde -1 a 380, por lo que se va a tener que acotar el rango. Cabe destacar que esos -1 representan valores nulos.
* **device_fraud_count**: Esta variable se encuentra repleta de 0, por lo que no aporta información y será descartada.

En cuanto a los valores nulos, como representan como máximo el 6,65% de los datos, se van a descartar para poder tener limpio el dataframe.

Se ven casos particulares en columnas para saber si existen valores que no deberian estar. 

In [12]:

print('Se esperan 5 valores (sin contar na)', final_df['payment_type'].unique())
print('Se esperan 7 valores (sin contar na)', final_df['employment_status'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['email_is_free'].unique())
print('Se esperan 7 valores (sin contar na)', final_df['housing_status'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['phone_home_valid'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['phone_mobile_valid'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['has_other_cards'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['foreign_request'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['source'].unique())
print('Se esperan 5 valores (sin contar na)', final_df['device_os'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['keep_alive_session'].unique())
print('Se esperan 2 valores (sin contar na)', final_df['fraud_bool'].unique())


Se esperan 5 valores (sin contar na) ['AC' 'AA' 'AB' 'AD' 'AE' nan]
Se esperan 7 valores (sin contar na) ['CC' 'CF' 'CA' 'CB' 'CE' 'CD' 'CG' nan]
Se esperan 2 valores (sin contar na) [ 1.  0. nan]
Se esperan 7 valores (sin contar na) ['BB' 'BA' 'BE' 'BC' 'BD' 'BF' 'BG' nan]
Se esperan 2 valores (sin contar na) [ 0.  1. nan]
Se esperan 2 valores (sin contar na) [ 1.  0. nan]
Se esperan 2 valores (sin contar na) [ 0.  1. nan]
Se esperan 2 valores (sin contar na) [ 0.  1. nan]
Se esperan 2 valores (sin contar na) ['INTERNET' 'TELEAPP' nan]
Se esperan 5 valores (sin contar na) ['windows' 'linux' 'other' 'macintosh' 'x11' nan]
Se esperan 2 valores (sin contar na) [ 0.  1. nan]
Se esperan 2 valores (sin contar na) [ 0.  1. nan]


Se puede ver que en las varaibles cateogoricas o binarias no existen valores que se escapan de lo esperado excepto por lo NA.

Por ultimo se ve la cantidad de Na por columna en aquellas columnas que sus Na estan representadas por un numero negativo.

In [13]:
columnas_de_interes = ['prev_address_months_count', 
                       'current_address_months_count', 
                       'intended_balcon_amount', 
                       'bank_months_count', 
                       'session_length_in_minutes',
                       'device_distinct_emails_8w']

for columna in columnas_de_interes:
    num_negative_values = final_df[columna].lt(0).sum() # lt(0) devuelve True para valores negativos
    total_values = len(final_df[columna])
    percentage_negative = (num_negative_values / total_values) * 100
    print(f"Porcentaje de valores negativos en {columna}: {round(percentage_negative,1)}%")

Porcentaje de valores negativos en prev_address_months_count: 72.3%
Porcentaje de valores negativos en current_address_months_count: 0.3%
Porcentaje de valores negativos en intended_balcon_amount: 71.3%
Porcentaje de valores negativos en bank_months_count: 23.4%
Porcentaje de valores negativos en session_length_in_minutes: 0.2%
Porcentaje de valores negativos en device_distinct_emails_8w: 0.0%


Como existe una gran cantidad de valores nulos en prev_address_months_count y intended_balcon_amount, se borraran estas columnas ya que no aportan mucha informacion. 

### 2.6 Limpiar


Para elegir el ID que se conservará del conjunto de datos, se dará prioridad al ID del primer dataframe, que se considera más confiable que el segundo. Para esto se hacen borran los duplicados y se mantiene el primer registro encontrado que es el del primer dataset. 

In [14]:
filas_iniciales = len(final_df)

final_df.dropna(inplace=True)
conteo_drop_na = len(final_df)

final_df.drop_duplicates(subset=['id'], inplace=True, keep= 'first')
conteo_duplicados = len(final_df)

print("Filas removidas con NA: ", filas_iniciales - conteo_drop_na)
print("Filas removidas con duplicados: ", conteo_drop_na - conteo_duplicados)

final_df.drop('device_fraud_count', axis=1, inplace= True)
final_df.drop('intended_balcon_amount', axis=1, inplace= True)
final_df.drop('prev_address_months_count', axis=1, inplace= True)

Filas removidas con NA:  140686
Filas removidas con duplicados:  183694


Se ajusta cada columna por el rango de los valores a los que pertenece.

In [15]:
filas_iniciales = len(final_df)

final_df.query('income >= 0.1 and income <= 0.9', inplace=True)
final_df.query('name_email_similarity >= 0 and name_email_similarity <= 1', inplace=True)
final_df.query('current_address_months_count >= 0 and current_address_months_count <= 429', inplace=True)
final_df.query('customer_age >= 10 and customer_age <= 90', inplace=True)
final_df.query('days_since_request >= 0 and days_since_request <= 79', inplace=True)
final_df.query('zip_count_4w >= 1 and zip_count_4w <= 6830', inplace=True)
final_df.query('velocity_6h >= -175 and velocity_6h <= 16818', inplace=True)
final_df.query('velocity_24h >= 1297 and velocity_24h <= 9586', inplace=True)
final_df.query('velocity_4w >= 2825 and velocity_4w <= 7020', inplace=True)
final_df.query('bank_branch_count_8w >= 0 and bank_branch_count_8w <= 2404', inplace=True)
final_df.query('date_of_birth_distinct_emails_4w >= 0 and date_of_birth_distinct_emails_4w <= 39', inplace=True)
final_df.query('credit_risk_score >= -191 and credit_risk_score <= 389', inplace=True)
final_df.query('bank_months_count >= 0 and bank_months_count <= 32', inplace=True)
final_df.query('proposed_credit_limit >= 200 and proposed_credit_limit <= 2000', inplace=True)
final_df.query('session_length_in_minutes >= -1 and session_length_in_minutes <= 107', inplace=True)
final_df.query('device_distinct_emails_8w >= 0 and device_distinct_emails_8w <= 2', inplace=True)
final_df.query('month >= 0 and month <= 7', inplace=True)

filas_queried = len(final_df)

print("Filas removidas con query: ", filas_iniciales - filas_queried)

Filas removidas con query:  218462


Al buscar valores dentro de los rangos esperados, se perdieron 218462 registros, lo cual es una gran cantidad de estos. Sin embargo aun queda una gran cantidad en la base de datos.

### 2.7 Segmentar usuarios

Para un mejor análisis en el trabajo siguiente, se van a segmentar a los usuarios en 4 categorías:
* Joven (Menor a 18 años)
* Adulto-Joven (18 - 26 años)
* Adulto (27- 59 años)
* Persona Mayor (60 años o más)

In [16]:
conditions = [
    (final_df['customer_age'] < 18),
    (final_df['customer_age'] >= 18) & (final_df['customer_age'] <= 26),
    (final_df['customer_age'] >= 27) & (final_df['customer_age'] <= 59),
    (final_df['customer_age'] >= 60)
    ]

values = ['Joven', 'Adulto-Joven', 'Adulto', 'Persona Mayor']

final_df['segmentacion_etaria'] = np.select(conditions, values)

In [17]:
final_df.head()

Unnamed: 0,id,fraud_bool,income,current_address_months_count,customer_age,days_since_request,payment_type,zip_count_4w,velocity_6h,velocity_24h,...,month,x1,x2,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid,segmentacion_etaria
2,149585,0.0,0.8,140.0,50.0,0.015659,AA,1269.0,2844.260015,2789.827355,...,7.0,0.009336,-2.096682,0.113208,4.0,1.0,1.0,1.0,1.0,Adulto
4,64486,0.0,0.9,171.0,50.0,0.001409,AB,4430.0,5854.06579,4210.039095,...,1.0,2.229616,-0.005823,0.792797,4.0,0.0,1.0,0.0,1.0,Adulto
5,825283,0.0,0.5,85.0,30.0,0.027292,AB,1698.0,7938.525709,4963.194619,...,3.0,-0.193945,0.861207,0.865082,10.0,0.0,1.0,0.0,1.0,Adulto
9,891636,0.0,0.6,137.0,60.0,0.046158,AA,1512.0,7669.494145,4251.257682,...,2.0,2.19296,0.484068,0.383238,2.0,1.0,1.0,1.0,1.0,Persona Mayor
11,395034,0.0,0.4,156.0,40.0,0.032288,AA,941.0,6073.856953,3653.085358,...,6.0,-0.647299,-0.319544,0.903835,5.0,1.0,1.0,1.0,1.0,Adulto


## 3. Análisis Exploratorio de Datos

In [18]:
from ydata_profiling import ProfileReport

In [19]:
#profile = ProfileReport(final_df, title="EDA")
#profile.to_file("eda.html")

### 3.1 Análisis del EDA

El resultado del analisis hecho por la libreria ydata_profiling da los siguientes resultados:

> Respecto a los valores NA, ya no se encuentra ninguno de estos en el dataset. Y los ids, se tiene un unico id por fila. 

Ahora se hara un analisis de cada variable del eda adjunto en el html:

> fraud_bool: Se ve que esta variable binaria tiene un desbalance gigante, donde los datos de 

## 4. Preprocesamiento

### 4.1 Declarar `ColumnTransformer`

In [20]:
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())])

# Columnas categoricas
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

# Columnas binarias
binary_transformer = OrdinalEncoder()

# Tipo de cada columna
numeric_features = ['income', 'current_address_months_count', 'customer_age',
                    'days_since_request', 'zip_count_4w', 'velocity_6h', 'velocity_24h',
                    'velocity_4w', 'bank_branch_count_8w', 'credit_risk_score', 'bank_months_count', 'proposed_credit_limit',
                    'session_length_in_minutes', 'month', 'x1', 'x2', 'name_email_similarity',
                    'date_of_birth_distinct_emails_4w', 'device_distinct_emails_8w']

categorical_features = ['payment_type', 'employment_status', 'housing_status', 'source', 'device_os', 'segmentacion_etaria']

binary_features = ['has_other_cards', 'foreign_request', 'keep_alive_session', 'email_is_free', 'phone_home_valid',
                   'phone_mobile_valid']

# Se define el column transformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),
        ('bin', binary_transformer, binary_features)
    ],
    remainder='passthrough' # Para 'id' y 'fraud_bool' que no se deben transformar
)


### 4.2 Transformar datos

In [21]:
# Aplica la transformacion
data = preprocessor.fit_transform(final_df)

# Obtiene el nombre de las columnas
name_columns = preprocessor.get_feature_names_out()

# Lo guarda en un dataframe de pandas
data = pd.DataFrame(data, columns = name_columns)

## 5. Visualización en Baja Dimensionalidad

### 5.1 Muestrear dataframe

In [22]:
muestra = data.sample(n=25000, random_state=13)
features = muestra.drop(columns=['remainder__fraud_bool', 'remainder__id'])
fraude = muestra[['cat__segmentacion_etaria_Joven', 'cat__segmentacion_etaria_Adulto-Joven', 
                  'cat__segmentacion_etaria_Adulto','cat__segmentacion_etaria_Persona Mayor','remainder__fraud_bool']]

### 5.2 Proyectar y agregar proyecciones al dataframe de muestreo

In [23]:
# Para Adulto Mayor
pca = PCA(n_components=2)

filtered_mayor = muestra[muestra['cat__segmentacion_etaria_Persona Mayor'] == 1][features.columns].reset_index(drop=True)
filtered_fraude_mayor = fraude[fraude['cat__segmentacion_etaria_Persona Mayor'] == 1]['remainder__fraud_bool'].reset_index(drop=True)

pca_result_mayor = pca.fit_transform(filtered_mayor)
pca_df_mayor = pd.DataFrame(data = pca_result_mayor, columns = ['principal component 1', 'principal component 2'])
pca_df_mayor['fraud_bool'] = filtered_fraude_mayor.astype(int).astype('category')

# Para Adulto
pca = PCA(n_components=2)

filtered_adulto = muestra[muestra['cat__segmentacion_etaria_Adulto'] == 1][features.columns].reset_index(drop=True)
filtered_fraude_adulto = fraude[fraude['cat__segmentacion_etaria_Adulto'] == 1]['remainder__fraud_bool'].reset_index(drop=True)

pca_result_adulto = pca.fit_transform(filtered_adulto)
pca_df_adulto = pd.DataFrame(data = pca_result_adulto, columns = ['principal component 1', 'principal component 2'])
pca_df_adulto['fraud_bool'] = filtered_fraude_adulto.astype(int).astype('category')

# Para Adulto-Joven
pca = PCA(n_components=2)

filtered_adulto_joven = muestra[muestra['cat__segmentacion_etaria_Adulto-Joven'] == 1][features.columns].reset_index(drop=True)
filtered_fraude_adulto_joven = fraude[fraude['cat__segmentacion_etaria_Adulto-Joven'] == 1]['remainder__fraud_bool'].reset_index(drop=True)

pca_result_adulto_joven = pca.fit_transform(filtered_adulto_joven)
pca_df_adulto_joven = pd.DataFrame(data = pca_result_adulto_joven, columns = ['principal component 1', 'principal component 2'])
pca_df_adulto_joven['fraud_bool'] = filtered_fraude_adulto_joven.astype(int).astype('category')

# Para Joven
pca = PCA(n_components=2)

filtered_joven = muestra[muestra['cat__segmentacion_etaria_Joven'] == 1][features.columns].reset_index(drop=True)
filtered_fraude_joven = fraude[fraude['cat__segmentacion_etaria_Joven'] == 1]['remainder__fraud_bool'].reset_index(drop=True)

pca_result_joven = pca.fit_transform(filtered_joven)
pca_df_joven = pd.DataFrame(data = pca_result_joven, columns = ['principal component 1', 'principal component 2'])
pca_df_joven['fraud_bool'] = filtered_fraude_joven.astype(int).astype('category')



### 5.3 Visualizar según rangos etarios

In [None]:
# Para Adulto Mayor
fig_pca_mayor = px.scatter(pca_df_mayor, 
                           x='principal component 1', 
                           y='principal component 2', 
                           color='fraud_bool', 
                           title='PCA Plot Adulto Mayor', 
                           color_discrete_sequence=['blue', 'red'])
fig_pca_mayor.show()

# Para Adulto
fig_pca_adulto = px.scatter(pca_df_adulto, 
                            x='principal component 1', 
                            y='principal component 2', 
                            color='fraud_bool', 
                            title='PCA Plot Adulto', 
                            color_discrete_sequence=['blue', 'red'])
fig_pca_adulto.show()

# Para Adulto-Joven
fig_pca_adulto_joven = px.scatter(pca_df_adulto_joven, 
                                  x='principal component 1', 
                                  y='principal component 2', 
                                  color='fraud_bool', 
                                  title='PCA Plot Adulto-Joven', 
                                  color_discrete_sequence=['blue', 'red'])
fig_pca_adulto_joven.show()

# Para Joven
fig_pca_joven = px.scatter(pca_df_joven, 
                           x='principal component 1', 
                           y='principal component 2', 
                           color='fraud_bool', 
                           title='PCA Plot Joven', 
                           color_discrete_sequence=['blue', 'red'])
fig_pca_joven.show()

A partir de la visualización, podemos observar que los fraudes, en su mayoría, no se ubican entre los outliers identificados por el método PCA, sino que tienden a agruparse dentro de los clusters. Esto sugiere que los casos de fraude no necesariamente presentan características extremas o atípicas en relación con el conjunto de datos, sino que pueden compartir ciertos atributos comunes que los ubican dentro de estas agrupaciones.

Es curioso notar que, para los grupos de "adulto joven" y "joven", la dispersión de los datos asume una forma lineal en lugar de una nube de puntos más dispersa.

Finalmente, se puede observar que el grupo "adulto" tiene la mayor cantidad de fraudes. Sin embargo, este resultado debe ser interpretado con precaución, dado que este grupo también es el que cuenta con más registros en el conjunto de datos.

## 6. Anomalías

### 6.1 Implementar detector de anomalías sobre dataframe de muestreo

Se propone usar la tecnica de deteccion de outliers llamada IsolationForest, ya que esta funciona mejor en datasets con alta cantidad de dimensiones como lo es el que se esta trabajando. 

In [None]:
isf_mayor = IsolationForest(n_estimators=100, random_state = 11)
outliers_mayor = isf_mayor.fit_predict(filtered_mayor)
outliers_mayor = np.where(outliers_mayor == -1, 1, 0)

isf_adulto = IsolationForest(n_estimators=100, random_state = 11)
outliers_adulto = isf_adulto.fit_predict(filtered_adulto)
outliers_adulto = np.where(outliers_adulto == -1, 1, 0)

isf_adulto_joven = IsolationForest(n_estimators=100, random_state = 11)
outliers_adulto_joven = isf_adulto_joven.fit_predict(filtered_adulto_joven)
outliers_adulto_joven = np.where(outliers_adulto_joven == -1, 1, 0)

isf_joven = IsolationForest(n_estimators=100, random_state = 11)
outliers_joven = isf_joven.fit_predict(filtered_joven)
outliers_joven = np.where(outliers_joven == -1, 1, 0)

### 6.2 Agregar resultados a dataframe de muestreo

In [None]:
pca_df_mayor['outlier'] = outliers_mayor
pca_df_mayor['outlier'] = pca_df_mayor['outlier'].astype('category')


pca_df_adulto['outlier'] = outliers_adulto
pca_df_adulto['outlier'] = pca_df_adulto['outlier'].astype('category')

pca_df_adulto_joven['outlier'] = outliers_adulto_joven
pca_df_adulto_joven['outlier'] = pca_df_adulto_joven['outlier'].astype('category')

pca_df_joven['outlier'] = outliers_joven
pca_df_joven['outlier'] = pca_df_joven['outlier'].astype('category')

### 6.3 Visualizar según rangos etarios

In [27]:
color_map = {1: 'red', 0: 'blue'}

# Para Adulto Mayor
fig_pca_mayor = px.scatter(pca_df_mayor, 
                           x='principal component 1', 
                           y='principal component 2', 
                           color='outlier', 
                           title='Outlier Plot Adulto Mayor', 
                           color_discrete_map=color_map)
fig_pca_mayor.show()

# Para Adulto
fig_pca_adulto = px.scatter(pca_df_adulto, 
                            x='principal component 1', 
                            y='principal component 2', 
                            color='outlier', 
                            title='Outlier Plot Adulto', 
                            color_discrete_map=color_map)
fig_pca_adulto.show()

# Para Adulto-Joven
fig_pca_adulto_joven = px.scatter(pca_df_adulto_joven, 
                                  x='principal component 1', 
                                  y='principal component 2', 
                                  color='outlier', 
                                  title='Outlier Plot Adulto-Joven', 
                                  color_discrete_map=color_map)
fig_pca_adulto_joven.show()

# Para Joven
fig_pca_joven = px.scatter(pca_df_joven, 
                           x='principal component 1', 
                           y='principal component 2', 
                           color='outlier', 
                           title='Outlier Plot Joven', 
                           color_discrete_map=color_map)
fig_pca_joven.show()


### 6.4 Calcular ratios y responder

Se calculan los ratios para cada rango etario y finalmente para el modelo en su totalidad. 

In [28]:
pca_df_mayor['pred_correcta'] = ((pca_df_mayor['fraud_bool'] == 1) & (pca_df_mayor['outlier'] == 1)).astype(int)
pca_df_adulto['pred_correcta'] = ((pca_df_adulto['fraud_bool'] == 1) & (pca_df_adulto['outlier'] == 1)).astype(int)
pca_df_adulto_joven['pred_correcta'] = ((pca_df_adulto_joven['fraud_bool'] == 1) & (pca_df_adulto_joven['outlier'] == 1)).astype(int)
pca_df_joven['pred_correcta'] = ((pca_df_joven['fraud_bool'] == 1) & (pca_df_joven['outlier'] == 1)).astype(int)

# Calcular P y R para Adulto mayor
predichos_como_fraude_mayor = pca_df_mayor['outlier'].astype(int).sum()
predichos_correctamente_mayor = pca_df_mayor['pred_correcta'].astype(int).sum()
P_mayor = predichos_correctamente_mayor / predichos_como_fraude_mayor

realmente_fraude_mayor = pca_df_mayor['fraud_bool'].astype(int).sum()
R_mayor = predichos_correctamente_mayor / realmente_fraude_mayor

print(f"P para adulto mayor: {P_mayor}")
print(f"R para adulto mayor: {R_mayor}")

# Calcular P y R para Adulto
predichos_como_fraude_adulto = pca_df_adulto['outlier'].astype(int).sum()
predichos_correctamente_adulto = pca_df_adulto['pred_correcta'].astype(int).sum()
P_adulto = predichos_correctamente_adulto / predichos_como_fraude_adulto

realmente_fraude_adulto = pca_df_adulto['fraud_bool'].astype(int).sum()
R_adulto = predichos_correctamente_adulto / realmente_fraude_adulto

print(f"P para adulto: {P_adulto}")
print(f"R para adulto: {R_adulto}")


# Calcular P y R para Adulto Joven
predichos_como_fraude_adulto_joven = pca_df_adulto_joven['outlier'].astype(int).sum()
predichos_correctamente_adulto_joven = pca_df_adulto_joven['pred_correcta'].astype(int).sum()
P_adulto_joven = predichos_correctamente_adulto_joven / predichos_como_fraude_adulto_joven

realmente_fraude_adulto_joven = pca_df_adulto_joven['fraud_bool'].astype(int).sum()
R_adulto_joven = predichos_correctamente_adulto_joven / realmente_fraude_adulto_joven

print(f"P para adulto joven: {P_adulto_joven}")
print(f"R para adulto joven: {R_adulto_joven}")


# Calcular P y R para Joven
predichos_como_fraude_joven = pca_df_joven['outlier'].astype(int).sum()
predichos_correctamente_joven = pca_df_joven['pred_correcta'].astype(int).sum()
P_joven = predichos_correctamente_joven / predichos_como_fraude_joven

realmente_fraude_joven = pca_df_joven['fraud_bool'].astype(int).sum()
R_joven = predichos_correctamente_joven / realmente_fraude_joven

print(f"P para joven: {P_joven}")
print(f"R para joven: {R_joven}")


predichos_correctamente_total = predichos_correctamente_adulto_joven + predichos_correctamente_joven + predichos_correctamente_adulto + predichos_correctamente_mayor
predichos_como_fraude_total = predichos_como_fraude_adulto + predichos_como_fraude_mayor + predichos_como_fraude_adulto_joven + predichos_como_fraude_joven
realmente_fraude_total = realmente_fraude_adulto + realmente_fraude_adulto_joven + realmente_fraude_joven + realmente_fraude_mayor

P = predichos_correctamente_total / predichos_como_fraude_total
R = predichos_correctamente_total / realmente_fraude_total

print(f"P deteccion outlier total: {P}")
print(f"R deteccion outlier total: {R}")


P para adulto mayor: 0.01837270341207349
R para adulto mayor: 0.16279069767441862
P para adulto: 0.012141967621419676
R para adulto: 0.2635135135135135
P para adulto joven: 0.01079913606911447
R para adulto joven: 0.29411764705882354
P para joven: 0.0
R para joven: 0.0
P deteccion outlier total: 0.012475538160469667
R deteccion outlier total: 0.24285714285714285


- ¿Qué significan los ratios y sus valores?
Los ratios P y R representan la precisión y el recall del modelo respectivamente. El ratio P, o precisión, indica cuántos de los casos que el modelo clasificó como fraude eran realmente fraude. Un valor alto de P significa que cuando el modelo detecta un fraude, es probable que en realidad lo sea. Por otro lado, R, o recall, indica cuántos de los casos que eran realmente fraude fueron identificados correctamente por el modelo. Un valor alto de R significa que el modelo es eficiente en detectar los casos de fraude.

- ¿Qué tan correctas fueron las predicciones realizadas por su modelo según los ratios calculados?
Las predicciones realizadas por el modelo fueron generalmente pobres. El modelo mostró una precisión del 1% y un recall del 24%, lo que significa que solo el 1% de los casos de fraude detectados por el modelo fueron realmente fraudes y que el modelo solo pudo identificar el 24% de los casos de fraude reales.

- ¿Son coherentes los resultados obtenidos?
Los resultados obtenidos pueden considerarse coherentes dado el contexto del problema y la calidad de los datos. El conjunto de datos original tenía muchos problemas, incluyendo una cantidad de datos desbalanceada con solo aproximadamente el 1% de los casos de fraude. Además, la elección de un modelo de detección de outliers no supervisado podría no haber sido la mejor opción para la clasificación de fraudes ya que como se vió en el PCA, estos datos no necesariamente son outliers.También, es posible que los datos proporcionados estuvieran mal clasificados desde el inicio.

- ¿Cómo se comportan los casos de fraudes para los diferentes rangos etarios?
El comportamiento de los casos de fraude varía significativamente entre los diferentes rangos etarios. Para el grupo de "adulto mayor", la precisión fue del 1.84% y el recall del 16.28%, mientras que para el grupo "adulto", la precisión fue del 1.21% y el recall del 26.35%. En el grupo "adulto joven", la precisión fue del 1.08% y el recall del 29.41%. Por último, en el grupo "joven", tanto la precisión como el recall fueron 0.00%, lo que indica que el modelo no pudo detectar ningún caso de fraude en este grupo.

Con los valores calculados, se puede concluir que el modelo funciona mejor para los adultos joven que para el resto de los datos y tiene muy mal desempeño para los jovenes. 

