![](https://www.dii.uchile.cl/wp-content/uploads/2021/06/Magi%CC%81ster-en-Ciencia-de-Datos.png)

# Proyecto: Innovación Tecnológica en Bodoque Bank

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

### Cuerpo Docente:

- Profesor: Pablo Badilla, Ignacio Meza De La Jara
- Auxiliar: Sebastián Tinoco
- Ayudante: Diego Cortez M., Felipe Arias T.

*Por favor, lean detalladamente las instrucciones de la tarea antes de empezar a escribir.*


----

## Reglas

- Fecha de entrega: 01/06/2021
- **Grupos de 2 personas.**
- Cualquier duda fuera del horario de clases al foro. Mensajes al equipo docente serán respondidos por este medio.
- Estrictamente prohibida la copia. 
- Pueden usar cualquier material del curso que estimen conveniente.

# Motivación

![](https://www.geekmi.news/__export/1621969098810/sites/debate/img/2021/05/25/juan-carlos-bodoque-1.jpg_554688468.jpg)

Juan Carlos Bodoque, el famoso periodista y empresario, decidió diversificar su portafolio de negocios y crear su propio banco. Después de varios años de investigar y analizar el mercado financiero, finalmente logró fundar su entidad bancaria con el objetivo de ofrecer a sus clientes una experiencia personalizada y confiable en sus transacciones financieras. 

Sin embargo, con las nuevas tecnologías, aparecen nuevos desafíos para la joven entidad bancaria. Por ello, Bodoque decide invertir en un equipo de expertos en tecnología y finanzas, para que Bodoque Bank implemente las últimas innovaciones en seguridad y servicio al cliente para garantizar la satisfacción y fidelización de sus clientes.

El primer objetivo de la entidad bancaria será la detección de potenciales clientes fraudulentos, para ello Bodoque Bank les hace entrega de un extenso dataset en el que se registran las actividades que han realizado sus clientes durante los últimos meses. Uno de los puntos que resaltan al pasar el conjunto de datos es que el nombre de los usuarios está protegido y que consideren cada una de las filas como una muestra independiente de la otra.

Tras la solicitud, uno de los mayores accionistas del banco llamado Mario Hugo, les sugiere que al momento de realizar el proyecto tomen las siguientes consideraciones:

- Realicen un análisis exhaustivo de cada variable, ya que los directores tienden a ser quisquillosos con puntos o definiciones sin algún fundamento claro.
- Deben ser muy claros de cómo encontrar los outliers y si es posible expliquen cómo están determinando que un cliente es fraudulento.
- Es muy probable que existan clientes con diferentes comportamientos bancarios, por lo que sería muy buena decisión de separar a los clientes en grupos etarios.


### Definición Formal del Problema

El dataset con el que se trabajará en este primer proyecto será [_The Bank Account Fraud (BAF)_](https://www.kaggle.com/datasets/sgpjesus/bank-account-fraud-dataset-neurips-2022). Este consiste en un dataset para evaluar métodos de detección de fraudes bancarios, el cuál según sus autores es:

- Realista: Se basa en un actualizado dataset de casos reales de detección de fraude bancario.
- Sesgado: Poseen distintos tipos de bias.
- Desbalanceado: Clase positiva extremadamente pequeña.
- Dinámico: Presenta datos temporales y cambios de distribución.
- Preserva la privacidad: Protege a los potenciales clientes a través de la aplicación de privacidad diferencial.

El proyecto tiene por objetivo evaluar los conocimientos adquiridos en la primera mitad del curso, consistente en manejo de datos tabulares (I/O, manipulación, agregaciones, merge y visualizaciones) más la primera parte de modelos consistente en preprocesamiento de datos y detección de anomalías. Por ende, el proyecto consiste en dos tareas principales:

1. Generar un Análisis exploratorio de Datos (EDA) que describa completamente el dataset.
2. Buscar anomalías de forma automatizada.

**Importante:** Esta permitido el uso de librerías externas a las vistas en clases para profundizar aún mas en los análisis. Sin embargo, al momento de utilizar cualqueir metodo deberán explicar que hace y el porque de su aplicación.




# Proyecto

### Equipo:

- Johnny Godoy
- Las voces que atormentan a Johnny Godoy


### Link de repositorio de GitHub: `http://github.com/johnny-godoy/laboratorios-mds`




## 1. Introducción


Elaborar una breve introducción con todo lo necesario para entender qué realizarán durante su proyecto.
Idea: Describir formalmente el proyecto, aspectos básicos del dataset y del análisis a realizar sobre los datos.

Por lo anterior, en esta sección ustedes deberán ser capaces de:
* Describir la tarea asociada al dataset.
* Describir brevemente los datos de entrada que les provee el problema.
* Plantear hipótesis de cómo podrían abordar el problema.

In [33]:
# Librerías de terceros
import pandas as pd
from IPython.display import display

## 2. Lectura y Manejo de Datos




Este punto tiene por objetivo evaluar la capacidad de leer y manejar distintas fuentes de datos y unirlas.
Para esto, se les provee de 3 datasets distintos:

- `df_1.parquet` que contiene una cierta cantidad de ejemplos.
- `df_2.parquet` que contiene el resto de los ejemplos.
- `df_email_phone.parquet` que contiene características exclusivas relacionadas a los emails y teléfonos de los ejemplos.

Tanto `df_1` como `df_2` son dataframes que contienen conjuntos (no necesariamente disjuntos) de ejemplos obtenidos a partir de distintas fuentes (la primera más confiable que la segunda)  mientras que `df_email_phone` contiene nuevas características que deben ser fusionadas con el conjunto de ejemplos.
Dicho esto, para este punto se le solicita:

- [x] Cargar los datasets usando pandas.
- [x] Explorar superficialmente los datsets por medio de `.head(5)` e `.info()` y reportar número de filas y columnas de cada dataset.
- [ ] Unir los datasets con los conjuntos de ejemplos en un único dataset.
- [ ] Combinar el datasets con ejemplos con las nuevas características usando la
estrategia `outer`.
- [ ] Explorar nulos y duplicados de datos (i.e., generar conteos de cada uno y ver
algunos de sus ejemplos), explicar su origen y entregar una solución sencilla a estos casos.
- [ ] Limpiar datos y reportar modificaciones a los datasets originales (cuántos
ejemplos se eliminaron, cuántos ejemplos quedaron finalmente, etc...).
- [ ] Realizar una segmentación etaria de los datos creando una columna llamada
`segmentacion_etaria` para clasificar a los diferentes usuarios. Para la
segmentación, utilice los siguientes rangos:
   - Joven (Menor a 18 años)
   - Adulto-Joven (18 - 26 años)
   - Adulto (27- 59 años)
   - Persona Mayor (60 años o mas).

### 2.1 Cargar datos en dataframes

In [34]:
data_directory = "data/input/"
fuente_1 = pd.read_parquet(f"{data_directory}df_1.parquet")
fuente_2 = pd.read_parquet(f"{data_directory}df_2.parquet")
fuente_email_phone = pd.read_parquet(f"{data_directory}df_email_phone.parquet")

### 2.2 Exploración inicial

In [35]:
datasets = {
    "Fuente 1": fuente_1,
    "Fuente 2": fuente_2,
    "Fuente Email Phone": fuente_email_phone,
}
for nombre, data in datasets.items():
    print(f"Dataset: {nombre}")
    print(f"Número de filas: {data.shape[0]}")
    print(f"Número de columnas: {data.shape[1]}")
    print("Cabecera:")
    display(data.head(5))
    print("Información:")
    print(data.info())

Dataset: Fuente 1
Número de filas: 389782
Número de columnas: 29
Cabecera:


Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
104446,729517,0,0.7,-1,305,60,0.030059,-1.599455,AC,990,...,500.0,0,INTERNET,8.865992,windows,0,0,2,-0.245425,0.568811
269483,149585,0,0.8,-1,140,50,0.015659,3.951994,AA,1269,...,200.0,0,INTERNET,4.654872,linux,1,0,7,0.009336,-2.096682
4102,64486,0,0.9,-1,171,50,0.001409,28.159779,AB,4430,...,1500.0,0,INTERNET,3.720953,linux,1,0,1,2.229616,-0.005823
351767,825283,0,0.5,-1,85,30,0.027292,-1.310498,AB,1698,...,200.0,0,INTERNET,2.91267,windows,1,0,3,-0.193945,0.861207
126377,8308,0,0.9,-1,39,30,0.010945,-1.450972,AC,569,...,200.0,0,INTERNET,2.28368,other,1,0,3,-2.44065,0.354986


Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 389782 entries, 104446 to 193209
Data columns (total 29 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   id                            389782 non-null  int64  
 1   fraud_bool                    389782 non-null  int64  
 2   income                        389782 non-null  float64
 3   prev_address_months_count     389782 non-null  int64  
 4   current_address_months_count  389782 non-null  int64  
 5   customer_age                  389782 non-null  int64  
 6   days_since_request            389782 non-null  float64
 7   intended_balcon_amount        389782 non-null  float64
 8   payment_type                  389782 non-null  object 
 9   zip_count_4w                  389782 non-null  int64  
 10  velocity_6h                   389782 non-null  float64
 11  velocity_24h                  389782 non-null  float64
 12  velocity_4w               

Unnamed: 0,id,fraud_bool,income,prev_address_months_count,current_address_months_count,customer_age,days_since_request,intended_balcon_amount,payment_type,zip_count_4w,...,proposed_credit_limit,foreign_request,source,session_length_in_minutes,device_os,keep_alive_session,device_fraud_count,month,x1,x2
699954,303612,0,0.8,-1,21,40,0.010837,-0.853976,AD,239,...,200.0,0,INTERNET,48.12739,other,0,0,3,0.236931,0.077061
701206,568066,0,0.9,-1,70,50,0.711485,25.137456,AA,1873,...,200.0,0,INTERNET,8.792273,windows,1,0,3,0.571536,1.151563
270304,893344,0,0.7,-1,133,50,0.006856,-0.81533,AC,675,...,1000.0,0,INTERNET,15.916225,other,1,0,7,0.224252,-0.590459
346538,247688,0,0.8,-1,207,50,0.026194,-0.736615,AB,999,...,200.0,0,INTERNET,0.509942,linux,1,0,6,0.648528,-0.315911
147297,674478,0,0.8,-1,24,50,0.012646,10.744253,AA,3198,...,500.0,1,INTERNET,10.562945,other,0,0,6,0.041475,0.383332


Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 747410 entries, 699954 to 384611
Data columns (total 29 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   id                            747410 non-null  int64  
 1   fraud_bool                    747410 non-null  int64  
 2   income                        747410 non-null  float64
 3   prev_address_months_count     747410 non-null  int64  
 4   current_address_months_count  747410 non-null  int64  
 5   customer_age                  747410 non-null  int64  
 6   days_since_request            747410 non-null  float64
 7   intended_balcon_amount        747410 non-null  float64
 8   payment_type                  747410 non-null  object 
 9   zip_count_4w                  747410 non-null  int64  
 10  velocity_6h                   747410 non-null  float64
 11  velocity_24h                  747410 non-null  float64
 12  velocity_4w               

Unnamed: 0,id,name_email_similarity,date_of_birth_distinct_emails_4w,email_is_free,device_distinct_emails_8w,phone_home_valid,phone_mobile_valid
987231,624588,0.555653,15,0,1,0,1
79954,620810,0.849718,2,0,1,0,0
567130,580633,0.110898,3,0,1,1,0
500891,6379,0.67125,15,0,1,0,1
55399,366511,0.772932,7,0,1,0,1


Información:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 934730 entries, 987231 to 986114
Data columns (total 7 columns):
 #   Column                            Non-Null Count   Dtype  
---  ------                            --------------   -----  
 0   id                                934730 non-null  int64  
 1   name_email_similarity             934730 non-null  float64
 2   date_of_birth_distinct_emails_4w  934730 non-null  int64  
 3   email_is_free                     934730 non-null  int64  
 4   device_distinct_emails_8w         934730 non-null  int64  
 5   phone_home_valid                  934730 non-null  int64  
 6   phone_mobile_valid                934730 non-null  int64  
dtypes: float64(1), int64(6)
memory usage: 57.1 MB
None


### 2.3 Unir dataframes

In [None]:
...

### 2.4 Unir nuevas variables

In [None]:
...

### 2.5 Verificar nulos y duplicados, generar explicaciones sobre sus fuentes y proponer soluciones.



In [None]:
...

### 2.6 Limpiar

In [None]:
...

## 3. Análisis Exploratorio de Datos

Esta sección busca evaluar la capacidad de generar reportes y conclusiones a partir de los patrones observados en estos.

- Utilizando `pandas-profiling` (nombre de la librería: `ydata-profiling`), explore:

    * Analizar cantidad de datos nulos, tipos de datos, duplicados, distribuciones de las variables a través de histogramas.
    * Generar visualizaciones de las interacciones (como por ejemplo, una scatter matrix) en las distintas variables.
    * Ver las correlaciones entre las distintas variables y los valores faltantes de cada una de estas.
    * Reportar los patrones interesantes observados. Ejemplos:
        - Se observó que las variables numéricas A, B y C siguen una distribución normal / exponencial / logarítmica / no presenta distribución conocida debido a que (usar información sobre el descripción de cada variable)....
        - La mayoría de los ejemplos de las variables I, J y K tienen valor 0.
        - La variable M presenta gran cantidad de outliers.
        - Se observó que las variables categóricas E y F están bien balanceadas / presentan un gran desbalance.
        - Del gráfico de correlaciones se puede inferir que X, Y y Z tienen una correlación alta/baja entre ellas.

In [None]:
# profile = ProfileReport(df, title="EDA")
# profile.to_file("eda.html")

### 3.1 Análisis del EDA

In [None]:
...

## 4. Preprocesamiento

*Esta sección consiste en generar los distintos pasos para preparar sus datos con el fin de luego poder crear su modelo.*

Dentro de los aspectos minimos que se les solicitarán en este desarrollo estan:

- Definir preprocesadores para datos categóricos y ordinales.
- Setear las transformaciones en un `ColumnTransformer`.
- Transformar todo el datset.

**Notas**:

- Las variables `id` y `fraud_bool` no deben ser transformadas, pero si pasadas a la siguiente etapa. (Estudiar la transformación `passthrough`).
- La salida de la transformación debe ser un pandas dataframe. Para esto, investiguen acerca de la nueva [`set_output` API](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_set_output.html). Si se levanta un error por matriz sparse, desactiven su uso en la transformación correspondiente.

### 4.1 Declarar `ColumnTransformer`

In [None]:
...

### 4.2 Transformar datos

In [None]:
...

## 5. Visualización en Baja Dimensionalidad

Programar un script para proyectar los datos en baja dimensionalidad usando `PCA` o `UMAP`.

**Notas**:

- Para realizar las proyecciones no consideren la variable `fraud_bool`, ya que esto provocaría un _data leakage_ (i.e., usar información del futuro para analizar el mismo fenómeno que quieren descubrir).
- Utilice un muestreo significativo del dataframe (10k a 25k ejemplos) para generar las proyecciones. De lo contrario, probablemente el proyector no sea capaz de asignar todos los recursos necesarios y lance alguna excepción.

Luego, por cada segmento etario generado en la sección 2, implemente un gráfico de dispersión (idealmente en plotly express) la proyección en 2D generada y coloree cada punto según la etiqueta `fraud_bool`.

Reportar si existen patrones y/o relaciones interesantes con respecto a variables de interés.

### 5.1 Muestrear dataframe

In [None]:
...

### 5.2 Proyectar y agregar proyecciones al dataframe de muestreo

In [None]:
...

### 5.3 Visualizar según rangos etarios

In [None]:
...

## 6. Anomalías

Proponer una técnica para detectar clientes fraudulentos en base a detección de anomalías.
Al igual que el punto anterior, la técnica que proponga debe ser aplicada por separado en los diferentes segmentos etarios descritos en el punto 2 (es decir, debe entrenar un detector de anomalías para cada uno de estos grupos).

Luego, al igual que el punto anterior, genere un gráfico de dispersión con las proyecciones 2D en donde el coloreado sea ahora las etiquetas predichas por el detector de anomalías.

Por último, usando queries de numpy/pandas, calcule dos ratios (P y R):

- P: Cantidad de ejemplos predichos correctamente como fraude / cantidad total de datos predichos como fraude.
- R: Cantidad de ejemplos predichos correctamente como fraude / cantidad total de ejemplos que eran realmente fraude.


De los resultados obtenidos responda las siguientes preguntas:

- ¿Qué significan los ratios y sus valores?
- ¿Qué tan correctas fueron las predicciones realizadas por su modelo según los ratios calculados?
- ¿Son coherentes los resultados obtenidos?.
- ¿Cómo se comportan los casos de fraudes para los diferentes rangos etarios?

### 6.1 Implementar detector de anomalías sobre dataframe de muestreo

In [None]:
...

### 6.2 Agregar resultados a dataframe de muestreo

In [None]:
...

### 6.3 Visualizar según rangos etarios

In [None]:
...

### 6.4 Calcular ratios y responder

In [None]:
...