# Challenge Analítica Avanzada e Inteligencia Artificial
## Centro de Investigación Coppel

### Elaborado por: Jhonathan Santacana

### Problema UNO

El objetivo de este problema es desarrollar un modelo de contactabilidad que asocie una probabilidad de contacto a cada cliente en función de ciertos segmentos horarios. Para resolver este problema, se utilizará el archivo 20210513_Challenge_AA.csv, que contiene información sociodemográfica y transaccional de los clientes.

## Análisis preliminar y proceso ETL:

0. **Revisar Metadata**: Revisa las características del archivo, como el formato, el tipo de datos, los tamaños y las columnas.

1. **Cargar los datos del archivo .csv**: Realiza la carga de los datos del archivo .csv en el entorno de trabajo.

2. **Seleccionar horario, aplicar filtro y trabajar con un dataframe más pequeño**: Selecciona un horario específico, aplica el filtro correspondiente y trabaja con un dataframe más reducido.

3. **Indicar las dimensiones del nuevo archivo**: Indica el número de filas y columnas en el nuevo archivo, así como los nombres de las variables y una descripción general de los datos.

4. **Obtener el número de observaciones y valores perdidos**: Calcula el número de observaciones y valores faltantes (NA) en los datos.

5. **Calcular medidas estadísticas básicas**: Calcula medidas estadísticas básicas como el promedio, los percentiles, las desviaciones estándar, los valores mínimos y máximos, y la mediana.

6. **Elaborar un programa para crear un gráfico que proporcione una visión general de los datos**.

7. **Elaborar un programa para crear un gráfico de barras**: Crea un gráfico de barras que muestre la frecuencia de las categorías (discretas) y otro gráfico de barras que muestre la frecuencia de las variables continuas.

8. **Analizar las correlaciones entre las variables**: Identifica las correlaciones entre las variables para identificar aquellas que sean linealmente dependientes.

9. **Establecer un criterio para determinar los factores influyentes con respecto al objetivo**: Utiliza criterios como el valor de Información Value o el peso de la evidencia (Weight of Evidence) para determinar los factores influyentes en relación con la variable objetivo. Enuméralos de mayor a menoros de mayor a menor..a no dudes en pedirlo.

In [2]:
# Librerias a utilizar, por defecto ya vienen instaladas en el entorno "pip install git jupyterlab numpy pandas plotly"
#! pip install pandasgui # para mejor visualizacion de los df
import os
from IPython.display import clear_output
import pandas as pd
from pandasgui import show
print("librerias cargadas correctamente") 

librerias cargadas correctamente


1. En la inspección visual del archivo, se detectaron separadores "|", y debido a su tamaño, se cargarán únicamente 5000 filas para revisar una parte del mismo. Esto nos permitirá visualizar rápidamente el número de columnas y los tipos de datos.

In [4]:
df = pd.read_csv("datos_internos/20210513_Challenge_AA.csv", sep="|", nrows=5000)

print(df.info())
show(df.head(10))

PandasGUI INFO — pandasgui.gui — Opening PandasGUI


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 21 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ANIO             5000 non-null   int64  
 1   MES              5000 non-null   int64  
 2   CLIENTE          5000 non-null   int64  
 3   ESTADO           5000 non-null   object 
 4   INGRESO          4918 non-null   float64
 5   MORAS            5000 non-null   int64  
 6   SEXO             5000 non-null   object 
 7   ESTADOCIVIL      5000 non-null   object 
 8   FECHANACIMIENTO  5000 non-null   object 
 9   MARCACIONES      5000 non-null   int64  
 10  CONTACTOS        5000 non-null   int64  
 11  M1               5000 non-null   int64  
 12  C1               5000 non-null   int64  
 13  M2               5000 non-null   int64  
 14  C2               5000 non-null   int64  
 15  M3               5000 non-null   int64  
 16  C3               5000 non-null   int64  
 17  ANTIGUEDAD    

<pandasgui.gui.PandasGui at 0xf600c0f820>

In [16]:
print(f"Los horarios para clasificacion son {list(df['HORARIO'].unique())}")

Los horarios para clasificacion son ['MEDIODIA', 'TARDE', 'NOCHE', 'MANANA']


2 y 3. Para manejar eficientemente grandes volúmenes de datos, los datos del archivo .csv se cargan por partes utilizando el iterador chunksize, lo que permite procesarlos de manera incremental. A continuación, se utiliza un ciclo for para iterar sobre los horarios y se aplica el filtro correspondiente a cada uno de ellos, creando así un dataframe más reducido para cada horario. Luego, estos dataframes se anexan a sus respectivos archivos .csv. Este enfoque facilita el análisis específico para cada horario en particular y permite trabajar con los datos de manera más eficiente.o.

In [7]:
class CargadorCSV:
    """Clase para carga de archivos con formato .csv"""
    def __init__(self, file_path):
        """
        Constructor de la clase. Recibe la ruta del archivo.
        """
        self.file_path = file_path
    
    def visualizar_avance(self, bytes_avance, bytes_completo):
        """Visualiza el avance de la carga del archivo en porcentaje."""
        avance = min(round(bytes_avance / bytes_completo, 2) * 100, 100)
        clear_output(wait=True)
        print(f"Avance estimado: {avance}%")
    
    def crear_csv_por_horarios(self, chunk_size=100000, sep="|"):
        """Crea archivos CSV separados por horarios a partir del archivo original."""
        try:
            bytes_completo = os.path.getsize(self.file_path)
            encabezado = True
            horarios = ['MEDIODIA', 'TARDE', 'NOCHE', 'MANANA']
            
            for chunk in pd.read_csv(self.file_path, sep=sep, chunksize=chunk_size):
                bytes_avance = 0
                
                if encabezado:
                    for clasificador_horario in horarios:
                        df_filtered = chunk.loc[chunk["HORARIO"] == clasificador_horario].drop("HORARIO", axis=1)
                        file_name = f"{self.file_path[:-4]}_{clasificador_horario}.csv"
                        df_filtered.to_csv(file_name, index=False)
                        bytes_avance += os.path.getsize(file_name)
                    encabezado = False
                else:
                    for clasificador_horario in horarios:
                        df_filtered = chunk.loc[chunk["HORARIO"] == clasificador_horario].drop("HORARIO", axis=1)
                        file_name = f"{self.file_path[:-4]}_{clasificador_horario}.csv"
                        df_filtered.to_csv(file_name, mode='a', index=False, header=False)
                        bytes_avance += os.path.getsize(file_name)
                
                self.visualizar_avance(bytes_avance, bytes_completo)
        clear_output(wait=True)
        print(f"Proceso terminado")
        except Exception as error:
            print("Ocurrió un error:", error)

# Leer el archivo .csv original y guardar el archivo por partes según los horarios
cargador = CargadorCSV("..\\datos_internos\\20210513_Challenge_AA.csv") 
cargador.crear_csv_por_horarios()


Avance estimado: 98.0%


10. Elaborar al menos cinco nuevas variables que de acuerdo a los resultados estadísticos posean buen poder predictivo con respecto a la variable objetivo. Explicar la construcción de las variables.s11
11. Preprara un conjunto de entrenamiento y validación para realizar las determinaciones
correspondientes. Justirfica el porcentaje usado para cada conjun12.
12. Elrabora al menos tres propuestas de modelos de clasificación con las variables de tu
preferencia. Justifica las propues3as.
13. Sobre las propuestas realizadas, realiza la valoración de las métricas correspondientes
sobre las muestras de entrenamiento y validación. Selecciona un modelo ganador.
Justifica el uso de las métricas utilizadas y la selección del modelo que pref4eres.
14. Explica cómo visualizas la implementación del modelo ganador, este podrá ser un punto
a considerar dentro de tu modelo pr5ferido.
15. Prepara un informe ejecutivo que detalle cada uno de los puntos de esta rúbrica, desde
la carga hasta la presentación de resultados y su implementación. El entregable de este
challenge será un archivo con el código y el reporte ejecutivo en formato PDF.