# Informe EDA – Proyecto

## 1. Objetivo

* Realizar una exploración y análisis descriptivo de los datos de campañas de marketing de un banco portugués, complementados con información demográfica y de comportamiento de sus clientes.
* El fin es identificar los factores que influyen en la suscripción de depósitos a plazo y obtener insights que permitan optimizar futuras estrategias de marketing.

## 2. Datos y fuentes

* Fuentes originales.
* Trabajamos con dos datasets complementarios sobre campañas de marketing telefónico de un banco portugués:

    * bank-additional.csv: información de cada contacto de campaña (edad, profesión, educación, duración de la llamada, nº de contactos, y = suscripción Sí/No, y variables macro: cons.price.idx, cons.conf.idx, euribor3m, nr.employed, además de un identificador id_, fecha y mes/año de contacto). 

    * customer-details.xlsx: datos demográficos y de comportamiento web de clientes (Income, Kidhome, Teenhome, Dt_Customer, NumWebVisitsMonth, ID). El Excel contiene 3 hojas que agregamos en un único dataframe. 



* Carga, limpieza y estandarización.

    * Para Customer, se unieron las 3 hojas del Excel, se eliminó la columna Unnamed y se verificó ausencia de duplicados en ID. Se generaron variables derivadas:

        * Children_total = Kidhome + Teenhome

        * Customer_Tenure_Years (antigüedad) desde Dt_Customer

        * Marcador income_outlier_iqr (no se detectaron outliers por IQR, se conserva la variable).
        
* **El resultado se guardó como customer_clean.csv.**


    * Para Bank, además de la limpieza general, se tradujeron valores de la variable objetivo y a “Sí/No” y se trabajó la fecha: se detectó un 0,58 % de nulos en date que se eliminaron antes de crear año, mes y month_name. El dataset incluye además geolocalización (lat/long) y enriquecimiento con city, region, country_code, country. 
    
**Se guardó como bank_clean.csv.**



### Tamaños de los datos limpios.

* customer_clean.csv: 43170 filas × 9 columnas.

* bank_clean.csv: 42752 filas × 30 columnas. 


**Se integraron ambos datasets mediante id_ (Bank) = ID (Customer) usando merge (inner). El conjunto unificado resultó con 42752 filas × 39 columnas y se guardó como full_clean.csv, que es el que se usa para el EDA.**


* Estructura y acceso.
Todos los archivos limpios se guardaron en la carpeta del proyecto Data/Output/ (customer_clean.csv, bank_clean.csv y full_clean.csv). 



**Objetivo asociado a los datos**
### Con el dataset integrado se realiza el análisis exploratorio para identificar factores asociados a la suscripción del depósito a plazo (variable y) y extraer insights para futuras campañas. 

## 3. Limpieza y transformación 

### Cambios principales por columna:

* Se eliminó la columna Unnamed en el fichero de clientes.

* Se verificó la ausencia de duplicados en ID.

* En el dataset de campañas, se corrigió la variable objetivo y a formato “Sí/No”.

* En la columna temporal date, se eliminaron los valores nulos (0,58%) y se derivaron year, month y month_name.

### Nuevas variables generadas

* Children_total = Kidhome + Teenhome.

* Customer_Tenure_Years = antigüedad del cliente desde Dt_Customer.

* income_outlier_iqr = marcador de posibles outliers en ingresos (aunque no se detectaron, se mantiene como referencia).

### Geocampos

A partir de las coordenadas latitude y longitude se enriqueció la base con:

* city, region, country_code, country.

**Se decidió conservar tanto los campos originales de coordenadas como los derivados, para flexibilidad en análisis posteriores.**



## 4. Análisis descriptivo

* Distribución de variables numéricas

    * Las variables como age, Income, duration y campaign muestran distribuciones sesgadas, con presencia de outliers en los valores altos (por ejemplo, clientes muy mayores, ingresos extremos o campañas con más de 20 contactos).

    * Las medias y medianas suelen diferir ligeramente, confirmando la asimetría.

**En general, la mayoría de los clientes se concentran en valores intermedios (edades medias, ingresos alrededor de la media poblacional).**

* Variables categóricas

    * Presentan alta cardinalidad en algunas columnas (ej.: job con múltiples ocupaciones, education con varios niveles).

* En todas las categóricas aparecen categorías dominantes:

    * job: predominan blue-collar y admin.

    * marital: “casado” es la categoría principal.

    * housing y loan: mayoría de clientes sin préstamos vigentes.

* Variable objetivo (y)

    * Se observa un fuerte desbalance en la respuesta:

        * No: 88.75%

        * Sí: 11.25%

**Esto implica que el baseline (predicción trivial de la clase mayoritaria) es ≈ 88.75%.**


## 5. Visualizaciones clave

En esta sección se presentan las gráficas más relevantes obtenidas durante el análisis exploratorio:

* Distribución de variables numéricas (histogramas y boxplots).

* Se analizaron age, Income, duration y campaign.

* Los histogramas muestran distribuciones sesgadas y los boxplots resaltan la existencia de outliers (edades muy altas, campañas con muchos contactos, ingresos extremos).

* Barras de variables categóricas (Top-n).

* Se graficaron las categorías más frecuentes en job, marital, education, housing, loan.

* En todos los casos, aparecen categorías dominantes: blue-collar y admin. en ocupación, “casado” en estado civil, y “no” en préstamos.

* Matriz de correlaciones numéricas (heatmap).

* Se generó un mapa de calor para visualizar la correlación entre variables numéricas.

* Se observan relaciones moderadas entre algunas variables familiares (ej.: Children_total y Teenhome), y entre Customer_Tenure_Years e Income, mientras que la mayoría de las variables presentan baja correlación.

* Distribución de la variable objetivo y.

* El gráfico muestra el fuerte desbalance entre las clases:

    * No: 88.75%

    * Sí: 11.25%


## 6. Relaciones cruzadas

* % de “Sí” por variables categóricas

    * Job: mayor tasa de aceptación en profesiones relacionadas con servicios y administración; menor en trabajos manuales y de oficios.

    * Education: niveles más altos de educación muestran más probabilidad de aceptar, frente a educación básica o desconocida.

    * Marital: los solteros presentan más aceptación que casados o divorciados.

    * Contact: cuando el contacto fue por teléfono móvil, el % de aceptación es mayor frente a teléfono fijo.

    * Poutcome: quienes tuvieron éxito en campañas previas muestran mayor probabilidad de aceptar nuevamente.

    * Region: se observan diferencias geográficas, con algunas regiones mostrando mayor disposición a la contratación.

* Boxplots de variables numéricas por y

    * Age: los clientes que aceptan tienden a ser ligeramente mayores.

    * Campaign: los que aceptan suelen requerir menos contactos, mientras que en los que no, hay muchos outliers con campañas extensas.

    * Previous: un mayor número de contactos previos incrementa la probabilidad de aceptación.

    * Euribor3m: la aceptación es más probable en contextos de tipos de interés bajos.

    * Nr.employed: cuando el empleo total registrado es menor, la tasa de aceptación aumenta, lo que refleja influencia del contexto macroeconómico.

    * Income: no se observan diferencias relevantes entre Sí/No, indicando baja señal predictiva.

* Comentarios sobre variables con mayor señal

    * Entre las categóricas, destacan contact y poutcome como variables con fuerte impacto.

    * Entre las numéricas, campaign (número de contactos), previous, euribor3m y nr.employed son las que muestran mayor poder explicativo.

    * La variable duration refleja fuertemente la aceptación, pero se considera fuga de información (solo se conoce después de la llamada), por lo que se limita a análisis descriptivo.



    ## 7. Conclusiones



* AGE
Lo que se observa:
1.	Mediana (línea dentro de la caja):
    * Los que sí contrataron tienen una mediana de edad un poco mayor que los que no.
    * Eso sugiere que los clientes que aceptan tienden a ser algo más mayores.
2.	Rangos intercuartílicos (la caja):
    * Ambos grupos concentran la mayoría de clientes entre los 30 y 50 años.
    * El rango es un poco más amplio en el grupo de sí.
3.	Outliers (puntos fuera de los bigotes):
    * Hay bastantes clientes de más de 60-70 años en ambos grupos.
    * Esto indica que también hay gente mayor contactada, pero no representan la mayoría.
4.	Comparación general:
    * No hay una diferencia abismal, pero sí una ligera tendencia: los clientes que contratan son, en promedio, más mayores que los que no contratan.

**La edad parece ser un factor que influye en la probabilidad de aceptar el producto. El banco podría enfocar las campañas más en segmentos de clientes de edad media-alta.**

**El análisis mediante diagramas de caja muestra que los clientes que aceptaron contratar el depósito presentan, en promedio, una edad ligeramente mayor en comparación con los que no lo hicieron. Aunque la mayoría de clientes se concentra entre los 30 y 50 años en ambos grupos, se observa que la mediana es superior en el grupo de aceptación. Esto sugiere que la edad podría ser un factor relevante en la decisión de suscribir el producto, destacando una mayor propensión de los clientes de edad media y avanzada a aceptar la oferta.**

* INCOME (INGRESOS )
Interpretación:
1.	Mediana (línea central en la caja):
    * La mediana de ingresos es prácticamente la misma para los que sí y los que no contrataron.
    * No se aprecia diferencia significativa.
2.	Rango intercuartílico (la caja):
    * Ambos grupos tienen un rango muy similar (aproximadamente entre 50,000 y 130,000).
3.	Extremos y dispersión:
    * Tanto en los clientes que aceptaron como en los que no, hay ingresos muy bajos (cercanos a 0) y muy altos (superiores a 175,000).
    * Esto indica que hay mucha variabilidad en ingresos, pero no parece influir directamente en la decisión.

**El nivel de ingresos no muestra diferencias relevantes entre los clientes que aceptaron y los que rechazaron la oferta. Esto sugiere que el ingreso por sí solo no es un factor determinante en la suscripción del depósito a plazo, y que probablemente otras variables (como edad o duración de la llamada) tengan un mayor peso en la decisión final.**

**El análisis revela que la edad y el nivel de ingresos no tienen el mismo impacto en la decisión de contratar un depósito a plazo. Por un lado, la variable age muestra que los clientes que aceptaron tienden a ser ligeramente mayores, lo que sugiere que la edad puede influir en la probabilidad de aceptación. En contraste, la variable Income no presenta diferencias significativas entre quienes contrataron y quienes no, lo que indica que los ingresos no son un factor determinante en la decisión final.**
**En conjunto, los resultados sugieren que la segmentación de las campañas podría ser más efectiva si se enfoca en grupos de edad específicos, más que en niveles de ingresos.**




* CAMPAING 
1.	Mediana (línea central en la caja):
    * Los clientes que sí contrataron suelen haber recibido menos llamadas en promedio que los que no contrataron.
    * La mediana para los que aceptan está en torno a 1–2 contactos, mientras que en los que no aceptan está más arriba (2–3).
2.	Dispersión y outliers:
    * En el grupo de no, hay muchísimos outliers con más de 10, 20 e incluso más de 50 intentos de contacto.
    * En cambio, en el grupo de sí, los intentos rara vez superan los 10, y la mayoría se concentran en valores bajos.
3.	Patrón claro:
    * Hacer demasiados intentos de contacto está relacionado con un mayor rechazo.
    * Los clientes que aceptan lo hacen generalmente en las primeras llamadas.

**La variable campaign muestra una diferencia clara entre los dos grupos: los clientes que finalmente contratan el depósito suelen requerir menos intentos de contacto, mientras que aquellos que no aceptan suelen haber recibido muchas más llamadas sin éxito. Esto sugiere que la insistencia excesiva no aumenta la probabilidad de conversión y que, de hecho, la efectividad de la campaña es mayor en los primeros contactos.**




* La variable DURATION refleja un patrón muy claro en relación con la aceptación de la campaña:
    * Los clientes que sí contrataron el depósito muestran, en promedio, llamadas de mayor duración que aquellos que no contrataron.
    * En el grupo de no, la mayoría de llamadas son cortas, lo que sugiere que los clientes pierden interés rápidamente o no llegan a mantener una conversación significativa.
    * En el grupo de sí, la dispersión es mayor y existen muchos casos con llamadas largas, lo cual indica que las conversaciones más extensas incrementan la probabilidad de éxito.

**La duración de la llamada es una de las variables más relevantes para explicar el éxito de la campaña. A mayor duración de la interacción, mayor probabilidad de que el cliente termine contratando el depósito. Esto sugiere que la calidad y profundidad de la conversación desempeñan un papel clave en la decisión del cliente.**



* PREVIOUS

Interpretación:
1.  Grupo “no” (no contrató):
    * La gran mayoría tiene previous = 0, es decir, nunca habían sido contactados antes.
    * Solo unos pocos presentan valores mayores, pero aparecen como outliers.
2.	Grupo “sí” (sí contrató):
    * Aquí se observa más variabilidad: muchos clientes tienen previous > 0.
    * La mediana se sitúa alrededor de 1, lo que indica que es más probable que un cliente que ya había tenido al menos un contacto anterior termine contratando






# Resumen de hallazgos principales del EDA

1.	Edad (age)
Los clientes que aceptaron la oferta presentan una mediana de edad ligeramente superior a los que no lo hicieron. Esto sugiere que los segmentos de edad media y avanzada son más propensos a contratar el depósito a plazo.
2.	Ingresos (Income)
No se observan diferencias relevantes en el nivel de ingresos entre quienes contrataron y quienes no. El ingreso no parece ser un factor determinante en la decisión final.
3.	Número de contactos en la campaña (campaign)
Los clientes que aceptaron lo hicieron generalmente tras pocos contactos, mientras que los que no contrataron recibieron un mayor número de llamadas, con muchos casos de insistencia elevada (outliers de más de 10 intentos). Esto indica que la efectividad disminuye conforme aumenta el número de contactos.
4.	Duración de la llamada (duration)
La duración es una de las variables más influyentes: las llamadas más largas se asocian con una mayor probabilidad de aceptación. Esto sugiere que conversaciones más extensas permiten persuadir mejor al cliente.
5.	Contactos previos (previous)
La mayoría de los clientes que no contrataron nunca habían sido contactados antes, mientras que los que sí lo hicieron suelen tener al menos un contacto previo. Esto indica que la experiencia de interacción previa aumenta las probabilidades de éxito en la campaña.


**El análisis muestra que las características más relevantes para explicar la aceptación de la campaña son la edad, la duración de la llamada, el número de contactos de la campaña y la existencia de contactos previos. Por el contrario, el nivel de ingresos no aporta diferencias significativas. Estos hallazgos sugieren que las estrategias de marketing deberían priorizar segmentos de edad media-alta, enfocarse en lograr conversaciones de mayor calidad desde los primeros contactos y aprovechar el historial de interacciones previas con los clientes.**


# Conclusiones finales del análisis exploratorio

El análisis de los datos de campañas de marketing del banco portugués permite identificar varios patrones relevantes que ayudan a comprender qué factores influyen en la suscripción de depósitos a plazo:
1. Características demográficas y personales
    * Edad (age): Los clientes que aceptan tienden a ser de mayor edad en comparación con los que rechazan, lo que sugiere que los segmentos de edad media y avanzada presentan mayor disposición a contratar.
    * Ingresos (Income): No se observan diferencias relevantes entre quienes aceptan y quienes no. El nivel de ingresos no es un factor determinante en la decisión.
2. Interacciones en la campaña
    * Número de contactos (campaign): Los clientes que aceptan suelen requerir pocos contactos, mientras que los que rechazan han recibido muchas más llamadas. La insistencia excesiva no incrementa la probabilidad de éxito.
    * Duración de la llamada (duration): Es uno de los factores más relevantes: las llamadas más largas se asocian con una mayor probabilidad de aceptación, lo que refleja la importancia de conversaciones más profundas y de calidad.
    * Contactos previos (previous): Los clientes con historial de interacciones anteriores muestran mayor probabilidad de aceptar, lo que indica que la persistencia moderada en distintas campañas puede ser efectiva.
3. Indicadores macroeconómicos
    * Euribor a 3 meses (euribor3m): La aceptación es mayor en periodos de tipos de interés bajos, cuando los clientes buscan alternativas seguras de inversión.
    * Número de empleados (nr.employed): Se observa una relación inversa: a menor nivel de empleo, mayor tasa de aceptación, lo que sugiere que en contextos de incertidumbre económica los clientes tienden a buscar productos de ahorro seguros.
    * Otros índices (cons.price.idx y cons.conf.idx): También influyen en menor medida, pero refuerzan la importancia del entorno económico en el comportamiento del cliente.





# Conclusión global

Los resultados muestran que la efectividad de las campañas depende de una combinación de factores:


* A nivel individual, la edad, la duración de la llamada y la existencia de contactos previos son claves para el éxito.
* A nivel de campaña, es más eficiente centrarse en pocos intentos de calidad que en la insistencia repetitiva.
* A nivel macroeconómico, el contexto de bajos tipos de interés y menor empleo favorece la contratación de depósitos.
* El dataset presenta un claro desbalance en la variable objetivo: solo un 11,25% de los clientes contrató el depósito, mientras que el 88,75% rechazó.
* La edad muestra cierta señal: los clientes que aceptan tienden a ser ligeramente mayores.
* Los ingresos no discriminan significativamente entre aceptación y rechazo.
* Las condiciones macroeconómicas son relevantes: mayor aceptación cuando el euribor3m es bajo y el número de empleados (nr.employed) es reducido.




## 8. Recomendaciones 

* Los clientes de edad media/alta tienden a aceptar más → enfocar campañas ahí.

* Los que ya participaron en campañas previas y tuvieron éxito (variable poutcome) → son más propensos a volver a aceptar.

* Usar teléfono móvil en vez de fijo porque mejora la tasa de éxito.

* No insistir demasiado (campaign alto reduce aceptación).

* Los clientes con mayor estabilidad laboral y nivel educativo medio/alto muestran mejores tasas de aceptación. 









