<a href="https://colab.research.google.com/github/LeanMBG/coder_ds/blob/main/VisualizacionBarbera.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Data Science I CoderHouse**  - **Comisión 61690**

Alumno: Leandro M. Barbera

##Introducción
El análisis y predicción de las decisiones de los clientes en campañas de marketing es crucial para mejorar la efectividad de las estrategias utilizadas publicitariamente en el sector bancario. El éxito de una campaña de marketing depende en gran parte de identificar a los clientes que tienen una mayor posibilidad de responder positivamente a una oferta. El presente trabajo se enfoca en explorar un conjunto de datos relacionado con campañas de marketing telefónicas realizadas por una entidad bancaria para predecir si los clientes contratarán o no un servicio de depósito a plazo fijo, utilizando diversos atributos socioeconómicos y conductuales.

##Descripción del Problema
Las campañas de marketing dirigidas a clientes existentes representan una inversión importante para las entidades financieras, pero a menudo tienen una baja tasa de éxito. Para maximizar el retorno de estas inversiones, es fundamental identificar los factores que influyen en la decisión de los clientes de aceptar o rechazar las ofertas bancarias. Este análisis permite a las instituciones financieras optimizar sus campañas y dirigirlas a clientes con mayor probabilidad de conversión. Por lo tanto es esencial explorar los datos disponibles, comprender las tendencias y patrones, y desarrollar modelos predictivos que ayuden a mejorar la eficiencia de las campañas.

##Objetivo
El objetivo principal de este trabajo es construir un modelo de clasificación que pueda predecir si un cliente aceptará un depósito a plazo fijo tras una campaña de marketing telefónica. Para alcanzar este objetivo, se realizará un análisis exploratorio de los datos proporcionados, se identificará la influencia de diferentes características socioeconómicas, comportamientos respecto a las decisiones del cliente, y se construirá y evaluará el rendimiento de varios modelos de clasificación.

##Fuente
Este conjunto de datos proporciona información detallada sobre los clientes bancarios, incluyendo variables como la edad, el tipo de empleo, el estado civil, la educación, el balance de la cuenta, la existencia de deudas y préstamos, y otros factores relacionados con las campañas de marketing telefónicas. Estos datos permitirán realizar un análisis exhaustivo y construir un modelo predictivo robusto para mejorar la eficacia de las campañas de marketing.

Los datos utilizados en este trabajo fueron obtenidos de Kaggle y se encuentran disponibles en el siguiente enlace: \
https://drive.google.com/file/d/1QhSafuYhsHVlWat5zCpLAEYXlnioOAw3/view?usp=drive_link \
o a través de: \
https://github.com/LeanMBG/coder_ds/tree/main

## Importación de Librerías y Carga de Datos


In [1]:

from google.colab import drive
drive.mount('/content/drive')

### Importando librerias para manipular datos
import pandas as pd
import numpy  as np

df = pd.read_csv('/content/drive/MyDrive/train.csv', delimiter=';')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Exploración de Datos

En esta sección, exploramos el conjunto de datos para comprender sus características y distribuciones. Esto nos ayudará a identificar patrones y relaciones entre las variables.

- Resumen Inicial: Mostrar las primeras filas del DataFrame y obtener una vista previa de los datos.
- Estadísticas Descriptivas: Calcular estadísticas descriptivas como media, mediana, desviación estándar, etc.
- Distribuciones: Visualizar las distribuciones de las variables numéricas y categóricas.
- Gráficos Exploratorios: Crear gráficos como histogramas, diagramas de dispersión, y diagramas de caja para explorar los datos.

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        45211 non-null  int64 
 1   job        45211 non-null  object
 2   marital    45211 non-null  object
 3   education  45211 non-null  object
 4   default    45211 non-null  object
 5   balance    45211 non-null  int64 
 6   housing    45211 non-null  object
 7   loan       45211 non-null  object
 8   contact    45211 non-null  object
 9   day        45211 non-null  int64 
 10  month      45211 non-null  object
 11  duration   45211 non-null  int64 
 12  campaign   45211 non-null  int64 
 13  pdays      45211 non-null  int64 
 14  previous   45211 non-null  int64 
 15  poutcome   45211 non-null  object
 16  y          45211 non-null  object
dtypes: int64(7), object(10)
memory usage: 5.9+ MB


El conjunto de datos contiene un total de 45211 filas (*registros*), 17 columnas (*variables, de las cuales 10 son objetos, y 7 como int64*).
Se observa que no hay valores faltantes en las columnas.

## Variables Potencialmente Relevantes:
variables potencialmente relevantes basadas en el objetivo del trabajo (las que posean mayor impacto en el comportamiento del cliente, que estén directamente relacionadas con las decisiones financieras y su contexto socioeconómico):
* Age (edad),
* Job (ocupación),
* Marital (estado civil),
* Education (educación),
* Balance (balance/saldo),
* Housing (vivienda),
* Loan (préstamo),
* Pdays (días desde que se contactó por última vez),
* Previous (número de contactos anteriores),
* Duration (duración del último contacto),
* Campaign (número de contactos realizados en la campaña actual),
* Outcome (resultado de la campaña anterior)*
***"y"** sera la variabel target.

In [3]:
df.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0,45211.0
mean,40.93621,1362.272058,15.806419,258.16308,2.763841,40.197828,0.580323
std,10.618762,3044.765829,8.322476,257.527812,3.098021,100.128746,2.303441
min,18.0,-8019.0,1.0,0.0,1.0,-1.0,0.0
25%,33.0,72.0,8.0,103.0,1.0,-1.0,0.0
50%,39.0,448.0,16.0,180.0,2.0,-1.0,0.0
75%,48.0,1428.0,21.0,319.0,3.0,-1.0,0.0
max,95.0,102127.0,31.0,4918.0,63.0,871.0,275.0


## Hipótesis Relacionadas:

1. Clientes con saldos bancarios más altos tienen mayor probabilidad de aceptar un depósitos a plazo fijo.
2. La duración del último contacto telefónico está positivamente relacionado con la probabilidad de aceptar el depósito.
3. Clientes con mayor nivel educativo son más propensos a aceptar productos financieros complejos.
4. El estado civil del cliente afecta su disposición a aceptar un depósito a plazo fijo
5. Clientes con un historial reciente de contacto positivo con el banco son más propensos a aceptar un depósito a plazo fijo.

In [4]:
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no
