In [3]:
import pandas as pd

* 1 - age (numeric)
* 2 - job : type of job (categorical: "admin.","unknown","unemployed","management","housemaid","entrepreneur","student",
 "blue-collar","self-employed","retired","technician","services")
* 3 - marital : marital status (categorical: "married","divorced","single"; note: "divorced" means divorced or widowed)
* 4 - education (categorical: "unknown","secondary","primary","tertiary")
* 5 - default: has credit in default? (binary: "yes","no")
* 6 - balance: average yearly balance, in euros (numeric)
* 7 - housing: has housing loan? (binary: "yes","no")
* 8 - loan: has personal loan? (binary: "yes","no")
 # related with the last contact of the current campaign:
* 9 - contact: contact communication type (categorical: "unknown","telephone","cellular")
* 10 - day: last contact day of the month (numeric)
* 11 - month: last contact month of year (categorical: "jan", "feb", "mar", …, "nov", "dec")
* 12 - duration: last contact duration, in seconds (numeric)
 # other attributes:
* 13 - campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
* 14 - pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric, -1 means client was not previously contacted)
* 15 - previous: number of contacts performed before this campaign and for this client (numeric)
* 16 - poutcome: outcome of the previous marketing campaign (categorical: "unknown","other","failure","success")
 
* Output variable (desired target):
* 17 - y - has the client subscribed a term deposit? (binary: "yes","no")
 
* Missing Attribute Values: None

# CONTEXTO

### Origen de los datos:
* Los datos fueron extraidos de kaggle.com, disponibles en el siguiente enlace: [https://www.kaggle.com/fedesoriano/stroke-prediction-dataset]

### Contexto:
* Los certificados de depósito a término definido (CDT) son una importante fuente de ingresos para un banco. Estos consisten en una inversión en efectivo que se mantiene en una institución financiera. El dinero se invierte a un tipo de interés acordado durante un periodo de tiempo fijo. Un banco tiene varios medios de difusión para vender este tipo de instrumento financiero a sus clientes, como el marketing por correo electrónico, los anuncios, el marketing telefónico y el marketing digital.

* Las campañas de marketing telefónico siguen siendo una de las formas más eficaces de llegar al mercado objetivo. Sin embargo, requieren una gran inversión, ya que generalmente se terceriza el proceso de contacto, mediante grandes centros de llamadas para ejecutar las campañas. Por lo tanto, es crucial identificar de antemano a los clientes con más probabilidades de conversión para poder dirigirse específicamente a ellos mediante una llamada.

* Los datos están relacionados con las campañas de marketing directo (llamadas telefónicas) de una entidad bancaria portuguesa. El objetivo de la clasificación es predecir si el cliente aceptará adquirir un CDT o no.

### Contenido: 
* Los datos están relacionados con las campañas de marketing directo de una institución bancaria portuguesa. Las campañas de marketing se basaban en llamadas telefónicas. A menudo, se requería más de un contacto con el mismo cliente, para dterminar si el producto (CDT) sería adquirido o no por el cliente. 

* El conjunto de datos está compuesto por dos subconjuntos:
    * Conjunto de entrenamiento (train.csv).
    * Conjunto de prueba (test.csv).

| Variable  | Significado                                                                                                                                                | Tipo variable | Valores                                                                                                                                            |
|-----------|------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------|----------------------------------------------------------------------------------------------------------------------------------------------------|
| age       | edad del cliente contactado                                                                                                                                | Numérico      |                                                                                                                                                    |
| job       | tipo de trabajo del cliente                                                                                                                                | Categórico    | "admin.","unknown","unemployed","management","housemaid","entrepreneur","student", "blue-collar","self-employed","retired","technician","services" |
| marital   | Estado civíl del cliente                                                                                                                                   | Categórico    | "married","divorced","single"; note: "divorced" means divorced or widowed                                                                          |
| education | Nivel educativo del cliente                                                                                                                                | Categórico    | "unknown","secondary","primary","tertiary"                                                                                                         |
| default   | Flag si el cliente tiene crédito en mora                                                                                                                   | Binario       | "yes", "no"                                                                                                                                        |
| balance   | Saldo promedio anual en la cuenta (euros)                                                                                                                  | Numérico      |                                                                                                                                                    |
| Loan      | Flag si el cliente tiene algún prestamo                                                                                                                    | Binario       | "yes", "no"                                                                                                                                        |
| housing   | Flag si el cliente tiene crédito de vivienda                                                                                                               | Binario       | "yes", "no"                                                                                                                                        |
| contact   | Medio de contacto                                                                                                                                          | Categórico    | "unknown","telephone","cellular"                                                                                                                   |
| day       | Día del mes en que recibió el último contacto                                                                                                              | Numérico      |                                                                                                                                                    |
| month     | Mes en el cual recibió el último contacto                                                                                                                  | Categórico    | "jan", "feb", "mar", …, "nov", "dec"                                                                                                               |
| duration  | Duración en segundos del último contacto                                                                                                                   | Numérico      |                                                                                                                                                    |
| campaing  | Número de contactos que recibió el cliente para esta campaña. Incluido el último contacto                                                                  | Numérico      |                                                                                                                                                    |
| pdays     | Número de días que han pasado desde la última vez que se contactó al cliente para otra campaña. -1 indica que el cliente no ha sido contactado previamente | Númerico      |                                                                                                                                                    |
| previous  | Número de contactos realizados al cliente para esta campaña                                                                                                | Númerico      |                                                                                                                                                    |
| poutcome  | Resultado de la última campaña                                                                                                                             | Categórico    | "unknown","other","failure","success"                                                                                                              |
| y         | Variable de respuesta sobre si el cliente acepta o no                                                                                                      | Binario       | "yes", "no"                                                                                                                                        |

    



### Cantidad:
* train.csv: 45.211 filas y 18 columnas ordenadas por fecha (de mayo de 2008 a noviembre de 2010)
* test.csv: 4521 filas y 18 columnas con el 10% de los ejemplos (4521), seleccionados aleatoriamente de train.csv

# 1. LECTURA Y ENTENDIMIENTO DE DATOS

In [4]:
banking = pd.read_csv("/home/gonza/ESPECIALIZACIÓN/APRENDIZAJE_MAQUINAS/Trabajo_ML_2021-1/Banking/train.csv",sep=";")

In [7]:
banking.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


In [26]:
banking[banking.pdays >=1]

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
24060,33,admin.,married,tertiary,no,882,no,no,telephone,21,oct,39,1,151,3,failure,no
24062,42,admin.,single,secondary,no,-247,yes,yes,telephone,21,oct,519,1,166,1,other,yes
24064,33,services,married,secondary,no,3444,yes,no,telephone,21,oct,144,1,91,4,failure,yes
24072,36,management,married,tertiary,no,2415,yes,no,telephone,22,oct,73,1,86,4,other,no
24077,36,management,married,tertiary,no,0,yes,no,telephone,23,oct,140,1,143,3,failure,yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45199,34,blue-collar,single,secondary,no,1475,yes,no,cellular,16,nov,1166,3,530,12,other,no
45201,53,management,married,tertiary,no,583,no,no,cellular,17,nov,226,1,184,4,success,yes
45204,73,retired,married,secondary,no,2850,no,no,cellular,17,nov,300,1,40,8,failure,yes
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success,yes


In [35]:
a = banking.select_dtypes("object").columns

In [36]:
for i in a:
    print(i, banking[banking[i].str.contains("known")].shape)

job (288, 17)
marital (0, 17)
education (1857, 17)
default (0, 17)
housing (0, 17)
loan (0, 17)
contact (13020, 17)
month (0, 17)
poutcome (36959, 17)
y (0, 17)


In [20]:
banking.y.value_counts(normalize=True)

no     0.883015
yes    0.116985
Name: y, dtype: float64

In [25]:
banking.duration.min()

0

In [5]:
banking.balance.hist

 0        3514
 1         195
 2         156
 4         139
 3         134
          ... 
 16869       1
-467         1
 8649        1
 4527        1
 3662        1
Name: balance, Length: 7168, dtype: int64

In [39]:
banking[banking.pdays==-1]

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45203,23,student,single,tertiary,no,113,no,no,cellular,17,nov,266,1,-1,0,unknown,yes
45205,25,technician,single,secondary,no,505,no,yes,cellular,17,nov,386,2,-1,0,unknown,yes
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown,yes
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown,yes


# Metodología:

# Presentación de resultados

# Análisis y conclusiones