# El *dataset* que vamos a utilizar

Los datos están relacionados con las campañas de *marketing* de una institución bancaria portuguesa. Las campañas de marketing se basaron en llamadas telefónicas. A menudo, se requería más de un contacto con el mismo cliente para determinar si el producto (depósito a plazo bancario) sería suscrito o no. Las colummas que tenemos en este *dataset* son: 

- **age**: La edad del cliente.

- **job**: La ocupación o profesión del cliente.

- **marital**: El estado civil del cliente.

- **education**: El nivel educativo del cliente.

- **default**: Indica si el cliente tiene algún historial de incumplimiento de pagos (1: Sí, 0: No).

- **housing**: Indica si el cliente tiene un préstamo hipotecario (1: Sí, 0: No).

- **loan**: Indica si el cliente tiene algún otro tipo de préstamo (1: Sí, 0: No).

- **contact**: El método de contacto utilizado para comunicarse con el cliente.

- **duration**: La duración en segundos de la última interacción con el cliente.

- **campaign**: El número de contactos realizados durante esta campaña para este cliente.

- **emp.var.rate**: La tasa de variación del empleo.

- **cons.price.idx**: El índice de precios al consumidor.

- **cons.conf.idx**: El índice de confianza del consumidor.

- **euribor3m**: La tasa de interés de referencia a tres meses.

- **nr.employed**: El número de empleados.

- **y**: Indica si el cliente ha suscrito un producto o servicio (Sí/No).

- **date**: La fecha en la que se realizó la interacción con el cliente.

- **latitude**: La latitud de la ubicación asociada al cliente.

- **longitude**: La longitud de la ubicación asociada al cliente.

- **id_**: Un identificador único para cada registro en el dataset.



## Entender las variables/columnas del *dataset*

En este *dataset* tenemos las siguientes columnas:

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

In [4]:
# cargamos el csv con el que vamos a ir desarrollando la lección de hoy, recordad que la descripción la tenéis al inicio del jupyter. 
# para eso usaremos el método "pd.read_csv" que ya vimos al inicio del módulo 2 cuando aprendimos las herramientas de web scrapping
df = pd.read_csv("../Files/bank-additional.csv", index_col = 0)

# hacemos un ".head()" para mostrar las 5 primeras filas del dataframe
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,...,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,...,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,...,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,...,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,...,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,...,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [5]:
# oh oh... si nos fijamos bien, no podemos ver todas las columnas del DataFrame (hay '...' en mitad de nuestra tabla) 
# ¿qué podemos hacer para conseguir que se vean todas las gráficas? 
pd.set_option('display.max_columns', None)

# después de aplicar el método ya podremos ver todas las columnas del df.
df.head()


Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [20]:
# recordemos que también tenemos el método ".tail()", el cual nos mostrará las últimas 5 filas del dataframe
df.tail()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
19154,,admin.,MARRIED,university.degree,0.0,0.0,0.0,cellular,618,2,999,0,NONEXISTENT,1.4,93444,-361,,52281,yes,13-octubre-2015,38.147,-105.582,4eed05de-2a98-4227-b488-32122009b638
26206,34.0,technician,MARRIED,professional.course,0.0,1.0,1.0,cellular,42,7,999,0,NONEXISTENT,-0.1,932,-42,,51958,no,17-marzo-2018,49.235,-112.201,0f0aca88-4088-4fe2-905f-44fb675d9493
15046,,blue-collar,SINGLE,basic.6y,0.0,1.0,0.0,cellular,391,2,999,0,NONEXISTENT,1.4,93918,-427,,52281,no,15-septiembre-2016,40.679,-120.015,cadadd4b-7ee5-4019-b13a-ca01bb67ca5b
15280,,admin.,MARRIED,university.degree,,0.0,0.0,cellular,674,3,999,0,NONEXISTENT,1.4,93918,-427,4958.0,52281,no,23-septiembre-2019,27.772,-117.518,5f432048-d515-4bb5-9c94-62db451f88d4
27570,,unemployed,SINGLE,university.degree,0.0,0.0,1.0,cellular,104,2,999,0,NONEXISTENT,-0.1,932,-42,4021.0,51958,no,6-noviembre-2019,41.146,-105.026,993bbbd6-4dbc-4a40-a408-f91f8462bee6


In [4]:
# a veces puede que no nos interese mostrar las 5 primeras o 5 últimas filas de un dataframe, y puede que solo queramos mostrar las dos primeras o las dos últimas
# esto lo podemos hacer también con ".head()" o ".tail()", incluyendo el número de filas que queremos ver dentro del paréntesis

df.head(2) # en este caso mostramos solo las dos primeras filas

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097


In [5]:
# o solo la últimas 3 filas
df.tail(3)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
15046,,blue-collar,SINGLE,basic.6y,0.0,1.0,0.0,cellular,391,2,999,0,NONEXISTENT,1.4,93918,-427,,52281,no,15-septiembre-2016,40.679,-120.015,cadadd4b-7ee5-4019-b13a-ca01bb67ca5b
15280,,admin.,MARRIED,university.degree,,0.0,0.0,cellular,674,3,999,0,NONEXISTENT,1.4,93918,-427,4958.0,52281,no,23-septiembre-2019,27.772,-117.518,5f432048-d515-4bb5-9c94-62db451f88d4
27570,,unemployed,SINGLE,university.degree,0.0,0.0,1.0,cellular,104,2,999,0,NONEXISTENT,-0.1,932,-42,4021.0,51958,no,6-noviembre-2019,41.146,-105.026,993bbbd6-4dbc-4a40-a408-f91f8462bee6


In [8]:
# ¿y si quisieramos ver "x" filas al azar de nuestro conjunto de datos? Podemos usar el método ".sample()", el cual por defecto nos devuelve solo una fila
df.sample()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
39144,66.0,retired,MARRIED,professional.course,0.0,0.0,0.0,cellular,177,1,999,1,FAILURE,-1.8,93369,-348,655,50087,yes,8-marzo-2017,35.691,-118.98,36f66050-b57d-47c1-b411-9ce0117940db


In [9]:
# si quisieramos ver 4 filas al azar de nuestro conjunto de datos solo tendríamos que especificarlo dentro de los paréntesis
df.sample(4)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
34759,60.0,retired,MARRIED,high.school,0.0,0.0,0.0,cellular,512,3,999,0,NONEXISTENT,-1.8,92893,-462,1266,50991,no,20-diciembre-2018,29.136,-67.05,e0a474b8-5829-4b8d-a50b-94cd9276a824
39946,36.0,unemployed,MARRIED,professional.course,0.0,1.0,0.0,telephone,12,1,999,0,NONEXISTENT,-1.7,94055,-398,748,49916,no,15-abril-2015,46.689,-81.244,91ea5cfe-ace5-4f52-b1ee-d70c76435a9c
25226,54.0,admin.,DIVORCED,university.degree,0.0,1.0,1.0,cellular,355,2,999,0,NONEXISTENT,-0.1,932,-42,4153,51958,no,7-abril-2015,44.311,-110.503,c0696083-d37d-4f79-898f-8ab5299a4706
34579,,admin.,SINGLE,university.degree,0.0,1.0,0.0,cellular,143,1,999,1,FAILURE,-1.8,92893,-462,1266,50991,no,16-abril-2017,37.661,-111.466,1044553f-be7f-4054-bd2a-ad3bc1114bb8


In [5]:
# recordemos otro método que aprendimos al inicio del módulo 2, el método".shape" 
# que nos permitía saber cuántas filas y columnas tenemos en el DataFrame. 
# 📌 Recordemos que nos devuelve una tupla! donde su primer valor son las filas y el segundo valor las columnas.

print(f"El número de filas que tenemos es {df.shape[0]}, y el número de columnas es {df.shape[1]}")


El número de filas que tenemos es 43000, y el número de columnas es 23


In [11]:
# otro de los métodos que más usaremos es el método que nos devuelve el nombre de todas las columnas de nuestro DataFrame. Este es el método '.columns' 
# nos va a devolver un array con todos los nombres de las columnas
df.columns

Index(['age', 'job', 'marital', 'education', 'default', 'housing', 'loan',
       'contact', 'duration', 'campaign', 'pdays', 'previous', 'poutcome',
       'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m',
       'nr.employed', 'y', 'date', 'latitude', 'longitude', 'id_'],
      dtype='object')

Sigamos aprendiendo nuevos métodos de Pandas que nos pueden ayudar en este análisis exploratorio de los datos, el método `.describe()`. Es una herramienta esencial para obtener una visión general de las estadísticas descriptivas de un DataFrame, lo que facilita la comprensión de la distribución de datos. Este método proporciona una instantánea concisa de las principales características numéricas de las columnas, como la media, la desviación estándar, los valores mínimo y máximo, los percentiles y más.

In [12]:
#utilizamos el metodo '.describe()' para sacar los principales estadísticos del DataFrame
# por defecto, nos devolverá solo los estadísticos de las VARIABLES NUMÉRICAS

df.describe()

Unnamed: 0,age,default,housing,loan,duration,campaign,pdays,previous,emp.var.rate,latitude,longitude
count,37880.0,34019.0,41974.0,41974.0,43000.0,43000.0,43000.0,43000.0,43000.0,43000.0,43000.0
mean,39.977112,8.8e-05,0.535998,0.15562,257.739279,2.567233,962.330953,0.174023,0.077128,36.856697,-95.939067
std,10.437957,0.00939,0.498708,0.362499,258.666033,2.772294,187.260394,0.497366,1.573898,7.225948,16.752282
min,17.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,-3.4,24.396,-124.997
25%,32.0,0.0,0.0,0.0,102.0,1.0,999.0,0.0,-1.8,30.61475,-110.49425
50%,38.0,0.0,1.0,0.0,179.0,2.0,999.0,0.0,1.1,36.761,-95.8995
75%,47.0,0.0,1.0,0.0,319.0,3.0,999.0,0.0,1.4,43.11325,-81.42775
max,98.0,1.0,1.0,1.0,4918.0,56.0,999.0,7.0,1.4,49.384,-66.937


In [13]:
# podemos usar el método '.T' para transponer los resultados
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,37880.0,39.977112,10.437957,17.0,32.0,38.0,47.0,98.0
default,34019.0,8.8e-05,0.00939,0.0,0.0,0.0,0.0,1.0
housing,41974.0,0.535998,0.498708,0.0,0.0,1.0,1.0,1.0
loan,41974.0,0.15562,0.362499,0.0,0.0,0.0,0.0,1.0
duration,43000.0,257.739279,258.666033,0.0,102.0,179.0,319.0,4918.0
campaign,43000.0,2.567233,2.772294,1.0,1.0,2.0,3.0,56.0
pdays,43000.0,962.330953,187.260394,0.0,999.0,999.0,999.0,999.0
previous,43000.0,0.174023,0.497366,0.0,0.0,0.0,0.0,7.0
emp.var.rate,43000.0,0.077128,1.573898,-3.4,-1.8,1.1,1.4,1.4
latitude,43000.0,36.856697,7.225948,24.396,30.61475,36.761,43.11325,49.384


**¿Qué es lo que vemos aquí?**

Entendamos los resultados de algunas de las columnas, por ejemplo `age`: 

- `count`: El número de observaciones no nulas en la columna "age".

- `mean`: La media de las edades en la columna.

- `std`: La desviación estándar, que mide la dispersión de las edades.

- `min`: La edad mínima en el conjunto de datos.

- `25%`: El percentil 25, que representa el valor por debajo del cual se encuentra el 25% de las edades.

- `50%`: La mediana o percentil 50, que es el valor que divide el conjunto de datos en dos mitades iguales.

- `75%`: El percentil 75, que representa el valor por debajo del cual se encuentra el 75% de las edades.

- `max`: La edad máxima en el conjunto de datos.



In [14]:
# hagamos lo mismo para las columnas categóricas, para eso tendremos que incluir entre los paréntesis el parámetro include = "object"
df.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
job,42655,11,admin.,10873
marital,42915,3,MARRIED,25999
education,41193,7,university.degree,12722
contact,43000,2,cellular,27396
poutcome,43000,3,NONEXISTENT,37103
cons.price.idx,42529,26,93994,7938
cons.conf.idx,43000,26,-364,8020
euribor3m,33744,309,4857,2287
nr.employed,43000,11,52281,16980
y,43000,2,no,38156


**Entendamos los resultados para la columna `job`**


- `count`: El número de observaciones no nulas en la columna "job".

- `unique`: La cantidad de valores únicos en la columna "job".

- `top`: El valor más común en la columna "job" (en este caso, "admin.").

- `freq`: La frecuencia del valor más común (en este caso, "admin.").


En el análisis preliminar de datos, existen dos métodos muy interesantes: `unique()` y `.value_counts()`, los cuales ya hemos aprendido en el módulo 2.

El método `unique()` se utiliza para obtener los valores únicos de una columna. Devuelve un *array* de los valores distintos presentes en esa columna, sin repetir. Será útil para identificar las categorías únicas en una variable categórica o los diferentes elementos en una columna de texto. 

Por otro lado, el método `.value_counts()` nos permite contar la frecuencia de cada valor en una columna. Devuelve una serie que muestra el valor como índice y el recuento como valor. Es útil para obtener información sobre la distribución de los valores en una columna, especialmente en variables categóricas. 

Ambos métodos son herramientas poderosas para explorar y comprender la naturaleza de los datos, y nos permiten obtener información clave sobre la distribución y la unicidad de los valores en nuestras variables.

In [15]:
# recordemos el DataFrame
df.head(1)

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079


In [16]:
# saquemos los valores únicos para la columna de `marital` usando el método 'unique()'
df["marital"].unique()

array(['MARRIED', 'SINGLE', 'DIVORCED', nan], dtype=object)

In [17]:
# y si usamos el '.value_counts()' 
# en este caso vemos que dentro de nuestro conjunto de datos tenemos 25999 casados, 12105 solteros y 4811 divorciados
df["marital"].value_counts()

MARRIED     25999
SINGLE      12105
DIVORCED     4811
Name: marital, dtype: int64

Genial!! Pero solo lo hemos hecho para una columna, en realidad nos interesaría hacerlo para todas las variables categóricas del DataFrame, ya que lo que en realidad queremos es explorar todas las columnas categóricas. Por lo tanto, lo que tendremos que hacer es: 

- Seleccionar las variables que son categóricas de nuestro DataFrame, para esto usaremos el método `.select_dtypes()` que es una función en Pandas que nos permite seleccionar columnas de un DataFrame basándose en su tipo de datos. Devuelve un DataFrame que contiene solo las columnas que cumplen con los tipos de datos especificados en los argumentos `include` y `exclude`. La sintaxis básica del método `select_dtypes()` es la siguiente:

    ```python
    DataFrame.select_dtypes(include=None, exclude=None)
    ```

    - `include` (opcional): Especifica los tipos de datos que se deben incluir en la selección. Puede ser una cadena de texto o una lista de tipos de datos, como `'int'`, `'float'`, `'object'`, etc. Si no se proporciona este argumento, se seleccionarán todas las columnas que coincidan con los tipos de datos especificados en `exclude`.

    - `exclude` (opcional): Especifica los tipos de datos que se deben excluir de la selección. Puede ser una cadena de texto o una lista de tipos de datos. Si no se proporciona este argumento, se seleccionarán todas las columnas que coincidan con los tipos de datos especificados en `include`.


    Algunos ejemplos de cómo se puede utilizar el método `select_dtypes()`:

    ```python
    # Seleccionar todas las columnas numéricas
    df.select_dtypes(include=['int', 'float'])

    # Seleccionar todas las columnas de tipo objeto (cadenas de texto)
    df.select_dtypes(include='object')

    # Seleccionar todas las columnas excepto las numéricas
    df.select_dtypes(exclude=['int', 'float'])

    # Seleccionar todas las columnas excepto las de tipo objeto (cadenas de texto)
    df.select_dtypes(exclude='object')
    ```

- Sacar los nombres de las columnas de tipo categórico. 

- Hacer un *for loop* para que nos haga los `.unique()` y los `.value_counts()` de cada columna

In [7]:
# sacamos las columnas que son de tipo object (categóricas) de nuestro DataFrame usando el método '.select_dtypes()'
df_cat = df.select_dtypes(include = "object")
df_cat.head()

Unnamed: 0,job,marital,education,contact,poutcome,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,id_
0,housemaid,MARRIED,basic.4y,telephone,NONEXISTENT,93994,-364,4857.0,5191,no,2-agosto-2019,089b39d8-e4d0-461b-87d4-814d71e0e079
1,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,,5191,no,14-septiembre-2016,e9d37224-cb6f-4942-98d7-46672963d097
2,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,4857.0,5191,no,15-febrero-2019,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,admin.,MARRIED,basic.6y,telephone,NONEXISTENT,93994,-364,,5191,no,29-noviembre-2015,9991fafb-4447-451a-8be2-b0df6098d13e
4,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,,5191,no,29-enero-2017,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


Si miramos las columnas seleccionadas por Pandas nos damos cuenta que la mayoría tienen sentido, pero... que pasa con las columnas de 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed' y 'date'. Si excluimos la columna de 'date', vemos claramente que son números, ¿qué esta pasando? Y es que, recordad que en Python los decimales se definen con ".", al ir estos números con comas automáticamente nos los convierte en *strings*. Esto ya aprenderemos a cambiarlo en próximas lecciones, pero ... ¿Cómo podríamos eliminar esas columnas para esta parte del análisis ya que no son columnas categóricas? Para eso usaremos el método `.drop()`. Este método se utiliza para eliminar filas o columnas de un DataFrame. Tiene la siguiente sintaxis básica:

```python
DataFrame.drop(labels, axis=0, inplace=False)
```

- `labels`: Especifica los nombres de las filas o columnas que se queremos eliminar. Puede ser un solo valor o una lista de valores.

- `axis`: Indica si se eliminarán filas (`axis=0`) o columnas (`axis=1`).

- `inplace` (opcional): Es un parámetro opcional que indica si se realizará la eliminación directamente en el DataFrame original (`inplace=True`) o si se creará un nuevo DataFrame con los cambios (`inplace=False`, valor por defecto).

En nuestro caso eliminaremos las columnas de 'ons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed' y 'date'. 


In [8]:
df_cat.head()

Unnamed: 0,job,marital,education,contact,poutcome,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,id_
0,housemaid,MARRIED,basic.4y,telephone,NONEXISTENT,93994,-364,4857.0,5191,no,2-agosto-2019,089b39d8-e4d0-461b-87d4-814d71e0e079
1,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,,5191,no,14-septiembre-2016,e9d37224-cb6f-4942-98d7-46672963d097
2,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,4857.0,5191,no,15-febrero-2019,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,admin.,MARRIED,basic.6y,telephone,NONEXISTENT,93994,-364,,5191,no,29-noviembre-2015,9991fafb-4447-451a-8be2-b0df6098d13e
4,services,MARRIED,high.school,telephone,NONEXISTENT,93994,-364,,5191,no,29-enero-2017,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [9]:
# eliminamos las columnas que no son de nuestro interés usando el método '.drop()'
# pasándolo una lista con las columnas que queremos eliminar
# axis = 1 porque los nombres que le hemos pasado en la lista corresponden a las columnas
# inplace = True porque queremos que los cambios realizados se sobreescriban en el DataFrame
df_cat.drop(['cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed' , 'date'], axis = 1, inplace=True)

# chuequeamos como se ha quedado el DataFrame y vemos que ya lo tenemos preparado para poder evaluar cuales son sus valores únicos ('.unique()') y sus frecuencias ('.value_counts()')
df_cat.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Unnamed: 0,job,marital,education,contact,poutcome,y,id_
0,housemaid,MARRIED,basic.4y,telephone,NONEXISTENT,no,089b39d8-e4d0-461b-87d4-814d71e0e079
1,services,MARRIED,high.school,telephone,NONEXISTENT,no,e9d37224-cb6f-4942-98d7-46672963d097
2,services,MARRIED,high.school,telephone,NONEXISTENT,no,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,admin.,MARRIED,basic.6y,telephone,NONEXISTENT,no,9991fafb-4447-451a-8be2-b0df6098d13e
4,services,MARRIED,high.school,telephone,NONEXISTENT,no,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [10]:
# creamos una variable con los nombres de las columnas del DataFrame de las variables categóricas utilizando el método '.columns'
columnas_cat = df_cat.columns
print(f"Las columnas del DataFrame de variables categóricas son {columnas_cat}")

# empezamos a iterar por cada una de las columnas para sacar sus valores únicos y sus frecuencias
for columna in columnas_cat:
    print(f" \n----------- ESTAMOS ANALIZANDO LA COLUMNA: '{columna.upper()}' -----------\n")
    print(f"Sus valores únicos son: {df_cat[columna].unique()}\n")
    print(f"Las frecuencias de los valores únicos de las categorías son: {df_cat[columna].value_counts()} ")

Las columnas del DataFrame de variables categóricas son Index(['job', 'marital', 'education', 'contact', 'poutcome', 'y', 'id_'], dtype='object')
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'JOB' -----------

Sus valores únicos son: ['housemaid' 'services' 'admin.' 'blue-collar' 'technician' 'retired'
 'management' 'unemployed' 'self-employed' nan 'entrepreneur' 'student']

Las frecuencias de los valores únicos de las categorías son: admin.           10873
blue-collar       9654
technician        7026
services          4162
management        3050
retired           1790
entrepreneur      1522
self-employed     1489
housemaid         1123
unemployed        1063
student            903
Name: job, dtype: int64 
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'MARITAL' -----------

Sus valores únicos son: ['MARRIED' 'SINGLE' 'DIVORCED' nan]

Las frecuencias de los valores únicos de las categorías son: MARRIED     25999
SINGLE      12105
DIVORCED     4811
Name: marital, dtype: int64 
 
--------

Lo siguiente que deberíamos hacer es: 
- Tipos de variables que tenemos

- ¿Tenemos valores nulos?

- ¿Tenemos valores duplicados?

Manos a la obra!