In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
# cargamos el csv con el que vamos a ir desarrollando la lección de hoy, recordad que la descripción la tenéis al inicio del jupyter. 
# para eso usaremos el método "pd.read_csv" que ya vimos al inicio del módulo 2 cuando aprendimos las herramientas de web scrapping
df = pd.read_csv("bank-additional.csv", index_col = 0)

# hacemos un ".head()" para mostrar las 5 primeras filas del dataframe
df.head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y,date,latitude,longitude,id_
0,,housemaid,MARRIED,basic.4y,0.0,0.0,0.0,telephone,261,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,089b39d8-e4d0-461b-87d4-814d71e0e079
1,57.0,services,MARRIED,high.school,,0.0,0.0,telephone,149,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,e9d37224-cb6f-4942-98d7-46672963d097
2,37.0,services,MARRIED,high.school,0.0,1.0,0.0,telephone,226,1,999,0,NONEXISTENT,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,40.0,admin.,MARRIED,basic.6y,0.0,0.0,0.0,telephone,151,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,9991fafb-4447-451a-8be2-b0df6098d13e
4,56.0,services,MARRIED,high.school,0.0,0.0,1.0,telephone,307,1,999,0,NONEXISTENT,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


## Valores nulos


In [3]:
# ¿Cuántos valores nulos tenemos en la columna 'default' ?
# en este caso usaremos el método '.isnull()'
# como vemos nos devuelve una Serie que recordemos es una estructura de datos unidimensional que contiene datos etiquetados y se asemeja a una columna de un DataFrame
df["default"].isnull()

0        False
1         True
2        False
3        False
4        False
         ...  
19154    False
26206    False
15046    False
15280     True
27570    False
Name: default, Length: 43000, dtype: bool

In [5]:
# lo que nos devuelve el método '.isnull()' por si mismo es poco entendible, 
# es por esto que nos suma todos los valores nulos que ha indentificado como False usando el método '.sum()'
# en este caso tenemos 9016 valores nulos para la columna 'default'. 
df["default"].isnull().sum()

8981

In [6]:
# en ejemplo anterior hemos visto el número de nulos para una sola columna,
# en este ejemplo lo haremos para todo el DataFrame, para que nos diga el número de nulos que hay por columna
df.isnull().sum()

age               5120
job                345
marital             85
education         1807
default           8981
housing           1026
loan              1026
contact              0
duration             0
campaign             0
pdays                0
previous             0
poutcome             0
emp.var.rate         0
cons.price.idx     471
cons.conf.idx        0
euribor3m         9256
nr.employed          0
y                    0
date               248
latitude             0
longitude            0
id_                  0
dtype: int64

En este ejemplo vemos que solo tenemos valores nulos para algunas columnas, en concreto para:

- age, la cual tiene 5120 nulos. 

- job, la cual tiene 345 nulos. 

- marital, la cual tiene 85 nulos. 

- education, la cual tiene 1807 nulos. 

- default, la cual tiene 8981 nulos.

- housing, la cual tiene 1026 nulos.

- loan, la cual tiene 1026 nulos, 

- cons.price.idx, la cual tienne 471 nulos. 

- euribor3m, la cual tiene 9256 nulos.

- date, la cual tiene 248 nulos. 


🚨 **NOTA** En Pandas existe el método `.isna()` que es exactamente igual que el `.isnull()`. Su sintaxis básica es:

```python
dataframe.isna()
# fijaos como es exactamente igual que el '.isnull()`
```

In [8]:
# veamos ahora el mismo ejemplo pero usando el metodo '.notnull()`
# que recordemos nos devuelve el número de valores no nulos que tenemos en cada columna
# en este caso, nos esta diciendo que en la columna "default" tenemos 34154 valores no nulos, es decir, 34019 con valores. 
df["default"].notnull().sum()

34019

In [9]:
# si lo hacemos para todo el DataFrame
df.notnull().sum()

age               37880
job               42655
marital           42915
education         41193
default           34019
housing           41974
loan              41974
contact           43000
duration          43000
campaign          43000
pdays             43000
previous          43000
poutcome          43000
emp.var.rate      43000
cons.price.idx    42529
cons.conf.idx     43000
euribor3m         33744
nr.employed       43000
y                 43000
date              42752
latitude          43000
longitude         43000
id_               43000
dtype: int64

In [10]:
# hemos comentado que también podemos usar el método .info()' 
# que recordemos muestra información resumida sobre el DataFrame, incluyendo el número de datos, tipos de datos o valores no nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 43000 entries, 0 to 27570
Data columns (total 23 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             37880 non-null  float64
 1   job             42655 non-null  object 
 2   marital         42915 non-null  object 
 3   education       41193 non-null  object 
 4   default         34019 non-null  float64
 5   housing         41974 non-null  float64
 6   loan            41974 non-null  float64
 7   contact         43000 non-null  object 
 8   duration        43000 non-null  int64  
 9   campaign        43000 non-null  int64  
 10  pdays           43000 non-null  int64  
 11  previous        43000 non-null  int64  
 12  poutcome        43000 non-null  object 
 13  emp.var.rate    43000 non-null  float64
 14  cons.price.idx  42529 non-null  object 
 15  cons.conf.idx   43000 non-null  object 
 16  euribor3m       33744 non-null  object 
 17  nr.employed     43000 non-null 

Si interpretaramos los resultados obtenidos del método `.info()` que:

- Nos dice el número de filas que tenemos en el DataFrame, en este caso 43000

- Nos dice el número total de columnas que tenemos en el DataFrame, en este caso 23

- Los nombres de todas las columnas del DataFrame, en este caso 'age', 'job', 'marital', 'education', 'default', 'housing', 'loan', 'contact', 'duration', 'campaign', 'pdays', 'previous', 'poutcome', 'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed', 'y', 'month_day_week'

- El tipo de datos que tenemos en nuestro DataFrame, con el número de columnas que tenemos de cada tipo, en este caso float64(7), int64(4), object(12)

- Para cada una de las columnas tenemos:

    - El número de valores no nulos. En el caso de la columna `job` tiene 42655  valores no nulos

    - El tipo de la columna. En el caso de la columna `job` es de tipo object, que recordemos que es como el *string* con el que estamos familiarizadas.   