### Manejo de datos ausentes

* Los valores Nan y None son tomados como valores ausentes
* ```pandas.isnull()``` se puede usar para determinarlos

In [2]:
import pandas as pd
import numpy as np

In [3]:
data = {
    'Var_1': ['Gato', 'Perro', None],
    'Var_2': [None, 40, 21],
    'Var_3': [2022, 2005, 1991]
}

df = pd.DataFrame(data, index=['Caso_1', 'Caso_2', 'Caso_3'])
df

Unnamed: 0,Var_1,Var_2,Var_3
Caso_1,Gato,,2022
Caso_2,Perro,40.0,2005
Caso_3,,21.0,1991


In [4]:
#Evaluando si algún valor del dataframe es nulo, devuleve datos Booleanos
pd.isnull(df)

Unnamed: 0,Var_1,Var_2,Var_3
Caso_1,False,True,False
Caso_2,False,False,False
Caso_3,True,False,False


### Como analista de datos se debe decidir si se descartan filas o columnas que contienen valores nulos

* Esto tiene consecuencias, se debe mirar si los demás datos a descartar son relevantes

* Para esto se usa:


df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)


* ***axis***: Determina si se van a descartar filas o columnas. ESTE VALOR POR DEFECTO DESCARTA FILAS: **axis=0** 
* **how**="any" how="all"; **all** descarta fila o columna donde todos sus valores son nulos, **any** descarta aquellas en las que algunos son nulos.
* ***thresh***: indica la **cantidad minima** de **valores válidos** para mantener una fila o columna
* ***subset***: array con los nombres de filas o columnas a descartar, si estamos decartando filas: se debe pasar la lista de columnas a evaluar; si alguna de ellas tiene valores nulos, entonces la fila no se muestra.
* ***inplace***: indica si los valores van a ser permanentes(True) o no(False)

In [75]:
#Indicando axis
df.dropna(axis=1, how='any')

Unnamed: 0,Var_5
Caso_1,1
Caso_2,1
Caso_3,1
Caso_4,1


In [6]:

df.loc['Caso_4'] = [None, None, None]
df['Var_4'] = [None, None, None, None]
df

Unnamed: 0,Var_1,Var_2,Var_3,Var_4
Caso_1,Gato,,2022.0,
Caso_2,Perro,40.0,2005.0,
Caso_3,,21.0,1991.0,
Caso_4,,,,


In [7]:
#Descartando todas las filas con valores nulos
df.dropna(how='all', axis=0)

Unnamed: 0,Var_1,Var_2,Var_3,Var_4
Caso_1,Gato,,2022,
Caso_2,Perro,40.0,2005,
Caso_3,,21.0,1991,


In [132]:
#Descartando todas las columnas con valores nulos
df.dropna(how='all', axis=1)

Unnamed: 0,Var_1,Var_2,Var_3,Var_5
Caso_1,Gato,,2022.0,1
Caso_2,Perro,40.0,2005.0,1
Caso_3,,21.0,1991.0,1
Caso_4,,,,1


In [134]:
#Descartando columnas que no tengan como mínimo 3 valores válidos
df.dropna(thresh=3, axis=1), df.dropna(thresh=2,axis=1)
#df['Var_5'] = [1, 1, 1, 1]

(       Var_3  Var_5
 Caso_1  2022      1
 Caso_2  2005      1
 Caso_3  1991      1
 Caso_4  None      1,
         Var_1 Var_2 Var_3  Var_5
 Caso_1   Gato   NaN  2022      1
 Caso_2  Perro  40.0  2005      1
 Caso_3   None  21.0  1991      1
 Caso_4   None  None  None      1)

In [135]:

#Descartando filas en las que la columna indicada tiene valores nulos
df.dropna(subset=['Var_3'])

Unnamed: 0,Var_1,Var_2,Var_3,Var_4,Var_5
Caso_1,Gato,,2022,,1
Caso_2,Perro,40.0,2005,,1
Caso_3,,21.0,1991,,1


In [51]:
df

Unnamed: 0,Var_1,Var_2,Var_3,Var_4,Var_5
Caso_1,Gato,,2022.0,,1
Caso_2,Perro,40.0,2005.0,,1
Caso_3,,21.0,1991.0,,1
Caso_4,,,,,1


In [61]:
#c = df.columns[0:3]
df.dropna(subset=['Var_1', 'Var_2'], how="any")

Unnamed: 0,Var_1,Var_2,Var_3,Var_4,Var_5
Caso_2,Perro,40.0,2005,,1


In [88]:
df.dropna(subset=['Var_4'])

Unnamed: 0,Var_1,Var_2,Var_3,Var_4,Var_5


In [131]:
#Pasando un rango de columnas, para descartar filas en donde aquellas contengan valores nulos
#Como estamos descartando filas, axis=0 por default

start = df.columns.get_loc('Var_1')
stop = df.columns.get_loc('Var_3')

cols = df.columns[start : stop + 1]

df.dropna(subset=cols)

Unnamed: 0,Var_1,Var_2,Var_3,Var_4,Var_5
Caso_2,Perro,40.0,2005,,1


In [137]:
#Pasando un rango de filas, para descartar columnas en donde aquellas contengan valores nulos
#Como estamos descartando columnas, axis=1
start = df.index.get_loc('Caso_1')
stop = df.index.get_loc('Caso_3')

rows = df.index[start : stop+1]

df.dropna(subset=rows, axis=1)

Unnamed: 0,Var_3,Var_5
Caso_1,2022.0,1
Caso_2,2005.0,1
Caso_3,1991.0,1
Caso_4,,1


### También se pueden sustituir los valores NaN, con otro valor, para esto se usa ```df.fillna()```

In [8]:
df.fillna('')

Unnamed: 0,Var_1,Var_2,Var_3,Var_4
Caso_1,Gato,,2022.0,
Caso_2,Perro,40.0,2005.0,
Caso_3,,21.0,1991.0,
Caso_4,,,,


In [84]:
#Es bueno reemplazar los valores nulos por la media aritmética
df.fillna(df['Var_3'].mean())

Unnamed: 0,Var_1,Var_2,Var_3,Var_4,Var_5
Caso_1,Gato,2006.0,2022.0,2006.0,1
Caso_2,Perro,40.0,2005.0,2006.0,1
Caso_3,2006.0,21.0,1991.0,2006.0,1
Caso_4,2006.0,2006.0,2006.0,2006.0,1


In [85]:
df.fillna(30.5)

Unnamed: 0,Var_1,Var_2,Var_3,Var_4,Var_5
Caso_1,Gato,30.5,2022.0,30.5,1
Caso_2,Perro,40.0,2005.0,30.5,1
Caso_3,30.5,21.0,1991.0,30.5,1
Caso_4,30.5,30.5,30.5,30.5,1


In [90]:
df.dropna(subset=['Caso_4'], axis=1)

Unnamed: 0,Var_5
Caso_1,1
Caso_2,1
Caso_3,1
Caso_4,1
