# Datos nulos
Los datos núlos podían se dolores de cabeza y son relativamente comunes en  los DF's

* **.isnull()** la usamos para identificar cuáles son los valores núlos.
  * lo que obtenemos es una matriz de booleanos donde `True =` núlo
  * si se multiplica por 1 a la función. en vez de dar un booleano regresa un "1" para `True` y 0 para `False`
    * *hacer esto es más fácil el tretamiento de datos núlos en el uso de tensores en redes neuronales*
    
  así: `df.isnull()*1`

* **.fillna()** la usamos para llenar los valores núlos con algún otro valor
  * colocamos como argumento el elemento por el que queremos cambiar a los valores núlos
    * `df.fillna("Missing")` *rellenamos los núlos con un string "Missing'*
    
  * Para sustituir valroes núlos por una medida estadística realizada con los valores de las columnas
    * así: `df.fillna(df.mean())`
    * esto solo funciona con columnas numéricas
    * para columnas no numéricas podríamos sacar la moda (valor que más se repite) en esa columna
    * `inplace = True`  lo colocamos para que los cambios permanezcan en el dataset
    \

* **.interpolate()** la usamos para sustituir valores núlos por medio de interpolación
 * dada una fila con *[1, 2, NaN, 4]* el resultado sería: *[1, 2, 3, 4]*

* **.dropna()** usamos la función para eliminar las filas que tengan un núlo
  * `subset = ['Name_col']` usamos este parámetro para borrar valores núlos de una columna en específico
  * `thresh = 2` usamos este parámetro para devolver filas que tengan al menos (un número definido) de valores NO núlos
*

In [3]:
import pandas as pd
import numpy as np

In [61]:
dict_cols = { 'Col1': [1, 2, 3, np.nan],
              'Col2': [4, np.nan, 6, 7],
              'Col3': ['a', 'b', 'c', None]
            }
df = pd.DataFrame(dict_cols)
df

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,a
1,2.0,,b
2,3.0,6.0,c
3,,7.0,


In [10]:
# por medio de una matriz de booleanos verificar qué elementos son núlos
df.isnull()

# cambiamos los booleanos a 1 = True y 0 = False
df.isnull() *1

Unnamed: 0,Col1,Col2,Col3
0,0,0,0
1,0,1,0
2,0,0,0
3,1,0,1


In [6]:
# eliminamos los datos núlos de la columna: "Col3"
df.dropna(subset=['Col3'])

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,a
1,2.0,,b
2,3.0,6.0,c


In [7]:
# buscar las columnas que tengan al menos dos valores NO núlos
df.dropna(thresh= 2)

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,a
1,2.0,,b
2,3.0,6.0,c


In [8]:
# rellenar los valores por medio de interpolación
df.interpolate()

Unnamed: 0,Col1,Col2,Col3
0,1.0,4.0,a
1,2.0,5.0,b
2,3.0,6.0,c
3,3.0,7.0,


La razón por la que en la última fila no se coloca un "4" es porque se maneja con valores mínimos y máximos
 * el "3" es el último número más grande de la columna, por lo que se maneja con este valor máximo 

In [62]:
# rellenar los valores núlos con una medida estadística (promedio)
numeric_cols = df[['Col1','Col2']]
numeric_cols = numeric_cols.fillna(np.mean(numeric_cols))
df_num_cols = pd.DataFrame(numeric_cols)
df_num_cols.columns = ['Col1_mean','Col2_mean']
df = pd.concat([df, df_num_cols], axis= 1)


In [63]:
df

Unnamed: 0,Col1,Col2,Col3,Col1_mean,Col2_mean
0,1.0,4.0,a,1.0,4.0
1,2.0,,b,2.0,3.833333
2,3.0,6.0,c,3.0,6.0
3,,7.0,,3.833333,7.0


In [66]:
# no es posible sacar el promedio de datos no numéricos
# es por eso que anteriormente, separamos los  
#df.fillna(df.mean())

In [73]:
numeric_cols.fillna(numeric_cols.mean())

Unnamed: 0,Col1,Col2
0,1.0,4.0
1,2.0,3.833333
2,3.0,6.0
3,3.833333,7.0
