# Proyecto: Tratamiendo de bases de datos con valores nulos

### Algunas funciones usadas en este proyecto son:

`.isnull()` <- Asigna valores booleanos 'True' cuando el campo es nulo ó 'False' en otro caso

`.isna()` <- Hace la misma función que `.isnull()`

`.isnull().sum(axis=0)` <- Regresa el número de valores nulos por columna

`.isnull().sum(axis=1)` <- Regresa el número de valores nulos por renglón

`.notnull().sum(axis=0)` <- Regresa el número de valores no nulos por columna

`.notnull().sum(axis=1)` <- Regresa el número de valores no nulos por renglón

`.dropna()` <- Elimina las filas y/o columnas con registros vacíos 

`.mean()` <- Calcula la media correspondiente a cada columna

`.fillna( valor )` <- Asigna un valor a los campos nulos



In [1]:
import numpy as np
import pandas as pd

In [2]:
# Variables nulas de Numpy
np.nan

nan

In [3]:
# Variables nulas de pandas:
pd.NA

<NA>

In [4]:
# Creamos un dataframe para trabajar:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


In [5]:
# Añadimos variables nulas de Numpy y Pandas:
df['d'] = np.nan
df['e'] = np.arange(15, 20)
df.loc[5,:] = pd.NA
df.loc[4,'a'] = pd.NA
df.loc[0,'d'] = 1
df.loc[5,'d'] = 10
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


In [6]:
# Detectamos variables nulas
df.isnull()

Unnamed: 0,a,b,c,d,e
0,False,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,True,False
4,True,False,False,True,False
5,True,True,True,False,True


In [8]:
# Detectamos variables nulas
df.isna()

Unnamed: 0,a,b,c,d,e
0,False,False,False,False,False
1,False,False,False,True,False
2,False,False,False,True,False
3,False,False,False,True,False
4,True,False,False,True,False
5,True,True,True,False,True


In [12]:
# Obtenemos el número de variables nulas por columna
df.isnull().sum(axis=0)

a    2
b    1
c    1
d    4
e    1
dtype: int64

In [18]:
# Obtenemos el número de variables nulas por renglón
df.isnull().sum(axis=1)

0    0
1    1
2    1
3    1
4    2
5    4
dtype: int64

In [19]:
# Obtenemos el número de variables no nulas por columna
df.notnull().sum(axis=0)

a    4
b    5
c    5
d    2
e    5
dtype: int64

In [20]:
# Obtenemos el número de variables no nulas por renglón
df.notnull().sum(axis=1)

0    5
1    4
2    4
3    4
4    3
5    1
dtype: int64

## Filtrado de información:

In [25]:
# Ejemplo: Obtenemos los valores no nulos de la columna 'a'
df[ df['a'].notnull() ]

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0


In [31]:
# Ejemplo: Obtenemos los valores del dataframe talque que la columna 'a' no tenga valores nulos
df[ df['a'].notnull() ]

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0


In [35]:
# Elimina las filas y/o columnas con registros vacíos 
df.dropna()

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0


In [33]:
# Elimina los registros vacíos de una columna dada
df[['a']].dropna()

Unnamed: 0,a
0,0.0
1,3.0
2,6.0
3,9.0


In [34]:
# Elimina los registros vacíos de una columna dada
df['a'].dropna()

0    0.0
1    3.0
2    6.0
3    9.0
Name: a, dtype: object

In [36]:
df

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,,16.0
2,6.0,7.0,8.0,,17.0
3,9.0,10.0,11.0,,18.0
4,,13.0,14.0,,19.0
5,,,,10.0,


In [41]:
# Asignamos valor a los campos nulos
df.fillna( 'valor' )

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,valor,16.0
2,6.0,7.0,8.0,valor,17.0
3,9.0,10.0,11.0,valor,18.0
4,valor,13.0,14.0,valor,19.0
5,valor,valor,valor,10,valor


In [39]:
# Obtenemos la media correspondiente a cada columna
df.mean()

a     4.5
b     7.0
c     8.0
d     5.5
e    17.0
dtype: float64

In [40]:
# Asignamos la media (correspondiente a cada columna) a los campos nulos
df.fillna( df.mean() )

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1.0,15.0
1,3.0,4.0,5.0,5.5,16.0
2,6.0,7.0,8.0,5.5,17.0
3,9.0,10.0,11.0,5.5,18.0
4,4.5,13.0,14.0,5.5,19.0
5,4.5,7.0,8.0,10.0,17.0


In [44]:
# Asigna el valor a los campos vacíos de 'atrás hacia adelante' ("ffill" -> forward fill)
df.fillna(method="ffill", axis=0)

# si 'axis = 1' el efecto se aplica por renglón

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,1,16.0
2,6.0,7.0,8.0,1,17.0
3,9.0,10.0,11.0,1,18.0
4,9.0,13.0,14.0,1,19.0
5,9.0,13.0,14.0,10,19.0


In [43]:
# Asigna el valor a los campos vacíos de 'adelante hacia atrás' ("bfill" -> backward fill)
df.fillna(method="bfill", axis=0)

# si 'axis = 1' el efecto se aplica por renglón

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,1,15.0
1,3.0,4.0,5.0,10,16.0
2,6.0,7.0,8.0,10,17.0
3,9.0,10.0,11.0,10,18.0
4,,13.0,14.0,10,19.0
5,,,,10,
