<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/17_limpieza_y_datos_faltantes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Limpieza y datos faltantes.

En este capítulo se explorarán diversos métodos enfocados a gestionar dataframes que no son homogéneos en sus contenidos.

In [1]:
import pandas as pd
import numpy as np

pd.__version__, np.__version__

('2.2.2', '2.0.2')

## El Dataframe ilustrativo.

El dataframe ```poblacion``` describe una serie de muestras poblacionales de animales en varias regiones geográficas.

In [3]:
poblacion = pd.DataFrame({
  'Animal':('lobo','coyote','jaguar','cerdo salvaje','tapir','venado','ocelote','puma'),
  'Norte_I':  (12, np.nan,  None,  2,  4,  2,  14,  5 ),
  'Norte_II': (23, 4, 25, 21, 9, 121, 1, 2 ),
  'Centro_I': (15, 23, 2, 120, 40, 121, 0, 5),
  'Sur_I':    (28, 46, 14, 156, 79, 12, 2, np.nan)}).set_index('Animal')

poblacion

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,,4,23,46.0
jaguar,,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,


## Métodos de validación de *NaN*.

Por lo general este tipo de dato `np.NaN` denota datos incompletos cuyo verdadero valor es desconocido.


### El método ```isna()```.

Este método va a detectar los elementos que contienen `NaN`.

**Retorna un dataframe de booleanos** donde los elementos `True` indica que en esa posición existe un valor `NaN` en el dataframe original.

**Ejemplo:**

In [4]:
poblacion.isna()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,False,False,False,False
coyote,True,False,False,False
jaguar,True,False,False,False
cerdo salvaje,False,False,False,False
tapir,False,False,False,False
venado,False,False,False,False
ocelote,False,False,False,False
puma,False,False,False,True


### El método ```isnull()```.

Este método va a detectar los elementos que contienen ```NaN``` o ```None```.

In [5]:
poblacion.isnull()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,False,False,False,False
coyote,True,False,False,False
jaguar,True,False,False,False
cerdo salvaje,False,False,False,False
tapir,False,False,False,False
venado,False,False,False,False
ocelote,False,False,False,False
puma,False,False,False,True


### El método ```notna()```.

Este métido va a detectar los elementos que no contienen ```NaN```.

**Ejemplo"**

In [6]:
poblacion.notna()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,True,True,True,True
coyote,False,True,True,True
jaguar,False,True,True,True
cerdo salvaje,True,True,True,True
tapir,True,True,True,True
venado,True,True,True,True
ocelote,True,True,True,True
puma,True,True,True,False


### El método ```notnull()```.

Este métido va a detectar los elementos que no contienen  ```NaN``` o ```None```.

In [7]:
poblacion.notnull()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,True,True,True,True
coyote,False,True,True,True
jaguar,False,True,True,True
cerdo salvaje,True,True,True,True
tapir,True,True,True,True
venado,True,True,True,True
ocelote,True,True,True,True
puma,True,True,True,False


## El método ```fillna()```.

Este método sustituirá los valores ```NaN``` con algun valor específico.


```
<df>.fillna(<objeto sustituto>)
```

Donde:

* ```df``` es un dataframe de ```Pandas```.
* ```<objeto sustituto>``` es cualquier objeto de *Python*,  *Numpy* o de *Pandas*.

**Ejemplo:**

In [8]:
poblacion.fillna(0)

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,0.0,4,23,46.0
jaguar,0.0,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,0.0


In [9]:
poblacion.fillna("inválido")

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,inválido,4,23,46.0
jaguar,inválido,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,inválido


## El método ```interpolate()```.

Este método realiza cáclulos de interpolación para sustituir a ```NaN```.


```
<df>.interpolate(method=<método de interpolación>, axis=<eje>)
```

Donde:

* ```<df>``` es un dataframe de *Pandas*.
* ```<método de interpolación>``` es un `str`. El valor por defecto es ```'linear'```.
* ```<eje>``` Eje a lo largo del cual se interpolará. Por defecto es `None`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html

**Nota:** *Scipy* cuenta con diversos algoritmos de interpolación, los cuales pueden ser consultados en: https://docs.scipy.org/doc/scipy/reference/interpolate.html

In [10]:
poblacion.interpolate()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
coyote,8.666667,4,23,46.0
jaguar,5.333333,25,2,14.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0
puma,5.0,2,5,2.0


In [13]:
# convertir los indices (fila) a numéricos
pob_tmp = poblacion.reset_index().drop('Animal', axis=1)

# hacer la interpolación (si no se hace el paso anterior da error)
pob_tmp.interpolate(method="zero")

Unnamed: 0,Norte_I,Norte_II,Centro_I,Sur_I
0,12.0,23,15,28.0
1,12.0,4,23,46.0
2,12.0,25,2,14.0
3,2.0,21,120,156.0
4,4.0,9,40,79.0
5,2.0,121,121,12.0
6,14.0,1,0,2.0
7,5.0,2,5,


In [14]:
pob_tmp.interpolate(method="quadratic")

Unnamed: 0,Norte_I,Norte_II,Centro_I,Sur_I
0,12.0,23,15,28.0
1,5.150489,4,23,46.0
2,1.817156,25,2,14.0
3,2.0,21,120,156.0
4,4.0,9,40,79.0
5,2.0,121,121,12.0
6,14.0,1,0,2.0
7,5.0,2,5,


## El método ```dropna()```.

Este método descarta las filas con NaN.

In [15]:
poblacion.dropna()

Unnamed: 0_level_0,Norte_I,Norte_II,Centro_I,Sur_I
Animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
lobo,12.0,23,15,28.0
cerdo salvaje,2.0,21,120,156.0
tapir,4.0,9,40,79.0
venado,2.0,121,121,12.0
ocelote,14.0,1,0,2.0


## El método ```duplicated()```.

Identifica aquellos renglones duplicados.

In [16]:
poblacion.duplicated()

Unnamed: 0_level_0,0
Animal,Unnamed: 1_level_1
lobo,False
coyote,False
jaguar,False
cerdo salvaje,False
tapir,False
venado,False
ocelote,False
puma,False


In [None]:
#otra_poblacion.duplicated()

## El método ```drop_duplicates()```.

Este método elimina renglones duplicados.

In [None]:
#otra_poblacion.drop_duplicates()