[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Limpieza y datos faltantes.

En este capítulo se explorarán diversos métodos enfocados a gestionar *dataframes* que no son homogéneos en sus contenidos.

In [None]:
import pandas as pd
import numpy as np

## El *dataframe* ilustrativo.

El *dataframe* ```poblacion``` describe una serie de muestras poblacionales de animales en varias regiones geográficas.

In [None]:
poblacion = pd.DataFrame({'Animal':('lobo',
                                   'coyote',
                                   'jaguar',
                                   'cerdo salvaje',
                                    'tapir',
                                    'venado',
                                    'ocelote',
                                    'puma'),
                         'Norte_I':(12,
                                   np.NAN,
                                    None,
                                    2,
                                    4,
                                    2,
                                    14,
                                    5
                                   ),
                          'Norte_II':(23,
                                    4,
                                    25,
                                    21,
                                    9,
                                    121,
                                    1,
                                    2
                                   ),
                         'Centro_I':(15,
                                    23,
                                    2,
                                    None,
                                    40,
                                    121,
                                    0,
                                    5),
                         'Sur_I':(28,
                                  46,
                                  14,
                                  156,
                                  79,
                                  12,
                                  2,
                                  np.NAN)}).set_index('Animal')

In [None]:
poblacion

## Métodos de validación de *NaN*.

En muchos casos, los *dataframes* incluyen objetos de tipo ```pd.nan```. Por lo general este tipo de dato denota datos incompletos cuyo verdadero valor es desconocido.

Poder transformar eficientemente ```pd.nan``` en valores relevantes requiere de experiencia y conocimiento de los datos con los que se trabaja.

### El método ```isna()```.

Este método de enmascaramiento detecta aquellos elementos que contienen valores ```pd.nan```.

**Ejemplo:**

* La siguiente celda evaluará cada elemento de ```poblacion``` validando si existe algún valor igual a ```pd.nan```. En caso de que el elemento sea ```pd.nan```, el valor dentro del *dataframe* resultante será ```True```.

In [None]:
poblacion.isna()

### El método ```isnull()```.

Este método de enmascaramineto que detecta aquellos elementos que contienen tanto a ```pd.nan``` como a ```None```.

**Ejemplo:**

* Se utilizará al *dataframe* ```poblacion``` definido previamente.

In [None]:
poblacion

* La siguiente celda evaluará cada elemento de ```poblacion``` validando si existe algún valor igual a ```pd.nan``` o ```None```. En caso de que el elemento coincida, el valor dentro del *dataframe* resultante será ```True```.

In [None]:
poblacion.isnull()

### El método ```notna()```.

Este método de enmascaramiento detecta aquellos elementos que contienen valores distintos a ```pd.nan```.

**Ejemplo:**

* La siguiente celda evaluará a cada elemento de ```poblacion``` validando si existe algún valor igual a ```pd.nan```. En caso de que el elemento sea ```pd.nan```, el valor dentro del *dataframe* resultante será ```False```.

In [None]:
poblacion.notna()

### El método ```notnull()```.

Este método de enmascaramiento detecta aquellos elementos que contienen valores distintos a ```pd.nan``` o a ```None```.

**Ejemplo:**

* La siguiente celda evaluará a cada elemento de ```poblacion``` validando si existen valore distintos a ```pd.nan``` o a ```None```. En caso de que el elemento sea ```pd.nan``` o ```None```, el valor dentro del *dataframe* resultante será ```False```.

In [None]:
poblacion.notnull()

## El método ```fillna()```.

Este método sustituirá los valores ```pd.nan``` con el valor designado como argumento.


```
df.fillna(<objeto>)
```

Donde:

* ```<objeto>``` es cualquier objeto de *Python*, *Numpy* o de *Pandas*.

**Ejemplo:**

In [None]:
poblacion

* Las siguientes celdas sustituirán a los elementos ```pd.nan``` por el objeto ingresado como argumento.

In [None]:
poblacion.fillna(0)

In [None]:
poblacion.fillna(15)

In [None]:
poblacion.fillna("inválido")

## El método ```interpolate()```.

Este método realiza cáclulos de interpolación para sustituir a ```pd.nan```.


```
df.interpolate(method=<método>, axis=<eje>)
```

Donde:

* ```<método>``` es un método de interpolación. El valor por defecto es ```'linear'```.
* El parámetro ```axis``` define el eje desde el cual se tomarán los elementos de interpolación y su valor por defecto es ```0```.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html

**Nota:** *Scipy* cuenta con diversos algoritmos de interpolación, los cuales pueden ser consultados en: 

* https://docs.scipy.org/doc/scipy/reference/interpolate.html
* https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.interp1d.html

**Ejemplos:**

* Se utilizará el *dataframe* ```poblacion```definido previamente.

In [None]:
poblacion

* La siguiente celda ejecutará el método ```poblacion.intterpolate()``` con los argumentos por defecto.
* El *dataframe* resultante modificará aquellos elementos ```pd.nan``` aplicando una interpolación lineal tomando como datos de referencia a los del renglón a la que pertence el elemento. 

In [None]:
poblacion.interpolate()

* La siguiente celda ejecutará el método ```poblacion.intterpolate()``` con el argumento ```axis=1```.
* El *dataframe* resultante modificará aquellos elementos ```pd.nan``` aplicando una interpolación lineal tomando como datos de referencia a los de la columna a la que pertence el elemento.

In [None]:
poblacion.interpolate(axis=1)

* La siguiente celda usará el argumento ```method="zero"```.
* El método ```"zero"``` requiere que exista un índice numérico para poder realizar la interpolación, por lo que se desencadenará una excepción de tipo ```ValueError```.

In [None]:
poblacion.interpolate(method="zero")

* La siguiente celda creará un *dataframe* llamado ```poblacion_numerica```, basado en ```poblacion```en el que los índices serán numéricos y se desechará la columna ```'Animal'```.

In [None]:
poblacion_numerica = poblacion.reset_index().drop('Animal', axis=1)

In [None]:
poblacion_numerica

* la siguiente celda aplicará el método ```poblacion_numerica.interpolate()```:
 * Ingresando el argumento ```axis=0```.
 * Ingresando el argumento ```method="zero"```.

In [None]:
poblacion_numerica.interpolate(method="zero", axis=0)

## El método ```dropna()```.

Este método desechará los renglones o columnas que contengan valores ```pd.nan```.


```
df.dropna(axis=<eje>)
```

Donde:

* ```<eje>```

**Ejemplo:**

In [None]:
poblacion

In [None]:
poblacion.dropna()

In [None]:
poblacion.dropna(axis=1)

## El método ```duplicated()```.

Identifica aquellos renglones duplicados.

In [None]:
poblacion.duplicated()

In [None]:
otra_poblacion = pd.DataFrame({'Animal':('lobo',
                                   'coyote',
                                   'jaguar',
                                   'cerdo salvaje',
                                    'tapir',
                                    'venado',
                                    'ocelote',
                                    'puma'),
                         'Norte_I':(12,
                                    4,
                                    None,
                                    2,
                                    4,
                                    2,
                                    14,
                                    4
                                   ),
                          'Norte_II':(23,
                                    4,
                                    25,
                                    21,
                                    9,
                                    121,
                                    1,
                                    4
                                   ),
                         'Centro_I':(15,
                                    4,
                                    2,
                                    120,
                                    40,
                                    121,
                                    0,
                                    4),
                         'Sur_I':(28,
                                  4,
                                  14,
                                  156,
                                  79,
                                  12,
                                  2,
                                  4)}).set_index('Animal')

In [None]:
otra_poblacion

In [None]:
otra_poblacion.duplicated()

## El método ```drop_duplicates()```.

Este método elimina renglones duplicados.

In [None]:
otra_poblacion.drop_duplicates()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2017-2026.</p>