# Expandiendo la API de Pandas

Vamos a empezara trabajar con los datos y nunca lo olvides correr los bloques de código pertenecientes a las librerías.

Hasta el momento ya logramos cargar los datos y todos con valores faltantes. Imagínate explorar cada conjunto de datos para ver sus valores faltantes, tendríamos que repetir este proceso una y otra vez, es por esto que vamos a aprender a modificar Pandas para extenderlo.

Sucede que alrededor de Pandas hay todo un ecosistema diseñado específicamente para la preparación de los datos, para análisis y visualización. De tal forma que los análisis los podamos ejecutar teniendo una base común (Pandas).

Así pasamos de usar las funciones básicas o por defecto de Pandas a personalizarlo para poder compartir con la comunidad y así crecer en nuestros análisis.

Vamos a correr el notebook tutorial to extend Pandas que contiene las funciones que nos ayudaran a extender la API de Pandas.

## Crear una nueva clase para extender Pandas

In [21]:
#Definir una clase
@pd.api.extensions.register_dataframe_accessor("missing")
#La linea anterior es un decorador
class MissingMethods:
    def __init__(self, pandas_obj):
        self._df = pandas_obj

    def number_missing(self):
        return self._df.isna().sum().sum()

    def number_complete(self):
        return self._df.size - self._df.missing.number_missing()

  class MissingMethods:


El nombre del acceso es `missing`, el parámetro de la primera linea.

```py
@pd.api.extensions.register_dataframe_accessor("missing")
```

## Probar su uso 

### Librerias

In [22]:
import missingno    #Visualizar valores faltantes 
import numpy as np
import janitor      #Crear pipelines de limpieza de datos
import matplotlib.pyplot as plt
import pandas as pd
import pyreadr      #Leer archivos adr para este curso
import seaborn as sns
import session_info
import upsetplot    #Para gráfica de relaciones 
                    #de nuestros valores faltantes
df = pd.read_csv('./dataset/pima-indians-diabetes.csv',sep=',')

### Codigo para probar

In [5]:
df.missing

AttributeError: 'DataFrame' object has no attribute 'missing'

El error anterior es debido a que aún hemos colocado una linea para poder usar la clase que hemos construido. Nos referimos a:

```py
@pd.api.extensions.register_dataframe_accessor("missing")
```

Una vez que la hemos añadido, volvemos a correr la celda con el código anteriormente generado.

In [20]:
df.missing

<__main__.MissingMethods at 0x7feb0bf7ea00>

Como podemos observar ya se ha actualizado y podemos usar la clase `MissingMethods`. Así que procederemos a añadir nuevos métodos a la clase.

In [19]:
df.missing.number_missing()

0

Para obtener el numero de datos completos.

```py
    def number_complete(self):
        return self._df.notna().sum().sum()
```

Con esto tendríamos los valores completos o **no nulos**. Hay otra forma de hacerlo


```py
    def number_complete(self):
        return self._df.size - self._df.missing.number_missing()
```

De esta manera reutilizamos el código que vamos generando

In [23]:
df.missing.number_complete()

6912

Nos imprime la cantidad de valores completos que tenemos, así de esta manera deberías de construir funciones.
```py
    def proportion_missing(self):
        pass
```
Con `pass` podemos asegurarnos de que creamos un código y que podemos posponer su escritura, así no genera problemas. Así podremos usar los métodos.

Vamos a cargar la librería con los métodos para extender Pandas. Vamos a ejecutarlo de la siguiente forma:

## Extras
[Pandas Missing](https://jvelezmagic.github.io/pandas-missing/basic_numerical_summaries.html)