# Bibliotecas de Python para EDA

Es esencial garantizar que los datos sean de buena calidad antes de ejecutar modelos de aprendizaje automático. Si alimentamos estos modelos con datos de mala calidad, podemos terminar con consecuencias inesperadas o no deseadas. Sin embargo, llevar a cabo el trabajo de preparación con los datos y tratar de comprender lo que se tiene o no lleva mucho tiempo. A menudo, este proceso puede consumir hasta el 90% del tiempo disponible de un proyecto.

Si realiza un análisis de datos exploratorios (EDA) dentro de Python, conocerá las bibliotecas comunes como pandas, matplotlib y seaborn. Todas son excelentes bibliotecas, pero cada una tiene sus propios matices, que pueden llevar tiempo aprender o recordar.

En los últimos años, ha habido varias bibliotecas Python potentes de bajo código que hacen que la fase de exploración y análisis de datos de los proyectos sea mucho más rápida y sencilla.

En este capitulo, le presentaré algunas de estas bibliotecas de Python, que mejorarán su flujo de trabajo de análisis de datos. Todo lo cual se puede ejecutar dentro de un entorno de notebook Jupyter.

## YData Profiling (anteriormente Profiling de Pandas)

La biblioteca YData Profiling, anteriormente conocida como Pandas Profiling , le permite crear informes detallados basados ​​en un dataframe de pandas. Es muy sencillo de navegar y proporciona información sobre las variables individuales, análisis de datos faltantes, correlaciones de datos e interacciones.

Un pequeño problema con YData Profiling es la capacidad de manejar conjuntos de datos más grandes, lo que puede ralentizar la generación de informes.

### Cómo utilizar la biblioteca de YData Profiling

YData Profiling se puede instalar a través de una terminal usando pip:

In [None]:
!pip install ydata-profiling

Una vez que la biblioteca se haya instalado en su entorno Python, podemos simplemente importar el modulo `ProfileReport` desde la biblioteca junto con pandas. 

Pandas sirve para cargar nuestros datos desde un archivo CSV u otro formato.

In [None]:
import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('titanic.csv')
ProfileReport(df)

## D-Tale

D-Tale lleva tu dataframe de Pandas a un nivel completamente nuevo. Esta biblioteca potente y rápida hace que sea muy fácil interactuar con sus datos, realizar análisis básicos e incluso editarlos.

Recientemente encontré esta biblioteca, pero se ha convertido en una de mis bibliotecas preferidas para explorar datos.

Si desea probar la biblioteca antes de descargarla, los autores de la biblioteca le han proporcionado un ejemplo en vivo .

### Cómo utilizar D-Tale

D-Tale se puede instalar a través de una terminal usando pip:

In [None]:
!pip install dtale

Luego se puede importar junto con los pandas, como se ve a continuación. Una vez que pandas ha leído los datos, el dataframe resultante se puede pasar `dtale.show()`

In [None]:
import pandas as pd
import dtale

df = pd.read_csv('titanic.csv')

dtale.show(df)

## SweetViz

SweetViz es otra biblioteca de exploración y visualización de datos interactiva y de bajo código. A partir de un par de líneas de código, podemos crear un archivo HTML interactivo para explorar nuestros datos.

### Cómo utilizar SweetViz

Sweetviz se puede instalar a través del terminal usando pip:

In [None]:
!pip install sweetviz

Una vez instalado, podemos importarlo a nuestro cuaderno y cargar nuestros datos usando pandas.

In [None]:
import sweetviz as sv
import pandas as pd

df = pd.read_csv('titanic.csv')

Luego necesitamos recurrir a dos líneas más de código para poder obtener nuestro informe:

In [None]:
report = sv.analyze(df)
report.show_html()

## MissingNo

Si está interesado en utilizar una biblioteca liviana para explorar la integridad de sus datos, entonces `missingNo` es una que definitivamente debería considerar para su caja de herramientas EDA.

Es una biblioteca de Python que proporciona una serie de visualizaciones para comprender la presencia y distribución de datos faltantes dentro de un dataframe de pandas. La biblioteca le proporciona una pequeña cantidad de gráficos (diagrama de barras, diagrama de matriz, mapa de calor o dendrograma) para visualizar qué columnas en su marco de datos contienen valores faltantes y cómo se relaciona el grado de falta entre las variables.

### Cómo utilizar MissingNo

Missingno se puede instalar a través del terminal usando pip:

In [None]:
!pip install missingno

Una vez instalada la biblioteca, podemos importarla junto con pandas y cargar nuestros datos en un dataframe.

In [None]:
import pandas as pd
import missingno as msno
df = pd.read_csv('titanic.csv')

Luego podemos recurrir a nuestra gráfica deseada entre las disponibles:

In [None]:
msno.bar(df)
msno.matrix(df)
msno.heatmap(df);

Los tres gráficos anteriores nos brindan información sobre:

- Qué tan completa está cada columna dentro del dataframe:msno.bar()
- Donde ocurren los datos faltantes:msno.matrix()
- ¿Qué tan correlacionados están los valores faltantes? msno.heatmap()

Lo bueno de esta biblioteca es que los gráficos son limpios, fáciles de entender y pueden incorporarse rápidamente a un informe tal como están.

Para comprender más sobre cada una de estas tramas, recomiendo profundizar en el artículo a continuación.

## Sketch

Sketch es una biblioteca muy nueva (a partir de febrero de 2023) que aprovecha el poder de la inteligencia artificial para ayudarlo a comprender los marcos de datos de sus pandas mediante el uso de preguntas en lenguaje natural directamente dentro de Jupyter. También puede usarlo para generar código de muestra, por ejemplo, cómo hacer un gráfico de x e y dentro del dataframe, y luego usar ese código para generar el gráfico requerido.

La biblioteca es mayoritariamente autónoma y utiliza algoritmos de aprendizaje automático para comprender el contexto de su pregunta en relación con su conjunto de datos. Hay una función que depende de la API de OpenAI, pero eso no resta valor a cómo se puede utilizar la biblioteca.

Sketch tiene un gran potencial para ser poderoso, especialmente si busca proporcionar una interfaz a clientes con conocimientos muy limitados de codificación en Python.

### Cómo utilizar Sketch

Sketch se puede instalar a través del terminal usando pip:

In [None]:
!pip install sketch

Luego importamos pandas y dibujamos en nuestro cuaderno, seguido de cargar los datos de nuestro archivo CSV.

In [None]:
import sketch
import pandas as pd

df = pd.read_csv('titanic.csv')

Una vez que se haya importado el sketch, estarán disponibles tres nuevos métodos para nuestro dataframe.

El primero es el metodo `.ask`, que le permite hacer preguntas, utilizando lenguaje natural, sobre el contenido del marco de datos.

In [None]:
df.sketch.ask('What are the max values of each numerical column?')

También podemos preguntarle qué tan completo está el dataframe:

In [None]:
df.sketch.ask('How complete is the data?')

Muy impresionante. Pero eso no es todo.

Incluso podemos consultar a la biblioteca sobre cómo gráficar los datos contenidos dentro del dataframe usando `sketch.howto()`

In [None]:
df.sketch.howto("""How do I plot Pclass against Fare
                using a bar plot and have the line coloured in red?""")

La tercera opción disponible con sketch es el método `.apply`, que requiere una API OpenAI para poder ejecutarse. Esta función es útil cuando queremos crear nuevas funciones a partir de funciones existentes o generar otras nuevas. Hasta el momento no he explorado esta opción, pero espero hacerlo en un futuro próximo.