# E$. Análisis exploratorio con pygwalker

En este notebook vamos a demostrar el uso de **pygwalker**, una herramienta interactiva que facilita el análisis exploratorio de datos directamente en Jupyter Notebook.

## Instalación de pygwalker

Si aún no tienes instalado pygwalker, ejecuta el siguiente comando en tu terminal:

In [None]:
!pip install pygwalker

In [None]:
import pandas as pd
import pygwalker as pyg

# Cargamos un dataset de ejemplo (usamos el dataset "iris" de seaborn)
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
df = pd.read_csv(url)


# Mostramos las primeras filas del DataFrame
df.head()

In [None]:
# Cargamos un conjunto más rico en datos
df = pd.read_csv("https://kanaries-app.s3.ap-northeast-1.amazonaws.com/public-datasets/bike_sharing_dc.csv", parse_dates=['date'])

In [None]:
df.info()

In [None]:
df.describe()

## Uso de pygwalker

La función principal de pygwalker es `pyg.walk()`, que permite explorar el DataFrame de forma interactiva. Con ella puedes visualizar la estructura de los datos, filtrarlos, agruparlos y generar gráficos sin necesidad de escribir código adicional.

In [None]:
# Iniciamos la interfaz interactiva para explorar el dataset
pyg.walk(df)

# Una vez ejecutado, aparecerá una interfaz interactiva donde podrás realizar análisis exploratorio de manera dinámica.

## Explicación de las principales funciones de pygwalker

1. **pyg.walk(df)**: Es la función principal. Recibe un DataFrame de pandas y lanza una interfaz interactiva para analizar y visualizar los datos.

2. **Interfaz interactiva**: Una vez activada, permite:
   - Explorar la estructura y las estadísticas básicas del DataFrame.
   - Filtrar y agrupar los datos dinámicamente.
   - Crear diversos tipos de gráficos para detectar patrones y relaciones entre variables.

Esta herramienta es ideal para realizar un análisis exploratorio sin necesidad de generar múltiples líneas de código para cada visualización.

## Conclusión

En este ejercicio práctico, hemos visto cómo utilizar **pygwalker** para explorar datos de forma interactiva. Esta herramienta facilita la identificación de patrones y la generación de gráficos en el análisis exploratorio, lo que resulta especialmente útil cuando se trabaja con grandes conjuntos de datos.

Tabla comparativa entre **Metabase** y **PyGWalker**:

| **Aspecto**               | **Metabase**                                                                                                                                         | **PyGWalker**                                                                                                                                                                                                                      |
|---------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Descripción**           | Plataforma de Business Intelligence (BI) para crear dashboards e informes visuales sin necesidad de programación.                                     | Extensión interactiva en Python que integra visualizaciones dinámicas (inspiradas en Power BI) directamente en Jupyter Notebooks.                                                                                                  |
| **Interfaz de Usuario**   | Interfaz web amigable y orientada a usuarios no técnicos.                                                                                          | Integrado en notebooks, combinando código Python y visualización interactiva; requiere conocimientos básicos de Python.                                                                                                            |
| **Casos de Uso**          | - Creación de dashboards empresariales.<br>- Reportes colaborativos y análisis a nivel organizacional.                                               | - Exploración de datos interactiva en entornos de desarrollo.<br>- Visualización rápida y dinámica durante el análisis en Python.                                                                                                  |
| **Funcionalidades**       | - Query builder visual para construir consultas.<br>- Filtros interactivos y dashboards configurables.<br>- Programación de reportes y alertas.        | - Visualización interactiva de pandas DataFrames.<br>- Interfaz dinámica para explorar datos en tiempo real.<br>- Integración fluida con el ecosistema Python.                                                              |
| **Nivel Técnico**         | No requiere conocimientos de programación, ideal para usuarios no técnicos.                                                                        | Requiere nociones básicas de Python y manejo de Jupyter Notebooks; enfocado a usuarios que trabajan en entornos de análisis de datos.                                                                                              |
| **Integración**           | Se conecta a múltiples fuentes de datos (bases de datos SQL, etc.) y se despliega como herramienta independiente.                                  | Funciona dentro del ecosistema Python, integrándose directamente con bibliotecas como pandas, facilitando la transición entre código y visualización.                                                                             |
| **Personalización**       | Opciones predefinidas con cierto grado de personalización a través de la interfaz; ideal para resultados rápidos sin mucho ajuste manual.            | Alta personalización, ya que el usuario puede modificar y ajustar el código para obtener visualizaciones a medida y explorar diferentes aspectos del dataset en un entorno interactivo.                                          |
| **Comunidad y Soporte**   | Amplia comunidad y documentación, con un enfoque empresarial y uso extendido en entornos corporativos.                                               | Comunidad en crecimiento entre usuarios de Python y ciencia de datos, con recursos y ejemplos en GitHub y foros especializados en análisis de datos interactivo en notebooks.                                             |

Esta tabla resalta las principales diferencias y ventajas de cada herramienta, permitiendo elegir la que mejor se adapte a las necesidades del proyecto o al perfil del usuario.

## Referencias
 - Documentación oficial PyGWalker [https://github.com/Kanaries/pygwalker]
 - PyGwalker + Streamlit [https://www.youtube.com/watch?v=rprn79wfB9E]
 - Como usar pygwalker en Kaggle [https://github.com/Kanaries/pygwalker/wiki/Best-Practices-for-Using-Pygwalker-in-Kaggle]