# UT9: Comunicación Interactiva con Plotly y Streamlit

Análisis de datos con Python

# UT9: Dashboards y Comunicación de Resultados

> **Cuaderno de trabajo — UT9: Dashboards y Comunicación**
>
> Este notebook contiene los ejercicios de la unidad. Para la teoría
> completa consulta el libro (PDF).

**Manos a la Obra**

### tu primer gráfico interactivo

**Tiempo estimado:** 10-15 minutos

**Objetivo:** crear un *scatter plot* interactivo del *dataset* Iris y
experimentar con la interactividad.

**Contexto profesional:** Vas a explorar cómo la interactividad ayuda a
descubrir patrones que en gráficos estáticos pasarían desapercibidos.

**Pasos guiados:**

1.  Carga el dataset Iris:

    ``` python
    import seaborn as sns
    df_iris = sns.load_dataset('iris')
    ```

2.  Crea scatter plot interactivo:

    -   **Ejes**: `sepal_length` (x) vs `sepal_width` (y)
    -   **Color**: Por `species`
    -   **Tamaño**: Por `petal_length`
    -   **Hover extra**: Muestra `petal_width`
    -   **Título descriptivo**: “Análisis de Sépalos en Especies de
        Iris”

3.  Ejecuta y **experimenta** con interactividad:

    -   Haz zoom en la región donde se solapan setosa/versicolor
    -   Pasa el ratón sobre puntos outlier
    -   Descarga el gráfico como PNG usando el toolbar

**Criterio de éxito:**

-   El gráfico muestra 3 colores distintos (3 especies)
-   Al hacer hover sobre un punto, ves los 4 valores numéricos
-   Puedes hacer zoom y el gráfico se actualiza sin regenerar código
-   El título y las etiquetas de ejes son descriptivos (no nombres
    técnicos de columnas)

**Pregunta de reflexión:** ¿Qué patrón descubriste al hacer zoom que no
era obvio en la vista completa? ¿Cómo comunicarías este hallazgo a un
stakeholder no técnico en una reunión?

**Manos a la Obra**

### Exploración interactiva del consumo en restauración

**Objetivo:** Seleccionar e implementar la técnica de visualización
interactiva más adecuada para responder preguntas de negocio
específicas.

**Contexto profesional:** El gerente de un restaurante quiere entender
los hábitos de gasto de sus clientes. Debes usar el dataset `tips` de
Seaborn (que incluye cuenta total, propina, sexo del pagador, fumador,
día, hora y tamaño de mesa) para generar insights.

**Instrucciones:**

1.  **Gasto por día:** ¿Qué día de la semana genera facturas más altas?
    Elige el tipo de gráfico interactivo que mejor muestre la
    distribución y la mediana simultáneamente.
2.  **Propina vs Factura:** ¿Existe una relación lineal entre el total
    de la cuenta y la propina? Añade una línea de tendencia y colorea
    los puntos según si el pagador era fumador o no.
3.  **Distribución del gasto:** Crea una visualización que permita
    comparar el gasto total entre almuerzos (`Lunch`) y cenas
    (`Dinner`).
4.  **Justificación:** Para cada gráfico, explica brevemente por qué
    elegiste ese tipo de visualización y no otro.

**Criterio de éxito:** Entrega de 3 gráficos interactivos perfectamente
etiquetados. El gráfico de relación debe mostrar una tendencia positiva
clara.

**Tiempo estimado:** 15 minutos

``` python
# Escribe tu codigo aqui
```

**Manos a la Obra**

### Primera App Streamlit

**Objetivo:** Crear y ejecutar tu primera aplicación Streamlit
funcional.

1.  Crea un archivo `primera_app.py` con configuración de página, un
    título, un DataFrame de ejemplo y un gráfico lineal de Plotly.
2.  Ejecuta la app desde la terminal con `streamlit run primera_app.py`.
3.  Experimenta: cambia el código y observa la actualización automática.
4.  ¿Qué ventajas ves de usar Streamlit vs enviar un notebook de Jupyter
    a un stakeholder no técnico?

**Criterio de éxito:**

-   La app se abre en el navegador sin errores.
-   Ves el título y el DataFrame correctamente.
-   El gráfico es interactivo.

Streamlit es la forma más rápida de compartir modelos. Consulta los
comandos básicos de visualización en el **Apéndice C.8**.

``` python
# Introduce aquí el código
```

**Tiempo estimado:** 20 minutos

**Manos a la Obra**

### Dashboard con Filtros Básicos

**Objetivo:** Crear dashboard del dataset Iris con filtros interactivos
que actualicen visualizaciones.

1.  Crea una app que cargue el dataset Iris.
2.  Implementa filtros en la barra lateral: un slider de rango para
    `sepal_length` y un multiselect para especies.
3.  Muestra visualizaciones que se actualicen dinámicamente: un scatter
    plot de sépalos, un histograma de `petal_length` y una tabla de
    estadísticas descriptivas.
4.  ¿Por qué usaste `st.slider` para la longitud del sépalo pero
    `st.multiselect` para las especies? ¿Qué pasaría si invirtieras los
    widgets?

**Criterios de éxito:**

-   Los filtros actualizan correctamente los gráficos y la tabla.
-   Si el filtrado deja el DataFrame vacío, se muestra un aviso de
    advertencia.
-   Las visualizaciones tienen títulos descriptivos.

Los widgets son el núcleo de la interactividad en Streamlit. Consulta
los parámetros de `st.slider()` y `st.multiselect()` en el **Apéndice
C.8**.

``` python
# Introduce aquí el código
```

**Tiempo estimado:** 25 minutos

**Manos a la Obra**

### Optimización con Cacheo

**Objetivo:** Experimentar con el impacto del cacheo en la performance
de la aplicación.

1.  Crea una app que simule una carga lenta de datos (usando
    `time.sleep(3)`) sin usar cacheo. Mueve el slider y observa el
    tiempo de respuesta.
2.  Añade el decorador `@st.cache_data` a la función de carga. Comprueba
    cómo cambia la respuesta en las interacciones posteriores.
3.  Si tu dashboard carga un CSV de 500MB y tiene 10 widgets, ¿cuál es
    el ahorro de tiempo acumulado al usar cacheo para un usuario que
    interactúa 50 veces en una sesión?
4.  **Reflexión sobre mutabilidad:** Si la función cacheada devuelve un
    DataFrame y luego lo modificas fuera de la función
    (`df['nueva'] = 1`), Streamlit mostrará un warning. ¿Por qué ocurre
    esto? ¿Cómo resuelve el patrón `return df.copy()` este problema?

**Criterio de éxito:**

-   Has cuantificado la diferencia de tiempo entre una app con y sin
    caché.
-   Entiendes el concepto de “invalidez de caché”.

El cacheo es indispensable para dashboards con datasets reales. Consulta
cómo usar `@st.cache_data` en el **Apéndice C.8**.

``` python
# Introduce aquí el código
```

**Consolidación: Streamlit**

**Recapitulando lo aprendido:**

**Conceptos clave:**

1.  Streamlit convierte scripts Python en apps web sin HTML/CSS/JS
2.  Modelo de ejecución: Re-ejecuta todo el script en cada interacción
3.  Widgets capturan input: `slider`, `selectbox`, `multiselect`,
    `checkbox`
4.  Layout: `sidebar` (controles), `tabs` (organización), `columns`
    (multi-columna)
5.  Optimización: `@st.cache_data` para operaciones costosas

**Patrón de dashboard profesional:**

In [31]:
# 1. Configuración
st.set_page_config(layout="wide")

# 2. Cacheo de carga
@st.cache_data
def cargar_datos():
    return pd.read_csv('datos.csv')

df = cargar_datos()

# 3. Controles en sidebar
st.sidebar.title("Filtros")
filtro1 = st.sidebar.slider(...)
filtro2 = st.sidebar.selectbox(...)

# 4. Contenido en tabs
tab1, tab2, tab3 = st.tabs(["General", "Detalle", "Avanzado"])

with tab1:
    # Filtrar datos
    df_filtrado = df[(df['col'] == filtro1) & ...]

    # Validar
    if len(df_filtrado) == 0:
        st.warning("Sin datos")
    else:
        # Visualizar
        st.plotly_chart(crear_grafico(df_filtrado))

**Cuándo usar Streamlit:**

-   Dashboards internos de equipo de Data Science
-   Prototipos rápidos para validar ideas con stakeholders
-   Demos de modelos ML para presentaciones
-   Herramientas de exploración de datos para usuarios no técnicos

**Cuándo NO usar Streamlit:**

-   Aplicaciones web empresariales con millones de usuarios
-   Apps que requieren autenticación compleja y roles de usuario
-   Servicios web con APIs RESTful
-   Aplicaciones que necesitan control fino de frontend (custom CSS/JS
    complejo)

Streamlit es excelente para prototipos y dashboards internos, pero no
sustituye a frameworks como Flask o Django para aplicaciones web de
producción.

**Reflexión:** Compara Streamlit con enviar un notebook de Jupyter por
email como forma de comunicar resultados. Lista 3 ventajas de cada
enfoque. ¿En qué contexto el notebook sigue siendo la mejor opción?

## BLOQUE 3: Integración y práctica guiada

**Dashboard Completo - Patrón End-to-End**

Ahora integramos todo lo aprendido en un ejemplo completo del flujo real
de trabajo. Este es el momento en que las piezas encajan: los gráficos
Plotly que creaste en el Bloque 1 se insertan en la aplicación Streamlit
del Bloque 2, y los widgets filtran los datos que alimentan esas
visualizaciones.

<figure>
<img src="attachment:images/fig_05_pipeline_datos_dashboard.png"
alt="Pipeline completo de datos desde CSV hasta dashboard interactivo" />
<figcaption aria-hidden="true">Pipeline completo de datos desde CSV
hasta dashboard interactivo</figcaption>
</figure>

**Conexión con UTs anteriores:** El dashboard que construirás aquí
utiliza datos preprocesados (UT5), aplica técnicas de EDA (UT6), muestra
visualizaciones basadas en principios que aprendiste con matplotlib
(UT7) y, en UT10, incorporará resultados de modelos ML entrenados con
scikit-learn (UT8) — como métricas (`accuracy_score`, `f1_score`) e
importancia de features (`.feature_importances_`).

**Estructura típica de un dashboard profesional:**

**Patrón de arquitectura:** En la sección de “Ejemplos de referencia” al
final de este capítulo, dispones del código fuente completo de un
dashboard profesional organizado por bloques (Configuración, Cacheo,
Sidebar, Layout y Visualización). Úsalos como guía para estructurar tus
propias aplicaciones.

**Template reutilizable:** Este patrón de dashboard (configuración →
cacheo → sidebar → filtros → tabs → visualizaciones) es reutilizable.
Úsalo como punto de partida para cualquier dataset y adapta solo las
columnas, filtros y gráficos específicos de tu dominio.

::::

**Manos a la Obra**

### Dashboard de análisis de supervivencia (Titanic)

**Objetivo:** Integrar todos los conocimientos de la unidad para
construir una aplicación interactiva completa, optimizada y profesional.

**Contexto profesional:** El equipo de investigación histórica de la
universidad necesita un dashboard interactivo para explorar los datos
del Titanic y presentar hallazgos en una conferencia.

**Tu Misión (Autónomo):**

1.  **Datos:** Carga el dataset `titanic` desde Seaborn. Asegúrate de
    cachear la función de carga para mejorar el rendimiento.
2.  **Filtros (Sidebar):** Implementa al menos 3 filtros en la barra
    lateral:
    -   Slider para el rango de **Edad**.
    -   Selector multichoice para la **Clase** (`Pclass`).
    -   Radio buttons o Selectbox para el **Puerto de embarque**
        (`Embarked`).
3.  **KPIs:** Muestra en la parte superior el número total de pasajeros
    filtrados y la tasa de supervivencia (%) media para ese grupo.
4.  **Visualizaciones:** Crea un layout con pestañas (*tabs*) que
    contenga:
    -   **Tab 1:** Un histograma de edades coloreado por supervivencia.
    -   **Tab 2:** Un gráfico de barras interactivo que compare la
        supervivencia por clase y sexo.
5.  **Estética:** Configura la página para usar un layout ancho (`wide`)
    y añade un título y una descripción clara.

**Criterio de éxito:** Entrega de un script `app.py` funcional que se
ejecute sin errores. Los filtros deben actualizar dinámicamente tanto
los KPIs como ambos gráficos.

**Tiempo estimado:** 45 minutos

``` python
# Escribe tu codigo aqui
```