<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/python/plotly.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📊 Visualización de datos interactiva con Plotly

## 1. ¿Qué es Plotly?

Plotly es una biblioteca de Python para **visualización de datos interactiva** y profesional. Es ideal para Data Science y Machine Learning porque permite explorar datos de forma dinámica y presentar resultados de manera clara.

**Ventajas principales de Plotly:**

* **Interactividad:** Zoom, filtrado y tooltips al pasar el cursor
* **Diversidad de gráficos:** Dispersión, líneas, barras, mapas geográficos, gráficos 3D, series temporales, entre otros
* **Integración con pandas:** Facilita trabajar con DataFrames directamente
* **Visualización profesional:** Gráficos listos para presentaciones o dashboards
* **Exploración de patrones:** Ideal para detectar correlaciones y tendencias antes de entrenar modelos de Machine Learning

---

## 2. Instalación y primeros pasos

```python
# Instalar Plotly (si no está preinstalado)
#!pip install plotly

# Importar las bibliotecas necesarias
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd
```

**Dos formas de usar Plotly:**

1. **Plotly Express (`px`)**: API de alto nivel, rápida y sencilla (recomendada para empezar)
2. **Graph Objects (`go`)**: Más control y personalización avanzada

---

## 3. Comparación: Matplotlib vs Plotly

| Característica                   | Matplotlib                    | Plotly                                            |
| -------------------------------- | ----------------------------- | ------------------------------------------------- |
| **Interactividad**               | Limitada                      | Total (zoom, hover, filtrado)                     |
| **Facilidad de uso**             | Moderada                      | Muy sencilla con `plotly.express`                 |
| **Tipos de gráficos**            | 2D principalmente             | 2D, 3D, mapas, series temporales                  |
| **Integración con pandas**       | Sí, pero requiere más código  | Directa y natural                                 |
| **Aptitud para ML/Data Science** | Buena para gráficos estáticos | Excelente para exploración y análisis interactivo |
| **Presentación profesional**     | Limitada                      | Alta, lista para dashboards y web                 |

**💡 Por qué usar Plotly en Data Science y ML:**

1. Exploras patrones y correlaciones **interactivamente**
2. Visualizas distribuciones y relaciones antes de entrenar modelos
3. Presentas resultados de forma profesional en informes o dashboards
4. Funciona perfectamente con **pandas**, **numpy** y librerías de ML

---

## 4. Tipos de gráficos en Plotly

| Tipo de gráfico               | Uso principal                        | Ejemplo rápido en Python                                             |
| ----------------------------- | ------------------------------------ | -------------------------------------------------------------------- |
| **Dispersión (`scatter`)**    | Explorar relaciones entre variables  | `px.scatter(df, x="sepal_length", y="sepal_width", color="species")` |
| **Líneas (`line`)**           | Series temporales o tendencias       | `px.line(df, x="date", y="value")`                                   |
| **Barras (`bar`)**            | Comparar cantidades entre categorías | `px.bar(df, x="category", y="count")`                                |
| **Histograma (`histogram`)**  | Distribución de datos                | `px.histogram(df, x="sepal_length")`                                 |
| **Boxplot (`box`)**           | Resumen estadístico y outliers       | `px.box(df, x="species", y="sepal_length")`                          |
| **Heatmap (`imshow`)**        | Matriz de correlaciones              | `px.imshow(df.corr())`                                               |
| **Mapa (`choropleth`)**       | Datos geográficos                    | `px.choropleth(df, locations="country", color="value")`              |
| **Gráfico 3D (`scatter_3d`)** | Visualizar 3 dimensiones             | `px.scatter_3d(df, x="x", y="y", z="z", color="category")`           |

---

## 5. Ejemplo 1: Análisis exploratorio con Iris

```python
import plotly.express as px

# Cargar dataset
df = px.data.iris()

# 1. Gráfico de dispersión interactivo
fig = px.scatter(df, x="sepal_length", y="sepal_width",
                 color="species", size="petal_length",
                 hover_data=["petal_width"],
                 title="Análisis de características del Iris")
fig.show()

# 2. Boxplot para detectar outliers
fig2 = px.box(df, x="species", y="sepal_length",
              title="Distribución de longitud de sépalo por especie",
              color="species")
fig2.show()

# 3. Histograma de distribuciones
fig3 = px.histogram(df, x="petal_length", color="species",
                    marginal="box",  # Añade boxplot en el margen
                    title="Distribución de longitud de pétalo")
fig3.show()
```

**🎯 Insight de ML:** Estos gráficos te ayudan a identificar qué características (features) tienen mejor separabilidad entre clases antes de entrenar un clasificador.

---

## 6. Ejemplo 2: Matriz de correlación para Feature Engineering

```python
import plotly.express as px
import pandas as pd

# Cargar dataset
df = px.data.iris()

# Seleccionar solo columnas numéricas
numeric_cols = df.select_dtypes(include=['float64', 'int64']).columns
df_numeric = df[numeric_cols]

# Calcular matriz de correlación
corr_matrix = df_numeric.corr()

# Visualizar con heatmap
fig = px.imshow(corr_matrix,
                text_auto=True,  # Mostrar valores
                aspect="auto",
                color_continuous_scale="RdBu_r",
                title="Matriz de correlación - Dataset Iris")
fig.show()
```

**🎯 Insight de ML:** Las correlaciones altas entre features pueden indicar redundancia. Puedes usar esta información para Feature Selection o detección de multicolinealidad.

---

## 7. Ejemplo 3: Análisis de series temporales

```python
import plotly.express as px
import pandas as pd
import numpy as np

# Crear datos de ejemplo (serie temporal)
dates = pd.date_range('2023-01-01', periods=100, freq='D')
data = {
    'fecha': dates,
    'ventas': np.cumsum(np.random.randn(100)) + 100,
    'visitas': np.cumsum(np.random.randn(100)) + 500
}
df = pd.DataFrame(data)

# Gráfico de líneas con zoom temporal
fig = px.line(df, x='fecha', y=['ventas', 'visitas'],
              title='Evolución temporal de métricas',
              labels={'value': 'Cantidad', 'variable': 'Métrica'})

# Añadir rango selector (útil para ML con datos temporales)
fig.update_xaxes(
    rangeslider_visible=True,
    rangeselector=dict(
        buttons=list([
            dict(count=7, label="1w", step="day", stepmode="backward"),
            dict(count=1, label="1m", step="month", stepmode="backward"),
            dict(step="all")
        ])
    )
)
fig.show()
```

**🎯 Insight de ML:** Ideal para detectar tendencias, estacionalidad y anomalías antes de aplicar modelos de forecasting como ARIMA o Prophet.

---

## 8. Ejemplo 4: Visualización 3D para clustering

```python
import plotly.express as px
from sklearn.datasets import make_blobs

# Generar datos sintéticos de clustering
X, y = make_blobs(n_samples=300, n_features=3, centers=4, random_state=42)

# Crear DataFrame
df = pd.DataFrame(X, columns=['Feature_1', 'Feature_2', 'Feature_3'])
df['Cluster'] = y

# Gráfico 3D interactivo
fig = px.scatter_3d(df, x='Feature_1', y='Feature_2', z='Feature_3',
                    color='Cluster',
                    title='Visualización 3D de Clusters',
                    opacity=0.7)
fig.show()
```

**🎯 Insight de ML:** Perfecto para evaluar visualmente la calidad de algoritmos de clustering como K-Means o DBSCAN.

---

## 9. Ejemplo 5: Comparación de modelos de ML

```python
import plotly.graph_objects as go

# Resultados de diferentes modelos (ejemplo)
modelos = ['Random Forest', 'SVM', 'Logistic Regression', 'XGBoost']
accuracy = [0.92, 0.88, 0.85, 0.94]
f1_score = [0.91, 0.87, 0.84, 0.93]
precision = [0.90, 0.89, 0.86, 0.92]

# Crear gráfico de barras agrupadas
fig = go.Figure(data=[
    go.Bar(name='Accuracy', x=modelos, y=accuracy),
    go.Bar(name='F1-Score', x=modelos, y=f1_score),
    go.Bar(name='Precision', x=modelos, y=precision)
])

fig.update_layout(
    title='Comparación de métricas entre modelos',
    xaxis_title='Modelos',
    yaxis_title='Score',
    barmode='group',
    yaxis=dict(range=[0, 1])
)
fig.show()
```

**🎯 Insight de ML:** Facilita la presentación de resultados y la selección del mejor modelo según múltiples métricas.

---

## 10. Personalización y tips avanzados

```python
import plotly.express as px

df = px.data.iris()

# Gráfico con personalización avanzada
fig = px.scatter(df, x="sepal_length", y="sepal_width",
                 color="species",
                 title="Gráfico personalizado")

# Personalizar diseño
fig.update_layout(
    template="plotly_dark",  # Tema oscuro
    font=dict(size=14),
    hovermode='closest',
    showlegend=True
)

# Personalizar ejes
fig.update_xaxes(title_font=dict(size=16, color='white'))
fig.update_yaxes(title_font=dict(size=16, color='white'))

fig.show()
```

**💡 Tips profesionales:**

* Usa `template` para cambiar el tema: `"plotly"`, `"plotly_white"`, `"plotly_dark"`, `"ggplot2"`, `"seaborn"`
* Añade anotaciones con `fig.add_annotation()` para destacar puntos importantes
* Exporta gráficos con `fig.write_html("grafico.html")` o `fig.write_image("grafico.png")`
* Para dashboards, combina Plotly con **Dash** o **Streamlit**

---

## 11. Recursos adicionales

* **Documentación oficial:** [plotly.com/python](https://plotly.com/python/)
* **Galería de ejemplos:** [plotly.com/python/gallery](https://plotly.com/python/gallery/)
* **Datasets de práctica:** `px.data` incluye varios datasets precargados

---

## 🎓 Ejercicios propuestos

1. **Exploración básica:** Carga un dataset de tu elección y crea 3 gráficos diferentes para explorar las relaciones entre variables
2. **Matriz de correlación:** Visualiza la correlación entre features y elimina las que sean redundantes
3. **Series temporales:** Descarga datos de acciones bursátiles y visualiza su evolución con rangeslider
4. **Clustering:** Aplica K-Means a un dataset y visualiza los clusters en 3D
5. **Comparación de modelos:** Entrena 3 modelos diferentes y compara sus métricas con un gráfico interactivo

---