# Visualización - PT2
---

# La Importancia de la Visualización en el EDA y la Ciencia de Datos

## ¿Por qué es importante la visualización en el EDA?

El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) es una etapa clave en cualquier proyecto de ciencia de datos. Durante este proceso, la visualización de datos juega un rol crucial por varias razones:

- **Detección de patrones y tendencias**: Las gráficas permiten identificar relaciones entre variables, tendencias temporales, grupos o comportamientos anómalos que serían difíciles de detectar solo con estadísticas numéricas.

- **Identificación de outliers**: Mediante gráficos de dispersión, boxplots u otros tipos de visualización, es posible detectar valores atípicos que pueden afectar los resultados de los modelos.

- **Comprensión de la distribución**: Histogramas, KDE plots y diagramas de violín facilitan entender cómo se distribuyen los datos, lo cual influye directamente en la elección de modelos y transformaciones.

- **Evaluación de la calidad de los datos**: Las visualizaciones ayudan a encontrar datos faltantes, inconsistencias o problemas de codificación que deben ser corregidos antes de modelar.

## ¿Por qué es importante la visualización en la ciencia de datos en general?

Más allá del EDA, la visualización es esencial en todo el ciclo de vida del proyecto:

- **Comunicación efectiva**: La visualización convierte resultados complejos en historias comprensibles para audiencias no técnicas, como stakeholders o clientes.

- **Soporte en la toma de decisiones**: Dashboards y reportes interactivos permiten a los tomadores de decisiones explorar los datos y tomar acciones informadas.

- **Evaluación de modelos**: Gráficas como curvas ROC, matrices de confusión y gráficos de residuos son herramientas clave para analizar el rendimiento de los modelos de machine learning.

## ¿Por qué un científico de datos debe dominar estas habilidades?

- **Habilidad para explorar datos eficientemente**: El dominio de herramientas de visualización como Matplotlib, Seaborn, Plotly o Power BI permite al científico de datos trabajar de manera ágil y eficaz.

- **Mejora la colaboración interdisciplinaria**: La capacidad de presentar hallazgos de manera clara fortalece la colaboración con áreas como negocio, marketing o producto.

- **Facilita el storytelling con datos**: Saber cómo estructurar una narrativa visual ayuda a generar impacto con los análisis y a persuadir con evidencia basada en datos.

En resumen, la visualización es una herramienta indispensable que conecta la técnica con la comunicación. No es solo un complemento estético, sino una parte estratégica del trabajo del científico de datos.


### Catalogos: 

- https://datavizcatalogue.com/ES/
- https://datavizproject.com/
---

# [Plotly](https://plotly.com/)

Plotly es una biblioteca de visualización de datos interactiva basada en JavaScript, accesible desde Python mediante `plotly.py`. Es ampliamente utilizada para construir gráficos estáticos y dinámicos que permiten explorar los datos de manera intuitiva.

### Características principales:
- Interactividad nativa: zoom, hover, selección de datos.
- Compatible con gráficos 2D y 3D.
- Mapas, animaciones, dashboards.
- Soporte en navegadores, notebooks, frameworks web.
- Funciona con Plotly Express (interfaz simplificada) o Graph Objects (más personalizable).

### Beneficios:
- Ideal para analistas y científicos de datos que quieren comunicar insights.
- Reemplazo visual moderno para Matplotlib o Seaborn.
- Permite exportar HTMLs interactivos fácilmente.

## ¿Qué es Graph Objects (go)?
`plotly.graph_objects` es una interfaz más detallada que permite una personalización total de las visualizaciones. A diferencia de `plotly.express`, donde cada gráfico se genera automáticamente con un único comando, `go` te permite:

- Construir gráficos agregando trazas manualmente.
- Modificar cada componente del gráfico (ejes, anotaciones, leyendas, layout).
- Crear visualizaciones complejas, combinadas o altamente personalizadas.

> Se recomienda usar `plotly.express` para prototipos rápidos y `go` para producción o personalización avanzada.

- https://chart-studio.plotly.com/create/#/
- https://plotly-com.translate.goog/python/getting-started/?_x_tr_sl=en&_x_tr_tl=es&_x_tr_hl=es&_x_tr_pto=tc

### Instalación:

In [2]:
#!pip install -q plotly
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd
import numpy as np
import seaborn as sns

# Conjunto de datos:

El dataset Boston Housing es muy conocido en el ámbito del aprendizaje automático y análisis de datos. Contiene información sobre viviendas en Boston, y es ampliamente utilizado para estudiar la regresión. A continuación, te explico las variables que contiene este dataset:


1. **CRIM**: Tasa de criminalidad per cápita por ciudad.  
2. **ZN**: Proporción de terrenos residenciales zonificados para viviendas unifamiliares (porcentaje).  
3. **INDUS**: Proporción de acres ocupados por industrias no comerciales.  
4. **CHAS**: Indicador de si la propiedad está cerca del río Charles (1 = sí; 0 = no).  
5. **NOX**: Concentración de óxidos de nitrógeno en el aire (partes por 10 millones).  
6. **RM**: Promedio de número de habitaciones por vivienda.  
7. **AGE**: Porcentaje de viviendas ocupadas por propietarios construidas antes de 1940.  
8. **DIS**: Distancia ponderada a los 5 centros de empleo de Boston.  
9. **RAD**: Índice de accesibilidad a carreteras radiales.  
10. **TAX**: Tasa de impuestos sobre la propiedad (por cada \$10 000).  
11. **PTRATIO**: Relación alumno–maestro en las escuelas del barrio.  
12. **B**: Proporción de personas de ascendencia africana, calculada como:
13. **LSTAT**: Porcentaje de la población con nivel socioeconómico bajo.  
14. **MEDV**: Valor mediano de las viviendas ocupadas por sus propietarios (en miles de dólares).


In [3]:
data_url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"
df = pd.read_csv(data_url)
df.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [4]:
# Histograma
px.histogram(df, x='medv', nbins=30, title='Distribución del valor medio de viviendas').show()

In [5]:
fig = px.histogram(df, x='medv', nbins=30, title='Distribución del valor medio de viviendas')
fig.show()

In [6]:
# Boxplot
px.box(df, y='medv', title='Boxplot del valor medio de viviendas').show()

In [None]:
#limite inferior
17 - 1.5*(25-17)

#limite superior
25 + 1.5*(25-17)

In [None]:
# Dispersion simple
px.scatter(df, x='rm', y='medv', title='Valor vs Número de habitaciones').show()

In [None]:
# Dispersion con color y tamaño
px.scatter(df, x='rm', y='medv', color='chas', size='lstat',
           title='Valor vs Habitaciones, coloreado por proximidad al río').show()

In [None]:
# Barras
df['cat_rm'] = pd.cut(df['rm'], bins=4)
df['cat_rm_str'] = df['cat_rm'].astype(str)
df_cat = df.groupby('cat_rm_str')[['medv']].mean().reset_index()

fig = px.bar(df_cat, x='cat_rm_str', y='medv', title='Valor medio por categoría de número de habitaciones')
fig.show()

In [41]:
# areas
px.area(df, x='crim', y='medv', title='Área acumulativa de valor promedio').show()

In [10]:
# Heatmap
df_numeric = df.select_dtypes(include=[float, int])
corr = df_numeric.corr()

fig = px.imshow(
    corr,
    text_auto=".1f",   
    aspect="auto",
    title="Matriz de correlación (1 decimal)",
    color_continuous_scale="Reds"
)
fig.show()

In [8]:
corr

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,b,lstat,medv
crim,1.0,-0.200469,0.406583,-0.055892,0.420972,-0.219247,0.352734,-0.37967,0.625505,0.582764,0.289946,-0.385064,0.455621,-0.388305
zn,-0.200469,1.0,-0.533828,-0.042697,-0.516604,0.311991,-0.569537,0.664408,-0.311948,-0.314563,-0.391679,0.17552,-0.412995,0.360445
indus,0.406583,-0.533828,1.0,0.062938,0.763651,-0.391676,0.644779,-0.708027,0.595129,0.72076,0.383248,-0.356977,0.6038,-0.483725
chas,-0.055892,-0.042697,0.062938,1.0,0.091203,0.091251,0.086518,-0.099176,-0.007368,-0.035587,-0.121515,0.048788,-0.053929,0.17526
nox,0.420972,-0.516604,0.763651,0.091203,1.0,-0.302188,0.73147,-0.76923,0.611441,0.668023,0.188933,-0.380051,0.590879,-0.427321
rm,-0.219247,0.311991,-0.391676,0.091251,-0.302188,1.0,-0.240265,0.205246,-0.209847,-0.292048,-0.355501,0.128069,-0.613808,0.69536
age,0.352734,-0.569537,0.644779,0.086518,0.73147,-0.240265,1.0,-0.747881,0.456022,0.506456,0.261515,-0.273534,0.602339,-0.376955
dis,-0.37967,0.664408,-0.708027,-0.099176,-0.76923,0.205246,-0.747881,1.0,-0.494588,-0.534432,-0.232471,0.291512,-0.496996,0.249929
rad,0.625505,-0.311948,0.595129,-0.007368,0.611441,-0.209847,0.456022,-0.494588,1.0,0.910228,0.464741,-0.444413,0.488676,-0.381626
tax,0.582764,-0.314563,0.72076,-0.035587,0.668023,-0.292048,0.506456,-0.534432,0.910228,1.0,0.460853,-0.441808,0.543993,-0.468536


In [None]:
# Pie chart
df_pie = df['chas'].value_counts().reset_index()
df_pie.columns = ['chas', 'count']

px.pie(df_pie, names='chas', values='count', title='Proporción de casas cerca del río').show()

In [43]:
# Sunburst chart
df['tax_range'] = pd.cut(df['tax'], bins=3)
fig_sunburst = px.sunburst(df, path=['chas', 'tax_range'], values='medv',
                           title='Distribución jerárquica por río y rango de impuestos')
fig_sunburst.show()





In [11]:
# Histogramas múltiples
px.histogram(df, x='medv', color='chas', barmode='overlay', title='Distribución del valor por cercanía al río').show()

In [46]:
# Violin plot
px.violin(df, y='medv', box=True, points='all', title='Distribución del valor de viviendas').show()

In [47]:
# Facet grid con scatter
px.scatter(df, x='rm', y='medv', facet_col='chas', color='lstat',
           title='Valor vs Habitaciones segmentado por cercanía al río').show()

In [48]:
# 3D scatter plot
px.scatter_3d(df, x='rm', y='lstat', z='medv', color='crim',
              title='Relación 3D: Habitaciones, Status social, Valor').show()

In [15]:
# 15. Personalización avanzada con Graph Objects
trace = go.Scatter(x=df['rm'], y=df['medv'], mode='markers',
                   marker=dict(size=14, color=df['lstat'], colorscale='Viridis', showscale=True))


layout = go.Layout(title='Gráfico personalizado con Graph Objects',
                   xaxis_title='Habitaciones', yaxis_title='Valor medio')


fig_custom = go.Figure(data=[trace], layout=layout)
fig_custom.show()

In [16]:
# Layout con múltiples subplots
from plotly.subplots import make_subplots

fig_sub = make_subplots(rows=1, cols=2, subplot_titles=('Gráfico 1', 'Gráfico 2'))

fig_sub.add_trace(go.Scatter(x=df['rm'], y=df['medv'], mode='markers', name='Scatter'), row=1, col=1)
fig_sub.add_trace(go.Box(y=df['medv'], name='Boxplot'), row=1, col=2)
fig_sub.update_layout(title='Ejemplo de subplots con Graph Objects')
fig_sub.show()

In [None]:
# Grafico combinado (línea y barras)
fig_combo = go.Figure()
fig_combo.add_trace(go.Bar(x=df['chas'].astype(str), y=df['tax'], name='Tax'))
fig_combo.add_trace(go.Scatter(x=df['chas'].astype(str), y=df['rad'], mode='lines+markers', name='RAD'))
fig_combo.update_layout(title='Tax y RAD combinados', yaxis_title='Valor')
fig_combo.show()

In [49]:
# Gauge chart (indicador)
fig_gauge = go.Figure(go.Indicator(
    mode="gauge+number",
    value=df['medv'].mean(),
    title={'text': "Valor promedio de viviendas"},
    gauge={'axis': {'range': [0, 50]}, 'bar': {'color': "darkblue"}}
))
fig_gauge.show()

In [18]:
# 20. Añadir anotaciones y formas
fig_annot = go.Figure()
fig_annot.add_trace(go.Scatter(x=df['rm'], y=df['medv'], mode='markers'))
fig_annot.update_layout(
    title='Gráfico con anotaciones',
    annotations=[dict(x=6, y=36, text="Aquí hay una tendencia", showarrow=True, arrowhead=1)]
)
fig_annot.show()

In [None]:
# Grafico de densidad

fig = px.density_contour(
    df,
    x='lstat',               # % población con nivel socioeconomico bajo
    y='rm',                  # promedio de habitaciones por vivienda
    z='medv',               # valor mediano de la vivienda
    nbinsx=30,               # número de bins en eje x
    nbinsy=30,               # número de bins en eje y
    title='Contour de MEDV en función de LSTAT y RM'
)

fig.update_traces(
    contours_coloring='fill',
    contours_showlabels=True,
    contours_labelfont_size=12
)

fig.update_layout(
    xaxis_title='% Población nivel socioeconómico bajo (LSTAT)',
    yaxis_title='Número de habitaciones promedio (RM)'
)

fig.show()

In [78]:
fig1 = px.density_heatmap(
    df,
    x='lstat',
    y='rm',
    nbinsx=30,
    nbinsy=30,
    color_continuous_scale='Blues',
    title='2D Heatmap (cuadritos) de puntos LSTAT vs RM'
)
fig1.update_layout(
    xaxis_title='% Población nivel socioeconómico bajo (LSTAT)',
    yaxis_title='Número de habitaciones promedio (RM)'
)
fig1.show()

---
# Cloropeth

In [19]:
# Usar gapminder para mapa mundial
df_world = px.data.gapminder().query("year == 2007")

fig_choropleth = px.choropleth(df_world, locations="iso_alpha",
                                color="gdpPercap",
                                hover_name="country",
                                color_continuous_scale=px.colors.sequential.Plasma,
                                title='GDP per capita en el mundo (2007)')
fig_choropleth.show()

In [20]:
df_eur = px.data.gapminder().query("year == 2007 and continent == 'Europe'")
fig = px.choropleth(
    df_eur,
    locations="iso_alpha",
    color="lifeExp",
    hover_name="country",
    scope="europe",
    color_continuous_scale="Plasma",
    title="Esperanza de vida en Europa (2007)"
)
fig.update_geos(fitbounds="locations", visible=False)
fig.show()

In [None]:
import plotly.express as px

# datos
df_el = px.data.election()
geojson = px.data.election_geojson()

# 2. Plot
fig = px.choropleth(
    df_el,
    geojson=geojson,
    locations="district",            # nombres de distrito
    featureidkey="properties.district",
    color="Bergeron",                # % de votos a Bergeron
    hover_name="district",           # nombre que sale al hacer hover
    color_continuous_scale="Reds",
    title="Porcentaje de votos a Bergeron por distrito (Montréal 2017)"
)

fig.update_geos(fitbounds="locations", visible=False)
fig.show()

In [21]:
fig = px.choropleth(
    px.data.gapminder(),
    locations="iso_alpha",
    color="gdpPercap",
    hover_name="country",
    animation_frame="year",
    color_continuous_scale="Viridis",
    title="Evolución del PIB per cápita (1952–2007)"
)
fig.show()