# Principios de Inform√°tica: Visualizaci√≥n de Datos üìä
### Convirtiendo n√∫meros en historias visuales

**Curso:** Principios de Inform√°tica

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://githubtocolab.com/EnriqueVilchezL/principios_de_info/blob/main/12_visualizacion_de_datos/visualizacion_de_datos.ipynb)

---

## üó∫Ô∏è Objetivos y Contenidos

Este notebook es una gu√≠a interactiva para dominar la **visualizaci√≥n de datos** en Python, enfoc√°ndose en la integraci√≥n de las bibliotecas de graficaci√≥n (principalmente **Matplotlib** y **Seaborn**) con las estructuras clave de **Pandas** y **NumPy**. Se explorar√°n las t√©cnicas para transformar datos anal√≠ticos en **gr√°ficos informativos y personalizados**, esenciales en el campo de la Ciencia de Datos.

> "La visualizaci√≥n es el puente fundamental que convierte los complejos resultados de la computaci√≥n num√©rica y el an√°lisis de datos en una narrativa clara y accesible."

**Importancia:**
* **Bibliotecas de Graficaci√≥n** (Matplotlib/Seaborn) son las herramientas *de facto* para **comunicar hallazgos** y realizar **an√°lisis exploratorio de datos (EDA)** en Python.
* **Integraci√≥n** con bibliotecas como **NumPy** y **Pandas** es crucial para mantener un flujo de trabajo eficiente desde la manipulaci√≥n de datos hasta su representaci√≥n gr√°fica.
* Dominar los **Tipos de Gr√°ficos** correctos permite a los analistas elegir la mejor manera de representar tendencias, distribuciones y relaciones para el p√∫blico cient√≠fico.

**Contenidos:**
1.  Bibliotecas de Graficaci√≥n: Introducci√≥n a las herramientas principales (Matplotlib, Seaborn).
2.  Integraci√≥n con Bibliotecas de Computaci√≥n Num√©rica y An√°lisis de Datos: Visualizaci√≥n de **arreglos NumPy** y **DataFrames de Pandas**.
3.  Tipos de Gr√°ficos Relevantes para Ciencias
4.  Personalizaci√≥n de Gr√°ficos B√°sicos: Ajuste de elementos clave para una comunicaci√≥n efectiva (t√≠tulos, etiquetas, leyendas).

---

### ¬øPor qu√© una imagen vale m√°s que mil n√∫meros? üñºÔ∏è

En ciencia e ingenier√≠a, generamos y recolectamos enormes cantidades de datos. Una tabla con miles de n√∫meros es dif√≠cil de interpretar. ¬øHay una tendencia? ¬øExisten valores at√≠picos? ¬øC√≥mo se relacionan dos variables?

La **visualizaci√≥n de datos** es el arte y la ciencia de representar datos de forma gr√°fica. Un buen gr√°fico puede revelar patrones, tendencias y correlaciones que pasar√≠an desapercibidas en los datos crudos. Nos permite comunicar nuestros hallazgos de una manera clara, potente y universal.

---

## 1. Bibliotecas de Graficaci√≥n

---

Python tiene un ecosistema muy rico para la visualizaci√≥n de datos. Nos centraremos en dos de las bibliotecas m√°s importantes:

* **Matplotlib**: Es la biblioteca de graficaci√≥n por excelencia de Python. Es extremadamente potente y personalizable, aunque a veces puede ser un poco verbosa (ocupa de mucho c√≥digo para lograr algo simple). Es la base sobre la que se construyen muchas otras bibliotecas.
* **Seaborn**: Construida sobre Matplotlib, Seaborn proporciona una interfaz de m√°s alto nivel para crear gr√°ficos estad√≠sticos atractivos y complejos con menos c√≥digo.

---

Para instalarlas, se puede escribir:

In [None]:
!pip install matplotlib seaborn

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

import numpy as np
import pandas as pd

---

## 2. Integraci√≥n con las bibliotecas de computaci√≥n num√©rica y an√°lisis de datos

Estas bibliotecas se pueden integrar muy bien con bibliotecas como `NumPy` y `Pandas`.

---

### Interfaz de Axes

Esta interfaz sigue un enfoque orientado a objetos y emplea m√©todos para realizar acciones como a√±adir datos, definir los l√≠mites de los ejes o establecer etiquetas, entre otras. Ofrece un control detallado sobre numerosos aspectos y resulta especialmente recomendable para crear visualizaciones complejas o con varios gr√°ficos.

La estructura fundamental de una visualizaci√≥n programada mediante esta interfaz se compone de dos tipos de objetos principales:
- `Figure` (figura): act√∫a como el contenedor general de todos los gr√°ficos. Es como un **lienzo** o espacio sobre el cual se dibujan los elementos visuales.
- `Axes` (gr√°ficos o subgr√°ficos): representan los **gr√°ficos** dentro de la figura. Cada objeto de la clase Axes incluye los componentes visuales, como l√≠neas, barras, histogramas, t√≠tulos y etiquetas.

---

Para iniciar se usa la funci√≥n `subplots()`, que acepta de argumentos el tama√±o de la figura y la cantidad de gr√°ficos que se quieren hacer en un solo lienzo. El tama√±o de la figura es una tupla, de la forma `(ancho, alto)`.

In [None]:
# Datos experimentales: mediciones de voltaje (V) y corriente (A)
voltaje = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15])
corriente = np.array([0.12, 0.25, 0.36, 0.49, 0.61, 0.74, 0.86, 0.98, 1.11, 1.22, 1.36, 1.47, 1.59, 1.73, 1.85])

In [None]:
# Crear figura y ejes
fig, ax = plt.subplots(figsize=(8, 6))

# Gr√°fico de dispersi√≥n (Voltaje vs Corriente)
ax.plot(
    voltaje, 
    corriente,
    color="red",
    marker="o"
)

# Mostrar gr√°fico
fig.show()

Ojo que **NO** se hace `ax.show()`, si no que se muestra la figura con `fig.show()`.

Para mostrar varios gr√°ficos en una misma figura, se puede pasar como par√°metros la cantidad y forma de los gr√°ficos. Los par√°metros son el n√∫mero de filas `nrows` y el n√∫mero de columnas `ncols`. Si hay m√°s de un gr√°fico, `ax` ya no es un √∫nico gr√°fico, si no una tupla de gr√°ficos.

In [None]:
# Datos experimentales: esfuerzo (MPa) vs deformaci√≥n (mm/mm)
esfuerzo = np.linspace(0, 400, 15)  # De 0 a 400 MPa

# Dos materiales distintos
deformacion_Aluminio = np.array([0.0, 0.0005, 0.0011, 0.0016, 0.0022, 0.0027, 0.0031, 0.0036, 0.0041, 0.0047, 0.0053, 0.0058, 0.0063, 0.0069, 0.0074])
deformacion_Acero = np.array([0.0, 0.0003, 0.0006, 0.0008, 0.0011, 0.0013, 0.0016, 0.0018, 0.0021, 0.0024, 0.0028, 0.0032, 0.0037, 0.0042, 0.0048])

# Crear DataFrame
df = pd.DataFrame({
    "Esfuerzo (MPa)": esfuerzo,
    "Deformaci√≥n Aluminio": deformacion_Aluminio,
    "Deformaci√≥n Acero": deformacion_Acero
})

df.head()

In [None]:
# Crear la figura
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(8,6))

# Scatter plots de ambos materiales
axes[0].plot(
    df["Esfuerzo (MPa)"],
    df["Deformaci√≥n Aluminio"],
    color="orange",
    marker="o"
)
axes[1].plot(
    df["Esfuerzo (MPa)"],
    df["Deformaci√≥n Acero"],
    color="steelblue",
    marker="o"
)

# Mostrar la figura
fig.show()

Esta figura puede que sea visualmente entendible, pero para alguien que no conoce los datos es poco informativa, pues no hay etiquetas en los ejes ni hay t√≠tulo en la figura. Esto es parte del estilo y decoraci√≥n de cada gr√°fico.

In [None]:
# Crear la figura
fig, ax = plt.subplots(figsize=(8,6))

# Scatter plots de aluminio
ax.plot(
    df["Esfuerzo (MPa)"],
    df["Deformaci√≥n Aluminio"],
    color="orange",
    marker="o"
)

# Decoraci√≥n del gr√°fico
ax.set_title("Esfuerzo vs Deformaci√≥n del Aluminio")
ax.set_ylabel("Deformaci√≥n (mm/mm)")
ax.set_xlabel("Esfuerzo (MPa)")

# Mostrar la figura
fig.show()

Lo mismo se puede para `n` gr√°ficos.

In [None]:
# Crear la figura
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(8,6))

# Scatter plots de ambos materiales
axes[0].plot(
    df["Esfuerzo (MPa)"],
    df["Deformaci√≥n Aluminio"],
    color="orange",
    marker="o"
)
axes[1].plot(
    df["Esfuerzo (MPa)"],
    df["Deformaci√≥n Acero"],
    color="steelblue",
    marker="o"
)

# Decoraci√≥n del primer gr√°fico
axes[0].set_title("Esfuerzo vs Deformaci√≥n del Aluminio")
axes[0].set_ylabel("Deformaci√≥n (mm/mm)")
axes[0].set_xlabel("Esfuerzo (MPa)")

# Decoraci√≥n del segundo gr√°fico
axes[1].set_title("Esfuerzo vs Deformaci√≥n del Acero")
axes[1].set_ylabel("Deformaci√≥n (mm/mm)")
axes[1].set_xlabel("Esfuerzo (MPa)")

fig.suptitle("Esfuerzo vs Deformaci√≥n para dos materiales", fontsize=16)

# Mostrar la figura
fig.show()

N√≥tese que en general, la forma de crear visualizaciones con `matplotlib` es:

- Definir los datos.
- Crear la figura y los gr√°ficos con `.subplots()`.
- Estilizar los gr√°ficos.
- Mostrar la figura.

---

#### üå¨Ô∏è Ejercicio: Turbina e√≥lica

Se quiere analizar c√≥mo cambia la potencia el√©ctrica producida por una turbina seg√∫n la velocidad del viento, y comparar dos modelos de turbina.

Los datos de ambas turbinas est√°n dados de esta forma:

| Velocidad del viento (m/s) | Potencia Turbina A (kW) | Potencia Turbina B (kW) |
|-----------------------------|--------------------------|--------------------------|
| 2.0 | 0 | 0 |
| 3.6 | 0 | 0 |
| 5.3 | 10 | 5 |
| 7.0 | 40 | 25 |
| 8.7 | 90 | 70 |
| 10.4 | 160 | 150 |
| 12.1 | 250 | 240 |
| 13.9 | 360 | 340 |
| 15.6 | 480 | 460 |
| 17.3 | 600 | 580 |
| 19.0 | 650 | 620 |
| 20.7 | 680 | 640 |
| 22.4 | 690 | 645 |
| 24.1 | 700 | 645 |
| 25.0 | 700 | 640 |

Cree un gr√°fico que muestre c√≥mo cambia la potencia de cada turbina respecto a la velocidad del viento.

---

In [None]:
# Datos
data = {
    'Velocidad del viento (m/s)': [2.0, 3.6, 5.3, 7.0, 8.7, 10.4, 12.1, 13.9, 15.6, 17.3, 19.0, 20.7, 22.4, 24.1, 25.0],
    'Potencia Turbina A (kW)': [0, 0, 10, 40, 90, 160, 250, 360, 480, 600, 650, 680, 690, 700, 700],
    'Potencia Turbina B (kW)': [0, 0, 5, 25, 70, 150, 240, 340, 460, 580, 620, 640, 645, 645, 640]
}

df = pd.DataFrame(data)
df.head()

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Scatter plots de ambas turbinas
ax.plot(
    df["Velocidad del viento (m/s)"],
    df["Potencia Turbina A (kW)"],
    color="orange",
    label="Turbina A",
    marker="o"
)
ax.plot(
    df["Velocidad del viento (m/s)"],
    df["Potencia Turbina B (kW)"],
    color="steelblue",
    label="Turbina B",
    marker="o"
)

# Decoraci√≥n del primer gr√°fico
ax.set_title("Potencia vs Velocidad del Viento para dos Turbinas")
ax.set_xlabel("Velocidad del viento (m/s)")
ax.set_ylabel("Potencia (kW)")
ax.legend()

fig.show()

---

## 3. Tipos de gr√°ficos

---

Existen varios tipos de gr√°ficos √∫tiles para el an√°lisis de datos y relevantes para ciencias, que se puede hacer en `matplotlib`.
Para explicar los conceptos, se va a usar el conjunto de datos de `Taxis`, que tiene informaci√≥n de los pasajeros de taxis.

---

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/taxis.csv")
df.head(5)

In [None]:
len(df)

Antes de hacer un an√°lisis gr√°fico, **hay** que hacer limpieza de datos. Pueden haber datos sucios e incompletos.

In [None]:
df.info()

Hay algunas columnas que presentan datos nulos. Dependiendo de si el dato es num√©rico o categ√≥rico, se pueden hacer varias cosas para limpiar los datos:

**Para los num√©ricos**

| Estrategia | Descripci√≥n | Ejemplo en c√≥digo | Cu√°ndo usarla |
|-------------|--------------|------------------|----------------|
| **Rellenar con promedio (mean)** | Sustituye los valores faltantes con el promedio de la columna. | `df['age'].fillna(df['age'].mean(), inplace=True)` | Cuando los valores no tienen sesgo fuerte (distribuci√≥n normal). |
| **Rellenar con mediana (median)** | Usa el valor central para evitar influencia de valores extremos. | `df['fare'].fillna(df['fare'].median(), inplace=True)` | Cuando hay outliers o valores muy grandes/peque√±os. |
| **Rellenar con un valor fijo** | Usa un valor constante, por ejemplo 0 o -1. | `df['age'].fillna(0, inplace=True)` | Cuando el valor faltante significa ‚Äúausencia‚Äù o ‚Äúno aplica‚Äù. |
| **Interpolaci√≥n** | Calcula valores faltantes bas√°ndose en los vecinos (tendencia). | `df['age'].interpolate(inplace=True)` | Para series num√©ricas o temporales. |
| **Eliminaci√≥n de filas/columnas** | Quita los registros con valores faltantes. | `df.dropna(subset=['age'], inplace=True)` | Si hay pocos datos faltantes o no se pueden imputar. |

**Para los categ√≥ricos**

| Estrategia | Descripci√≥n | Ejemplo en c√≥digo | Cu√°ndo usarla |
|-------------|--------------|------------------|----------------|
| **Rellenar con la moda (valor m√°s frecuente)** | Sustituye los valores faltantes con la categor√≠a m√°s com√∫n. | `df['embarked'].fillna(df['embarked'].mode()[0], inplace=True)` | Cuando hay pocas categor√≠as y una domina claramente. |
| **Agregar categor√≠a ‚ÄúDesconocido‚Äù** | Crea una etiqueta especial para los datos faltantes. | `df['cabin'].fillna('Desconocido', inplace=True)` | Cuando quieres conservar la informaci√≥n de que faltaba el dato. |
| **Eliminar filas o columnas** | Borra datos faltantes si son pocos o irrelevantes. | `df.dropna(subset=['embarked'], inplace=True)` | Si el porcentaje de valores nulos es bajo. |



In [None]:
# Por ejemplo, si hubieran valores nulos en la factura
df["total"].fillna(df["total"].mean(), inplace=True)

In [None]:
# A modo de ejemplo, llenar otros valores nulos con la hilera "Unknown"
df["payment"].fillna("Unknown", inplace=True)

# A modo de ejemplo, llenar otros valores nulos con la moda
df["pickup_zone"].fillna(df["pickup_zone"].mode()[0], inplace=True)
df["dropoff_zone"].fillna(df["dropoff_zone"].mode()[0], inplace=True)
df["pickup_borough"].fillna(df["pickup_borough"].mode()[0], inplace=True)
df["dropoff_borough"].fillna(df["dropoff_borough"].mode()[0], inplace=True)

### üìà 0. Gr√°ficos de l√≠neas

Los **gr√°ficos de l√≠neas** se emplean para mostrar la evoluci√≥n de una variable continua a lo largo del tiempo o en funci√≥n de otra variable.  
Son √∫tiles para **detectar tendencias, cambios o comportamientos peri√≥dicos**.

**Ejemplos de uso:**
- Temperatura ambiental a lo largo del d√≠a.  
- Variaci√≥n del voltaje con el tiempo.  
- Crecimiento de una poblaci√≥n bacteriana durante un experimento.

**Caracter√≠sticas:**
- Eje X: variable independiente (por ejemplo, tiempo).  
- Eje Y: variable dependiente (por ejemplo, temperatura).  
- Las l√≠neas conectan los puntos de datos consecutivos.

---

**Pregunta**: ¬øC√≥mo cambia el total cobrado conforme avanza el tiempo?

In [None]:
import matplotlib.dates as mdates

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Ordenar por tiempo de bajada
ordered_df = df.sort_values(by="dropoff")

# Grafico de lineas
ax.plot(
    ordered_df.head(100)["dropoff"],
    ordered_df.head(100)["total"],
    color="purple"
)

# Decoraci√≥n del gr√°fico
ax.set_title("Total cobrado en funci√≥n del tiempo de bajada")
ax.set_xlabel("Tiempo de bajada")
ax.set_ylabel("Total cobrado (USD)")

# Formato de fechas en el eje x
ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
ax.tick_params(axis='x', rotation=45)

fig.show()

### üìä 1. Gr√°ficos de barras

Los **gr√°ficos de barras** se utilizan para **comparar cantidades entre diferentes categor√≠as o grupos**.  
Son especialmente √∫tiles cuando la variable independiente es **categ√≥rica o discreta**, y se desea visualizar diferencias claras entre los valores.

**Ejemplos de uso:**
- Consumo promedio de energ√≠a por tipo de edificio.  
- Producci√≥n por planta industrial.  
- Cantidad de pasajeros por clase en el Titanic.  
- Puntuaciones medias de distintas pruebas o materias.

**Caracter√≠sticas:**
- **Eje X:** categor√≠as (por ejemplo, tipo de material, ciudad, clase).  
- **Eje Y:** valores cuantitativos asociados a cada categor√≠a.  
- Cada barra representa una categor√≠a, y su altura indica el valor correspondiente.  
- Se pueden usar **colores o agrupaciones** para representar subcategor√≠as (por ejemplo, barras apiladas o agrupadas).

---

**Pregunta**: ¬øCu√°les son las 5 ciudades m√°s visitadas como punto de llegada?

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Calcular total de viajes
total_viajes = df["dropoff_zone"].value_counts()
viajes_ordenados = total_viajes.sort_values(ascending=False)
primeros_5 = viajes_ordenados.head(5)

# Grafico de lineas
ax.bar(
    primeros_5.index,
    primeros_5.values,
    color=["red", "blue", "green", "orange", "purple"]
)

# Decoraci√≥n del gr√°fico
ax.set_title("Top 5 zonas de bajada m√°s visitadas")
ax.set_xlabel("Zonas de bajada")
ax.set_ylabel("Total de viajes")

ax.tick_params(axis='x', rotation=45)

fig.show()

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Calcular total de viajes
total_viajes = df["dropoff_zone"].value_counts()
viajes_ordenados = total_viajes.sort_values(ascending=False)
primeros_5 = viajes_ordenados.head(5)

# Grafico de lineas horizontales
ax.barh(
    primeros_5.index[::-1],
    primeros_5.values[::-1],
    color=["red", "blue", "green", "orange", "purple"][::-1]
)

# Decoraci√≥n del gr√°fico
ax.set_title("Top 5 zonas de bajada m√°s visitadas")
ax.set_xlabel("Zonas de bajada")
ax.set_ylabel("Total de viajes")

ax.tick_params(axis='x', rotation=45)

fig.show()

### üî¨ 2. Gr√°ficos de dispersi√≥n

Los **gr√°ficos de dispersi√≥n** (scatter plots) muestran la relaci√≥n entre **dos variables cuantitativas**.  
Cada punto representa una observaci√≥n individual.

**Ejemplos de uso:**
- Esfuerzo vs. deformaci√≥n en un material.  
- Altura vs. peso de un grupo de personas.  
- Velocidad del viento vs. potencia generada por una turbina.

**Caracter√≠sticas:**
- Permiten identificar **correlaciones** (positivas, negativas o nulas).  
- Se pueden usar colores o tama√±os de puntos para representar una tercera variable.

---

**Pregunta**: ¬øComo cambia la cantidad total pagada respecto a la distancia recorrida?

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Grafico de lineas
ax.scatter(
    df["total"],
    df["distance"],
    color="green"
)

# Decoraci√≥n del gr√°fico
ax.set_title("Distancia vs Total pagado")
ax.set_xlabel("Total pagado (USD)")
ax.set_ylabel("Distancia (millas)")

fig.show()

### üìä 3. Histogramas

Los **histogramas** muestran la **distribuci√≥n de frecuencias** de una variable num√©rica.  
Dividen los datos en **intervalos (bins)** y cuentan cu√°ntas observaciones caen en cada uno.

**Ejemplos de uso:**
- Distribuci√≥n de tama√±os de part√≠culas en una muestra.  
- Frecuencia de temperaturas registradas en un mes.  
- Variaci√≥n de errores experimentales en mediciones repetidas.

**Caracter√≠sticas:**
- Eje X: valores de la variable agrupados por intervalos.  
- Eje Y: frecuencia (n√∫mero de observaciones por intervalo).  
- √ötiles para analizar **tendencias, sesgos y dispersi√≥n** en los datos.

---

**Pregunta**: ¬øCu√°l fue la distribuci√≥n de propinas pagadas por los pasajeros?

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Rangos del histograma
bins = [0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

# Grafico de lineas
ax.hist(
    df["tip"],
    bins=bins,
    color="red"
)

# Decoraci√≥n del gr√°fico
ax.set_title("Propina vs Total pagado")
ax.set_ylabel("Frecuencia")
ax.set_xlabel("Propina (USD)")

fig.show()

### üå°Ô∏è 4. Mapas de calor

Los **mapas de calor** (heatmaps) representan datos en una **matriz bidimensional**, donde los valores se codifican mediante una **escala de colores**.  
Permiten observar patrones, concentraciones o correlaciones en grandes conjuntos de datos.

**Ejemplos de uso:**
- Matrices de correlaci√≥n entre variables.  
- Distribuci√≥n de temperatura en una superficie.  
- Densidad de tr√°fico o concentraci√≥n de contaminantes en un √°rea.

**Caracter√≠sticas:**
- Ejes X e Y: categor√≠as o coordenadas espaciales.  
- Color: representa la magnitud del valor (intensidad, temperatura, densidad, etc.).  
- Ideales para **identificar zonas de mayor o menor actividad**.

---

**Pregunta**: ¬øQu√© tan correlacionadas est√°n las variables num√©ricas (total, tip, distance, etc.) entre s√≠?

La **correlaci√≥n** mide **qu√© tan fuerte** y **en qu√© direcci√≥n** se relacionan dos variables num√©ricas.  
En an√°lisis de datos y visualizaci√≥n cient√≠fica (por ejemplo, con un *heatmap*), se utiliza para entender si un cambio en una variable est√° asociado con un cambio en otra.

In [None]:
corr = df.corr(numeric_only=True)
corr

El **coeficiente de correlaci√≥n de Pearson (r)** toma valores entre **-1 y +1**:

| Valor de **r** | Tipo de relaci√≥n | Interpretaci√≥n |
|----------------|------------------|----------------|
| **+1.0** | Perfectamente positiva | Cuando una variable sube, la otra tambi√©n sube en la misma proporci√≥n. |
| **+0.7 a +0.9** | Fuerte positiva | Ambas variables tienden a aumentar juntas. |
| **+0.3 a +0.6** | Moderada positiva | Relaci√≥n visible pero no exacta. |
| **0** | Nula | No hay relaci√≥n lineal entre las variables. |
| **-0.3 a -0.6** | Moderada negativa | Cuando una variable aumenta, la otra tiende a disminuir. |
| **-0.7 a -1.0** | Fuerte negativa | Son casi inversamente proporcionales. |

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Mapa de calor
sns.heatmap(
    corr,
    cmap="Reds", # Paleta de colores
    annot=True,  # Mostrar los valores en cada celda
    ax=ax
)

# Decoraci√≥n del gr√°fico
ax.set_title("Mapa de calor de correlaciones entre variables num√©ricas")

fig.show()

**Pregunta**: ¬øQu√© combinaciones de tipos de pago (payment) y color del auto (color) concentran m√°s viajes?

In [None]:
combinaciones = pd.crosstab(df["payment"], df["color"])
combinaciones

In [None]:
fig, ax = plt.subplots(figsize=(8,6))

# Mapa de calor
sns.heatmap(
    combinaciones,
    cmap="Blues", # Paleta de colores
    annot=True,  # Mostrar los valores en cada celda
    fmt=".0f",
    ax=ax
)

# Decoraci√≥n del gr√°fico
ax.set_title("Mapa de calor de combinaciones entre m√©todos de pago y colores de autos")

fig.show()

### üåÑ 5. Gr√°ficos de superficie

Los **gr√°ficos de superficie** representan **tres variables** al mismo tiempo: dos independientes (en los ejes X e Y) y una dependiente (en el eje Z).  
Son √∫tiles para visualizar **fen√≥menos tridimensionales o multivariados**.

**Ejemplos de uso:**
- Temperatura en funci√≥n de la posici√≥n (x, y) en una placa met√°lica.  
- Topograf√≠a del terreno (altitud vs. coordenadas).  
- Eficiencia de un proceso frente a presi√≥n y temperatura.

**Caracter√≠sticas:**
- Pueden representarse en 3D o como mapas de contorno (contour plots).  
- Permiten visualizar **gradientes y zonas cr√≠ticas** en un sistema.

---

**Pregunta**: ¬øC√≥mo var√≠a la el total pagado en funci√≥n de la distancia recorrida y los peajes?

In [None]:
fig, ax = plt.subplots(figsize=(8,6), subplot_kw={"projection": "3d"})

# Grafico de lineas
ax.scatter(
    df["tolls"],
    df["distance"],
    df["total"],
    color="yellow"
)

# Decoraci√≥n del gr√°fico
ax.set_title("Total pagado en funci√≥n de la distancia y los peajes")
ax.set_xlabel("Peajes (USD)")
ax.set_ylabel("Distancia (millas)")
ax.set_zlabel("Total pagado (USD)")

fig.show()

O, funciones matem√°ticas complejas.

In [None]:
fig, ax = plt.subplots(subplot_kw={"projection": "3d"})

# Crear datos
X = np.arange(-5, 5, 0.25)
Y = np.arange(-5, 5, 0.25)
X, Y = np.meshgrid(X, Y)
R = np.sqrt(X**2 + Y**2)
Z = np.sin(R)

# Plot the surface.
surf = ax.plot_surface(
    X,
    Y,
    Z,
    cmap='viridis'
)

# Personalizar el eje z
ax.set_zlim(-1.01, 1.01)
ax.zaxis.set_major_formatter('{x:.02f}') # Para restringir a dos decimales el eje z

# Agregar una barra de colores que mapea los valores a colores.
fig.colorbar(surf)

plt.show()

#### üö¢ Ejercicio: Titanic

Cargue en un dataframe los datos del link `https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv`. El conjunto de datos de `Titanic` tiene datos de los pasajeros de Titanic. Responda las siguientes preguntas utilizando los siguientes gr√°ficos:

1.	**Distribuci√≥n de edades:**
  - Genere un histograma o gr√°fico de densidad que muestre la distribuci√≥n de la variable age.
  - ¬øQu√© rango de edades es m√°s frecuente?

2.	**Supervivencia por clase:**
  - Muestre mediante un gr√°fico de barras o countplot c√≥mo var√≠a la supervivencia seg√∫n la class.
  - ¬øSe observa una relaci√≥n entre la clase del pasajero y la supervivencia?

3.	**Relaci√≥n entre edad y tarifa (age vs fare):**
  - Genere un gr√°fico de dispersi√≥n (scatterplot) que relacione ambas variables.
  - Coloree los puntos por la variable survived para observar patrones.

4.	**Mapa de calor de correlaciones:**
  - Calcule la matriz de correlaci√≥n de las variables num√©ricas y repres√©ntela con un heatmap.
  - ¬øQu√© relaciones num√©ricas destacan?

5.	**Supervivencia por familia:**
  - Cree una nueva variable family_size = sibsp + parch + 1.
  - Analice si el tama√±o de la familia influy√≥ en la supervivencia mediante un boxplot o barplot.

---

In [None]:
def cargar_datos_usuarios(ruta: str) -> pd.DataFrame:
    """
    Carga los datos de los usuarios desde un archivo CSV ubicado en la ruta especificada.
    """
    df = pd.read_csv(ruta)
    return df

def distribucion_de_edades(df: pd.DataFrame, ax: plt.Axes):
    """
    Genera un histograma que muestra la distribuci√≥n de edades de los usuarios en el DataFrame proporcionado.
    """
    # Grafico de lineas
    ax.hist(
        df["age"],
        bins=range(0, 101, 5),
        color="cyan",
        edgecolor="black"
    )

    # Decoraci√≥n del gr√°fico
    ax.set_title("Distribuci√≥n de edades")
    ax.set_ylabel("Frecuencia")
    ax.set_xlabel("Edad (a√±os)")

def supervivencia_por_clase(df: pd.DataFrame, ax: plt.Axes):
    """
    Genera un gr√°fico de barras que muestra la tasa de supervivencia seg√∫n la clase del pasajero.
    """
    # Calcular tasa de supervivencia por clase
    tasa_supervivencia = df.groupby("class")["survived"].mean()

    # Grafico de lineas
    ax.bar(
        tasa_supervivencia.index,
        tasa_supervivencia.values,
        color=["blue", "orange", "green"]
    )

    # Decoraci√≥n del gr√°fico
    ax.set_title("Tasa de supervivencia por clase")
    ax.set_ylabel("Tasa de supervivencia")
    ax.set_xlabel("Clase del pasajero")
    
def relacion_edad_tarifa(df: pd.DataFrame, ax: plt.Axes):
    """
    Genera un gr√°fico de dispersi√≥n que relaciona la edad y la tarifa pagada, coloreando los puntos seg√∫n la supervivencia.
    """
    # Gr√°fico de los que NO sobrevivieron (survived = 0)
    ax.scatter(
        df[df["survived"] == 0]["age"],
        df[df["survived"] == 0]["fare"],
        color="blue",
        alpha=0.6,
        label="No sobrevivi√≥"
    )

    # Gr√°fico de los que S√ç sobrevivieron (survived = 1)
    ax.scatter(
        df[df["survived"] == 1]["age"],
        df[df["survived"] == 1]["fare"],
        color="red",
        alpha=0.6,
        label="Sobrevivi√≥"
    )

    # Decoraci√≥n del gr√°fico
    ax.set_title("Relaci√≥n entre edad y tarifa pagada")
    ax.set_xlabel("Edad (a√±os)")
    ax.set_ylabel("Tarifa pagada (USD)")
    ax.legend(title="Supervivencia")


def mapa_calor_correlaciones(df: pd.DataFrame, ax: plt.Axes):
    """
    Genera un mapa de calor que muestra la matriz de correlaci√≥n entre las variables num√©ricas del DataFrame.
    """
    corr = df.corr(numeric_only=True)

    # Mapa de calor
    sns.heatmap(
        corr,
        cmap="coolwarm", # Paleta de colores
        annot=True,  # Mostrar los valores en cada celda
        ax=ax
    )

    # Decoraci√≥n del gr√°fico
    ax.set_title("Mapa de calor de correlaciones entre variables num√©ricas")

def supervivencia_por_familia(df: pd.DataFrame, ax: plt.Axes):
    """
    Crea una nueva variable 'family_size' y genera un gr√°fico de barras que muestra la tasa de supervivencia seg√∫n el tama√±o de la familia.
    """
    # Crear la variable family_size
    df["family_size"] = df["sibsp"] + df["parch"] + 1

    # Calcular tasa de supervivencia por tama√±o de familia
    tasa_supervivencia = df.groupby("family_size")["survived"].mean()

    # Grafico de lineas
    ax.bar(
        tasa_supervivencia.index,
        tasa_supervivencia.values,
        color="teal"
    )

    # Decoraci√≥n del gr√°fico
    ax.set_title("Tasa de supervivencia por tama√±o de familia")
    ax.set_ylabel("Tasa de supervivencia")
    ax.set_xlabel("Tama√±o de la familia")

def main():
    # Cargar datos
    ruta_datos = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv"
    df = cargar_datos_usuarios(ruta_datos)

    # Crear figura para los gr√°ficos individuales
    fig, axes = plt.subplots(nrows=3, ncols=2, figsize=(15, 15))

    # Distribuci√≥n de edades
    distribucion_de_edades(df, axes[0, 0])

    # Supervivencia por clase
    supervivencia_por_clase(df, axes[0, 1])

    # Relaci√≥n entre edad y tarifa
    relacion_edad_tarifa(df, axes[1, 0])

    # Supervivencia por familia
    supervivencia_por_familia(df, axes[1, 1])

    # Mapa de calor de correlaciones
    mapa_calor_correlaciones(df, axes[2, 0])

    # Eliminar el eje vac√≠o
    fig.delaxes(axes[2, 1])

    # Mostrar los gr√°ficos individuales
    fig.show()

main()

---

## 4. Personalizaci√≥n de Gr√°ficos B√°sicos

---

Un gr√°fico sin etiquetas es como un mapa sin nombres de ciudades. La personalizaci√≥n es clave para que sea interpretable.

* `plt.title("Mi T√≠tulo")`: A√±ade un t√≠tulo al gr√°fico.
* `plt.xlabel("Etiqueta del Eje X")`: Nombra el eje horizontal.
* `plt.ylabel("Etiqueta del Eje Y")`: Nombra el eje vertical.
* `plt.legend()`: Muestra una leyenda (√∫til cuando hay varias l√≠neas).
* `plt.grid(True)`: A√±ade una cuadr√≠cula de fondo.
* `color='red'`: Cambia el color de la l√≠nea o los puntos.
* `marker='o'`: Cambia el estilo de los marcadores en los puntos de datos.
* `linestyle='--'`: Cambia el estilo de la l√≠nea (p. ej., a una l√≠nea discontinua).

---

In [None]:
# Datos experimentales: esfuerzo (MPa) vs deformaci√≥n (mm/mm)
esfuerzo = np.linspace(0, 400, 15)  # De 0 a 400 MPa

# Dos materiales distintos
deformacion_Aluminio = np.array([0.0, 0.0005, 0.0011, 0.0016, 0.0022, 0.0027, 0.0031, 0.0036, 0.0041, 0.0047, 0.0053, 0.0058, 0.0063, 0.0069, 0.0074])
deformacion_Acero = np.array([0.0, 0.0003, 0.0006, 0.0008, 0.0011, 0.0013, 0.0016, 0.0018, 0.0021, 0.0024, 0.0028, 0.0032, 0.0037, 0.0042, 0.0048])

# Grafico de lineas
ax.plot(
    esfuerzo,
    deformacion_Acero,
    label="Acero",
    color="steelblue",
    marker="o",
    linestyle='--'
)

ax.plot(
    esfuerzo,
    deformacion_Aluminio,
    label="Aluminio",
    color="orange",
    marker="o"
)

# Decoraci√≥n del gr√°fico
ax.set_title("Distribuci√≥n de edades")
ax.set_ylabel("Frecuencia")
ax.set_xlabel("Edad (a√±os)")
ax.grid(True)
ax.legend()

fig.show()

Existen bibliotecas m√°s avanzadas e interactivas que no se van a abordar en este cuaderno, como [Plotly](https://plotly.com/python/) y [Altair](https://altair-viz.github.io/gallery/index.html). V√©ase un ejemplo de un gr√°fico interactivo en plotly:

In [None]:
import plotly.graph_objects as go

# Crear datos
X = np.arange(-5, 5, 0.25)
Y = np.arange(-5, 5, 0.25)
X, Y = np.meshgrid(X, Y)
R = np.sqrt(X**2 + Y**2)
Z = np.sin(R)

# Crear figura con superficie 3D
fig = go.Figure(
    data=[go.Surface(
        x=X, 
        y=Y, 
        z=Z, 
        colorscale='Viridis',  # equivalente a cmap='viridis'
        colorbar=dict(title='Z value')  # barra de color personalizada
    )]
)

# Personalizar los ejes
fig.update_layout(
    scene=dict(
        zaxis=dict(range=[-1.01, 1.01], tickformat=".2f"),  # Limita y formatea eje Z
        xaxis_title='X',
        yaxis_title='Y',
        zaxis_title='Z'
    ),
    title='Superficie 3D interactiva con Plotly'
)

fig.show()

#### üìâ Ejercicio: Seno y coseno

Grafique la funci√≥n de seno y la funci√≥n de coseno en un solo gr√°fico. Diferencie ambas funciones con un color distinto. El dominio del gr√°fico debe ser desde -10 hasta 10. Para la funci√≥n de coseno utilice lineas punteadas.

---

In [None]:
def seno_coseno(x: np.ndarray, ax: plt.Axes):
    """
    Grafica la funci√≥n seno y coseno en el mismo gr√°fico.
    """
    y_seno = np.sin(x)
    y_coseno = np.cos(x)

    # Gr√°fico de la funci√≥n seno
    ax.plot(
        x,
        y_seno,
        label="sin(x)",
        color="blue"
    )

    ax.plot(
        x,
        y_coseno,
        label="cos(x)",
        color="red",
        linestyle='--'
    )

    # Decoraci√≥n del gr√°fico
    ax.set_title("Funciones Seno y Coseno")
    ax.set_xlabel("x")
    ax.set_ylabel("Valor")
    ax.legend()
    ax.grid(True)

def main():
    # Crear dominio
    x = np.linspace(-10, 10, 400)

    # Crear figura y ejes
    fig, ax = plt.subplots(figsize=(8, 6))

    # Graficar seno y coseno
    seno_coseno(x, ax)

    # Mostrar gr√°fico
    fig.show()

main()

## Ejercicios Adicionales

---

**1. Comparaci√≥n de Dos Funciones**:
En un mismo gr√°fico de l√≠neas, visualice las funciones `y = x^2` e `y = x^3` para valores de `x` entre -10 y 10. Personalice el gr√°fico con un t√≠tulo, etiquetas para los ejes y una leyenda. Grafique ambas funciones en un solo gr√°fico, no dos. Diferencie las funciones asignando una etiqueta a cada funci√≥n distinta.

---

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-10, 10, 100)
y1 = np.power(x, 2)
y2 = np.power(x, 3)

fig, ax = plt.subplots(figsize=(8,6))

ax.plot(x, y1, color='blue', linestyle='--', label='x^2')
ax.plot(x, y2, color='green', label='x^3')

ax.set_title("Comparaci√≥n de Funciones Cuadr√°tica y C√∫bica")
ax.set_xlabel("X")
ax.set_ylabel("Y")
ax.legend()
ax.grid(True)

fig.show()

---
**2. An√°lisis de Datos de Iris con Seaborn**
La biblioteca Seaborn viene con conjuntos de datos de ejemplo. Usa el famoso conjunto de datos "iris" para crear un gr√°fico de dispersi√≥n que muestre la relaci√≥n entre la longitud del s√©palo (`sepal_length`) y el ancho del s√©palo (`sepal_width`). Usa el par√°metro `hue` para colorear los puntos seg√∫n la especie.

----

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos de ejemplo
iris = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv")

# Crear la figura
fig, ax = plt.subplots(figsize=(8,6))

# Crear el gr√°fico de dispersi√≥n con Seaborn
sns.scatterplot(
    data=iris,
    x="sepal_length",
    y="sepal_width",
    hue="species",
    ax=ax
)

ax.set_title("Longitud vs Ancho del S√©palo en Iris")
ax.set_xlabel("Longitud del S√©palo (cm)")
ax.set_ylabel("Ancho del S√©palo (cm)")
ax.grid(True)

fig.show()

---

**3. Histograma de Datos de Vuelo**
Use el conjunto de datos "flights" de Seaborn y cree un histograma del n√∫mero de pasajeros (`passengers`) para ver su distribuci√≥n a lo largo de los a√±os.

---

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos
flights = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/flights.csv")

# Crear la figura
fig, ax = plt.subplots(figsize=(8,6))

# Crear el histograma
ax.hist(
    flights['passengers'],
    bins=15,
    edgecolor='black'
)

ax.set_title("Distribuci√≥n del N√∫mero de Pasajeros en Vuelos")
ax.set_xlabel("N√∫mero de Pasajeros")
ax.set_ylabel("Frecuencia (Meses)")

fig.show()