# Principios de Informática: Visualización de Datos 📊
### Convirtiendo números en historias visuales

**Curso:** Principios de Informática

---
## ¿Por Qué una Imagen Vale Más que Mil Números? 🖼️

En ciencia e ingeniería, generamos y recolectamos enormes cantidades de datos. Una tabla con miles de números es difícil de interpretar. ¿Hay una tendencia? ¿Existen valores atípicos? ¿Cómo se relacionan dos variables?

La **visualización de datos** es el arte y la ciencia de representar datos de forma gráfica. Un buen gráfico puede revelar patrones, tendencias y correlaciones que pasarían desapercibidas en los datos crudos. Nos permite comunicar nuestros hallazgos de una manera clara, potente y universal.

Hoy, aprenderemos a usar las bibliotecas de Python para transformar nuestros datos numéricos en gráficos informativos y atractivos.

---
### ✅ Lo que aprenderemos hoy:
* **Bibliotecas de Graficación:** Conoceremos `Matplotlib` y `Seaborn`.
* **Integración con NumPy y Pandas:** Cómo visualizar arreglos y DataFrames directamente.
* **Tipos de Gráficos Esenciales:** Crearemos gráficos de líneas, dispersión, histogramas y superficies.
* **Personalización:** Aprenderemos a añadir títulos, etiquetas y colores para que nuestros gráficos cuenten una historia clara.

---
## 📚 Bibliotecas de Graficación

Python tiene un ecosistema muy rico para la visualización de datos. Nos centraremos en dos de las bibliotecas más importantes:

* **Matplotlib**: Es la biblioteca de graficación "abuelo" de Python. Es extremadamente potente y personalizable, aunque a veces puede ser un poco verbosa. Es la base sobre la que se construyen muchas otras bibliotecas.
* **Seaborn**: Construida sobre Matplotlib, Seaborn proporciona una interfaz de más alto nivel para crear gráficos estadísticos atractivos y complejos con menos código.

Para instalarlas (si no las tienes), abre tu terminal y escribe: `pip install matplotlib seaborn`

---
## 🤝 Integración con NumPy y Pandas

La verdadera fuerza de estas bibliotecas de visualización reside en su perfecta integración con las herramientas de computación numérica que ya conocemos. Podemos pasar arreglos de NumPy y DataFrames de Pandas directamente a las funciones de graficación.

---
### Visualizando un Arreglo de NumPy

In [None]:
import numpy as np
import matplotlib.pyplot as plt # Convención para importar el módulo de graficación de Matplotlib

# Generar los datos
x = np.linspace(0, 10, 100) # 100 puntos entre 0 y 10
y = np.sin(x)

# Crear el gráfico
plt.plot(x, y)
plt.title("Gráfico de la Función Seno")
plt.xlabel("Eje X")
plt.ylabel("Seno(X)")
plt.grid(True) # Añadir una cuadrícula
plt.show() # Mostrar el gráfico

---

### Visualizando un DataFrame de Pandas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Crear un DataFrame
datos = {
    'año': [2020, 2021, 2022, 2023, 2024],
    'ventas_producto_A': [100, 120, 150, 130, 170],
    'ventas_producto_B': [80, 90, 100, 115, 140]
}
df_ventas = pd.DataFrame(datos)

# Usar el método .plot() del DataFrame
df_ventas.plot(x='año', y=['ventas_producto_A', 'ventas_producto_B'], kind='line', marker='o')

plt.title("Ventas Anuales por Producto")
plt.xlabel("Año")
plt.ylabel("Unidades Vendidas")
plt.legend(["Producto A", "Producto B"])
plt.grid(True)
plt.show()

---
## 📈 Tipos de Gráficos Relevantes para Ciencias

---
### Gráfico de Líneas

**Uso**: Ideal para mostrar la evolución de una variable a lo largo del tiempo o de otra variable continua. Perfecto para series temporales.

---
**Ejercicio: Visualizar Temperatura de un Día**
Tienes datos de temperatura tomados cada hora durante 12 horas. Visualízalos en un gráfico de líneas.


In [None]:
import matplotlib.pyplot as plt

horas = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
temperaturas = [18, 17, 16, 16, 17, 19, 21, 23, 24, 25, 26, 25]

plt.plot(horas, temperaturas, color='red', marker='.')
plt.title("Evolución de la Temperatura")
plt.xlabel("Hora del día")
plt.ylabel("Temperatura (°C)")
plt.xticks(horas) # Asegurarse de que todas las horas se muestren en el eje X
plt.grid(True)
plt.show()

---
### Gráfico de Dispersión (Scatter Plot)

**Uso**: Excelente para visualizar la relación entre dos variables numéricas. Nos ayuda a ver si existe una correlación (positiva, negativa) o si no hay ninguna relación aparente.

---
**Ejercicio: Relación entre Humedad y Temperatura**
Tienes datos de humedad y temperatura. Crea un gráfico de dispersión para ver si están relacionados.


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Datos simulados: a mayor temperatura, menor humedad
temperatura_disp = np.array([20, 22, 25, 28, 30, 32, 35])
humedad_disp = np.array([80, 75, 65, 55, 50, 45, 40])

plt.scatter(temperatura_disp, humedad_disp, color='blue')
plt.title("Relación entre Temperatura y Humedad")
plt.xlabel("Temperatura (°C)")
plt.ylabel("Humedad (%)")
plt.grid(True)
plt.show()

---
### Histogramas

**Uso**: Un histograma nos muestra la **distribución** de una sola variable numérica. Agrupa los números en "contenedores" (bins) y cuenta cuántos valores caen en cada contenedor. Es fundamental para entender la frecuencia y la forma de nuestros datos.

---
**Ejercicio: Distribución de Calificaciones**
Tienes las calificaciones de un examen para 100 estudiantes. Crea un histograma para ver cómo se distribuyen.


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Generar 100 calificaciones aleatorias con una distribución normal (media=75, desv. est.=10)
calificaciones = np.random.normal(loc=75, scale=10, size=100)

# Crear el histograma
# bins=10 significa que dividiremos el rango de datos en 10 contenedores
plt.hist(calificaciones, bins=10, edgecolor='black', color='skyblue')
plt.title("Distribución de Calificaciones del Examen")
plt.xlabel("Calificación")
plt.ylabel("Frecuencia (Nº de Estudiantes)")
plt.show()

---
### Gráficos de Superficie (3D)

**Uso**: Para visualizar datos en tres dimensiones. Son excelentes para representar funciones de dos variables `(z = f(x, y))` o para visualizar terrenos y campos de fuerza.

---
**Ejercicio: Visualizar una Función 3D**
Vamos a visualizar la función `z = sin(sqrt(x^2 + y^2))`, que crea un patrón de ondas circulares.


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Crear una figura y un eje 3D
fig = plt.figure()
ax = plt.axes(projection='3d')

# Crear los datos para los ejes x e y
x = np.linspace(-6, 6, 30)
y = np.linspace(-6, 6, 30)

# Crear una malla (una cuadrícula de puntos x, y)
X, Y = np.meshgrid(x, y)

# Calcular los valores de Z para cada punto de la malla
R = np.sqrt(np.power(X, 2) + np.power(Y, 2))
Z = np.sin(R)

# Crear el gráfico de superficie
ax.plot_surface(X, Y, Z, cmap='viridis', edgecolor='none')

ax.set_title('Gráfico de Superficie 3D')
plt.show()

---
## 🎨 Personalización de Gráficos Básicos

Un gráfico sin etiquetas es como un mapa sin nombres de ciudades. La personalización es clave para que sea interpretable.

* `plt.title("Mi Título")`: Añade un título al gráfico.
* `plt.xlabel("Etiqueta del Eje X")`: Nombra el eje horizontal.
* `plt.ylabel("Etiqueta del Eje Y")`: Nombra el eje vertical.
* `plt.legend()`: Muestra una leyenda (útil cuando hay varias líneas).
* `plt.grid(True)`: Añade una cuadrícula de fondo.
* `color='red'`: Cambia el color de la línea o los puntos.
* `marker='o'`: Cambia el estilo de los marcadores en los puntos de datos.
* `linestyle='--'`: Cambia el estilo de la línea (p. ej., a una línea discontinua).

---
## ✏️ Ejercicios Finales de Práctica

---
**1. Comparación de Dos Funciones**
En un mismo gráfico de líneas, visualiza las funciones `y = x^2` e `y = x^3` para valores de `x` entre -10 y 10. Personaliza el gráfico con un título, etiquetas para los ejes y una leyenda.


In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-10, 10, 100)
y1 = np.power(x, 2)
y2 = np.power(x, 3)

plt.plot(x, y1, color='blue', linestyle='--', label='x^2')
plt.plot(x, y2, color='green', label='x^3')

plt.title("Comparación de Funciones Cuadrática y Cúbica")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)
plt.show()

---
**2. Análisis de Datos de Iris con Seaborn**
La biblioteca Seaborn viene con conjuntos de datos de ejemplo. Usa el famoso conjunto de datos "iris" para crear un gráfico de dispersión que muestre la relación entre la longitud del sépalo (`sepal_length`) y el ancho del sépalo (`sepal_width`). Usa el parámetro `hue` para colorear los puntos según la especie.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos de ejemplo
iris = sns.load_dataset("iris")

# Crear el gráfico de dispersión con Seaborn
sns.scatterplot(data=iris, x="sepal_length", y="sepal_width", hue="species")

plt.title("Relación entre Longitud y Ancho del Sépalo en Flores de Iris")
plt.xlabel("Longitud del Sépalo (cm)")
plt.ylabel("Ancho del Sépalo (cm)")
plt.grid(True)
plt.show()

---
**3. Histograma de Datos de Vuelo**
Usa el conjunto de datos "flights" de Seaborn y crea un histograma del número de pasajeros (`passengers`) para ver su distribución a lo largo de los años.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el conjunto de datos
flights = sns.load_dataset("flights")

# Crear el histograma
plt.hist(flights['passengers'], bins=15, edgecolor='black')
plt.title("Distribución del Número de Pasajeros en Vuelos")
plt.xlabel("Número de Pasajeros")
plt.ylabel("Frecuencia (Meses)")
plt.show()