# Clase 6: Visualización de datos con Python


## Objetivos
- Conocer 4 tipos de gráficos: barras, línea, histograma y dispersión.
- Cargar datos con `pandas` y dibujarlos con `matplotlib`.
- Practicar interpretación de gráficos con preguntas sencillas.

## Material necesario
- Python con `pandas` y `matplotlib`.
- Conexión a internet para descargar los datasets que usaremos (Titanic e Iris).

In [None]:
# Importamos las librerías que usaremos (esto debe ejecutarse antes de los gráficos)
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams.update({'figure.max_open_warning': 0})
# Ajuste de estilo sencillo para que los gráficos se vean claros
plt.style.use('seaborn-whitegrid')

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.rcParams.update({'figure.max_open_warning': 0})`: Evita advertencias si abres muchos gráficos.
- `plt.style.use('seaborn-whitegrid')`: Cambia el estilo de los gráficos para que se vean más bonitos y claros.

Estas funciones ayudan a que los gráficos sean más fáciles de leer y a que no aparezcan mensajes molestos si haces muchos dibujos.

---
## 1) Dataset Titanic — cargar y explorar
Vamos a usar un conjunto de datos del Titanic con información de pasajeros 

In [None]:
# Cargamos el dataset del Titanic desde GitHub
url_titanic = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df_titanic = pd.read_csv(url_titanic)
# Mostramos las primeras filas para conocer las columnas y los datos
df_titanic.head()

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.figure(figsize=(7,5))`: Crea un nuevo espacio para dibujar el gráfico y define su tamaño.
- `plt.bar(...)`: Dibuja un gráfico de barras.
- `plt.title(...)`: Pone un título al gráfico.
- `plt.xlabel(...)` y `plt.ylabel(...)`: Etiquetan los ejes.
- `plt.text(...)`: Escribe el número encima de cada barra.
- `plt.show()`: Muestra el gráfico en pantalla.

Estas funciones permiten crear y personalizar el gráfico de barras para que sea fácil de entender.

### Explicación corta
- `df_titanic` es una tabla donde cada fila es una persona.
- Algunas columnas útiles: `Survived` (1 = sobrevivió, 0 = no), `Pclass` (clase 1,2,3) y `Age` (edad).

### Gráfico de barras: sobrevivientes por clase
Queremos contar cuántas personas que sobrevivieron había en cada clase y dibujarlo con un gráfico de barras.


In [None]:
# Contamos los supervivientes por clase
survivors_by_class = df_titanic[df_titanic['Survived'] == 1]['Pclass'].value_counts().sort_index()
# Dibujamos el gráfico de barras
plt.figure(figsize=(7,5))
plt.bar(survivors_by_class.index.astype(str), survivors_by_class.values, color=['#5DA5A4','#F28E2B','#E15759'])
plt.title('Sobrevivientes del Titanic por clase')
plt.xlabel('Clase del pasajero')
plt.ylabel('Número de sobrevivientes')
for i, v in enumerate(survivors_by_class.values):
    plt.text(i, v+1, str(v), ha='center')
plt.show()

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.figure(figsize=(8,4))`: Crea el espacio para el gráfico y define su tamaño.
- `plt.plot(...)`: Dibuja una línea que conecta los puntos de ventas por mes.
- `plt.title(...)`: Agrega un título al gráfico.
- `plt.xlabel(...)` y `plt.ylabel(...)`: Etiquetan los ejes.
- `plt.grid(True)`: Agrega una cuadrícula para facilitar la lectura.
- `plt.show()`: Muestra el gráfico en pantalla.

Estas funciones permiten visualizar cómo cambian las ventas a lo largo de los meses.

---
## 2) Ventas por mes — datos de ejemplo
Crearemos una pequeña tabla con ventas por mes y haremos un gráfico de línea para ver la tendencia.

In [None]:
# Creamos un dataset de ejemplo
df_sales = pd.DataFrame({
    'Month': pd.to_datetime(['2023-01-01','2023-02-01','2023-03-01','2023-04-01','2023-05-01','2023-06-01']),
    'Sales': [150, 180, 220, 200, 250, 230]
})
df_sales

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.figure(figsize=(8,4))`: Crea el espacio para el gráfico y define su tamaño.
- `plt.hist(...)`: Dibuja un histograma, que muestra cuántas personas hay en cada rango de edad.
- `plt.title(...)`: Agrega un título al gráfico.
- `plt.xlabel(...)` y `plt.ylabel(...)`: Etiquetan los ejes.
- `plt.show()`: Muestra el gráfico en pantalla.

Estas funciones ayudan a ver cómo se distribuyen las edades de los pasajeros del Titanic.

In [None]:
# Gráfico de línea para las ventas
plt.figure(figsize=(8,4))
plt.plot(df_sales['Month'], df_sales['Sales'], marker='o', color='#8E44AD')
plt.title('Ventas por mes (ejemplo)')
plt.xlabel('Mes')
plt.ylabel('Ventas')
plt.grid(True)
plt.show()

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.figure(figsize=(7,5))`: Crea el espacio para el gráfico y define su tamaño.
- `plt.scatter(...)`: Dibuja puntos en el gráfico, cada punto representa una flor.
- `plt.title(...)`: Agrega un título al gráfico.
- `plt.xlabel(...)` y `plt.ylabel(...)`: Etiquetan los ejes.
- `plt.grid(True)`: Agrega una cuadrícula para facilitar la lectura.
- `plt.show()`: Muestra el gráfico en pantalla.

Estas funciones permiten ver la relación entre la longitud y el ancho del pétalo de las flores Iris.

---
## 3) Histograma: distribución de edades (Titanic)
Un histograma muestra cuántas personas hay dentro de rangos de edad. Es útil para ver dónde se concentran las edades.

In [None]:
# Histograma de edades (ignoramos los valores nulos)
ages = df_titanic['Age'].dropna()
plt.figure(figsize=(8,4))
plt.hist(ages, bins=12, color='#5DA5A4', edgecolor='black')
plt.title('Distribución de edades (Titanic)')
plt.xlabel('Edad')
plt.ylabel('Número de personas')
plt.show()

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.figure(figsize=(6,4))`: Crea el espacio para el gráfico y define su tamaño.
- `plt.bar(...)`: Dibuja un gráfico de barras.
- `plt.title(...)`: Agrega un título al gráfico.
- `plt.show()`: Muestra el gráfico en pantalla.

Estas funciones permiten visualizar cuántos sobrevivientes había en cada clase del Titanic.

---
## 4) Dataset Iris y gráfico de dispersión
Cargamos el dataset Iris (flores) y dibujamos la relación entre longitud y ancho del pétalo.

In [None]:
# Cargamos el dataset Iris
url_iris = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv'
df_iris = pd.read_csv(url_iris)
df_iris.head()

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.figure(figsize=(7,4))`: Crea el espacio para el gráfico y define su tamaño.
- `plt.plot(...)`: Dibuja una línea que conecta los puntos de ventas por mes.
- `plt.title(...)`: Agrega un título al gráfico.
- `plt.show()`: Muestra el gráfico en pantalla.

Estas funciones permiten ver cómo cambian las ventas a lo largo del tiempo.

In [None]:
# Gráfico de dispersión: petal_length vs petal_width
plt.figure(figsize=(7,5))
plt.scatter(df_iris['petal_length'], df_iris['petal_width'], c='green', alpha=0.7)
plt.title('Longitud vs ancho del pétalo (Iris)')
plt.xlabel('Longitud del pétalo (cm)')
plt.ylabel('Ancho del pétalo (cm)')
plt.grid(True)
plt.show()

### ¿Para qué sirven las funciones de `plt` en este bloque?
- `plt.figure(figsize=(6,4))`: Crea el espacio para el gráfico y define su tamaño.
- `plt.scatter(...)`: Dibuja puntos en el gráfico, cada punto representa una flor.
- `plt.title(...)`: Agrega un título al gráfico.
- `plt.show()`: Muestra el gráfico en pantalla.

Estas funciones permiten ver la relación entre la longitud y el ancho del pétalo de las flores Iris.

---
## 5) Encapsular los gráficos en una clase (opcional pero útil)
A continuación mostramos una clase simple que agrupa las funciones para cargar datos y dibujar. Esto ayuda a mantener el código ordenado.

In [None]:
class DataVisualizer:
    """Clase sencilla para cargar datos y dibujar gráficos.
    Pensada para usar en clase con ejemplos pequeños.
    """
    def __init__(self):
        self.df_titanic = None
        self.df_sales = None
        self.df_iris = None

    def load_titanic(self, url):
        self.df_titanic = pd.read_csv(url)
        return self.df_titanic

    def plot_titanic_survivors(self):
        df = self.df_titanic
        if df is None:
            print('Primero carga los datos con load_titanic()')
            return
        s = df[df['Survived']==1]['Pclass'].value_counts().sort_index()
        plt.figure(figsize=(6,4))
        plt.bar(s.index.astype(str), s.values, color='#5DA5A4')
        plt.title('Sobrevivientes por clase')
        plt.show()

    def create_sales(self, months, sales):
        self.df_sales = pd.DataFrame({'Month': pd.to_datetime(months), 'Sales': sales})
        return self.df_sales

    def plot_sales(self):
        if self.df_sales is None:
            print('Primero crea los datos de ventas con create_sales()')
            return
        plt.figure(figsize=(7,4))
        plt.plot(self.df_sales['Month'], self.df_sales['Sales'], marker='o')
        plt.title('Ventas por mes')
        plt.show()

    def load_iris(self, url):
        self.df_iris = pd.read_csv(url)
        return self.df_iris

    def plot_iris(self):
        if self.df_iris is None:
            print('Primero carga Iris con load_iris()')
            return
        plt.figure(figsize=(6,4))
        plt.scatter(self.df_iris['petal_length'], self.df_iris['petal_width'], c='green')
        plt.title('Iris: largo vs ancho del pétalo')
        plt.show()

In [None]:
# Ejemplo de uso de la clase
vis = DataVisualizer()
vis.load_titanic('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
vis.create_sales(['2023-01-01','2023-02-01','2023-03-01'], [150,180,220])
vis.load_iris('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
# Dibujamos los ejemplos
vis.plot_titanic_survivors()
vis.plot_sales()
vis.plot_iris()

---
## Ejercicios para practicar (para entregar en clase)
1. Cambia los colores de un gráfico y explica por qué elegiste esos colores.
2. Haz un gráfico de barras que muestre la cantidad de pasajeros por `Pclass` (sin filtrar por supervivencia).
3. Calcula la edad promedio de los pasajeros por clase y preséntala en una tabla.

---
### Sugerencias para el docente
- Ejecutar las celdas una a una y explicar cada gráfico antes de pasar al siguiente.
- Pedir a lxs alumnxs que interpretan los ejes y que cuenten una historia breve con el gráfico.