In [None]:
# Importaciones previas
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns


plt.style.use("tableau-colorblind10")

In [None]:
# Guardar o cargar un plot
# Guardar
fig = plt.figure()
plt.plot(x, np.sin(x), "-")
fig.savefig("./img/my_figure.png")

# Cargar
from IPython.display import Image
Image("./img/my_figure.png")


# 1. Lineas sencillas

In [None]:
# Creo gráfico y ejes
fig = plt.figure()
ax = plt.axes()

# Estilo
plt.style.use("tableau-colorblind10")

# Color
plt.plot(x, np.sin(x - 1), color='g')           # short color code (rgbcmyk)
plt.plot(x, np.sin(x - 2), color='0.75')        # Grayscale between 0 and 1
plt.plot(x, np.sin(x - 3), color='#FFDD44')     # Hex code (RRGGBB from 00 to FF)
plt.plot(x, np.sin(x - 4), color=(1.0,0.2,0.3)) # RGB tuple, values 0 to 1
plt.plot(x, np.sin(x - 5), color='chartreuse'); # all HTML color names supported

# Estilo de linea
plt.plot(x, x + 4, linestyle='-')  # solid
plt.plot(x, x + 5, linestyle='--') # dashed
plt.plot(x, x + 6, linestyle='-.') # dashdot
plt.plot(x, x + 7, linestyle=':');  # dotted

# Color y estilo de linea
plt.plot(x, x + 1, '--c') # dashed cyan
plt.plot(x, x + 2, '-.k') # dashdot black
plt.plot(x, x + 3, ':r');  # dotted red

# Ejes
plt.xlim(-1.5, 11.5)
plt.ylim(-1, 10)

ax.set_xlim(0, 20)
ax.set_ylim(-1, 2)

# Título y etiquetas de ejes
plt.title("La función seno")
plt.xlabel("Valores")
plt.ylabel("y");

ax.set_title("otro gráfico")
ax.set_xlabel("x")
ax.set_ylabel("y")

# Leyenda
plt.plot(x, np.sin(x), label = "seno ejemplo")
plt.plot(x, np.cos(x), label = "coseno")
plt.legend()

ax.plot(x, np.sin(x), label = "Sen")
ax.plot(x, np.cos(x), label = "Cos")
ax.legend()


plt.tight_layout()
plt.show()

# 2. Subplots

In [None]:
# primera forma
fig, ax = plt.subplots(2, 3, sharex = "col", sharey = "row")
for i in range(2):
    for j in range(3):
        ax[i, j].text(0.5, 0.5, str((i, j)), fontsize=18, ha="center")

fig


# segunda forma
plt.figure(figsize=(15, 10))
for i in range(1, 16):
    plt.subplot(3, 5, i)
    plt.text(0.5, 0.5, str((3, 5, i)), fontsize = 16, ha = "center")

# 3. Scatter

In [None]:
plt.scatter(df_iris["sepal length (cm)"], df_iris["petal length (cm)"], 
            c= df_iris.target, alpha=0.5, s=109*df_iris["petal width (cm)"])
plt.xlabel("sepal length (cm)")
plt.ylabel("petal length (cm)")

In [None]:
x = np.linspace(0, 10, 20)
y = np.sin(x)

# Línea y scatter en subplots
fig, ax = plt.subplots(1, 2, figsize=(10, 4))
ax[0].plot(x, y, "-")
ax[1].plot(x, y, "o")
plt.show()

# Scatter simple
plt.scatter(x, y)
plt.xlabel("x")
plt.ylabel("y")
plt.show()

# ================================================================
# 3. SCATTER AVANZADO: TAMAÑO, COLOR, TRANSPARENCIA
# ================================================================
rng = np.random.RandomState(0)
x = rng.rand(100)
y = rng.rand(100)
sizes = 1000 * rng.rand(100)
colors = rng.rand(100)

plt.scatter(x, y, s=sizes, c=colors, alpha=0.3, cmap="viridis")
plt.colorbar(label="color scale")
plt.show()


# ================================================================
# 4. SCATTER CON DATAFRAMES (IRIS O CUALQUIERA)
# ================================================================
df_iris = pd.read_csv("./data/iris.csv")

plt.scatter(df_iris["sepal length (cm)"],
            df_iris["petal length (cm)"],
            alpha=0.7)

plt.xlabel("sepal length (cm)")
plt.ylabel("petal length (cm)")
plt.show()


# 4. Histogramas

In [None]:
# ================================================================
# 5. HISTOGRAMAS BÁSICOS
# ================================================================
data = np.random.randn(1000)

plt.hist(data)
plt.show()

# Con parámetros
plt.hist(data, bins=50, alpha=0.3, color="steelblue")
plt.show()

# En un Axes
fig = plt.figure(figsize=(4,3))
ax = plt.axes()
ax.hist(data)
plt.show()


# ================================================================
# 6. HISTOGRAMAS MÚLTIPLES
# ================================================================
x1 = np.random.normal(0, 1, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(2, 1.5, 1000)

kwargs = dict(alpha=0.3, bins=30)

plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs)
plt.show()


# 5. Boxplots

In [None]:
# Boxplot simple
plt.boxplot(data, whis=1.5)
plt.show()

# Horizontal
plt.boxplot(data, vert=False)
plt.show()

# Boxplot múltiple
plt.boxplot([x1, x2, x3])
plt.show()

# 6. Gráficos de barras

In [None]:
# ================================================================
# 1. BARRAS SIMPLES
# ================================================================
categorias = ['A', 'B', 'C', 'D']
valores = [10, 25, 17, 30]

plt.bar(categorias, valores)
plt.ylabel("Valor")
plt.title("Gráfico de barras simple")
plt.show()


# ================================================================
# 2. BARRAS A PARTIR DE UN DATAFRAME (Titanic)
# ================================================================
df_titanic = pd.read_csv("./data/titanic.csv")

# Frecuencias absolutas de una variable categórica
frecuencias = df_titanic["who"].value_counts()

plt.bar(frecuencias.index, frecuencias.values)
plt.title("Frecuencia absoluta - Titanic (who)")
plt.ylabel("Frecuencia")
plt.show()


# ================================================================
# 3. SUBPLOTS: FRECUENCIAS ABSOLUTAS vs. RELATIVAS
# ================================================================
fig, ax = plt.subplots(1, 2, figsize=(10,4))

# Frecuencia absoluta
ax[0].bar(frecuencias.index, frecuencias.values)
ax[0].set_title("Absolutas")
ax[0].set_ylabel("Frecuencia")

# Frecuencia relativa (%)
relativas = frecuencias / frecuencias.sum() * 100
ax[1].bar(relativas.index, relativas.values, color="lightgreen")
ax[1].set_title("Porcentaje")
ax[1].set_ylabel("%")

plt.tight_layout()
plt.show()


# ================================================================
# 4. BARRAS HORIZONTALES
# ================================================================
plt.barh(frecuencias.index, frecuencias.values)
plt.title("Barras horizontales")
plt.xlabel("Frecuencia")
plt.show()

# 7. Gráficos de errores

In [None]:
# ================================================================
# 5. GRÁFICOS DE ERRORES (errorbar)
# ================================================================
x = np.linspace(0, 10, 50)
y = np.sin(x)
dy = 0.8  # error estándar fijo

# Error básico
plt.errorbar(x, y, yerr=dy, fmt=".g")
plt.title("Errorbar sencillo")
plt.show()

# Error con estilo personalizado
plt.errorbar(
    x, y, 
    yerr=dy,
    fmt="o",               # estilo del marcador
    color="black",
    ecolor="lightgray",    # color de barras de error
    elinewidth=3,          # grosor de la línea de error
    capsize=4              # tamaño de las "patitas" del error
)
plt.title("Errorbar personalizado")
plt.show()


# ================================================================
# 6. ERROR VARIABLE (error randómico por punto)
# ================================================================
rng = np.random.RandomState(0)
dy_rand = 0.2 + 0.5 * rng.rand(len(x))  # error diferente por punto

plt.errorbar(
    x, y,
    yerr=dy_rand,
    fmt="o",
    alpha=0.8,
    ecolor="red",
    capsize=3
)
plt.title("Errorbar con error variable")
plt.show()

# 8. Visualización de una variable

## 8.1. Variable categórica

In [None]:
#=============================================
# BARRAS
#=============================================

### Creamos figura y axes
fig,axs = plt.subplots(nrows=1,ncols=2, figsize=(10,4))
fig.suptitle("Barras en Seaborn")
### Countplot, nos permite frecuencias
sns.countplot(x="embark_town", data = df_titanic, ax=axs[0], hue = "embark_town", # hue controla el color de los datos según una categórica
              legend = False)
axs[0].set_title("Frecuencias absolutas embark_town")
# Para frecuencias relativas... también hay que calcularlas previamente y puedes usar el barplot (si parecido a matplotlib)
valores = df_titanic.embark_town.value_counts(normalize = True) * 100
sns.barplot(x = valores.index, y = valores.values, hue = valores.index, ax = axs[1])
axs[1].set_title("Frecuencias relativas embark_town")
axs[1].set_ylabel("%")
fig

def barras_categoricas(df, lista_col_cat):
    num_filas = round(len(lista_col_cat)/2)
    fig,axs = plt.subplots(nrows=num_filas,ncols=2, figsize=(14,5*num_filas))

    axs = axs.ravel()       # para indexar linealmente y facilitar el bucle
    for i, col in enumerate(lista_col_cat):
        sns.countplot(x=col, data = df, ax=axs[i])
        axs[i].set_title(f"Frecuencias absolutas de {col}", fontsize=14)
    
    #oculto eje vacío si son un número impar de columnas
    for j in range(i+1, len(axs)):
        axs[j].set_visible(False)

    plt.tight_layout()
    plt.show()


#=============================================
# CÍRCULOS
#=============================================
### Creamos figura y axes
fig,axs = plt.subplots(nrows=1,ncols=1, figsize=(14,4))
fig.suptitle("Círculos en Seaborn")
### Frecuencias absolutas y relativas
frecuencias = df_seguros["state"].value_counts()
df_frecuencias = df_seguros["state"].value_counts().reset_index()
df_frecuencias.columns = ["categorias","frecuencias"]
sns.scatterplot(x = "categorias", y = [1]*len(frecuencias), hue = "categorias", data = df_frecuencias, size = "frecuencias", legend = False, ax = axs, sizes = (500,5000))
axs.set_xlabel("")
for estado,valor in frecuencias.items():
    axs.text(estado,1.01,f"{valor}({round(valor*100/frecuencias.sum())}%)")
axs.set_facecolor("none") # quita el fondo
axs.yaxis.set_ticks([]) # quita los valores del eje y
fig



#=============================================
# TARTAS
#=============================================
data = df_titanic["class"].value_counts()

fig,ax = plt.subplots(1,1,figsize = (4,4))

ax.pie(data.values,
        labels=data.index,
        autopct='%.2f%%', startangle= 90);

# donut
my_circle = plt.Circle( (0, 0),
                       0.3, #grosor del donut
                       color = "white")
ax.add_artist(my_circle) # añado formas encima de mi fig anterior
fig

#=============================================
# LOLIPOP
#=============================================
conteo = df_seguros['vehicle_class'].value_counts(ascending=False)

plt.figure(figsize=(10,5))
plt.hlines(y=conteo.index,
           xmin= 50,
           xmax=conteo,
           color='skyblue')
p=plt.gcf()
p.gca().set_facecolor("none")
plt.plot(conteo, conteo.index, "o");

## 8.2. Variable numérica

In [None]:
#=============================================
# HISTOGRAMA
#=============================================
fig,axs = plt.subplots(1,1,figsize= (4.5,3))
sns.histplot(df_viajes["ingresos"]/1000,
             kde=False,
             color='r',
             bins=100, ax = axs) # Otra forma, sin recurrir al dataframe como argumento
axs.set_xlabel("Ingresos  (millones)")
axs.set_ylabel("Num_Vuelos");

def histo_numericas(df, lista_col_num, num_bins=30, fun_densidad=False):
    num_filas = round(len(lista_col_num)/2)
    fig,axs = plt.subplots(nrows=num_filas,ncols=2, figsize=(14,5*num_filas))

    axs = axs.ravel()       # para indexar linealmente y facilitar el bucle
    for i, col in enumerate(lista_col_num):
        sns.histplot(x= col, data = df, kde= fun_densidad, bins= num_bins, ax = axs[i])
        axs[i].set_title(f"Histograma de {col}", fontsize=14)

    
    #oculto eje vacío si son un número impar de columnas
    for j in range(i+1, len(axs)):
        axs[j].set_visible(False)

    plt.tight_layout()
    plt.show()

#=============================================
# FUNCIÓN DE DENSIDAD
#=============================================
fg = sns.displot(x="customer_lifetime_value", data = df_seguros, kind="kde", height=4, aspect=3)
# height controla la altura del gráfico
# Aspect la relación ente ancho/alto
# Ojo este gráfico se puede asignar a un "axes" pero en realidad es para mostrar uno por "figure" (es sólo por completitud)

#=============================================
# HISTOGRAMA + FUNCIÓN DE DENSIDAD
#=============================================
fig,axs = plt.subplots(1,1,figsize= (4.5,3))
sns.histplot(df_viajes["ingresos"]/1000,
             kde=True,
             color='r',
             bins=100, ax = axs) # Otra forma, sin recurrir al dataframe como argumento
axs.set_xlabel("Ingresos  (millones)")
axs.set_ylabel("Num_Vuelos");

#=============================================
# CAJA
#=============================================
fig,axs = plt.subplots(1,1,figsize= (4.5,3))
sns.boxplot(x = "total_claim_amount", data = df_seguros);
axs.set_xlabel("Reclamado  ($)")
axs.set_ylabel("Boxplot");

#=============================================
# ENJAMBRE
#=============================================
plt.figure(figsize=(8, 6))
sns.swarmplot(x = "consumo_kg", data= df_viajes, color = "black")

#=============================================
# CAJA + ENJAMBRE
#=============================================
plt.figure(figsize=(8,6))
sns.boxplot(x = "consumo_kg", data = df_viajes)
sns.swarmplot(x = "consumo_kg", data=df_viajes, color="black");

#=============================================
# EVOLUCIÓN (LÍNEA + ÁREA)
#=============================================
# Tan sencillo como pintar un gráfico de línea, escogiendo bien el eje-x, por eso cambiamos a la fecha:
sns.lineplot(x = df_bitcoin.index, y = "close", data=df_bitcoin)

def plot_series_numericas(df, lista_col_num):
    num_filas = round(len(lista_col_num)/2)
    fig,axs = plt.subplots(nrows=num_filas,ncols=2, figsize=(14,5*num_filas))

    axs = axs.ravel()       # para indexar linealmente y facilitar el bucle
    for i, col in enumerate(lista_col_num):
        axs[i].plot(df[col], linewidth=2)
        axs[i].set_title(f"Serie temporal de {col}", fontsize=14)
        axs[i].set_xlabel("Índice")

    
    #oculto eje vacío si son un número impar de columnas
    for j in range(i+1, len(axs)):
        axs[j].set_visible(False)

    plt.tight_layout()
    plt.show()

#=============================================
# VIOLÍN
#=============================================
plt.figure(figsize=(20, 5))
sns.violinplot(df_viajes["consumo_kg"], color = "steelblue", orient="h")



# 9. Viasualización de dos variables

## 9.1. Categórica-Categórica

In [None]:
#=============================================
# TABLA DE FRECUENCIAS
#=============================================
# Tabla de frecuencias modo 1
sns.catplot(x="alive", hue="class", kind="count", edgecolor=".6", orient="V", data=df_titanic.sort_values("class"));

# Tabla de frecuencias modo 2
sns.catplot(x="alive",
            col = "class",
            kind="count",
            edgecolor=".6",
            orient = "V",
            hue = "alive",
            legend= True,
            data=df_titanic);

#=============================================
# TABLA DE CONTINGENCIA
#=============================================
tabla_contingencia = pd.crosstab(df_titanic["embark_town"], df_titanic["who"], margins=False)

plt.figure(figsize=(5,5))
sns.heatmap(tabla_contingencia,
            vmin = 0,
            vmax = 500,
            cmap=sns.diverging_palette(145, 280, s=85, l=25, n=7),
            square = True,
            linewidths=.1,
            annot=True);



#=============================================
# FUNCIÓN
#=============================================
def plot_categoricas_y_contingencia(df, col1, col2):
    """
    Dibuja countplots de dos columnas categóricas y un catplot comparativo.
    Devuelve la tabla de contingencia entre ambas columnas.
    
    Parámetros:
        df   : DataFrame
        col1 : nombre de columna categórica
        col2 : nombre de otra columna categórica
    """

    # ==== 1. FIGURA CON DOS COUNTPLOTS ====
    fig, axs = plt.subplots(1, 2, figsize=(14, 5))

    # Countplot columna 1
    sns.countplot(x=col1, data=df, ax=axs[0])
    axs[0].set_title(f"Frecuencias absolutas de {col1}")
    axs[0].set_xlabel(col1)
    axs[0].set_ylabel("Frecuencia")
    axs[0].tick_params(axis='x', rotation=45)

    # Countplot columna 2
    sns.countplot(x=col2, data=df, ax=axs[1])
    axs[1].set_title(f"Frecuencias absolutas de {col2}")
    axs[1].set_xlabel(col2)
    axs[1].set_ylabel("Frecuencia")
    axs[1].tick_params(axis='x', rotation=45)

    plt.tight_layout()
    plt.show()

    # ==== 2. CATPLOT COMPARATIVO ====
    sns.catplot(data=df, kind="count", x=col1, col=col2, height=5, aspect=1.2)
    plt.suptitle(f"Comparación entre {col1} y {col2}", y=1.03)
    plt.show()

    # ==== 3. TABLA DE CONTINGENCIA ====
    tabla = pd.crosstab(df[col1], df[col2])

    return tabla

## 9.2. Categórica-Numérica

In [None]:
#=============================================
# BOXPLOT
#=============================================
plt.figure(figsize=(10,10))
sns.boxplot(x = "aircompany",
            y = "ingresos",
            hue = "aircompany",
            data=df_viajes);

#=============================================
# HISTOGRAMA + FUNCIÓN DE DENSIDAD
#=============================================
# Añadiremos los diagramas a la misma figura creando uno a uno y aprovechando que así funciona matplotlib
variable_categorica = "class"
variable_numerica = "fare"

plt.figure(figsize=(6,3))
for valor in df_titanic[variable_categorica].unique():  
    sns.histplot(df_titanic.loc[df_titanic[variable_categorica] == valor,variable_numerica], kde= True, label=valor)
plt.legend();


#=============================================
# TREEMAP
#=============================================
import squarify # Primero importamos squarify

# Obtenemos los datos, haciendo la agregación que queramos:

variable_categorica = "aircompany"
variable_numerica = "ingresos"
operacion_agregacion = sum

datos = df_viajes.groupby(variable_categorica, as_index = False).agg({variable_numerica: operacion_agregacion})

plt.figure(figsize = (5,4))
squarify.plot(sizes = datos[variable_numerica], label = datos[variable_categorica], alpha = 0.6)
plt.title("Ingresos por compañía")
plt.axis("off")


#=============================================
# FUNCIÓN
#=============================================

import math

def plot_hist_by_category(df, col_cat, col_num):
    """
    Dibuja histogramas de la columna numérica filtrada por cada valor
    único de la columna categórica.
    
    Parámetros:
        df      : DataFrame
        col_cat : nombre de columna categórica
        col_num : nombre de columna numérica
    """

    # Valores únicos de la variable categórica
    categorias = df[col_cat].dropna().unique()
    n = len(categorias)

    # Configuración de matriz: máximo 3 columnas
    cols = 3
    rows = math.ceil(n / cols)

    fig, axes = plt.subplots(rows, cols, figsize=(18, 4 * rows))
    axes = axes.ravel()  # para iterar fácilmente

    for i, categoria in enumerate(categorias):
        # Filtramos el dataframe por la categoría correspondiente
        df_filtrado = df[df[col_cat] == categoria][col_num].dropna()

        axes[i].hist(df_filtrado, bins=20, color="steelblue", alpha=0.7)
        axes[i].set_title(f"Histograma de {col_num} para el valor {categoria}")
        axes[i].set_xlabel(col_num)
        axes[i].set_ylabel("Frecuencia")

    # Ocultamos ejes vacíos si la matriz no es exacta
    for j in range(i + 1, len(axes)):
        axes[j].set_visible(False)

    plt.tight_layout()
    plt.show()


## 9.3. Numérica-Numérica

In [None]:
#=============================================
# DIAGRAMAS DE CAJA
#=============================================
fig, axs = plt.subplots(2, 1, figsize=(10, 8))
sns.boxplot(x=df_vuelos_jul["ingresos"], ax =axs[0], color ="red")
axs[0].set_title("Julio")
sns.boxplot(x=df_vuelos_jun["ingresos"], ax =axs[1], color ="green")
axs[1].set_title("Junio")
plt.tight_layout()
plt.show()

#=============================================
# HISTOGRAMAS
#=============================================
plt.figure(figsize=(10, 5))
sns.histplot(x="ingresos", data= df_vuelos_jul, kde=True, label="Julio") 
sns.histplot(x="ingresos", data= df_vuelos_jun, kde=True, label="Junio")
plt.legend() 


#=============================================
# DIAGRAMAS DE DISPERSIÓN
#=============================================
variable_numerica_1 = "age"
variable_numerica_2 = "fare"

plt.figure(figsize=(10,5))
sns.scatterplot(x= variable_numerica_1,
                y= variable_numerica_2,
                data = df_titanic,
               s=20);


#=============================================
# FUNCIÓN
#=============================================

def scatter_plot(df, col_x, col_y, col_cat=None, size=50):
    """
    Pinta un diagrama de dispersión entre dos columnas numéricas,
    coloreando por la columna categórica si se especifica.
    
    Parámetros:
        df      : DataFrame
        col_x   : columna numérica (eje X)
        col_y   : columna numérica (eje Y)
        col_cat : columna categórica (opcional)
        size    : tamaño de los puntos
    """

    plt.figure(figsize=(8, 6))

    if col_cat is None:
        # Sin categoría → sin hue
        sns.scatterplot(data=df, x=col_x, y=col_y, s=size)
    else:
        # Con categoría → con hue
        sns.scatterplot(data=df, x=col_x, y=col_y, hue=col_cat, s=size)

    plt.title(f"Diagrama de dispersión: {col_x} vs {col_y}", fontsize=14)
    plt.xlabel(col_x)
    plt.ylabel(col_y)
    plt.tight_layout()
    plt.show()


# 10. Visualización multivariable

In [None]:
#=============================================
# MAPAS DE CALOR
#=============================================


#=============================================
# DIAGRAMAS DE DISPERSIÓN
#=============================================


#=============================================
# DIAGRAMAS DE DISPERSIÓN
#=============================================


#=============================================
# DIAGRAMAS DE DISPERSIÓN
#=============================================