# Visualización I - Series de tiempo

## Introducción

Análisis de las ventas a lo largo del tiempo

En clases anteriores utilizamos gráficos como el `histograma` y el `boxplot` para representar la distribución de variables numéricas y exponer las medidas de posición central (media, mediana y rango intercuartílico) y las medidas de dispersión o variabilidad (varianza, desviación estándar y rango).
Estos gráficos nos permiten además visualizar rápidamente valores atípicos (outliers), así como identificar tendencias y patrones.
<br>
Sin embargo, al momento de elaborar un reporte de Business Intelligence (BI), necesitamos otro tipo de visualizaciones que nos permitan destacar información clave, captar la atención de la audiencia y facilitar la comprensión de los resultados.

# Ejemplo introductorio

In [None]:
# Importamos las librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Creamos un dataset con los valores de ventas acumulados para cada uno de los
# meses del año de un determinado producto
# Lista con los meses
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul',
         'Ago', 'Sep', 'Oct', 'Nov', 'Dic']

# Lista con las ventas (Pesos)
ventas = [100, 120, 130, 150, 180, 170, 200, 210, 250, 270, 300, 320]

# Creamos un DataFrame de Pandas para organizar los datos
df = pd.DataFrame({'Mes': meses, 'Ventas': ventas})

## Breve EDA para familiarizarnos con el Dataframe
En nuestro dataset identificamos 2 variables:
* Ventas: variable numérica
* Meses: variable categórica

A modo de repaso, apliquemos algunos métodos y gráficos de EDA a la variable numérica "Ventas"

In [None]:
# Usar los métodos vistos para EDA:


In [None]:
# Usar los gráficos vistos para EDA:
# Histograma: para analizar la distribución


In [None]:
# Boxplot: para analizar medidas de posición central y de dispersión


In [None]:
# El scatterplot permite observar la relación entre los meses y las ventas.


# Unir los dots con líneas, se aprecia la tendencia?

### Conclusiones:
Escribir brevemente lo observado...

## Visualizar la serie de tiempo
Nos interesa ahora analizar cómo han evolucionado las ventas a lo largo del tiempo, en este caso, a lo largo de los 12 meses del año.
<BR>
Este análisis es necesario para que el cliente pueda tomar decisiones estratégicas sobre los productos y las campañas de marketing de la marca.
<BR>
Para ello vamos a generar un gráfico de lineas.

### Usando Seaborn

In [None]:
# Estilo


# Línea que une los puntos


# Etiquetas y título


### Usando Seaborn personalizado

Ahora vamos a usar algunos parámetros de `sns.lineplot()` para hacerlo más claro y atractivo:

* `color` define el color de la línea (puede ser nombre, código RGB o hexadecimal).
* `linewidth` cambia el grosor.
* `linestyle` define el tipo de trazo (continuo, punteado, etc.).
* `marker` agrega un símbolo en cada punto de datos (o círculo, s cuadrado, D diamante)


In [None]:
# Estilo

# Línea con puntos personalizados



### Proyección de ventas

In [None]:
# Simulamos un incremento de 5% para las ventas proyectadas del próximo año
df["Ventas_proyectadas"] = [v * 1.05 for v in df["Ventas"]]

# Unimos las ventas proyectadas para graficar con Seaborn
df_melted = df.melt(
    id_vars='Mes',                     # columna que permanece fija
    value_vars=['Ventas', 'Ventas_proyectadas'],  # columnas a combinar
    var_name='Tipo',                   # nueva columna con el nombre de la serie
    value_name='Valor'                # nueva columna con los valores
)

print(df_melted.sample(5))


In [None]:
# Estilo general
sns.set(style="whitegrid", palette="Set1")

plt.figure(figsize=(8, 5))

# Línea con puntos personalizados, una por tipo de venta
sns.lineplot(
    data=df_melted,
    x='Mes', y='Valor',
    hue='Tipo',            # cada tipo tendrá un color diferente
    style='Tipo',          # también cambia el estilo de línea
    markers=True,          # activa marcadores por categoría
    dashes=False,          # usa líneas continuas en lugar de guiones
    linewidth=2.5,
    palette={'Ventas': 'royalblue', 'Ventas_proyectadas': 'orange'}
)

plt.title('Ventas mensuales alcanzadas y proyectadas', fontsize=14)
plt.xlabel('Mes')
plt.ylabel('Ventas')
plt.legend(title='Tipo de serie', loc='upper left')
plt.tight_layout()
plt.show()

### Usando Plotly (solo a modo introductorio)
Lo vemos en detalle en clase 13

In [None]:
import plotly.graph_objects as go

# Figura
fig = go.Figure()

# Scatter con línea
fig.add_trace(go.Scatter(
    x=df['Mes'],
    y=df['Ventas'],
    mode='lines+markers',
    line=dict(color='royalblue', width=2),
    marker=dict(size=8, symbol='circle'),
    name='Ventas'
))

fig.update_layout(
    title='Ventas mensuales (puntos unidos)',
    title_x=0.5,
    xaxis_title='Mes',
    yaxis_title='Ventas',
    template='plotly_white'
)

fig.show()


# Ejemplo con Dataset Superstore

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
import os
os.chdir('/content/drive/MyDrive/datasets')
df = pd.read_csv("Sample - Superstore.csv", encoding="latin1")

In [None]:
# Tomemos algunas muestras
df.sample()

In [None]:
# Normalizar nombres de columnas
df.columns = df.columns.str.strip().str.replace(" ", "_").str.lower()

In [None]:
# Limpieza básica y conversión de tipo de datos

# Convertimos el campo fecha de string a datetime


In [None]:
# Transformación: generar las columnas año y mes a partir del campo date


In [None]:
# Agrupación/agregación:
# Queremos representar la suma de ventas y ganancias, agrupadas por año y por mes:


In [None]:
# Generamos un gráfico de lineas (serie de tiempo)
# que muestre la evolución de las ventas en el año


In [None]:
# Y otro que muestre la evolución de las ganancias en el año


### Introducción a gráficos de barra y barra apilados
Ya que las ventas y las ganancias se encuentran en las mismas unidads, que interesante sería poder graficar ambos en un mismo plot, de manera de identificar rápidamente la proporción de las ganancias sobre las ventas.
<BR>
Vamos a cubrir en detalles este tema en clase 13, por ahora solo veamos el resultado final:

In [None]:
# Generamos un gráfico de barras apilado, de manera de mostrar comparativamente
# las ganancias sobre las ventas
import matplotlib.pyplot as plt
import seaborn as sns

# Aseguramos el orden de los meses (opcional)
df_sales = df_sales.sort_values("month")

# Creamos el gráfico apilado
plt.figure(figsize=(10,6))
plt.bar(df_sales["month"], df_sales["sales"], label="Ventas", color="skyblue")
plt.bar(df_sales["month"], df_sales["profit"], bottom=df_sales["sales"], label="Ganancias", color="lightgreen")

# Etiquetas y estilo
plt.title("Relación entre Ventas y Ganancias (2017)", fontsize=14)
plt.xlabel("Mes")
plt.ylabel("Monto ($)")
plt.legend()
plt.xticks(df_sales["month"])
sns.despine()
plt.tight_layout()
plt.show()
