# Ejercicios con Dataset Superstore

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Usar el m√©todo read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
import os
os.chdir('/content/drive/MyDrive/datasets')
df = pd.read_csv("superstore.csv", encoding="latin1")

In [None]:
# Normalizar nombres de columnas
df.columns = df.columns.str.strip().str.replace(" ", "_").str.lower()

In [None]:
# Tomemos algunas muestras
df.sample()

In [None]:
df["city"].unique()

In [None]:
# Limpieza b√°sica y conversi√≥n de tipo de datos
df = df.dropna(subset=["order_date", "sales", "profit"])
# Convertimos el campo fecha de string a datetime
df["order_date"] = pd.to_datetime(df["order_date"])

In [None]:
# Transformaci√≥n: generar las columnas a√±o y mes a partir del campo date
df["year"]=df["order_date"].dt.year

## Analizamos las ventas totales por ciudades

In [None]:
# Hagamos un grafico de barras de las mejores 10 ventas acumuladas por ciudad
df_aggr=df.groupby("city").agg(
    {"sales":"sum",
    "profit":"sum"}
    ).sort_values(by="sales", ascending=False).head(10)
df_aggr=df_aggr.reset_index().rename(columns={"sales":"Ventas", "city":"Ciudades", "profit":"Ganancias"})
df_aggr

In [None]:
# Estilo y paleta
sns.set_theme(               # set_theme combina estilo + contexto + paleta
    style="whitegrid",       # opciones: 'white', 'whitegrid', 'dark', 'darkgrid', 'ticks'
    context="notebook",          # escala general: 'paper', 'notebook', 'talk', 'poster'
    palette="Set3"           # paleta de colores base: "deep", "muted", "pastel" / Set1, Set2, Set3
)

# Ajustamos el lienzo
plt.figure(figsize=(10,6))

sns.barplot(data=df_aggr, x="Ciudades", y="Ventas", width=0.8, label="Acumulados por Ciudades")

# Ticks (valores de eje)
plt.tick_params(axis='y', labelsize=10)
plt.tick_params(axis='x', rotation=45, labelsize=10)

# Ajustes de t√≠tulo y ejes
plt.title('Ventas acumuladas por ciudades', fontsize=14)
plt.xlabel('Ciudades')
plt.ylabel('Ventas')
plt.legend()
plt.tight_layout()


In [None]:
# Y representemos en un grafico de barras apilado la relacion ventas/ganancias
plt.figure(figsize=(16,6))
# Primer nivel (abajo)
plt.bar(df_aggr["Ciudades"], df_aggr["Ventas"], label="Ventas")

df_aggr['color'] = df_aggr['Ganancias'].apply(lambda x: 'green' if x >= 0 else 'red')
# Segundo nivel (arriba)
plt.bar(df_aggr["Ciudades"], df_aggr["Ganancias"],color=df_aggr['color'],
        bottom=df_aggr["Ventas"],
        label="Ganancias")

In [None]:
# Formato largo
df_long = df_aggr.melt(
    id_vars="Ciudades",
    value_vars=["Ventas", "Ganancias"],
    var_name="Tipo",
    value_name="Valor"
)
df_long.head()

In [None]:
# Definimos el lienzo
plt.figure(figsize=(10,6))

sns.barplot(
    data=df_long,
    x="Ciudades",
    y="Valor",
    hue="Tipo",
    dodge=True,           # ‚Üê SIDE BY SIDE
)

# Ticks (valores de eje)
plt.tick_params(axis='y', labelsize=10)
plt.tick_params(axis='x', rotation=45, labelsize=10)

# Ajustes de t√≠tulos y ejes
plt.title("Ventas vs Ganancias (Side-by-Side)")
plt.xlabel("Ciudades")
plt.ylabel("Monto")
plt.tight_layout()
plt.show()


## Analizamos las ventas totales por ciudades, comparando por a√±os

In [None]:
# Buscamos las 3 ciudades con mayor volumen de ventas
df_aggr=df.groupby(["city"], as_index=False).agg(
    {"sales":"sum"}
    ).sort_values(by=["sales"], ascending=False).head(3)
df_aggr

In [None]:
# Filtramos del df original estas tres ciudades
df_filtrado=df[df["city"].isin(df_aggr["city"])]


In [None]:
# Hagamos un grafico de barras de las mejores 10 ventas acumuladas por ciudad
df_aggr1=df_filtrado.groupby(["city", "year"]).agg(
    {"sales":"sum"}
    )
df_aggr1=df_aggr1.reset_index().rename(columns={"sales":"Ventas", "city":"Ciudades", "year": "A√±o"})
df_aggr1

In [None]:
# Estilo y paleta
sns.set_theme(               # set_theme combina estilo + contexto + paleta
    style="whitegrid",       # opciones: 'white', 'whitegrid', 'dark', 'darkgrid', 'ticks'
    context="notebook",          # escala general: 'paper', 'notebook', 'talk', 'poster'
    palette="Set3"           # paleta de colores base: "deep", "muted", "pastel" / Set1, Set2, Set3
)

# Ajustamos el lienzo
plt.figure(figsize=(10,6))

sns.barplot(
    data=df_aggr1,
    x="Ciudades",
    y="Ventas",
    hue="A√±o",
    dodge=True,           # ‚Üê SIDE BY SIDE
    palette="Set3"
)

# Ticks (valores de eje)
plt.tick_params(axis='y', labelsize=10)
plt.tick_params(axis='x', labelsize=10)

# Ajustes de t√≠tulos y ejes
plt.title("Ventas vs Ganancias (Side-by-Side)")
plt.xlabel("Ciudades")
plt.ylabel("Monto")
plt.tight_layout()
plt.show()

# Bonus track

El Rose Chart o Coxcomb Chart es un tipo de gr√°fico polar creado por Florence Nightingale en 1858 para mostrar de manera impactante las causas de muerte de los soldados brit√°nicos durante la Guerra de Crimea.

‚≠ê Caracter√≠sticas principales

* Es un gr√°fico circular dividido en segmentos iguales (como p√©talos).
* Cada segmento representa un mes.
* La altura del p√©talo (radio) representa la magnitud del valor.

Nightingale lo us√≥ para mostrar tres categor√≠as de muertes:

* Enfermedades prevenibles
* Heridas en combate
* Otras causas

Los colores diferenciaban cada causa.

Su forma visual enfatiza c√≥mo las enfermedades mataban mucho m√°s que las batallas.

üéØ Objetivo del gr√°fico

Demostrar de forma clara y contundente que la mayor√≠a de las muertes se deb√≠an a mala higiene y enfermedades, no al combate.
Este gr√°fico fue clave para convencer al gobierno brit√°nico de implementar reformas sanitarias en los hospitales militares.

üî• Por qu√© es famoso

* Es uno de los primeros ejemplos de storytelling con datos.
* Pionero en data visualization.
* Impact√≥ pol√≠ticas p√∫blicas.

üß† Concepto t√©cnico

* No es un pie chart.
* No representa proporciones.
* Representa valores absolutos en un espacio polar.
* Se llama coxcomb chart o polar area chart.

[Florence Nightingale's Famous Rose Chart](https://www.youtube.com/watch?v=JZh8tUy_bnM)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

def nightingale_rose(df, col_categoria="Ciudades", col_valor="Ventas",
                     title="Nightingale Rose Diagram"):
    """
    df: DataFrame ordenado con dos columnas
    col_categoria: nombre de la columna de categor√≠as
    col_valor: nombre de la columna num√©rica
    """

    categorias = df[col_categoria].tolist()
    valores = df[col_valor].tolist()

    N = len(df)                           # n√∫mero de filas del df
    angles = np.linspace(0, 2*np.pi, N, endpoint=False)

    # Paleta autom√°tica (tab20 soporta hasta 20 colores, tab20b + tab20c permiten m√°s)
    if N <= 15:
        colors = plt.cm.tab20(np.linspace(0, 1, N))
    else:
        # Para m√°s de 20 categor√≠as, usamos una paleta continua
        colors = plt.cm.viridis(np.linspace(0, 1, N))

    plt.figure(figsize=(10, 10))
    ax = plt.subplot(111, polar=True)

    # Barras
    ax.bar(
        angles,
        valores,
        width=2 * np.pi / N,
        bottom=0,
        color=colors,
        edgecolor="white",
        linewidth=1
    )

    # Etiquetas
    for angle, value, label in zip(angles, valores, categorias):
        ax.text(
            angle,
            value + (max(valores) * 0.05),
            f"{label}\n{value}",
            ha="center",
            va="center",
            fontsize=8
        )

    # Limpieza est√©tica
    ax.set_yticklabels([])
    ax.set_theta_offset(np.pi / 2)
    ax.set_theta_direction(-1)

    plt.title(title, fontsize=16, pad=20)
    plt.show()



In [None]:
# Hagamos un grafico de barras de las mejores 10 ventas acumuladas por ciudad
df_aggr=df.groupby("city").agg(
    {"sales":"sum"}
    ).sort_values(by="sales", ascending=False).head(10)
df_aggr=df_aggr.reset_index().rename(columns={"sales":"Ventas", "city":"Ciudades"})
df_aggr

In [None]:
# Graficamos con Nightingale Rose
nightingale_rose(df_aggr, "Ciudades", "Ventas",
                 title="Nightingale Rose Diagram ‚Äì 10 Ciudades")
