# 🧩 Actividad: Pandas II – Análisis con el Superstore Dataset

## 🧱 Nivel 1 – Exploración del dataset

Lea el archivo *Superstore.csv* , dentro de la función para leer el archivo coloque el parámetro **encoding = "latin-1"**
1️⃣ Muestra cuántas filas y columnas tiene el dataset.

2️⃣ Actualiza el DataFrame seleccionando únicamente las columnas:
```
['Category', 'Sub-Category', 'Region', 'Segment', 'Sales', 'Profit', 'Discount']
```
Guarda el resultado en una nueva variable.

3️⃣ Muestra los valores únicos de las columnas Category, Region y Segment.

4️⃣ Calcula cuántos registros hay por cada Region.

5️⃣ Calcula el porcentaje que representa cada Segment respecto al total de registros.

In [98]:
import pandas as pd

In [99]:
df = pd.read_csv("../data/Superstore.csv", encoding = "latin-1")

In [100]:
# 1️⃣ Muestra cuántas filas y columnas tiene el dataset.
print(f"El dataframe tiene {df.shape[0]} filas y {df.shape[1]} columnas")

El dataframe tiene 9994 filas y 21 columnas


In [101]:
# 2️⃣ Actualiza el DataFrame seleccionando únicamente las columnas especificadas
df_selected = df[['Category', 'Sub-Category', 'Region', 'Segment', 'Sales', 'Profit', 'Discount']]
df_selected.head()

Unnamed: 0,Category,Sub-Category,Region,Segment,Sales,Profit,Discount
0,Furniture,Bookcases,South,Consumer,261.96,41.9136,0.0
1,Furniture,Chairs,South,Consumer,731.94,219.582,0.0
2,Office Supplies,Labels,West,Corporate,14.62,6.8714,0.0
3,Furniture,Tables,South,Consumer,957.5775,-383.031,0.45
4,Office Supplies,Storage,South,Consumer,22.368,2.5164,0.2


In [102]:

# 3️⃣ Muestra los valores únicos de las columnas Category, Region y Segment
print("Valores únicos de Category:")
print(df_selected['Category'].unique())
print()

print("\nValores únicos de Region:")
print(df_selected['Region'].unique())

print("\nValores únicos de Segment:")
print(df_selected['Segment'].unique())

Valores únicos de Category:
['Furniture' 'Office Supplies' 'Technology']


Valores únicos de Region:
['South' 'West' 'Central' 'East']

Valores únicos de Segment:
['Consumer' 'Corporate' 'Home Office']


In [103]:
# 4️⃣ Calcula cuántos registros hay por cada Region
print("Registros por Region:")
print(df_selected['Region'].value_counts())

Registros por Region:
Region
West       3203
East       2848
Central    2323
South      1620
Name: count, dtype: int64


In [104]:
# 5️⃣ Calcula el porcentaje que representa cada Segment respecto al total de registros
print("Porcentaje por Segment:")
print(df_selected['Segment'].value_counts(normalize=True) * 100)

Porcentaje por Segment:
Segment
Consumer       51.941165
Corporate      30.218131
Home Office    17.840704
Name: proportion, dtype: float64


## ⚙️ Nivel 2 – Filtros simples 
(No los guarden en ninguna variable, ni actualicen el dataframe)  
6️⃣ Filtra los datos para mostrar solo los registros donde la categoría sea Furniture.

7️⃣ Muestra los registros donde las ventas sean mayores a 500.

8️⃣ Muestra las filas donde el descuento sea igual a 0.

In [105]:
# 6️⃣ Filtra los datos para mostrar solo los registros donde la categoría sea Furniture
print("Registros donde la categoría es Furniture:")
print(df_selected[df_selected['Category'] == 'Furniture'])

Registros donde la categoría es Furniture:
       Category Sub-Category   Region      Segment      Sales    Profit  \
0     Furniture    Bookcases    South     Consumer   261.9600   41.9136   
1     Furniture       Chairs    South     Consumer   731.9400  219.5820   
3     Furniture       Tables    South     Consumer   957.5775 -383.0310   
5     Furniture  Furnishings     West     Consumer    48.8600   14.1694   
10    Furniture       Tables     West     Consumer  1706.1840   85.3092   
...         ...          ...      ...          ...        ...       ...   
9962  Furniture    Bookcases  Central  Home Office   383.4656  -67.6704   
9964  Furniture  Furnishings     East    Corporate    13.4000    6.4320   
9980  Furniture       Tables    South     Consumer    85.9800   22.3548   
9989  Furniture  Furnishings    South     Consumer    25.2480    4.1028   
9990  Furniture  Furnishings     West     Consumer    91.9600   15.6332   

      Discount  
0         0.00  
1         0.00  
3    

In [106]:
# 7️⃣ Muestra los registros donde las ventas sean mayores a 500
print("\nRegistros donde las ventas son mayores a 500:")
print(df_selected[df_selected['Sales'] > 500])


Registros donde las ventas son mayores a 500:
             Category Sub-Category   Region    Segment      Sales    Profit  \
1           Furniture       Chairs    South   Consumer   731.9400  219.5820   
3           Furniture       Tables    South   Consumer   957.5775 -383.0310   
7          Technology       Phones     West   Consumer   907.1520   90.7152   
10          Furniture       Tables     West   Consumer  1706.1840   85.3092   
11         Technology       Phones     West   Consumer   911.4240   68.3568   
...               ...          ...      ...        ...        ...       ...   
9931        Furniture    Bookcases     West   Consumer   683.3320  -40.1960   
9942  Office Supplies      Storage     West   Consumer   998.8200   29.9646   
9947        Furniture       Chairs  Central  Corporate  1925.8800  539.2464   
9948  Office Supplies   Appliances  Central  Corporate  2405.2000  793.7160   
9968  Office Supplies      Binders     East   Consumer   735.9800  331.1910   

    

In [107]:
# 8️⃣ Muestra las filas donde el descuento sea igual a 0
print("\nRegistros donde el descuento es igual a 0:")
print(df_selected[df_selected['Discount'] == 0])


Registros donde el descuento es igual a 0:
             Category Sub-Category Region    Segment   Sales    Profit  \
0           Furniture    Bookcases  South   Consumer  261.96   41.9136   
1           Furniture       Chairs  South   Consumer  731.94  219.5820   
2     Office Supplies       Labels   West  Corporate   14.62    6.8714   
5           Furniture  Furnishings   West   Consumer   48.86   14.1694   
6     Office Supplies          Art   West   Consumer    7.28    1.9656   
...               ...          ...    ...        ...     ...       ...   
9987       Technology  Accessories  South  Corporate   79.99   28.7964   
9988       Technology       Phones  South  Corporate  206.10   55.6470   
9990        Furniture  Furnishings   West   Consumer   91.96   15.6332   
9992  Office Supplies        Paper   West   Consumer   29.60   13.3200   
9993  Office Supplies   Appliances   West   Consumer  243.16   72.9480   

      Discount  
0          0.0  
1          0.0  
2          0.0  

## 🧮 Nivel 3 – Filtros con operadores lógicos
9️⃣ Muestra las filas donde la ganancia sea mayor a 50 y el descuento menor a 0.2.

🔟 Muestra los registros donde la categoría sea Technology o la región sea West.

11️⃣ Muestra todas las filas que no pertenezcan a la categoría Office Supplies.

In [108]:
# 9️⃣ Muestra las filas donde la ganancia sea mayor a 50 y el descuento menor a 0.2
print("Registros donde la ganancia > 50 y descuento < 0.2:")
print(df_selected[(df_selected['Profit'] > 50) & (df_selected['Discount'] < 0.2)])

Registros donde la ganancia > 50 y descuento < 0.2:
             Category Sub-Category Region      Segment    Sales    Profit  \
1           Furniture       Chairs  South     Consumer   731.94  219.5820   
24          Furniture       Tables   West     Consumer  1044.63  240.2649   
54         Technology       Phones   East    Corporate  1029.95  298.6855   
55    Office Supplies      Storage   East     Consumer   208.56   52.1400   
64    Office Supplies        Paper   West     Consumer   146.73   68.9631   
...               ...          ...    ...          ...      ...       ...   
9966  Office Supplies    Envelopes   East    Corporate   109.69   51.5543   
9968  Office Supplies      Binders   East     Consumer   735.98  331.1910   
9970  Office Supplies      Binders  South  Home Office   119.56   54.9976   
9988       Technology       Phones  South    Corporate   206.10   55.6470   
9993  Office Supplies   Appliances   West     Consumer   243.16   72.9480   

      Discount  
1     

In [109]:
# 🔟 Muestra los registros donde la categoría sea Technology o la región sea West
print("Registros donde la categoría es Technology o la región es West:")
print(df_selected[(df_selected['Category'] == 'Technology') | (df_selected['Region'] == 'West')])

Registros donde la categoría es Technology o la región es West:
             Category Sub-Category Region    Segment    Sales   Profit  \
2     Office Supplies       Labels   West  Corporate   14.620   6.8714   
5           Furniture  Furnishings   West   Consumer   48.860  14.1694   
6     Office Supplies          Art   West   Consumer    7.280   1.9656   
7          Technology       Phones   West   Consumer  907.152  90.7152   
8     Office Supplies      Binders   West   Consumer   18.504   5.7825   
...               ...          ...    ...        ...      ...      ...   
9988       Technology       Phones  South  Corporate  206.100  55.6470   
9990        Furniture  Furnishings   West   Consumer   91.960  15.6332   
9991       Technology       Phones   West   Consumer  258.576  19.3932   
9992  Office Supplies        Paper   West   Consumer   29.600  13.3200   
9993  Office Supplies   Appliances   West   Consumer  243.160  72.9480   

      Discount  
2          0.0  
5          0.

In [110]:
# 11️⃣ Muestra todas las filas que no pertenezcan a la categoría Office Supplies
print("Registros que no pertenecen a la categoría Office Supplies:")
print(df_selected[df_selected['Category'] != 'Office Supplies'])

Registros que no pertenecen a la categoría Office Supplies:
        Category Sub-Category Region    Segment     Sales    Profit  Discount
0      Furniture    Bookcases  South   Consumer  261.9600   41.9136      0.00
1      Furniture       Chairs  South   Consumer  731.9400  219.5820      0.00
3      Furniture       Tables  South   Consumer  957.5775 -383.0310      0.45
5      Furniture  Furnishings   West   Consumer   48.8600   14.1694      0.00
7     Technology       Phones   West   Consumer  907.1520   90.7152      0.20
...          ...          ...    ...        ...       ...       ...       ...
9987  Technology  Accessories  South  Corporate   79.9900   28.7964      0.00
9988  Technology       Phones  South  Corporate  206.1000   55.6470      0.00
9989   Furniture  Furnishings  South   Consumer   25.2480    4.1028      0.20
9990   Furniture  Furnishings   West   Consumer   91.9600   15.6332      0.00
9991  Technology       Phones   West   Consumer  258.5760   19.3932      0.20

[39

## 🎯 Nivel 4 – Inclusiones
12️⃣ Muestra las filas donde la categoría esté entre Furniture, Technology u Office Supplies.

13️⃣ Muestra las filas donde la región esté entre East y West.

In [111]:
# 12️⃣ Muestra las filas donde la categoría esté entre Furniture, Technology u Office Supplies
print("Registros donde la categoría está entre Furniture, Technology u Office Supplies:")
print(df_selected[df_selected['Category'].isin(['Furniture', 'Technology', 'Office Supplies'])])

Registros donde la categoría está entre Furniture, Technology u Office Supplies:
             Category Sub-Category Region    Segment     Sales    Profit  \
0           Furniture    Bookcases  South   Consumer  261.9600   41.9136   
1           Furniture       Chairs  South   Consumer  731.9400  219.5820   
2     Office Supplies       Labels   West  Corporate   14.6200    6.8714   
3           Furniture       Tables  South   Consumer  957.5775 -383.0310   
4     Office Supplies      Storage  South   Consumer   22.3680    2.5164   
...               ...          ...    ...        ...       ...       ...   
9989        Furniture  Furnishings  South   Consumer   25.2480    4.1028   
9990        Furniture  Furnishings   West   Consumer   91.9600   15.6332   
9991       Technology       Phones   West   Consumer  258.5760   19.3932   
9992  Office Supplies        Paper   West   Consumer   29.6000   13.3200   
9993  Office Supplies   Appliances   West   Consumer  243.1600   72.9480   

      

In [112]:
# 13️⃣ Muestra las filas donde la región esté entre East y West
print("Registros donde la región está entre East y West:")
print(df_selected[df_selected['Region'].isin(['East', 'West'])])

Registros donde la región está entre East y West:
             Category Sub-Category Region    Segment    Sales   Profit  \
2     Office Supplies       Labels   West  Corporate   14.620   6.8714   
5           Furniture  Furnishings   West   Consumer   48.860  14.1694   
6     Office Supplies          Art   West   Consumer    7.280   1.9656   
7          Technology       Phones   West   Consumer  907.152  90.7152   
8     Office Supplies      Binders   West   Consumer   18.504   5.7825   
...               ...          ...    ...        ...      ...      ...   
9986       Technology  Accessories   West   Consumer   36.240  15.2208   
9990        Furniture  Furnishings   West   Consumer   91.960  15.6332   
9991       Technology       Phones   West   Consumer  258.576  19.3932   
9992  Office Supplies        Paper   West   Consumer   29.600  13.3200   
9993  Office Supplies   Appliances   West   Consumer  243.160  72.9480   

      Discount  
2          0.0  
5          0.0  
6         

## 📊 Nivel 5 – Agrupaciones y agregaciones
14️⃣ Calcula el total de ventas por categoría de producto.

15️⃣ Calcula el promedio de ganancia por región.

16️⃣ Calcula cuántos registros existen por segmento de cliente.

17️⃣ Calcula el promedio de ventas y de ganancia por categoría de producto y región.

18️⃣ Calcula el total de ventas por subcategoría y ordénalo de mayor a menor.

In [113]:
# 14️⃣ Calcula el total de ventas por categoría de producto
print("Total de ventas por categoría:")
print(df_selected.groupby('Category')['Sales'].sum())

Total de ventas por categoría:
Category
Furniture          741999.7953
Office Supplies    719047.0320
Technology         836154.0330
Name: Sales, dtype: float64


In [114]:
# 15️⃣ Calcula el promedio de ganancia por región
print("Promedio de ganancia por región:")
print(df_selected.groupby('Region')['Profit'].mean())

Promedio de ganancia por región:
Region
Central    17.092709
East       32.135808
South      28.857673
West       33.849032
Name: Profit, dtype: float64


In [115]:
# 16️⃣ Calcula cuántos registros existen por segmento de cliente
print("Cantidad de registros por segmento de cliente:")
print(df_selected.groupby('Segment').size())

Cantidad de registros por segmento de cliente:
Segment
Consumer       5191
Corporate      3020
Home Office    1783
dtype: int64


In [116]:
# 17️⃣ Calcula el promedio de ventas y de ganancia por categoría de producto y región
print("Promedio de ventas y ganancia por categoría y región:")
print(df_selected.groupby(['Category', 'Region'])[['Sales', 'Profit']].mean())

Promedio de ventas y ganancia por categoría y región:
                              Sales     Profit
Category        Region                        
Furniture       Central  340.534644  -5.968918
                East     346.574383   5.068496
                South    353.309289  20.395199
                West     357.302325  16.272914
Office Supplies Central  117.458801   6.244712
                East     120.044425  23.957114
                South    126.282727  20.086827
                West     116.422377  27.733183
Technology      Central  405.753124  80.231981
                East     495.278469  88.714084
                South    507.753952  68.231506
                West     420.687533  73.962687


In [117]:
# 18️⃣ Calcula el total de ventas por subcategoría y ordénalo de mayor a menor
print("Total de ventas por subcategoría (ordenado de mayor a menor):")
print(df_selected.groupby('Sub-Category')['Sales'].sum().sort_values(ascending=False))

Total de ventas por subcategoría (ordenado de mayor a menor):
Sub-Category
Phones         330007.0540
Chairs         328449.1030
Storage        223843.6080
Tables         206965.5320
Binders        203412.7330
Machines       189238.6310
Accessories    167380.3180
Copiers        149528.0300
Bookcases      114879.9963
Appliances     107532.1610
Furnishings     91705.1640
Paper           78479.2060
Supplies        46673.5380
Art             27118.7920
Envelopes       16476.4020
Labels          12486.3120
Fasteners        3024.2800
Name: Sales, dtype: float64


## 🧠 Nivel 6 – Combinando filtros y agrupaciones
19️⃣ Filtra los registros donde la ganancia sea mayor a 0 y el descuento menor a 0.1. Luego calcula el total de ventas por categoría.

20️⃣ Filtra los registros donde el descuento sea mayor a 0.2 y calcula el promedio de ganancia por subcategoría.

21️⃣ Filtra los registros donde el segmento sea Consumer y muestra las tres subcategorías con mayores ventas.

In [118]:
# 19️⃣ Filtra los registros donde la ganancia sea mayor a 0 y el descuento menor a 0.1. Luego calcula el total de ventas por categoría
df_filtrado = df_selected[(df_selected['Profit'] > 0) & (df_selected['Discount'] < 0.1)]
print("Total de ventas por categoría (con ganancia > 0 y descuento < 0.1):")
print(df_filtrado.groupby('Category')['Sales'].sum())

Total de ventas por categoría (con ganancia > 0 y descuento < 0.1):
Category
Furniture          256025.27
Office Supplies    434293.96
Technology         389517.88
Name: Sales, dtype: float64


In [119]:
# 20️⃣ Filtra los registros donde el descuento sea mayor a 0.2 y calcula el promedio de ganancia por subcategoría
df_filtrado_20 = df_selected[df_selected['Discount'] > 0.2]
print("Promedio de ganancia por subcategoría (con descuento > 0.2):")
print(df_filtrado_20.groupby('Sub-Category')['Profit'].mean())

Promedio de ganancia por subcategoría (con descuento > 0.2):
Sub-Category
Appliances    -128.800615
Binders        -62.822996
Bookcases     -158.539449
Chairs         -42.639979
Copiers        242.552800
Furnishings    -43.077212
Machines      -557.648153
Phones         -58.585187
Tables        -174.421720
Name: Profit, dtype: float64


In [120]:
# 21️⃣ Filtra los registros donde el segmento sea Consumer y muestra las tres subcategorías con mayores ventas
filtrado_consumer = df_selected[df_selected['Segment'] == 'Consumer']
print("Las tres subcategorías con mayores ventas en el segmento Consumer:")
print(filtrado_consumer.groupby('Sub-Category')['Sales'].sum().sort_values(ascending=False).head(3))

Las tres subcategorías con mayores ventas en el segmento Consumer:
Sub-Category
Chairs     172862.742
Phones     169932.764
Binders    118161.009
Name: Sales, dtype: float64


## 💬 Nivel 7 – Análisis libre y pensamiento crítico
22️⃣ Usando filtros y agrupaciones, formula una pregunta de análisis propia sobre el dataset y respóndela con código y una breve interpretación.

23️⃣ Formula una segunda pregunta distinta, combinando al menos dos conceptos aprendidos hoy (por ejemplo: filtros, inclusiones, agrupaciones u ordenamientos).

In [121]:
# 22️⃣ Usando filtros y agrupaciones, formula una pregunta de análisis propia sobre el dataset y respóndela con código y una breve interpretación.

print("Pregunta: ¿Cuál es la región más rentable para cada categoría de producto?\n")

# Ganancia promedio por categoría y región
ganancia_por_cat_region = df_selected.groupby(['Category', 'Region'])['Profit'].mean().reset_index()

# Para cada categoría, encontramos la región con mayor ganancia promedio
region_mas_rentable = ganancia_por_cat_region.loc[ganancia_por_cat_region.groupby('Category')['Profit'].idxmax()]

print("Región más rentable por categoría:")
print(region_mas_rentable)

print("\nBreve Interpretación:")
print("- Para Furniture, la región más rentable es:", region_mas_rentable[region_mas_rentable['Category'] == 'Furniture']['Region'].values[0])
print("- Para Office Supplies, la región más rentable es:", region_mas_rentable[region_mas_rentable['Category'] == 'Office Supplies']['Region'].values[0])
print("- Para Technology, la región más rentable es:", region_mas_rentable[region_mas_rentable['Category'] == 'Technology']['Region'].values[0])
print("\nEsto nos permite identificar en qué regiones la empresa debe enfocarse para maximizar ganancias por categoría.")

Pregunta: ¿Cuál es la región más rentable para cada categoría de producto?

Región más rentable por categoría:
          Category Region     Profit
2        Furniture  South  20.395199
7  Office Supplies   West  27.733183
9       Technology   East  88.714084

Breve Interpretación:
- Para Furniture, la región más rentable es: South
- Para Office Supplies, la región más rentable es: West
- Para Technology, la región más rentable es: East

Esto nos permite identificar en qué regiones la empresa debe enfocarse para maximizar ganancias por categoría.


In [122]:
# 23️⃣ Formula una segunda pregunta distinta, combinando al menos dos conceptos aprendidos hoy

print("Pregunta: ¿Cuáles son las 5 subcategorías con mayores ventas totales en las regiones East y West, considerando solo los productos con descuento menor o igual a 0.1?\n")

# Filtrar registros de las regiones East y West con descuento <= 0.1
df_filtrado_23 = df_selected[(df_selected['Region'].isin(['East', 'West'])) & (df_selected['Discount'] <= 0.1)]

# Agrupar por subcategoría y sumar las ventas
ventas_por_subcat = df_filtrado_23.groupby('Sub-Category')['Sales'].sum().sort_values(ascending=False)

# Mostrar las top 5 subcategorías
top_5_subcategorias = ventas_por_subcat.head(5)

print("Top 5 subcategorías con mayores ventas (regiones East y West, descuento <= 0.1):")
print(top_5_subcategorias)

print("\nBreve Interpretación:")
print("Al combinar filtros (regiones East y West, descuento <= 0.1), inclusiones (.isin()) y agrupaciones con ordenamiento,")
print("podemos identificar las subcategorías más vendidas en estas regiones específicas cuando los descuentos son bajos.")
print("Esto ayuda a entender qué productos generan mayores ventas sin necesidad de aplicar descuentos significativos,")
print("lo cual es valioso para estrategias de pricing y maximización de márgenes.")

Pregunta: ¿Cuáles son las 5 subcategorías con mayores ventas totales en las regiones East y West, considerando solo los productos con descuento menor o igual a 0.1?

Top 5 subcategorías con mayores ventas (regiones East y West, descuento <= 0.1):
Sub-Category
Storage        115127.700
Accessories     83780.880
Chairs          67390.807
Phones          66277.630
Machines        54994.210
Name: Sales, dtype: float64

Breve Interpretación:
Al combinar filtros (regiones East y West, descuento <= 0.1), inclusiones (.isin()) y agrupaciones con ordenamiento,
podemos identificar las subcategorías más vendidas en estas regiones específicas cuando los descuentos son bajos.
Esto ayuda a entender qué productos generan mayores ventas sin necesidad de aplicar descuentos significativos,
lo cual es valioso para estrategias de pricing y maximización de márgenes.
