# Funciones de agregación y transformación

## Importamos un dataset de Kaggle

In [1]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("rohitsahoo/sales-forecasting")

print("Path to dataset files:", path)

Using Colab cache for faster access to the 'sales-forecasting' dataset.
Path to dataset files: /kaggle/input/sales-forecasting


In [4]:
!ls /kaggle/input/sales-forecasting

train.csv


In [3]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [5]:
# Ahora copiar el dataset descargado a nuestro Google Drive
import os, shutil
# Carpeta destino
dest_dir = "/content/drive/MyDrive/datasets/"

# Copiar todos los archivos del dataset al destino
for file in os.listdir(path):
    shutil.copy(os.path.join(path, file), dest_dir)

# print("Archivos copiados a:", dest_dir)
# print("Contenido:", os.listdir(dest_dir))

os.listdir(dest_dir)

['netflix-shows.zip',
 'international-hotel-booking-analytics.zip',
 'netflix_titles.csv',
 'satis_clientes.csv',
 'sakila.db',
 'booking_db_nulls.sqlite',
 'booking_db.sqlite',
 'users.csv',
 'hotels.csv',
 'reviews.csv',
 'amazon.csv',
 'Walmart_Sales.csv',
 'train.csv']

In [6]:
import pandas as pd

In [7]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df = pd.read_csv("/content/drive/MyDrive/datasets/train.csv")
df.head()

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales
0,1,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96
1,2,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94
2,3,CA-2017-138688,12/06/2017,16/06/2017,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,California,90036.0,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62
3,4,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775
4,5,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368


## Drop de columnas que no nos interesan


In [8]:
df.drop(columns=["Order ID", "Order Date", "Customer ID", "Postal Code", "Product ID"], inplace=True)
df.head()

Unnamed: 0,Row ID,Ship Date,Ship Mode,Customer Name,Segment,Country,City,State,Region,Category,Sub-Category,Product Name,Sales
0,1,11/11/2017,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96
1,2,11/11/2017,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94
2,3,16/06/2017,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62
3,4,18/10/2016,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775
4,5,18/10/2016,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368


## Filtros y Transformaciones - Parte B

### Filtros convencionales

In [None]:
# Lista solo los registros del campo State. Probar como cambia con unique


In [None]:
# Filtrar los registros de un estado específico, por ejemplo Indiana, Illinois, Wisconsin


In [None]:
# Filtrar los registros de un estado específico y mejorar con transformación


In [None]:
# Filtrar los registros de un estado usando contains


In [None]:
# Filtrar los registros de una lista de estados con isin()


In [None]:
# Filtrar los registros de una lista de estados con isin() y mejorar con trasnformaciones


### Filtros con filter

`filter()` no usa condiciones lógicas sobre los datos (para eso se usa query(), loc[], o comparaciones booleanas).
Solo se basa en los nombres de columnas o índices.

Es muy útil para seleccionar columnas por patrón en datasets grandes.

Se puede combinar con otros métodos, por ejemplo:

In [None]:
# Filtrar columnas por nombre exacto


In [None]:
# Filtrar columnas que contienen una cadena de caracteres


In [None]:
# Filtrar columnas con expresión regular


In [None]:
# Filtrar filas (usando índices)


### Filter con query

In [None]:
# Seleecionar las ventas mayores a 1000


In [None]:
# Seleecionar las ventas mayores a 1000 y menores a 1500


In [None]:
# Seleecionar las ventas mayores a 1000 del estado de Illinois


In [None]:
# Seleccionar los registros cuyo campo State contenga california (ignorar case)

## Agregación

Las posibles agreaciones son:
* count() cuenta los valores no nulos
* sum() suma todos los valores numericos
* mean() calcula la media aritmética
* min(), max() retorna el valor más bajo, más alto
* std() retorna la medida de dispersión

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9800 entries, 0 to 9799
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Row ID         9800 non-null   int64  
 1   Ship Date      9800 non-null   object 
 2   Ship Mode      9800 non-null   object 
 3   Customer Name  9800 non-null   object 
 4   Segment        9800 non-null   object 
 5   Country        9800 non-null   object 
 6   City           9800 non-null   object 
 7   State          9800 non-null   object 
 8   Region         9800 non-null   object 
 9   Category       9800 non-null   object 
 10  Sub-Category   9800 non-null   object 
 11  Product Name   9800 non-null   object 
 12  Sales          9800 non-null   float64
dtypes: float64(1), int64(1), object(11)
memory usage: 995.4+ KB


In [11]:
df["Category"].unique()

array(['Furniture', 'Office Supplies', 'Technology'], dtype=object)

In [13]:
df["Sales"].sum()

np.float64(2261536.7827000003)

In [14]:
# Obtener las suma de las ventas registradas por categoría
df.groupby(["Category"])["Sales"].sum()

Unnamed: 0_level_0,Sales
Category,Unnamed: 1_level_1
Furniture,728658.5757
Office Supplies,705422.334
Technology,827455.873


In [None]:
# Obtener la suma de las ventas registradas por estado
df.groupby(["State"])["Sales"].sum()

In [None]:
# Obtener el promedio de las ventas promedio por segmento


In [None]:
# Calular la suma de las ventas, agrupadas por categoría y por sub-categoría


In [None]:
# Repetir la consulta anterior usando el método agg


In [None]:
# Repetir la consulta anterior y agregar además la cantidad de la Sub-Category


In [None]:
# Agrupando por Category y Sub-Category, generar 3 columnas con:
# Suma de Sales como total_sales
# Cantidad de Sales como count_sales
# Promedio de Sales como avg_sales
# Validar el promedio


In [None]:
# A la comparacion de ventas por Categoria y Subcategoria con categoria total, agregar una columna extra con el indice


## Agregaciones y transformaciones avanzadas

In [None]:
# Analizar que porcentaje representa cada subcategoría de su máximo
