# Funciones de agregación y transformación

## Importamos un dataset de Kaggle

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("rohitsahoo/sales-forecasting")

print("Path to dataset files:", path)

In [None]:
!ls /kaggle/input/sales-forecasting

In [None]:
# Montar la unidad
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Ahora copiar el dataset descargado a nuestro Google Drive
import os, shutil
# Carpeta destino
dest_dir = "/content/drive/MyDrive/datasets/"

# Copiar todos los archivos del dataset al destino
for file in os.listdir(path):
    shutil.copy(os.path.join(path, file), dest_dir)

# print("Archivos copiados a:", dest_dir)
# print("Contenido:", os.listdir(dest_dir))

os.listdir(dest_dir)

In [None]:
import pandas as pd

In [None]:
# Usar el método read_csv de Pandas (pd) que recibe como argumento el archivo csv y retorna un dataframe
df = pd.read_csv("/content/drive/MyDrive/datasets/train.csv")
df.head()

## Drop de columnas que no nos interesan


In [None]:
df.drop(columns=["Order ID", "Order Date", "Customer ID", "Postal Code", "Product ID"], inplace=True)
df.head()

## Filtros y Transformaciones - Parte B

### Filtros convencionales

In [None]:
# Lista solo los registros del campo State. Probar como cambia con unique


In [None]:
# Filtrar los registros de un estado específico, por ejemplo Indiana, Illinois, Wisconsin


In [None]:
# Filtrar los registros de un estado específico y mejorar con transformación


In [None]:
# Filtrar los registros de un estado usando contains


In [None]:
# Filtrar los registros de una lista de estados con isin()


In [None]:
# Filtrar los registros de una lista de estados con isin() y mejorar con trasnformaciones


### Filtros con filter

`filter()` no usa condiciones lógicas sobre los datos (para eso se usa query(), loc[], o comparaciones booleanas).
Solo se basa en los nombres de columnas o índices.

Es muy útil para seleccionar columnas por patrón en datasets grandes.

Se puede combinar con otros métodos, por ejemplo:

In [None]:
# Filtrar columnas por nombre exacto


In [None]:
# Filtrar columnas que contienen una cadena de caracteres


In [None]:
# Filtrar columnas con expresión regular


In [None]:
# Filtrar filas (usando índices)


### Filter con query

In [None]:
# Seleecionar las ventas mayores a 1000


In [None]:
# Seleecionar las ventas mayores a 1000 y menores a 1500


In [None]:
# Seleecionar las ventas mayores a 1000 del estado de Illinois


In [None]:
# Seleccionar los registros cuyo campo State contenga california (ignorar case)

## Agregación

Las posibles agreaciones son:
* count() cuenta los valores no nulos
* sum() suma todos los valores numericos
* mean() calcula la media aritmética
* min(), max() retorna el valor más bajo, más alto
* std() retorna la medida de dispersión

In [None]:
df.info()

In [None]:
df["Category"].unique()

In [None]:
df["Sales"].sum()

In [None]:
# Obtener las suma de las ventas registradas por categoría
df.groupby(["Category"])["Sales"].sum()

In [None]:
# Obtener la suma de las ventas registradas por estado
df.groupby(["State"])["Sales"].sum()

In [None]:
# Obtener el promedio de las ventas promedio por segmento


In [None]:
# Calular la suma de las ventas, agrupadas por categoría y por sub-categoría


In [None]:
# Repetir la consulta anterior usando el método agg


In [None]:
# Repetir la consulta anterior y agregar además la cantidad de la Sub-Category


In [None]:
# Agrupando por Category y Sub-Category, generar 3 columnas con:
# Suma de Sales como total_sales
# Cantidad de Sales como count_sales
# Promedio de Sales como avg_sales
# Validar el promedio


In [None]:
# A la comparacion de ventas por Categoria y Subcategoria con categoria total, agregar una columna extra con el indice


## Agregaciones y transformaciones avanzadas

In [None]:
# Analizar que porcentaje representa cada subcategoría de su máximo
