# Análisis de Ventas por Categoría

### Contexto:
Una empresa de retail necesita analizar sus ventas segmentadas por categoría de producto y mes,
con el fin de preparar un informe de performance.

### Consigna:
Utiliza técnicas de agrupamiento y pivotado con Pandas para construir un resumen tabular de ventas mensuales por categoría.

### Paso a paso:
1. Carga el archivo 'ventas_productos.csv' (contiene columnas como: fecha, categoría, producto, ventas).
2. Convierte la columna 'fecha' a tipo datetime y extrae el mes en una nueva columna.
3. Agrupa por categoría y mes usando groupby() y calcula la suma de las ventas.
4. Pivotea el resultado para que las categorías estén en filas y los meses en columnas.
5. Exporta el DataFrame pivotado como 'reporte_categorias.csv'.


In [2]:
# Paso 1: Importar librerías necesarias
import pandas as pd
from google.colab import drive

# Paso 2: Conectar con Google Drive
drive.mount('/content/drive')

# Paso 3: Cargar el archivo CSV desde tu Drive
# Asegúrate de mover el archivo 'ventas_productos.csv' a tu Google Drive, por ejemplo en "Mi unidad/"
ruta_archivo = '/content/drive/MyDrive/CURSO FUNDAMENTOS DE LA INGENIERIA DE DATOS/ventas_productos.csv'  # ajusta la ruta si está en otra carpeta
df = pd.read_csv(ruta_archivo)

# Verificamos los primeros datos
print("Primeras filas del archivo:")
print(df.head())

# Paso 4: Convertir la columna 'fecha' a tipo datetime
df['fecha'] = pd.to_datetime(df['fecha'])

# Paso 5: Crear una nueva columna con el mes (nombre o número)
df['mes'] = df['fecha'].dt.month  # también puedes usar .dt.strftime('%B') para el nombre del mes

# Paso 6: Agrupar por categoría y mes, y sumar las ventas
agrupado = df.groupby(['categoria', 'mes'])['ventas'].sum().reset_index()

# Paso 7: Pivotear la tabla para que las categorías estén en filas y los meses en columnas
tabla_pivot = agrupado.pivot(index='categoria', columns='mes', values='ventas').fillna(0)

# Mostramos la tabla final
print("\nTabla de ventas por categoría y mes:")
print(tabla_pivot)

# Paso 8: Guardar el resultado como archivo CSV
tabla_pivot.to_csv('/content/drive/MyDrive/CURSO FUNDAMENTOS DE LA INGENIERIA DE DATOS/reporte_categorias.csv')

print("\nEl archivo 'reporte_categorias.csv' fue guardado en tu Google Drive.")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Primeras filas del archivo:
        fecha   categoria  producto     ventas
0  2025-02-16        Ropa  Chaqueta   23215.48
1  2025-07-01        Ropa     Jeans  197192.09
2  2025-07-23        Ropa    Polera   82223.98
3  2025-05-20  Juguetería   Auto RC  168480.98
4  2025-05-28        Ropa     Jeans   77501.43

Tabla de ventas por categoría y mes:
mes                1          2          3          4          5          6  \
categoria                                                                     
Hogar       74633.34  330316.98   97294.67       0.00  102228.75  463808.53   
Juguetería      0.00   62923.58   27921.90  179370.22  220151.92  334742.18   
Ropa            0.00  117410.32  256425.36  176509.85  715462.50  110258.02   
Tecnología      0.00  185977.00  268517.39  669992.61  155508.54  317174.61   

mes                 7  
categoria              


In [3]:
df.head()

Unnamed: 0,fecha,categoria,producto,ventas,mes
0,2025-02-16,Ropa,Chaqueta,23215.48,2
1,2025-07-01,Ropa,Jeans,197192.09,7
2,2025-07-23,Ropa,Polera,82223.98,7
3,2025-05-20,Juguetería,Auto RC,168480.98,5
4,2025-05-28,Ropa,Jeans,77501.43,5


# Integración de datos de usuarios y compras

### Contexto:
El equipo de marketing quiere unir datos de usuarios registrados con sus compras
para identificar patrones de comportamiento.

### Consigna:
Aplica merge() y groupby() en Pandas para analizar cuántas compras hizo cada tipo de usuario.

### Paso a Paso:

1- Carga dos archivos:
   - usuarios.csv (con columnas: user_id, segmento, registro_fecha)
   - compras.csv (con columnas: user_id, compra_id, monto)

2-Une ambos datasets utilizando merge() por la columna user_id

3-Agrupa por segmento y cuenta la cantidad de compras realizadas

4- Calcula también el monto total gastado por segmento usando .agg()

5- Muestra los resultados ordenados de mayor a menor cantidad de compras


In [5]:
# ------------------------------
# Paso 1: Conectar con Google Drive
# ------------------------------
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd

# ------------------------------
# Paso 3: Cargar archivos CSV desde Drive
# ------------------------------

ruta_usuarios = '/content/drive/MyDrive/CURSO FUNDAMENTOS DE LA INGENIERIA DE DATOS/usuarios.csv'
ruta_compras = '/content/drive/MyDrive/CURSO FUNDAMENTOS DE LA INGENIERIA DE DATOS/compras.csv'

usuarios_df = pd.read_csv(ruta_usuarios)
compras_df = pd.read_csv(ruta_compras)

# ------------------------------
# Paso 4: Unir ambos datasets usando merge() por user_id
# ------------------------------
datos_unidos = pd.merge(usuarios_df, compras_df, left_on='user_id', right_on='user_id')

# ------------------------------
# Paso 5: Agrupar por segmento y contar cantidad de compras
# ------------------------------
resumen = datos_unidos.groupby('segmento').agg(
    cantidad_compras=('compra_id', 'count'),
    monto_total=('monto', 'sum')
).reset_index()

# ------------------------------
# Paso 6: Ordenar de mayor a menor por cantidad de compras
# ------------------------------
resumen_ordenado = resumen.sort_values(by='cantidad_compras', ascending=False)

# ------------------------------
# Paso 7: Mostrar resultados
# ------------------------------
print(resumen_ordenado)


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
  segmento  cantidad_compras  monto_total
1        B                 6         1065
0        A                 5          930
2        C                 3          430


In [6]:
datos_unidos.head()

Unnamed: 0,user_id,segmento,registro_fecha,compra_id,monto
0,1,A,2023-01-05,101,100
1,2,B,2023-01-10,102,200
2,2,B,2023-01-10,103,150
3,3,A,2023-02-15,104,300
4,4,C,2023-02-20,105,120
