<a href="https://colab.research.google.com/github/JDVAR7/challenge1-data-science-latam/blob/main/AluraStoreLatam.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Importación de datos



In [8]:
import pandas as pd
from google.colab import data_table
import vega_datasets

url = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_1%20.csv"
url2 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_2.csv"
url3 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_3.csv"
url4 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_4.csv"

tienda = pd.read_csv(url)
tienda2 = pd.read_csv(url2)
tienda3 = pd.read_csv(url3)
tienda4 = pd.read_csv(url4)

data_table.enable_dataframe_formatter()
tienda.head(25)

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon
0,Asistente virtual,Electrónicos,164300.0,6900.0,16/01/2021,Pedro Gomez,Bogotá,4,Tarjeta de crédito,8,4.60971,-74.08175
1,Mesa de comedor,Muebles,192300.0,8400.0,18/05/2022,Beatriz Morales,Medellín,1,Tarjeta de crédito,4,6.25184,-75.56359
2,Juego de mesa,Juguetes,209600.0,15900.0,15/03/2021,Juan Fernandez,Cartagena,1,Tarjeta de crédito,1,10.39972,-75.51444
3,Microondas,Electrodomésticos,757500.0,41000.0,03/05/2022,Juan Fernandez,Cali,4,Nequi,1,3.43722,-76.5225
4,Silla de oficina,Muebles,335200.0,20200.0,07/11/2020,Maria Alfonso,Medellín,5,Nequi,1,6.25184,-75.56359
5,Bloques de construcción,Juguetes,24200.0,0.0,03/12/2020,Beatriz Morales,Cali,5,Cupón,1,3.43722,-76.5225
6,Muñeca bebé,Juguetes,44200.0,0.0,07/08/2021,Juan Fernandez,Bogotá,3,Nequi,1,4.60971,-74.08175
7,Lavavajillas,Electrodomésticos,1189700.0,63700.0,18/06/2021,Felipe Santos,Santa Marta,5,Tarjeta de crédito,10,11.24079,-74.19904
8,Lavadora de ropa,Electrodomésticos,1518200.0,79000.0,08/01/2022,Izabela de León,Bogotá,1,Tarjeta de crédito,5,4.60971,-74.08175
9,Carrito de control remoto,Juguetes,75200.0,5100.0,24/02/2020,Beatriz Morales,Bogotá,5,Nequi,1,4.60971,-74.08175


#1. Análisis de facturación



In [4]:
# Lista de DataFrames para un manejo eficiente y distribuido
dataframes = {
    "Tienda 1": tienda,
    "Tienda 2": tienda2,
    "Tienda 3": tienda3,
    "Tienda 4": tienda4
}

In [14]:

# Diccionario para almacenar los resultados
ingresos_totales = {}

print("Ingresos Totales por Tienda")
print("---------------------------")

for nombre, DF in dataframes.items():
    # Seleccionamos la columna 'Precio' y aplicamos el método de suma
    ingreso = DF['Precio'].sum()
    ingresos_totales[nombre] = ingreso

    # Se imprime el resultado
    # la Cadena incluye una coma como separador de miles para mejor lectura
    print(f"{nombre}: ${ingreso:,.2f}")
    columns=['nombre', 'Ingreso)']

print("----------------------------")

Ingresos Totales por Tienda
---------------------------
Tienda 1: $1,150,880,400.00
Tienda 2: $1,116,343,500.00
Tienda 3: $1,098,019,600.00
Tienda 4: $1,038,375,700.00
----------------------------


In [16]:
# la idea es Convertir el diccionario de resultados en DataFrame
Total_ingresos = pd.DataFrame(
    list(ingresos_totales.items()),
    columns=['Tienda', 'Ingreso Total (Precio)'])

# Ordenar los ingresos de mayor a menor
DF_ingresos_ordenados = Total_ingresos.sort_values(by='Ingreso Total (Precio)', ascending=False).reset_index(drop=True)
data_table.enable_dataframe_formatter()
print("\n                                       Resumen de Facturación")
DF_ingresos_ordenados


                                       Resumen de Facturación


Unnamed: 0,Tienda,Ingreso Total (Precio)
0,Tienda 1,1150880000.0
1,Tienda 2,1116344000.0
2,Tienda 3,1098020000.0
3,Tienda 4,1038376000.0


## Interpretación de Resultados
Podemos visualizar para cada tienda, cuáles son las categorías de productos que generan el mayor volumen de ventas (independientemente del precio).

______________________________________________________________________________________________________________________________________________________

# 2. Ventas por categoría

In [36]:
# Ahora, un DataFrame, DF para almacenar los resultados consolidados
resumen_categorias = {}

for nombre, DF in dataframes.items():

    # 1. Agrupamos por 'Categoría del Producto' y contar el número de transacciones
    # Con .size() devuelve una Serie con el conteo de elementos en cada grupo.
    conteo_por_categoria = DF.groupby('Categoría del Producto').size()

    # 2. Ordenamos el resultado de forma descendente para ver las más populares primero
    conteo_ordenado = conteo_por_categoria.sort_values(ascending=False)

    # Almacenamos el resultado en el diccionario de resumen
    resumen_categorias[nombre] = conteo_ordenado

    print(f"\n           {nombre}"           )
    print("\nTop 8 Categorías más Populares:\n")

    # Mostramos el Top 8 de cada tienda
    print(conteo_ordenado.head(8).to_string())
    print("_" * 30)


           Tienda 1

Top 8 Categorías más Populares:

Categoría del Producto
Muebles                    465
Electrónicos               448
Juguetes                   324
Electrodomésticos          312
Deportes y diversión       284
Instrumentos musicales     182
Libros                     173
Artículos para el hogar    171
______________________________

           Tienda 2

Top 8 Categorías más Populares:

Categoría del Producto
Muebles                    442
Electrónicos               422
Juguetes                   313
Electrodomésticos          305
Deportes y diversión       275
Instrumentos musicales     224
Libros                     197
Artículos para el hogar    181
______________________________

           Tienda 3

Top 8 Categorías más Populares:

Categoría del Producto
Muebles                    499
Electrónicos               451
Juguetes                   315
Electrodomésticos          278
Deportes y diversión       277
Libros                     185
Artículos para el hoga

In [48]:
# Mostramos el resumen completo en una tabla
print("\nResumen Consolidado de Ventas por Categoría\n")
# Unimos las Series resultantes en un único DataFrame para una mejor comparación
DF_consolidado = pd.DataFrame(resumen_categorias).fillna(0).astype(int)
data_table.enable_dataframe_formatter()
DF_consolidado


Resumen Consolidado de Ventas por Categoría



Unnamed: 0_level_0,Tienda 1,Tienda 2,Tienda 3,Tienda 4
Categoría del Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Artículos para el hogar,171,181,177,201
Deportes y diversión,284,275,277,277
Electrodomésticos,312,305,278,254
Electrónicos,448,422,451,451
Instrumentos musicales,182,224,177,170
Juguetes,324,313,315,338
Libros,173,197,185,187
Muebles,465,442,499,480


## Ventas y Visión de Demanda:

Observamos qué categorías tienen el conteo más alto (por ejemplo, "Electrónicos" o "Moda").

Diferencias Regionales: Al comparar el Top 3 de la Tienda 1 con el Top 3 de la Tienda 4, podemos identificar diferencias en las preferencias de compra de los clientes en las distintas ubicaciones geográficas (Lugar de Compra y coordenadas lat/lon).

Base para Pronóstico: Este conteo de ventas es un insumo directo para modelos de Series de Tiempo o Machine Learning que buscan predecir la demanda futura por categoría.

______________________________________________________________________________________________________________________________________________________

# 3. Calificación promedio de la tienda


In [44]:
# Diccionario para almacenar los promedios
promedios_calificacion = {}

print(" \nCalificación Promedio de Clientes por Tienda ")
print("¬" * 45)

for nombre, DF in dataframes.items():

    # 1. Seleccionamos la columna 'Calificación' y calculamos el promedio
    # El método .mean() ignora automáticamente los valores nulos (NaN) si los hubiera.
    promedio = DF['Calificación'].mean()
    promedios_calificacion[nombre] = promedio

    # Imprimimos el resultado formateado a dos decimales
    print(f"{nombre}:  Promedio de Calificación:  {promedio:.2f}")
    print("¬" * 45)

 
Calificación Promedio de Clientes por Tienda 
¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬
Tienda 1:  Promedio de Calificación:  3.98
¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬
Tienda 2:  Promedio de Calificación:  4.04
¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬
Tienda 3:  Promedio de Calificación:  4.05
¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬
Tienda 4:  Promedio de Calificación:  4.00
¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬¬


In [46]:
# Convertimos el diccionario de resultados en un DataFrame para una mejor visualización
DF_promedios = pd.DataFrame(list(promedios_calificacion.items()), columns=['Tienda', 'Calificación Promedio'])

# Ordenar los promedios de mayor a menor (mejores calificaciones)
DF_promedios_ordenado = DF_promedios.sort_values(by='Calificación Promedio', ascending=False).reset_index(drop=True)
data_table.enable_dataframe_formatter()
DF_promedios_ordenado

Unnamed: 0,Tienda,Calificación Promedio
0,Tienda 3,4.048326
1,Tienda 2,4.037304
2,Tienda 4,3.995759
3,Tienda 1,3.976685


# 4. Productos más y menos vendidos

# 5. Envío promedio por tienda