### Importación de datos



In [1]:
import pandas as pd

url = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_1%20.csv"
url2 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_2.csv"
url3 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_3.csv"
url4 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_4.csv"

In [None]:
def cargar_datos(urls:list[str]):
	'''Carga y concatena los datos de varias tiendas en un solo dataframe, agregando una columna 'Tienda_id' para identificar la tienda de origen.'''
	tiendas = []

	for i, url in enumerate(urls):
		tienda = pd.read_csv(url)

		tienda['Tienda_id'] = i + 1

		tiendas.append(tienda)

	return pd.concat(tiendas, ignore_index=True)

In [3]:
urls = [url, url2, url3, url4]

datos = cargar_datos(urls)

In [4]:
datos.tail(2358)

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon,Tienda_id
7077,Lavavajillas,Electrodomésticos,1084800.0,56000.0,11/11/2022,Rafael Acosta,Bogotá,4,Tarjeta de crédito,3,4.60971,-74.08175,4
7078,Cama box,Muebles,473800.0,25400.0,03/01/2020,Izabela de León,Cúcuta,5,Tarjeta de crédito,2,7.89391,-72.50782,4
7079,Balón de baloncesto,Deportes y diversión,23700.0,0.0,25/12/2022,Maria Alfonso,Medellín,5,Nequi,1,6.25184,-75.56359,4
7080,Modelado predictivo,Libros,57700.0,1300.0,23/11/2021,Lucas Olivera,Medellín,3,Nequi,1,6.25184,-75.56359,4
7081,Auriculares,Electrónicos,138900.0,5600.0,25/04/2022,Blanca Ramirez,Bogotá,4,Tarjeta de crédito,7,4.60971,-74.08175,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9430,Mesa de comedor,Muebles,227700.0,12600.0,12/02/2020,Camila Rivera,Medellín,5,Tarjeta de crédito,1,6.25184,-75.56359,4
9431,Silla de oficina,Muebles,342000.0,18600.0,17/05/2022,Felipe Santos,Bucaramanga,5,Tarjeta de crédito,3,7.12539,-73.11980,4
9432,Vaso térmico,Deportes y diversión,36700.0,2400.0,03/05/2022,Camila Rivera,Bogotá,5,Tarjeta de crédito,1,4.60971,-74.08175,4
9433,Set de ollas,Artículos para el hogar,151800.0,8300.0,15/06/2020,Blanca Ramirez,Cali,5,Tarjeta de crédito,1,3.43722,-76.52250,4


In [47]:
datos[['Tienda_id']].value_counts().to_frame()

Unnamed: 0_level_0,count
Tienda_id,Unnamed: 1_level_1
1,2359
2,2359
3,2359
4,2358


### Verificación de valores nulos
Desciripcion: Buscar en cada una de las tienda la existencia de valores faltantes

In [6]:
# Analizar si hay valores nulos en cada una de las tiendas
valores_nulos = lambda datos: datos.groupby('Tienda_id').apply(lambda x: x.isnull().sum()).transpose()

In [7]:
valores_nulos(datos)

  valores_nulos = lambda datos: datos.groupby('Tienda_id').apply(lambda x: x.isnull().sum()).transpose()


Tienda_id,1,2,3,4
Producto,0,0,0,0
Categoría del Producto,0,0,0,0
Precio,0,0,0,0
Costo de envío,0,0,0,0
Fecha de Compra,0,0,0,0
Vendedor,0,0,0,0
Lugar de Compra,0,0,0,0
Calificación,0,0,0,0
Método de pago,0,0,0,0
Cantidad de cuotas,0,0,0,0


No se encontraron valores faltantes, por lo que no se debe hacer ningún tratamiento 

# 1. Análisis de facturación

In [8]:
''' Función lamda para sumar los datos agrupados por tienda, de la columna especificada y ordenarlos de forma descendente.'''
suma_datos_por_columna = lambda datos, columna: datos.groupby('Tienda_id',as_index=False)[[columna]].sum().sort_values(ascending=False, by=columna)

In [9]:
ingreso_total = suma_datos_por_columna(datos, 'Precio')

In [10]:
ingreso_total

Unnamed: 0,Tienda_id,Precio
0,1,1150880000.0
1,2,1116344000.0
2,3,1098020000.0
3,4,1038376000.0


# 2. Ventas por categoría

In [63]:
def conteo_categorias(datos:pd.DataFrame, columna: str):
	categorias = datos.groupby('Tienda_id', as_index=False)[[columna]].value_counts()
	
	return pd.pivot(data=categorias, index=columna, columns='Tienda_id').sort_values(ascending=False, by=('count', 1))

In [64]:
# categorias_populares = contar_grupos_por_columna(datos, 'Categoría del Producto')
categorias_populares = conteo_categorias(datos, 'Categoría del Producto')

In [65]:
categorias_populares

Unnamed: 0_level_0,count,count,count,count
Tienda_id,1,2,3,4
Categoría del Producto,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Muebles,465,442,499,480
Electrónicos,448,422,451,451
Juguetes,324,313,315,338
Electrodomésticos,312,305,278,254
Deportes y diversión,284,275,277,277
Instrumentos musicales,182,224,177,170
Libros,173,197,185,187
Artículos para el hogar,171,181,177,201


# 3. Calificación promedio de la tienda


In [59]:
# media_por_tienda = lambda datos, columna: datos.groupby('Tienda_id')[[columna]].mean()
def media_por_tienda (datos: pd.DataFrame, columna:str):
	return datos.groupby('Tienda_id', as_index=False)[[columna]].mean().sort_values(ascending=False, by=columna)

In [60]:
media_Valoracion = media_por_tienda(datos, 'Calificación')

In [61]:
media_Valoracion

Unnamed: 0,Tienda_id,Calificación
2,3,4.048326
1,2,4.037304
3,4,3.995759
0,1,3.976685


# 4. Productos más y menos vendidos

In [72]:
productos = datos.groupby('Tienda_id', as_index=False)[['Producto']].value_counts()

In [83]:
productos.columns

Index(['Tienda_id', 'Producto', 'count'], dtype='object')

In [84]:
productos[productos['Tienda_id'] == 2].max(axis='count')

ValueError: No axis named count for object type DataFrame

# 5. Envío promedio por tienda