### Importación de datos



In [1]:
import pandas as pd

url = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_1%20.csv"
url2 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_2.csv"
url3 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_3.csv"
url4 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_4.csv"

In [2]:
def cargar_datos(urls:list[str]):
	'''Carga y concatena los datos de varias tiendas en un solo dataframe, agregando una columna 'Tienda_id' para identificar la tienda de origen.'''
	tiendas = []

	for i, url in enumerate(urls):
		tienda = pd.read_csv(url)

		tienda['Tienda_id'] = i + 1

		tiendas.append(tienda)

	return pd.concat(tiendas, ignore_index=True)

In [3]:
urls = [url, url2, url3, url4]

datos = cargar_datos(urls)

In [4]:
datos.tail(2358)

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon,Tienda_id
7077,Lavavajillas,Electrodomésticos,1084800.0,56000.0,11/11/2022,Rafael Acosta,Bogotá,4,Tarjeta de crédito,3,4.60971,-74.08175,4
7078,Cama box,Muebles,473800.0,25400.0,03/01/2020,Izabela de León,Cúcuta,5,Tarjeta de crédito,2,7.89391,-72.50782,4
7079,Balón de baloncesto,Deportes y diversión,23700.0,0.0,25/12/2022,Maria Alfonso,Medellín,5,Nequi,1,6.25184,-75.56359,4
7080,Modelado predictivo,Libros,57700.0,1300.0,23/11/2021,Lucas Olivera,Medellín,3,Nequi,1,6.25184,-75.56359,4
7081,Auriculares,Electrónicos,138900.0,5600.0,25/04/2022,Blanca Ramirez,Bogotá,4,Tarjeta de crédito,7,4.60971,-74.08175,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9430,Mesa de comedor,Muebles,227700.0,12600.0,12/02/2020,Camila Rivera,Medellín,5,Tarjeta de crédito,1,6.25184,-75.56359,4
9431,Silla de oficina,Muebles,342000.0,18600.0,17/05/2022,Felipe Santos,Bucaramanga,5,Tarjeta de crédito,3,7.12539,-73.11980,4
9432,Vaso térmico,Deportes y diversión,36700.0,2400.0,03/05/2022,Camila Rivera,Bogotá,5,Tarjeta de crédito,1,4.60971,-74.08175,4
9433,Set de ollas,Artículos para el hogar,151800.0,8300.0,15/06/2020,Blanca Ramirez,Cali,5,Tarjeta de crédito,1,3.43722,-76.52250,4


In [5]:
datos[['Tienda_id']].value_counts().to_frame()

Unnamed: 0_level_0,count
Tienda_id,Unnamed: 1_level_1
1,2359
2,2359
3,2359
4,2358


### Verificación de valores nulos
Desciripcion: Buscar en cada una de las tienda la existencia de valores faltantes

In [6]:
# Analizar si hay valores nulos en cada una de las tiendas
valores_nulos = lambda datos: datos.groupby('Tienda_id').apply(lambda x: x.isnull().sum()).transpose()

In [7]:
valores_nulos(datos)

  valores_nulos = lambda datos: datos.groupby('Tienda_id').apply(lambda x: x.isnull().sum()).transpose()


Tienda_id,1,2,3,4
Producto,0,0,0,0
Categoría del Producto,0,0,0,0
Precio,0,0,0,0
Costo de envío,0,0,0,0
Fecha de Compra,0,0,0,0
Vendedor,0,0,0,0
Lugar de Compra,0,0,0,0
Calificación,0,0,0,0
Método de pago,0,0,0,0
Cantidad de cuotas,0,0,0,0


No se encontraron valores faltantes, por lo que no se debe hacer ningún tratamiento 

# 1. Análisis de facturación

In [68]:
def suma_datos_por_columna (datos: pd.DataFrame, columna: str) -> pd.DataFrame: 
	''' Función para sumar los datos agrupados por tienda, de la columna especificada y ordenarlos de forma descendente.'''
	return datos.groupby('Tienda_id',as_index=False)[[columna]].sum().sort_values(ascending=False, by=columna)

In [69]:
ingreso_total = suma_datos_por_columna(datos, 'Precio')

In [92]:
ingreso_total = ingreso_total.rename(columns={'Precio':'Ingreso Total'})
ingreso_total

Unnamed: 0,Tienda_id,Ingreso Total
0,1,1150880000.0
1,2,1116344000.0
2,3,1098020000.0
3,4,1038376000.0


# 2. Ventas por categoría

In [123]:
def agrupar_contar (datos:pd.DataFrame, columna:str) -> pd.DataFrame: 
	'''Función para agrupar datos por Tienda y contar los valores de la columna especificada.'''
	grupos = datos.groupby('Tienda_id', as_index=False)[[columna]].value_counts()
	
	return grupos.sort_values(by=['Tienda_id', 'count'], ascending=[True, False])

def elementos_mas_relevantes(datos:pd.DataFrame, columna:str, cantidad:int) -> pd.DataFrame:
	categorias = agrupar_contar(datos, columna)
	return categorias.groupby('Tienda_id').head(cantidad)

def elementos_menos_relevantes(datos:pd.DataFrame, columna:str, cantidad:int) -> pd.DataFrame:
	categorias = agrupar_contar(datos, columna)
	return categorias.groupby('Tienda_id').tail(cantidad)

In [124]:
categorias_mas_populares = elementos_mas_relevantes(datos, 'Categoría del Producto', 3)

In [125]:
categorias_mas_populares

Unnamed: 0,Tienda_id,Categoría del Producto,count
0,1,Muebles,465
1,1,Electrónicos,448
2,1,Juguetes,324
8,2,Muebles,442
9,2,Electrónicos,422
10,2,Juguetes,313
16,3,Muebles,499
17,3,Electrónicos,451
18,3,Juguetes,315
24,4,Muebles,480


# 3. Calificación promedio de la tienda


In [87]:
# media_por_tienda = lambda datos, columna: datos.groupby('Tienda_id')[[columna]].mean()
def media_por_tienda (datos: pd.DataFrame, columna:str, decimales:int = 2) -> pd.DataFrame:
	'''Función para calcular la media de una columna agrupada por tienda y ordenada de forma descendente.'''
	return datos.groupby('Tienda_id', as_index=False)[[columna]].mean().round(decimales).sort_values(ascending=False, by=columna)

In [94]:
media_valoracion = media_por_tienda(datos, 'Calificación', decimales=3)

In [95]:
media_valoracion = media_valoracion.rename(columns={'Calificación':'Calificación promedio'})
media_valoracion

Unnamed: 0,Tienda_id,Calificación promedio
2,3,4.048
1,2,4.037
3,4,3.996
0,1,3.977


# 4. Productos más y menos vendidos

In [126]:
productos_mas_vendidos = elementos_mas_relevantes(datos, 'Producto', 3)
productos_menos_vendidos = elementos_menos_relevantes(datos, 'Producto', 3)

In [129]:
productos_mas_vendidos


Unnamed: 0,Tienda_id,Producto,count
0,1,Armario,60
1,1,Microondas,60
2,1,TV LED UHD 4K,60
51,2,Iniciando en programación,65
52,2,Microondas,62
53,2,Batería,61
102,3,Kit de bancas,57
103,3,Cama king,56
104,3,Mesa de comedor,56
153,4,Cama box,62


In [130]:
productos_menos_vendidos

Unnamed: 0,Tienda_id,Producto,count
48,1,Olla de presión,35
49,1,Auriculares con micrófono,33
50,1,Celular ABXY,33
99,2,Impresora,34
100,2,Mesa de comedor,34
101,2,Juego de mesa,32
150,3,Mochila,36
151,3,Set de vasos,36
152,3,Bloques de construcción,35
201,4,Guitarra acústica,37


# 5. Envío promedio por tienda

In [90]:
media_por_envio = media_por_tienda(datos, 'Costo de envío')

In [91]:
media_por_envio

Unnamed: 0,Tienda_id,Costo de envío
0,1,26018.61
1,2,25216.24
2,3,24805.68
3,4,23459.46
