# Paso 1: Importar datos

In [None]:
import pandas as pd

url = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_1%20.csv"
url2 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_2.csv"
url3 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_3.csv"
url4 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science-latam/refs/heads/main/base-de-datos-challenge1-latam/tienda_4.csv"

tienda = pd.read_csv(url)
tienda2 = pd.read_csv(url2)
tienda3 = pd.read_csv(url3)
tienda4 = pd.read_csv(url4)

## Verificamos los datos

* **Producto y Categoría**: Artículos vendidos y sus calificaciones.

* **Precio y Envío**: Valores de venta y costos asociados.

* **Fecha y ubicación de compra**: Información temporal y geográfica.

* **Evaluación de compra**: Comentarios de clientes.

* **Tipo de Pago y Cuotas**: Métodos utilizados por los clientes.

* **Coordenadas Geográficas**: Ubicación de las transacciones.

In [None]:
#Paso inicial, crear el dataframe con todas las tiendas juntas

# Agregar columna "Tienda" a cada DataFrame
tienda['Tienda'] = 'Tienda 1'
tienda2['Tienda'] = 'Tienda 2'
tienda3['Tienda'] = 'Tienda 3'
tienda4['Tienda'] = 'Tienda 4'

# Unir todos los datos en un solo DataFrame
df_total = pd.concat([tienda, tienda2, tienda3, tienda4])

In [None]:
df_total.head()

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon,Tienda
0,Asistente virtual,Electrónicos,164300.0,6900.0,16/01/2021,Pedro Gomez,Bogotá,4,Tarjeta de crédito,8,4.60971,-74.08175,Tienda 1
1,Mesa de comedor,Muebles,192300.0,8400.0,18/05/2022,Beatriz Morales,Medellín,1,Tarjeta de crédito,4,6.25184,-75.56359,Tienda 1
2,Juego de mesa,Juguetes,209600.0,15900.0,15/03/2021,Juan Fernandez,Cartagena,1,Tarjeta de crédito,1,10.39972,-75.51444,Tienda 1
3,Microondas,Electrodomésticos,757500.0,41000.0,03/05/2022,Juan Fernandez,Cali,4,Nequi,1,3.43722,-76.5225,Tienda 1
4,Silla de oficina,Muebles,335200.0,20200.0,07/11/2020,Maria Alfonso,Medellín,5,Nequi,1,6.25184,-75.56359,Tienda 1


# Paso 2: Análisis de datos

## Ingreso en cada tienda

In [None]:
# Agrupar por Tienda y sumar las ventas
ventas_por_tienda = df_total.groupby('Tienda')['Precio'].sum().reset_index()

# Ver resultados
print(ventas_por_tienda)

     Tienda        Precio
0  Tienda 1  1.150880e+09
1  Tienda 2  1.116344e+09
2  Tienda 3  1.098020e+09
3  Tienda 4  1.038376e+09


## Gráfico ingresos por tienda



In [None]:
import plotly.express as px

# Gráfico de barras interactivo
fig = px.bar(
    ventas_por_tienda,
    x='Tienda',
    y='Precio',
    text='Precio',
    title='Ingresos por Tienda',
    labels={'Precio': 'Ingreso Total'},
    color='Tienda'  # Opcional: colorea cada barra diferente
)

# Mostrar valores sobre las barras y mejorar formato
fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')

fig.show()

A partir de los ingresos por tienda podemos observar que la tienda que más ingresos tiene es la tienda 1 y la que menos ingresos tiene es la tienda 4.

**Conlusión**
Se requiere tomar otras consideraciones para tomar una decisión.

## Ventas por categoría

In [None]:
# Agrupar por tienda y categoría y sumar ventas
ventas_por_tienda_y_categoria = df_total.groupby(['Tienda', 'Categoría del Producto'])['Precio'].sum().reset_index()

# Ver resultados
print(ventas_por_tienda_y_categoria)

      Tienda   Categoría del Producto       Precio
0   Tienda 1  Artículos para el hogar   12698400.0
1   Tienda 1     Deportes y diversión   39290000.0
2   Tienda 1        Electrodomésticos  363685200.0
3   Tienda 1             Electrónicos  429493500.0
4   Tienda 1   Instrumentos musicales   91299000.0
5   Tienda 1                 Juguetes   17995700.0
6   Tienda 1                   Libros    8784900.0
7   Tienda 1                  Muebles  187633700.0
8   Tienda 2  Artículos para el hogar   14746900.0
9   Tienda 2     Deportes y diversión   34744500.0
10  Tienda 2        Electrodomésticos  348567800.0
11  Tienda 2             Electrónicos  410831100.0
12  Tienda 2   Instrumentos musicales  104990300.0
13  Tienda 2                 Juguetes   15945400.0
14  Tienda 2                   Libros   10091200.0
15  Tienda 2                  Muebles  176426300.0
16  Tienda 3  Artículos para el hogar   15060000.0
17  Tienda 3     Deportes y diversión   35593100.0
18  Tienda 3        Electrodomé

In [None]:
# Categoría más vendida por tienda
top_categoria_por_tienda = ventas_por_tienda_y_categoria.loc[ventas_por_tienda_y_categoria.groupby("Tienda")["Precio"].idxmax()]
top_categoria_por_tienda

Unnamed: 0,Tienda,Categoría del Producto,Precio
3,Tienda 1,Electrónicos,429493500.0
11,Tienda 2,Electrónicos,410831100.0
19,Tienda 3,Electrónicos,410775800.0
27,Tienda 4,Electrónicos,409476100.0


In [None]:
# Categoría menos vendida por tienda
menos_vendida_por_tienda = ventas_por_tienda_y_categoria.loc[ventas_por_tienda_y_categoria.groupby("Tienda")["Precio"].idxmin()]
menos_vendida_por_tienda

Unnamed: 0,Tienda,Categoría del Producto,Precio
6,Tienda 1,Libros,8784900.0
14,Tienda 2,Libros,10091200.0
22,Tienda 3,Libros,9498700.0
30,Tienda 4,Libros,9321300.0


In [None]:
# Ranking global
ranking_global = ventas_por_tienda_y_categoria.groupby("Categoría del Producto")["Precio"].sum().sort_values(ascending=False)
ranking_global

Unnamed: 0_level_0,Precio
Categoría del Producto,Unnamed: 1_level_1
Electrónicos,1660576000.0
Electrodomésticos,1324751000.0
Muebles,757661000.0
Instrumentos musicales,348772600.0
Deportes y diversión,142977700.0
Juguetes,73604400.0
Artículos para el hogar,57579800.0
Libros,37696100.0


## Gráficos interactivos

In [None]:
# Categorías más populares por tienda

import plotly.express as px

fig = px.bar(
    ventas_por_tienda_y_categoria,
    x="Categoría del Producto",
    y="Precio",
    color="Tienda",
    barmode="group",
    title="Ventas por Categoría en cada Tienda",
    labels={"Precio": "Ventas ($)"}
)

fig.update_layout(xaxis_tickangle=-45)
fig.show()


* En todas las tiendas, **Electrónicos** representa la categoría más fuerte, superando el **36% de las ventas en cada caso**.

* **Libros** es consistentemente la categoría con menores ingresos, lo que podría indicar baja demanda o poco enfoque comercial.

* Otras categorías como **Muebles** y **Electrodomésticos** también tienen un peso significativo y podrían ser secundarias en prioridad de inventario o promoción (Potencial).

### Ventas por tienda:

In [None]:
fig = px.pie(tienda, values='Precio', names='Categoría del Producto',
             title='Distribución de ventas por categoría - Tienda 1',
             hover_data=['Precio'])
fig.update_traces(textinfo='percent+label', hovertemplate='%{label}<br>Ventas: %{value}<br>%{percent}')
fig.show()

- Categoría más vendida: **Electrónicos** (37.3%)
- Categoría menos vendida: **Libros** (0.76%)

In [None]:
fig = px.pie(tienda2, values='Precio', names='Categoría del Producto',
             title='Distribución de ventas por categoría - Tienda 2',
             hover_data=['Precio'])
fig.update_traces(textinfo='percent+label', hovertemplate='%{label}<br>Ventas: %{value}<br>%{percent}')
fig.show()


- Categoría más vendida: **Electrónicos** (36.8%)
- Categoría menos vendida: **Libros** (0.90%)

In [None]:
fig = px.pie(tienda3, values='Precio', names='Categoría del Producto',
             title='Distribución de ventas por categoría - Tienda 3',
             hover_data=['Precio'])
fig.update_traces(textinfo='percent+label', hovertemplate='%{label}<br>Ventas: %{value}<br>%{percent}')
fig.show()


- Categoría más vendida: **Electrónicos** (37.4%)
- Categoría menos vendida: **Libros** (0.86%)

In [None]:
fig = px.pie(tienda4, values='Precio', names='Categoría del Producto',
             title='Distribución de ventas por categoría - Tienda 4',
             hover_data=['Precio'])
fig.update_traces(textinfo='percent+label', hovertemplate='%{label}<br>Ventas: %{value}<br>%{percent}')
fig.show()


- Categoría más vendida: **Electrónicos** (39.4%)
- Categoría menos vendida: **Libros** (0.89%)

## Valoración media por tienda

Conocer la satisfacción del cliente con los productos vendidos.

In [None]:
valoracion_media = df_total.groupby('Tienda')['Calificación'].mean().reset_index()
valoracion_media

sourt_valoracion = valoracion_media.sort_values(by='Calificación', ascending=False)
sourt_valoracion

Unnamed: 0,Tienda,Calificación
2,Tienda 3,4.048326
1,Tienda 2,4.037304
3,Tienda 4,3.995759
0,Tienda 1,3.976685


La **tienda 3** tiene la mejor valoración con 4 puntos mientras que la peor valoración la tiene la **tienda 1** con 3.97 puntos

In [None]:
fig = px.violin(
    df_total,
    x="Tienda",
    y="Calificación",
    box=True,
    points="all",
    title="Distribución de valoraciones por tienda",
    color="Tienda"
)
fig.show()


## Productos más vendidos y menos vendidos

In [None]:
# Para cada tienda, encontrar el producto con mayor y menor venta
productos_mas_vendidos = df_total.groupby('Tienda').apply(lambda x: x.nlargest(1, 'Precio')).reset_index(drop=True)
productos_menos_vendidos = df_total.groupby('Tienda').apply(lambda x: x.nsmallest(1, 'Precio')).reset_index(drop=True)

  productos_mas_vendidos = df_total.groupby('Tienda').apply(lambda x: x.nlargest(1, 'Precio')).reset_index(drop=True)
  productos_menos_vendidos = df_total.groupby('Tienda').apply(lambda x: x.nsmallest(1, 'Precio')).reset_index(drop=True)


In [None]:
productos_mas_vendidos

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon,Tienda
0,TV LED UHD 4K,Electrónicos,2977000.0,158700.0,23/08/2020,Santiago Silva,Bogotá,5,Nequi,1,4.60971,-74.08175,Tienda 1
1,TV LED UHD 4K,Electrónicos,2953400.0,155400.0,07/05/2020,Pedro Gomez,Medellín,4,Tarjeta de crédito,1,6.25184,-75.56359,Tienda 2
2,TV LED UHD 4K,Electrónicos,2968200.0,158400.0,14/01/2022,Juliana Costa,Medellín,1,Nequi,1,6.25184,-75.56359,Tienda 3
3,TV LED UHD 4K,Electrónicos,2902200.0,154700.0,29/08/2020,Lucas Olivera,Bogotá,4,Nequi,1,4.60971,-74.08175,Tienda 4


In [None]:
productos_menos_vendidos

Unnamed: 0,Producto,Categoría del Producto,Precio,Costo de envío,Fecha de Compra,Vendedor,Lugar de Compra,Calificación,Método de pago,Cantidad de cuotas,lat,lon,Tienda
0,Cubo mágico 8x8,Juguetes,7600.0,0.0,22/10/2020,Camila Rivera,Bogotá,4,Tarjeta de crédito,8,4.60971,-74.08175,Tienda 1
1,Cuerda para saltar,Deportes y diversión,7600.0,5200.0,27/02/2022,Pedro Gomez,Bogotá,5,Nequi,1,4.60971,-74.08175,Tienda 2
2,Cuerda para saltar,Deportes y diversión,7600.0,800.0,01/08/2022,Blanca Ramirez,Medellín,1,Tarjeta de crédito,1,6.25184,-75.56359,Tienda 3
3,Cubo mágico 8x8,Juguetes,7600.0,0.0,27/08/2020,Mariana Herrera,Cali,5,Tarjeta de crédito,1,3.43722,-76.5225,Tienda 4


In [None]:
# Paso 1: Calcular ingreso total por tienda
ingresos_por_tienda = df_total.groupby('Tienda')['Precio'].sum().reset_index()
ingresos_por_tienda.rename(columns={'Precio': 'Precio_total'}, inplace=True)

# Paso 2: Obtener solo el producto con mayor ingreso por tienda
productos_mas_vendidos = df_total.sort_values('Precio', ascending=False).drop_duplicates('Tienda')

# Paso 3: Seleccionar columnas necesarias y unir con los ingresos totales
df_top = productos_mas_vendidos[['Tienda', 'Producto', 'Precio']].merge(
    ingresos_por_tienda, on='Tienda'
)

# Paso 4: Calcular el porcentaje del ingreso que representa ese producto
df_top['% del ingreso'] = round((df_top['Precio'] / df_top['Precio_total']) * 100, 2)

# Mostrar resultados
display(df_top)


Unnamed: 0,Tienda,Producto,Precio,Precio_total,% del ingreso
0,Tienda 1,TV LED UHD 4K,2977000.0,1150880000.0,0.26
1,Tienda 3,TV LED UHD 4K,2968200.0,1098020000.0,0.27
2,Tienda 2,TV LED UHD 4K,2953400.0,1116344000.0,0.26
3,Tienda 4,TV LED UHD 4K,2902200.0,1038376000.0,0.28


## Valor del envío promedio por tienda

In [None]:
# Total y promedio del costo de envío por tienda
envio_stats = df_total.groupby('Tienda')['Costo de envío'].agg(
    Total_envio='sum',
    Promedio_envio='mean'
).reset_index()

# Mostrar resultados
display(envio_stats)

Unnamed: 0,Tienda,Total_envio,Promedio_envio
0,Tienda 1,61377900.0,26018.60958
1,Tienda 2,59485100.0,25216.235693
2,Tienda 3,58516600.0,24805.680373
3,Tienda 4,55317400.0,23459.457167


## Ingreso neto por tienda

In [None]:
# Paso 1: Ingreso total por tienda
ingresos = df_total.groupby('Tienda')['Precio'].sum().reset_index()
ingresos.rename(columns={'Precio': 'Ingreso_total'}, inplace=True)

# Paso 2: Costo total de envío por tienda
envios = df_total.groupby('Tienda')['Costo de envío'].sum().reset_index()
envios.rename(columns={'Costo de envío': 'Costo_envio_total'}, inplace=True)

# Paso 3: Unir ambos DataFrames
ingresos_netos = ingresos.merge(envios, on='Tienda')

# Paso 4: Calcular ingreso neto
ingresos_netos['Ingreso_neto'] = ingresos_netos['Ingreso_total'] - ingresos_netos['Costo_envio_total']

# Mostrar resultados
ingresos_netos_sort = ingresos_netos.sort_values(by='Ingreso_neto', ascending=False)
ingresos_netos_sort


Unnamed: 0,Tienda,Ingreso_total,Costo_envio_total,Ingreso_neto
0,Tienda 1,1150880000.0,61377900.0,1089502000.0
1,Tienda 2,1116344000.0,59485100.0,1056858000.0
2,Tienda 3,1098020000.0,58516600.0,1039503000.0
3,Tienda 4,1038376000.0,55317400.0,983058300.0


In [None]:
import plotly.graph_objects as go
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=ingresos_netos_sort['Tienda'],
    y=ingresos_netos_sort['Ingreso_neto'],
    mode='lines+markers',
    name='Ingreso Neto',
    line=dict(color='green')
))

fig.add_trace(go.Scatter(
    x=ingresos_netos_sort['Tienda'],
    y=ingresos_netos_sort['Costo_envio_total'],
    mode='lines+markers',
    name='Costo de Envío',
    line=dict(color='red')
))

fig.update_layout(
    title='Tendencia de Ingreso Neto y Costo de Envío por Tienda',
    xaxis_title='Tienda',
    yaxis_title='Valor en pesos',
    template='plotly_white'
)

fig.show()


# 🏪 Informe de Recomendación Comercial: ¿Qué tienda debería vender el Sr. Juan?

## 🎯 Introducción

El Sr. Juan es propietario de cuatro tiendas en las que comercializa una amplia variedad de productos. Con el fin de optimizar su operación y enfocar recursos en las tiendas más rentables y con mayor proyección, ha solicitado un análisis detallado para determinar **cuál de sus tiendas es la mejor opción para vender**.  

Este informe tiene como objetivo recomendar cuál tienda debe ser vendida, basándose en datos objetivos relacionados con ingresos, satisfacción del cliente, estructura de costos y rotación de productos.

---

## 📊 Análisis de Resultados

### 💰 Ingresos Totales e Ingresos Netos

| Tienda   | Ingreso total     | Costo de envío      | Ingreso neto        |
|----------|-------------------|---------------------|----------------------|
| Tienda 1 | \$1,150,880,000    | \$61,377,900         | \$1,089,502,100      |
| Tienda 2 | \$1,116,344,000    | \$59,485,100         | \$1,056,858,900      |
| Tienda 3 | \$1,098,020,000    | \$58,516,600         | \$1,039,503,400      |
| Tienda 4 | \$1,038,376,000    | \$55,317,400         |   \$983,058,600      |


- **Tienda 1** obtuvo el mayor ingreso total y también el **mayor ingreso neto**, lo que la convierte en la más rentable.
- Le siguen **Tienda 2** y **Tienda 3**, con ingresos netos similares.
- **Tienda 4** presentó el **menor ingreso neto**, siendo la única tienda por debajo de los 1.000 millones, lo que la posiciona como la **menos rentable**.

---

### 📦 Categorías de Productos

- En todas las tiendas, la categoría **Electrónicos** fue la más vendida, confirmando una alta demanda en tecnología.
- La categoría **Libros** fue la menos vendida en las cuatro tiendas.
- **Tienda 3** mostró una mejor distribución de ventas entre varias categorías, indicando una estrategia más diversificada.

---

### ⭐ Calificaciones Promedio de Clientes

| Tienda   | Calificación promedio |
|----------|------------------------|
| Tienda 3 | **4.05**               |
| Tienda 2 | 4.04                   |
| Tienda 4 | 4.00                   |
| Tienda 1 | **3.98**               |

- **Tienda 3** es la mejor valorada por los clientes, lo que evidencia una experiencia positiva.
- **Tienda 1**, a pesar de ser la más rentable, presenta la **calificación más baja**, lo que puede representar una debilidad en percepción o servicio al cliente.
---

### 🛒 Productos Más y Menos Vendidos

**Productos más vendidos (todas las tiendas):**
- Todos los productos más vendidos fueron **TV LED UHD 4K**, de la categoría **Electrónicos**, confirmando la alta demanda de tecnología.

**Productos menos vendidos por tienda:**
Esto muestra que productos de bajo valor en categorías recreativas tienen **rotación mínima**. En cambio, electrónicos de alto valor dominan las ventas.

| Tienda   | Producto             | Categoría              | Precio   |
|----------|----------------------|-------------------------|----------|
| Tienda 1 | Cubo mágico 8x8      | Juguetes                | \$7,600   |
| Tienda 2 | Cuerda para saltar   | Deportes y diversión    | \$7,600   |
| Tienda 3 | Cuerda para saltar   | Deportes y diversión    | \$7,600   |
| Tienda 4 | Cubo mágico 8x8      | Juguetes                | \$7,600   |

---

### 🚚 Costo de Envío Promedio

- **Tienda 2** tiene el costo de envío promedio más bajo, lo cual representa una fortaleza logística.
- **Tienda 4**, si bien no es la más costosa en términos absolutos, presenta un gasto relevante en comparación con su bajo ingreso neto.

---

## ✅ Conclusión y Recomendación

Luego de considerar todos los factores —**ingresos netos, satisfacción del cliente, diversidad de productos, y estructura de costos**— se concluye que:

### 👉 El Sr. Juan debería considerar vender **Tienda 4**.

**Justificación:**
- Tiene el **ingreso neto más bajo** entre las cuatro tiendas ($983 millones).
- Su calificación promedio (4.00) es inferior a la de Tienda 2 y Tienda 3.
- Tiene una **menor diversificación** en sus productos vendidos, lo que puede ser un riesgo comercial.
- Su desempeño es débil tanto en rentabilidad como en percepción del cliente.

Por el contrario:
- **Tienda 1** debe mantenerse por su alta rentabilidad.
- **Tienda 3** destaca por su buena calificación y diversidad de productos.
- **Tienda 2** es sólida en logística y desempeño equilibrado.

---

📝 *Este informe ha sido respaldado por visualizaciones y cálculos generados directamente en este notebook de Google Colab, para más información lea en detalle el análisis realizado.*


