# An√°lis de ventas de supermercados:

## Supuesto

El archivo `supermercado_ventas.csv` contiene datos generados artificialmente que simulan ventas reales en tres sucursales ubicadas en Madrid, Barcelona y Valencia.

Cada fila representa una transacci√≥n, e incluye columnas como:

- üèôÔ∏è Ciudad y sucursal

- üë§ G√©nero y tipo de cliente (Miembro / Normal)

- üõçÔ∏è L√≠nea de producto (L√°cteos, Carnes, Bebidas, etc.)

- üí∂ Precio unitario, cantidad, total con IVA

- üïí Fecha y hora de la compra

- üí≥ M√©todo de pago

- ‚≠ê Valoraci√≥n del cliente

Se nos solicita hacer el siguiente an√°lisis:

-1¬∫ Distribuci√≥n de ventas por ciudad y l√≠nea de producto.

-2¬∫ Comparativa entre clientes normales y miembros.

-3¬∫ An√°lisis de g√©nero y l√≠nea de producto.

-4¬∫ Ganancias por mes y mes con mas ganancias.


## An√°lisis:

### Importaci√≥n de la biblioteca pandas y del dataset:

In [1]:
import pandas as pd
df = pd.read_csv(r"F:\Python Proyectos Anaconda\Proyectos_github\Analisis de Supermercado\supermercado_ventas.csv")


### Aproximaci√≥n inicial y limpieza de datos:

In [2]:
df.head(5)

Unnamed: 0,Ticket ID,Sucursal,Ciudad,Tipo de Cliente,G√©nero,L√≠nea de Producto,Precio Unitario (‚Ç¨),Cantidad,IVA (‚Ç¨),Total (‚Ç¨),Fecha,Hora,M√©todo de Pago,Coste sin IVA (‚Ç¨),Margen Bruto (%),Beneficio (‚Ç¨),Valoraci√≥n,Ingreso Neto (‚Ç¨)
0,TCKT-1000,Sucursal C,Valencia,Miembro,Hombre,Limpieza,28.23,4,7.9,120.82,2025-05-29,12:07:12,Efectivo,105.535032,0.069976,7.384968,8.4,112.92
1,TCKT-1001,Sucursal C,Valencia,Miembro,Mujer,L√°cteos,3.95,4,1.11,16.91,2025-05-17,03:00:26,Efectivo,14.76352,0.070205,1.03648,7.0,15.8
2,TCKT-1002,Sucursal A,Madrid,Miembro,Mujer,Carnes,45.47,5,15.91,243.26,2025-06-14,22:17:48,Efectivo,212.48131,0.069976,14.86869,8.6,227.35
3,TCKT-1003,Sucursal A,Madrid,Normal,Mujer,Frutas y Verduras,16.39,6,6.88,105.22,2025-07-14,00:45:09,Efectivo,91.908564,0.069976,6.431436,4.6,98.34
4,TCKT-1004,Sucursal A,Madrid,Normal,Mujer,Bebidas,27.19,1,1.9,29.09,2025-06-13,08:46:23,Bizum,25.414493,0.069862,1.775507,6.8,27.19


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Ticket ID            1000 non-null   object 
 1   Sucursal             1000 non-null   object 
 2   Ciudad               1000 non-null   object 
 3   Tipo de Cliente      1000 non-null   object 
 4   G√©nero               1000 non-null   object 
 5   L√≠nea de Producto    1000 non-null   object 
 6   Precio Unitario (‚Ç¨)  1000 non-null   float64
 7   Cantidad             1000 non-null   int64  
 8   IVA (‚Ç¨)              1000 non-null   float64
 9   Total (‚Ç¨)            1000 non-null   float64
 10  Fecha                1000 non-null   object 
 11  Hora                 1000 non-null   object 
 12  M√©todo de Pago       1000 non-null   object 
 13  Coste sin IVA (‚Ç¨)    1000 non-null   float64
 14  Margen Bruto (%)     1000 non-null   float64
 15  Beneficio (‚Ç¨)        1000 

In [4]:
df.isnull().sum()

Ticket ID              0
Sucursal               0
Ciudad                 0
Tipo de Cliente        0
G√©nero                 0
L√≠nea de Producto      0
Precio Unitario (‚Ç¨)    0
Cantidad               0
IVA (‚Ç¨)                0
Total (‚Ç¨)              0
Fecha                  0
Hora                   0
M√©todo de Pago         0
Coste sin IVA (‚Ç¨)      0
Margen Bruto (%)       0
Beneficio (‚Ç¨)          0
Valoraci√≥n             0
Ingreso Neto (‚Ç¨)       0
dtype: int64

**Observaciones:**
- Se trata de 1000 registros, con 18 columnas.
- No existen valores nulos que limpiar o sustituir.
- Los valores de Fecha estan en String, por lo que habr√° que pasarlos a formato dateTime si se quiere trabajar con ellos.
- Los valores en euros estan en formato correcto (float).

### 1¬∫ Distribuci√≥n de ventas por ciudad y l√≠nea de producto:

Para ello agruparemos la cantidad de ventas por ciudad.

In [5]:
ventas_por_ciudad = pd.DataFrame(df.groupby("Ciudad").agg({
    "Cantidad": "sum",
    "Ingreso Neto (‚Ç¨)": "sum",
    "Beneficio (‚Ç¨)": "sum"
}).sort_values(by="Cantidad", ascending=False)).round(2)

ventas_por_ciudad



Unnamed: 0_level_0,Cantidad,Ingreso Neto (‚Ç¨),Beneficio (‚Ç¨)
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Valencia,2045,99451.77,6504.38
Barcelona,1859,90374.06,5910.61
Madrid,1707,85925.1,5619.57


**La ciudad con mayor numero de ventas totales es Valencia con 2045 transacciones**

Agrupamos las ventas por ciudad y tipo de producto con sus cantidades, y ordenamos por ciudad primero y luego por cantidad. De esta forma sabremos que es lo que mas se vende en cada ciudad de cada tipo.

In [6]:
df_ventas_por_ciudad_y_linea = df.groupby(["Ciudad", "L√≠nea de Producto"])["Cantidad"].sum().reset_index()
df_ventas_por_ciudad_y_linea.sort_values(by=["Ciudad", "Cantidad"], ascending=[True, False], inplace=True)
df_ventas_por_ciudad_y_linea

Unnamed: 0,Ciudad,L√≠nea de Producto,Cantidad
0,Barcelona,Bebidas,393
1,Barcelona,Carnes,342
5,Barcelona,Panader√≠a,333
4,Barcelona,L√°cteos,306
3,Barcelona,Limpieza,271
2,Barcelona,Frutas y Verduras,214
11,Madrid,Panader√≠a,395
7,Madrid,Carnes,294
6,Madrid,Bebidas,279
8,Madrid,Frutas y Verduras,271


- **En Valencia, la ciudad con mas ventas, el producto mas demandado es lacteos.**
- **En Barcelona, la segunda con mas ventas, el producto mas demandado es bebidas.**
- **En Madrid, el producto mas demandado es Panaderia.**

In [7]:
top_3_productos_mas_vendidos = df.groupby("L√≠nea de Producto")["Cantidad"].sum().sort_values(ascending=False).head(3)
top_3_productos_mas_vendidos


L√≠nea de Producto
Panader√≠a    1092
Carnes        975
Bebidas       968
Name: Cantidad, dtype: int64

**Los 3 tipos de productos mas vendidos, entre todas las ciudades son: Panaderia,Carnes y Bebidas**

### 2¬∫ Comparativa entre clientes normales y miembros:

De cara a evaluar si merece la pena invertir mas recursos en un programa de fidelizaci√≥n. Por ello podriamos revisar:
- Valoraci√≥n del servicio por clientes normales y miembros: ¬øEst√°n satisfechos con el servicio?
- M√©todo de pago preferido: ¬øSon necesarias modificaciones en las formas de pago?
- Total de ingresos generados: ¬øDe que tipo son los clientes que suponen una repercusi√≥n mayor en los beneficios?

Valoraci√≥n: Agrupamos los clientes por tipo y valoracion y buscamos el promedio de valoraciones.

In [8]:
df_valoraci√≥n = df.groupby("Tipo de Cliente")["Valoraci√≥n"].mean()
df_valoraci√≥n

Tipo de Cliente
Miembro    7.140000
Normal     6.857255
Name: Valoraci√≥n, dtype: float64

**Encontramos que, en general, la valoraci√≥n de los clientes miembros, es superior a los clientes normales.**

Forma de pago: Vamos a revisar ahora el m√©todo de pago preferido por tipo de cliente.

In [9]:
df_pago_preferido = df.groupby("Tipo de Cliente")["M√©todo de Pago"].value_counts().unstack()
df_pago_preferido

M√©todo de Pago,Bizum,Efectivo,Tarjeta de Cr√©dito
Tipo de Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Miembro,161,177,152
Normal,174,166,170


**No existen grandes diferencias entre clientes normales y premium en m√©todos de pago. Si, por ejemplo, una de las formas de pago fuera muy inferiormente utilizada frente al resto, podr√≠a ser interesante cancelar el soporte a esa forma de cara al ahorro de costes.**

Ingresos por tipo de cliente: Por ultimo, analizaremos los ingresos generados por ambos tipos de cliente.

Calculamos el beneficio total de la empresa y los ingresos provenientes de ambos tipos de cliente:

In [10]:
total_beneficio = df['Beneficio (‚Ç¨)'].sum().round(2)
print(total_beneficio)

18034.56


In [11]:
beneficio_por_cliente = df.groupby('Tipo de Cliente')['Beneficio (‚Ç¨)'].sum()

porcentaje_beneficio = (beneficio_por_cliente / total_beneficio) * 100

resultado = pd.DataFrame({
    'Beneficio (‚Ç¨)': beneficio_por_cliente,
    'Porcentaje (%)': porcentaje_beneficio
}).round(2)
resultado

Unnamed: 0_level_0,Beneficio (‚Ç¨),Porcentaje (%)
Tipo de Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1
Miembro,8418.16,46.68
Normal,9616.4,53.32


**Los beneficios por parte de los clientes miembros son menores que los clientes. Vamos a analizarlo m√°s a fondo:**

Ventas totales (clientes y miembros):

In [12]:
tickets_por_tipo = df['Tipo de Cliente'].value_counts()
tickets_por_tipo

Tipo de Cliente
Normal     510
Miembro    490
Name: count, dtype: int64

DataFrame que relaciona a los tickets, con el tipo de cliente y el beneficio generado:

In [13]:
resultado = pd.DataFrame({
    'Tickets': tickets_por_tipo,
    'Beneficio Total (‚Ç¨)': beneficio_por_cliente
}).fillna(0)
resultado["Beneficio Total (‚Ç¨)"] = resultado["Beneficio Total (‚Ç¨)"].round(2)
resultado

Unnamed: 0_level_0,Tickets,Beneficio Total (‚Ç¨)
Tipo de Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1
Miembro,490,8418.16
Normal,510,9616.4


Calculamos el beneficio medio por ticket:

In [14]:
resultado['Beneficio Medio por Ticket (‚Ç¨)'] = (resultado['Beneficio Total (‚Ç¨)'] / resultado['Tickets']).round(2)
resultado

Unnamed: 0_level_0,Tickets,Beneficio Total (‚Ç¨),Beneficio Medio por Ticket (‚Ç¨)
Tipo de Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Miembro,490,8418.16,17.18
Normal,510,9616.4,18.86


**La conclusion a la que llegamos es, que pese a que la valoraci√≥n de los miembros de la calidad del servicio es ligeramente superior a los clientes normales, en terminos econ√≥micos se genera mas ingresos por parte de los clientes normales, lo cual reflejaria la necesidad de cambios en el sistema ya que probablemente los costes de mantenimiento y deploy de dicha membresia no estan siendo rentables.**

### 3¬∫ An√°lisis de g√©nero y l√≠nea de producto:

In [15]:
df.groupby(["L√≠nea de Producto", "G√©nero"]).size().unstack()

G√©nero,Hombre,Mujer
L√≠nea de Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
Bebidas,95,74
Carnes,80,85
Frutas y Verduras,81,76
Limpieza,67,83
L√°cteos,81,83
Panader√≠a,86,109


**Esto serian las tendencias de compra segun el g√©nero del cliente**

In [16]:
df.groupby(["G√©nero", "Tipo de Cliente"]).size().unstack()

Tipo de Cliente,Miembro,Normal
G√©nero,Unnamed: 1_level_1,Unnamed: 2_level_1
Hombre,245,245
Mujer,245,265


**Distribuci√≥n de g√©nero entre clientes normales y miembros**

### 4¬∫ Ganancias por mes y mes con mas ganancias.

Convertimos fecha (string) a dateTime para poder trabajar con ellas, pero no sobre el df original, ya que es posible que se quiera visualizar con otro formato como el europeo (d/m/y), y es preferible mantener esa columna como referencia string. Es por ello que lo hacemos en una variable aparte y a√±adimos una columna meses sobre la que efectivamente trabajar.

In [17]:
df_fecha = pd.to_datetime(df['Fecha'])

Creamos una columna para los meses

In [18]:
df['Mes'] = df_fecha.dt.to_period('M')

Agrupamos los ingresos brutos con los meses

In [19]:
resumen_mensual = df.groupby("Mes").agg({"Beneficio (‚Ç¨)" : "sum"}).round(2)
resumen_mensual

Unnamed: 0_level_0,Beneficio (‚Ç¨)
Mes,Unnamed: 1_level_1
2025-05,6124.97
2025-06,6440.68
2025-07,5468.91


**El mes con mas ganancias es junio**