[Supermarket Sales Dataset](https://www.kaggle.com/datasets/faresashraf1001/supermarket-sales)

Este dataset recoge las transacciones de tres sucursales de un supermercado ubicadas en Myanmar, concretamente en las ciudades de Yangon, Mandalay y Naypyitaw.
Cada registro representa una venta e incluye información sobre el tipo de cliente, género, categoría de producto, método de pago, importe de la venta y la calificación de satisfacción del cliente, etc. 

El objetivo principal de este análisis es comparar el desempeño de las tres sucursales para entender cómo varían las ventas y el comportamiento de los clientes entre ciudades.
Busco identificar qué factores influyen en los ingresos y la rentabilidad, y qué patrones podrían ayudar a mejorar la estrategia comercial y la experiencia del cliente.
En otras palabras, averiguar por qué algunas sucursales venden más o son más rentables que otras

In [2]:
# Importo las librerías que voy a usar
import numpy as np
import pandas as pd
import os

# Para encontrar el directorio del lugar donde me encuentro
os.getcwd()

'c:\\Users\\mikel\\Desktop\\DataScience\\PROYECTO-Analisis-de-Supermercado-EDA'

In [3]:
# Visulizar los archivos existentes en la carpeta donde me encuentro
print("Archivos en la carpeta actual:")
print(os.listdir())

Archivos en la carpeta actual:
['.git', '0-Enunciado_EDA.ipynb', 'Info para el Proyecto - Analisis de Supermercado.docx', 'Proyecto EDA Analisis de Supermercado.ipynb', 'README.md', 'SuperMarket Analysis.csv', 'SuperMarket Analysis.ipynb', 'Ventas_supermercado.csv', '~$fo para el Proyecto - Analisis de Supermercado.docx']


In [8]:
# Leer csv como DataFrame

df = pd.read_csv("Supermarket_sales.csv")

df

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Sales,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,Alex,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,1/5/2019,1:08:00 PM,Ewallet,522.83,4.761905,26.1415,9.1
1,226-31-3081,Giza,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.8200,80.2200,3/8/2019,10:29:00 AM,Cash,76.40,4.761905,3.8200,9.6
2,631-41-3108,Alex,Yangon,Normal,Female,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,1:23:00 PM,Credit card,324.31,4.761905,16.2155,7.4
3,123-19-1176,Alex,Yangon,Member,Female,Health and beauty,58.22,8,23.2880,489.0480,1/27/2019,8:33:00 PM,Ewallet,465.76,4.761905,23.2880,8.4
4,373-73-7910,Alex,Yangon,Member,Female,Sports and travel,86.31,7,30.2085,634.3785,2/8/2019,10:37:00 AM,Ewallet,604.17,4.761905,30.2085,5.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,233-67-5758,Giza,Naypyitaw,Normal,Male,Health and beauty,40.35,1,2.0175,42.3675,1/29/2019,1:46:00 PM,Ewallet,40.35,4.761905,2.0175,6.2
996,303-96-2227,Cairo,Mandalay,Normal,Female,Home and lifestyle,97.38,10,48.6900,1022.4900,3/2/2019,5:16:00 PM,Ewallet,973.80,4.761905,48.6900,4.4
997,727-02-1313,Alex,Yangon,Member,Male,Food and beverages,31.84,1,1.5920,33.4320,2/9/2019,1:22:00 PM,Cash,31.84,4.761905,1.5920,7.7
998,347-56-2442,Alex,Yangon,Normal,Male,Home and lifestyle,65.82,1,3.2910,69.1110,2/22/2019,3:33:00 PM,Cash,65.82,4.761905,3.2910,4.1


In [12]:
# Traducción del DataFrame del Ingles al Castellano

# Renombrar columnas 
df = df.rename(columns={
    "Invoice ID": "ID factura",
    "Branch": "Sucursal",
    "City": "Ciudad",
    "Customer type": "Tipo de cliente",
    "Gender": "Género",
    "Product line": "Línea de producto",
    "Unit price": "Precio unitario",
    "Quantity": "Cantidad",
    "Tax 5%": "Impuesto 5%",
    "Total": "Total",
    "Date": "Fecha",
    "Time": "Hora",
    "Payment": "Pago",
    "cogs": "Costo de ventas",
    "gross margin percentage": "Margen bruto %",
    "gross income": "Ingreso bruto",
    "Rating": "Calificación"})

# Traducir valores categóricos usando la función de reemplazar
df = df.replace({
    "Member": "Miembro",
    "Normal": "Normal",
    "Female": "Mujer",
    "Male": "Hombre",
    "Health and beauty": "Salud y belleza",
    "Electronic accessories": "Accesorios electrónicos",
    "Home and lifestyle": "Hogar y estilo de vida",
    "Sports and travel": "Deportes y viajes",
    "Food and beverages": "Alimentos y bebidas",
    "Fashion accessories": "Accesorios de moda",
    "Cash": "Efectivo",
    "Credit card": "Tarjeta de crédito",
    "Ewallet": "Billetera electrónica"})

In [13]:
#  Guardar DataFrame en formato csv
df.to_csv("Ventas_de_supermercado.csv", index=False, encoding='utf-8-sig')

df

Unnamed: 0,ID factura,Sucursal,Ciudad,Tipo de cliente,Género,Línea de producto,Precio unitario,Cantidad,Impuesto 5%,Sales,Fecha,Hora,Pago,Costo de ventas,Margen bruto %,Ingreso bruto,Calificación
0,750-67-8428,Alex,Yangon,Miembro,Mujer,Salud y belleza,74.69,7,26.1415,548.9715,1/5/2019,1:08:00 PM,Billetera electrónica,522.83,4.761905,26.1415,9.1
1,226-31-3081,Giza,Naypyitaw,Normal,Mujer,Accesorios electrónicos,15.28,5,3.8200,80.2200,3/8/2019,10:29:00 AM,Efectivo,76.40,4.761905,3.8200,9.6
2,631-41-3108,Alex,Yangon,Normal,Mujer,Hogar y estilo de vida,46.33,7,16.2155,340.5255,3/3/2019,1:23:00 PM,Tarjeta de crédito,324.31,4.761905,16.2155,7.4
3,123-19-1176,Alex,Yangon,Miembro,Mujer,Salud y belleza,58.22,8,23.2880,489.0480,1/27/2019,8:33:00 PM,Billetera electrónica,465.76,4.761905,23.2880,8.4
4,373-73-7910,Alex,Yangon,Miembro,Mujer,Deportes y viajes,86.31,7,30.2085,634.3785,2/8/2019,10:37:00 AM,Billetera electrónica,604.17,4.761905,30.2085,5.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,233-67-5758,Giza,Naypyitaw,Normal,Hombre,Salud y belleza,40.35,1,2.0175,42.3675,1/29/2019,1:46:00 PM,Billetera electrónica,40.35,4.761905,2.0175,6.2
996,303-96-2227,Cairo,Mandalay,Normal,Mujer,Hogar y estilo de vida,97.38,10,48.6900,1022.4900,3/2/2019,5:16:00 PM,Billetera electrónica,973.80,4.761905,48.6900,4.4
997,727-02-1313,Alex,Yangon,Miembro,Hombre,Alimentos y bebidas,31.84,1,1.5920,33.4320,2/9/2019,1:22:00 PM,Efectivo,31.84,4.761905,1.5920,7.7
998,347-56-2442,Alex,Yangon,Normal,Hombre,Hogar y estilo de vida,65.82,1,3.2910,69.1110,2/22/2019,3:33:00 PM,Efectivo,65.82,4.761905,3.2910,4.1


In [4]:
# Comprobar si existen valores nulos en el DataFrame

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID_Factura               1000 non-null   object 
 1   Sucursal                 1000 non-null   object 
 2   Ciudad                   1000 non-null   object 
 3   Tipo_Cliente             1000 non-null   object 
 4   Genero                   1000 non-null   object 
 5   Linea_Producto           1000 non-null   object 
 6   Precio_Unitario          1000 non-null   float64
 7   Cantidad                 1000 non-null   int64  
 8   Impuesto_5               1000 non-null   float64
 9   Ventas                   1000 non-null   float64
 10  Fecha                    1000 non-null   object 
 11  Hora                     1000 non-null   object 
 12  Metodo_Pago              1000 non-null   object 
 13  Costo_Bienes             1000 non-null   float64
 14  Margen_Bruto_Porcentaje  

In [10]:
# Nombre de las 17 columnas del DataFrame

print(df.columns.tolist())

['ID_Factura', 'Ciudad', 'Tipo_Cliente', 'Genero', 'Linea_Producto', 'Cantidad', 'Ventas', 'Metodo_Pago', 'Ingreso_Bruto', 'Calificacion']


In [15]:
# Reescribir DataFrame: eliminando las columnas no deseadas para quedarme solo con las columnas deseadas

df = df.drop(["Sucursal",
              "Precio_Unitario",
              "Impuesto_5",
              "Fecha",
              "Hora",
              "Costo_Bienes",
              "Margen_Bruto_Porcentaje"], axis=1, errors='ignore')


In [11]:
#DataFrame con las columnas deseadas

df

Unnamed: 0,ID_Factura,Ciudad,Tipo_Cliente,Genero,Linea_Producto,Cantidad,Ventas,Metodo_Pago,Ingreso_Bruto,Calificacion
0,750-67-8428,Yangon,Miembro,Mujer,Salud y belleza,7,548.9715,Monedero electrónico,26.1415,9.1
1,226-31-3081,Naypyitaw,Normal,Mujer,Accesorios electrónicos,5,80.2200,Efectivo,3.8200,9.6
2,631-41-3108,Yangon,Normal,Mujer,Hogar y estilo de vida,7,340.5255,Tarjeta de crédito,16.2155,7.4
3,123-19-1176,Yangon,Miembro,Mujer,Salud y belleza,8,489.0480,Monedero electrónico,23.2880,8.4
4,373-73-7910,Yangon,Miembro,Mujer,Deportes y viajes,7,634.3785,Monedero electrónico,30.2085,5.3
...,...,...,...,...,...,...,...,...,...,...
995,233-67-5758,Naypyitaw,Normal,Hombre,Salud y belleza,1,42.3675,Monedero electrónico,2.0175,6.2
996,303-96-2227,Mandalay,Normal,Mujer,Hogar y estilo de vida,10,1022.4900,Monedero electrónico,48.6900,4.4
997,727-02-1313,Yangon,Miembro,Hombre,Alimentos y bebidas,1,33.4320,Efectivo,1.5920,7.7
998,347-56-2442,Yangon,Normal,Hombre,Hogar y estilo de vida,1,69.1110,Efectivo,3.2910,4.1


In [13]:
# Información del nuevo DataFrame

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   ID_Factura      1000 non-null   object 
 1   Ciudad          1000 non-null   object 
 2   Tipo_Cliente    1000 non-null   object 
 3   Genero          1000 non-null   object 
 4   Linea_Producto  1000 non-null   object 
 5   Cantidad        1000 non-null   int64  
 6   Ventas          1000 non-null   float64
 7   Metodo_Pago     1000 non-null   object 
 8   Ingreso_Bruto   1000 non-null   float64
 9   Calificacion    1000 non-null   float64
dtypes: float64(3), int64(1), object(6)
memory usage: 78.3+ KB


## Hipotesis

De 17 columnas que tiene el dataset me he quedado con 10 columnas, que son las que me he basado para plantear las hipotesis. Estas son las hipotesis:

1. Las ventas totales varían entre las ciudades.
2. Los clientes “Miembro” gastan más que los “Normales”.  
3. El método de pago influye en el monto de venta.  
4. Algunos productos resultan más rentables que otros. 
5. Los clientes que gastan más dan mejores calificaciones.