# Análisis exploratorio de datos de productos de interés

## Importar módulos

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

## Cargar datos

In [2]:
data = pd.read_csv("data\\datos_puebla.csv")
print(data.shape)
data.head()

(981610, 15)


Unnamed: 0,producto,presentacion,marca,categoria,catalogo,precio,fechaRegistro,cadenaComercial,giro,nombreComercial,direccion,estado,municipio,latitud,longitud
0,ASISTENTES DE VOZ,NEST MINI O GA00781LA,GOOGLE,APARATOS ELECTRONICOS,ELECTRODOMESTICOS,1299.0,20230102,PALACIO DE HIERRO,TIENDA DEPARTAMENTALES,EL PALACIO DE HIERRO SUCURSAL PUEBLA,BLVD DEL NINO POBLANO 2510 PLAZA ANGELOPOLIS C...,PUEBLA,PUEBLA,19.030679,-98.234514
1,ASPIRADORAS,KC1500 POTENCIA 1400 WATTS,KOBLENZ ALPHA,APARATOS ELECTRICOS,ELECTRODOMESTICOS,4499.0,20230102,PALACIO DE HIERRO,TIENDA DEPARTAMENTALES,EL PALACIO DE HIERRO SUCURSAL PUEBLA,BLVD DEL NINO POBLANO 2510 PLAZA ANGELOPOLIS C...,PUEBLA,PUEBLA,19.030679,-98.234514
2,AUTOPISTAS,FNB21 BATALLA EN PLAYA TIBURON,HOT WHEELSMATTEL,ARTS DE ESPARCIMIENTO JUGUETES,JUGUETES,1035.0,20230102,PALACIO DE HIERRO,TIENDA DEPARTAMENTALES,EL PALACIO DE HIERRO SUCURSAL PUEBLA,BLVD DEL NINO POBLANO 2510 PLAZA ANGELOPOLIS C...,PUEBLA,PUEBLA,19.030679,-98.234514
3,AUTOPISTAS,GJM77 DESAFIO DE LA RULETA,HOT WHEELSMATTEL,ARTS DE ESPARCIMIENTO JUGUETES,JUGUETES,925.0,20230102,PALACIO DE HIERRO,TIENDA DEPARTAMENTALES,EL PALACIO DE HIERRO SUCURSAL PUEBLA,BLVD DEL NINO POBLANO 2510 PLAZA ANGELOPOLIS C...,PUEBLA,PUEBLA,19.030679,-98.234514
4,AUTOPISTAS,GNL70 GARAGE EXTREMO,HOT WHEELSMATTEL,ARTS DE ESPARCIMIENTO JUGUETES,JUGUETES,815.0,20230102,PALACIO DE HIERRO,TIENDA DEPARTAMENTALES,EL PALACIO DE HIERRO SUCURSAL PUEBLA,BLVD DEL NINO POBLANO 2510 PLAZA ANGELOPOLIS C...,PUEBLA,PUEBLA,19.030679,-98.234514


## Productos de interés

Los productos de interés son,

- Harina de trigo
- Huevo
- Azúcar
- Mantequilla
- Harina de maíz
- Leche pasteurizada
- Leche condensada
- Canela
- Manzana

In [3]:
data = data[data["producto"].isin([
    "HARINA DE TRIGO",
    "HUEVO",
    "AZUCAR",
    "MANTEQUILLA",
    "HARINA DE MAIZ",
    "LECHE PASTEURIZADA",
    "LECHE CONDENSADA",
    "CANELA",
    "MANZANA"
])]
data.shape

(27519, 15)

### Harina de trigo

In [4]:
df = data[data["producto"]=="HARINA DE TRIGO"]
df["presentacion"].unique()

array(['PAQUETE 1 KG', 'PAQUETE 1 KG O 11 KG', 'PAQUETE 1 KG INTEGRAL',
       'PAQUETE 907 GR', 'PAQUETE 800 O 880 GR', 'PAQUETE 750 GR'],
      dtype=object)

In [5]:
dict_harina = {
    "unidades": [
        ("PAQUETE 1 KG", 1000),
        ("PAQUETE 1 KG O 11 KG", 1000),
        ("PAQUETE 1 KG INTEGRAL", 1000),
        ("PAQUETE 907 GR", 907),
        ("PAQUETE 800 O 880 GR", 800),
        ("PAQUETE 750 GR", 750)
    ],
    "tipo":[
        ("PAQUETE 1 KG", "NORMAL"),
        ("PAQUETE 1 KG O 11 KG", "NORMAL"),
        ("PAQUETE 1 KG INTEGRAL", "INTEGRAL"),
        ("PAQUETE 907 GR", "NORMAL"),
        ("PAQUETE 800 O 880 GR", "NORMAL"),
        ("PAQUETE 750 GR", "NORMAL")
    ]
}
dict_harina

{'unidades': [('PAQUETE 1 KG', 1000),
  ('PAQUETE 1 KG O 11 KG', 1000),
  ('PAQUETE 1 KG INTEGRAL', 1000),
  ('PAQUETE 907 GR', 907),
  ('PAQUETE 800 O 880 GR', 800),
  ('PAQUETE 750 GR', 750)],
 'tipo': [('PAQUETE 1 KG', 'NORMAL'),
  ('PAQUETE 1 KG O 11 KG', 'NORMAL'),
  ('PAQUETE 1 KG INTEGRAL', 'INTEGRAL'),
  ('PAQUETE 907 GR', 'NORMAL'),
  ('PAQUETE 800 O 880 GR', 'NORMAL'),
  ('PAQUETE 750 GR', 'NORMAL')]}

In [6]:
unidades_harina = pd.DataFrame(dict_harina.get("unidades"), columns=["presentacion", "unidades"])
tipo_harina = pd.DataFrame(dict_harina.get("tipo"), columns=["presentacion", "tipo"])

info_harina = unidades_harina.merge(tipo_harina, on="presentacion")
info_harina["producto"] = ["HARINA DE TRIGO"] * info_harina.shape[0]
info_harina

Unnamed: 0,presentacion,unidades,tipo,producto
0,PAQUETE 1 KG,1000,NORMAL,HARINA DE TRIGO
1,PAQUETE 1 KG O 11 KG,1000,NORMAL,HARINA DE TRIGO
2,PAQUETE 1 KG INTEGRAL,1000,INTEGRAL,HARINA DE TRIGO
3,PAQUETE 907 GR,907,NORMAL,HARINA DE TRIGO
4,PAQUETE 800 O 880 GR,800,NORMAL,HARINA DE TRIGO
5,PAQUETE 750 GR,750,NORMAL,HARINA DE TRIGO


### Huevo

In [7]:
df = data[data["producto"]=="HUEVO"]
df["presentacion"].unique()

array(['PAQUETE C12 BLANCO', 'PAQUETE C18 BLANCO',
       'PAQUETE CON 12 BLANCO', 'PAQUETE CON 18 BLANCO',
       'PAQUETE C30 BLANCO', 'PAQUETE CON 30 BLANCO'], dtype=object)

In [8]:
dict_huevo = {
    "unidades": [
        ("PAQUETE C12 BLANCO", 12),
        ("PAQUETE CON 12 BLANCO", 12),
        ("PAQUETE C18 BLANCO", 18),
        ("PAQUETE CON 18 BLANCO", 18),
        ("PAQUETE C30 BLANCO", 30),
        ("PAQUETE CON 30 BLANCO", 30),
    ],
    "tipo":[
        ("PAQUETE C12 BLANCO", "BLANCO"),
        ("PAQUETE CON 12 BLANCO", "BLANCO"),
        ("PAQUETE C18 BLANCO", "BLANCO"),
        ("PAQUETE CON 18 BLANCO", "BLANCO"),
        ("PAQUETE C30 BLANCO", "BLANCO"),
        ("PAQUETE CON 30 BLANCO", "BLANCO"),
    ]
}
dict_huevo

{'unidades': [('PAQUETE C12 BLANCO', 12),
  ('PAQUETE CON 12 BLANCO', 12),
  ('PAQUETE C18 BLANCO', 18),
  ('PAQUETE CON 18 BLANCO', 18),
  ('PAQUETE C30 BLANCO', 30),
  ('PAQUETE CON 30 BLANCO', 30)],
 'tipo': [('PAQUETE C12 BLANCO', 'BLANCO'),
  ('PAQUETE CON 12 BLANCO', 'BLANCO'),
  ('PAQUETE C18 BLANCO', 'BLANCO'),
  ('PAQUETE CON 18 BLANCO', 'BLANCO'),
  ('PAQUETE C30 BLANCO', 'BLANCO'),
  ('PAQUETE CON 30 BLANCO', 'BLANCO')]}

In [9]:
unidades_huevo = pd.DataFrame(dict_huevo.get("unidades"), columns=["presentacion", "unidades"])
tipo_huevo = pd.DataFrame(dict_huevo.get("tipo"), columns=["presentacion", "tipo"])

info_huevo = unidades_huevo.merge(tipo_huevo, on="presentacion")
info_huevo["producto"] = ["HUEVO"] * info_huevo.shape[0]
info_huevo

Unnamed: 0,presentacion,unidades,tipo,producto
0,PAQUETE C12 BLANCO,12,BLANCO,HUEVO
1,PAQUETE CON 12 BLANCO,12,BLANCO,HUEVO
2,PAQUETE C18 BLANCO,18,BLANCO,HUEVO
3,PAQUETE CON 18 BLANCO,18,BLANCO,HUEVO
4,PAQUETE C30 BLANCO,30,BLANCO,HUEVO
5,PAQUETE CON 30 BLANCO,30,BLANCO,HUEVO


### Azucar

In [10]:
df = data[data["producto"]=="AZUCAR"]
df["presentacion"].unique()

array(['CAJA 200 GR 50 SOBRES DE 4 GR CU MASCABADO',
       'BOLSA PLASTICO 1 KG ESTANDAR',
       'BOLSA PLASTICO 2 KG ESTANDAR O MORENA',
       'BOLSA PLASTICO 2 KG REFINADA', 'BOLSA 500 GR MASCABADO',
       'BOLSA PLASTICO 1 KG ESTANDAR O MORENA',
       'BOLSA PLASTICO 900 GR ESTANDAR',
       'BOLSA PLASTICO 1800 GR ESTANDAR O MORENA',
       'BOLSA PLASTICO 900 GR ESTANDAR O MORENA',
       'BOLSA PLASTICO 1 KG ESTANDAR MORENA',
       'BOLSA PLASTICO 2 KG ESTANDAR MORENA',
       'BOLSA PLASTICO 1 KG REFINADA'], dtype=object)

In [11]:
dict_azucar = {
    "unidades": [
        ('CAJA 200 GR 50 SOBRES DE 4 GR CU MASCABADO', 200),
        ('BOLSA PLASTICO 1 KG ESTANDAR', 1000),
        ('BOLSA PLASTICO 2 KG ESTANDAR O MORENA', 2000),
        ('BOLSA PLASTICO 2 KG REFINADA', 2000),
        ('BOLSA 500 GR MASCABADO', 500),
        ('BOLSA PLASTICO 1 KG ESTANDAR O MORENA', 1000),
        ('BOLSA PLASTICO 900 GR ESTANDAR', 900),
        ('BOLSA PLASTICO 1800 GR ESTANDAR O MORENA', 1800),
        ('BOLSA PLASTICO 900 GR ESTANDAR O MORENA', 900),
        ('BOLSA PLASTICO 1 KG ESTANDAR MORENA', 1000),
        ('BOLSA PLASTICO 2 KG ESTANDAR MORENA', 2000),
        ('BOLSA PLASTICO 1 KG REFINADA', 1000)
    ],
    "tipo":[
        ('CAJA 200 GR 50 SOBRES DE 4 GR CU MASCABADO', "MASCABADO"),
        ('BOLSA PLASTICO 1 KG ESTANDAR', "ESTANDAR"),
        ('BOLSA PLASTICO 2 KG ESTANDAR O MORENA', "ESTANDAR"),
        ('BOLSA PLASTICO 2 KG ESTANDAR O MORENA', "MORENA"),
        ('BOLSA PLASTICO 2 KG REFINADA', "REFINADA"),
        ('BOLSA 500 GR MASCABADO', "MASCABADO"),
        ('BOLSA PLASTICO 1 KG ESTANDAR O MORENA', "ESTANDAR"),
        ('BOLSA PLASTICO 1 KG ESTANDAR O MORENA', "MORENA"),
        ('BOLSA PLASTICO 900 GR ESTANDAR', "ESTANDAR"),
        ('BOLSA PLASTICO 1800 GR ESTANDAR O MORENA', "ESTANDAR"),
        ('BOLSA PLASTICO 1800 GR ESTANDAR O MORENA', "MORENA"),
        ('BOLSA PLASTICO 900 GR ESTANDAR O MORENA', "ESTANDAR"),
        ('BOLSA PLASTICO 900 GR ESTANDAR O MORENA', "MORENA"),
        ('BOLSA PLASTICO 1 KG ESTANDAR MORENA', "ESTANDAR"),
        ('BOLSA PLASTICO 1 KG ESTANDAR MORENA', "MORENA"),
        ('BOLSA PLASTICO 2 KG ESTANDAR MORENA', "ESTANDAR"),
        ('BOLSA PLASTICO 2 KG ESTANDAR MORENA', "MORENA"),
        ('BOLSA PLASTICO 1 KG REFINADA', "REFINADA")
    ]
}
dict_azucar

{'unidades': [('CAJA 200 GR 50 SOBRES DE 4 GR CU MASCABADO', 200),
  ('BOLSA PLASTICO 1 KG ESTANDAR', 1000),
  ('BOLSA PLASTICO 2 KG ESTANDAR O MORENA', 2000),
  ('BOLSA PLASTICO 2 KG REFINADA', 2000),
  ('BOLSA 500 GR MASCABADO', 500),
  ('BOLSA PLASTICO 1 KG ESTANDAR O MORENA', 1000),
  ('BOLSA PLASTICO 900 GR ESTANDAR', 900),
  ('BOLSA PLASTICO 1800 GR ESTANDAR O MORENA', 1800),
  ('BOLSA PLASTICO 900 GR ESTANDAR O MORENA', 900),
  ('BOLSA PLASTICO 1 KG ESTANDAR MORENA', 1000),
  ('BOLSA PLASTICO 2 KG ESTANDAR MORENA', 2000),
  ('BOLSA PLASTICO 1 KG REFINADA', 1000)],
 'tipo': [('CAJA 200 GR 50 SOBRES DE 4 GR CU MASCABADO', 'MASCABADO'),
  ('BOLSA PLASTICO 1 KG ESTANDAR', 'ESTANDAR'),
  ('BOLSA PLASTICO 2 KG ESTANDAR O MORENA', 'ESTANDAR'),
  ('BOLSA PLASTICO 2 KG ESTANDAR O MORENA', 'MORENA'),
  ('BOLSA PLASTICO 2 KG REFINADA', 'REFINADA'),
  ('BOLSA 500 GR MASCABADO', 'MASCABADO'),
  ('BOLSA PLASTICO 1 KG ESTANDAR O MORENA', 'ESTANDAR'),
  ('BOLSA PLASTICO 1 KG ESTANDAR O MORENA',

In [12]:
unidades_azucar = pd.DataFrame(dict_azucar.get("unidades"), columns=["presentacion", "unidades"])
tipo_azucar = pd.DataFrame(dict_azucar.get("tipo"), columns=["presentacion", "tipo"])

info_azucar = unidades_azucar.merge(tipo_azucar, on="presentacion")
info_azucar["producto"] = ["AZUCAR"] * info_azucar.shape[0]
info_azucar

Unnamed: 0,presentacion,unidades,tipo,producto
0,CAJA 200 GR 50 SOBRES DE 4 GR CU MASCABADO,200,MASCABADO,AZUCAR
1,BOLSA PLASTICO 1 KG ESTANDAR,1000,ESTANDAR,AZUCAR
2,BOLSA PLASTICO 2 KG ESTANDAR O MORENA,2000,ESTANDAR,AZUCAR
3,BOLSA PLASTICO 2 KG ESTANDAR O MORENA,2000,MORENA,AZUCAR
4,BOLSA PLASTICO 2 KG REFINADA,2000,REFINADA,AZUCAR
5,BOLSA 500 GR MASCABADO,500,MASCABADO,AZUCAR
6,BOLSA PLASTICO 1 KG ESTANDAR O MORENA,1000,ESTANDAR,AZUCAR
7,BOLSA PLASTICO 1 KG ESTANDAR O MORENA,1000,MORENA,AZUCAR
8,BOLSA PLASTICO 900 GR ESTANDAR,900,ESTANDAR,AZUCAR
9,BOLSA PLASTICO 1800 GR ESTANDAR O MORENA,1800,ESTANDAR,AZUCAR


In [13]:
info_productos = pd.concat([info_harina, info_huevo, info_azucar]).reset_index(drop=True)
info_productos

Unnamed: 0,presentacion,unidades,tipo,producto
0,PAQUETE 1 KG,1000,NORMAL,HARINA DE TRIGO
1,PAQUETE 1 KG O 11 KG,1000,NORMAL,HARINA DE TRIGO
2,PAQUETE 1 KG INTEGRAL,1000,INTEGRAL,HARINA DE TRIGO
3,PAQUETE 907 GR,907,NORMAL,HARINA DE TRIGO
4,PAQUETE 800 O 880 GR,800,NORMAL,HARINA DE TRIGO
5,PAQUETE 750 GR,750,NORMAL,HARINA DE TRIGO
6,PAQUETE C12 BLANCO,12,BLANCO,HUEVO
7,PAQUETE CON 12 BLANCO,12,BLANCO,HUEVO
8,PAQUETE C18 BLANCO,18,BLANCO,HUEVO
9,PAQUETE CON 18 BLANCO,18,BLANCO,HUEVO


In [18]:
data_productos = data.merge(info_productos, how="inner", on=["producto", "presentacion"])
data_productos

Unnamed: 0,producto,presentacion,marca,categoria,catalogo,precio,fechaRegistro,cadenaComercial,giro,nombreComercial,direccion,estado,municipio,latitud,longitud,unidades,tipo
0,AZUCAR,CAJA 200 GR 50 SOBRES DE 4 GR CU MASCABADO,DOMINO,AZUCAR,BASICOS,17.5,20230102,WALMART,SUPERMERCADO TIENDA DE AUTOSERVICIO,WALMART SUCURSAL REFORMA,AV DE LA REFORMA SUR 3117 CHAPULCO Y ARON MERI...,PUEBLA,PUEBLA,19.058213,-98.223349,200,MASCABADO
1,AZUCAR,BOLSA PLASTICO 1 KG ESTANDAR,GREAT VALUE,AZUCAR,PACIC,24.0,20230102,WALMART,SUPERMERCADO TIENDA DE AUTOSERVICIO,WALMART SUCURSAL REFORMA,AV DE LA REFORMA SUR 3117 CHAPULCO Y ARON MERI...,PUEBLA,PUEBLA,19.058213,-98.223349,1000,ESTANDAR
2,AZUCAR,BOLSA PLASTICO 2 KG ESTANDAR O MORENA,GREAT VALUE,AZUCAR,BASICOS,55.0,20230102,WALMART,SUPERMERCADO TIENDA DE AUTOSERVICIO,WALMART SUCURSAL REFORMA,AV DE LA REFORMA SUR 3117 CHAPULCO Y ARON MERI...,PUEBLA,PUEBLA,19.058213,-98.223349,2000,ESTANDAR
3,AZUCAR,BOLSA PLASTICO 2 KG ESTANDAR O MORENA,GREAT VALUE,AZUCAR,BASICOS,55.0,20230102,WALMART,SUPERMERCADO TIENDA DE AUTOSERVICIO,WALMART SUCURSAL REFORMA,AV DE LA REFORMA SUR 3117 CHAPULCO Y ARON MERI...,PUEBLA,PUEBLA,19.058213,-98.223349,2000,MORENA
4,AZUCAR,BOLSA PLASTICO 2 KG REFINADA,GREAT VALUE,AZUCAR,BASICOS,62.0,20230102,WALMART,SUPERMERCADO TIENDA DE AUTOSERVICIO,WALMART SUCURSAL REFORMA,AV DE LA REFORMA SUR 3117 CHAPULCO Y ARON MERI...,PUEBLA,PUEBLA,19.058213,-98.223349,2000,REFINADA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16866,HUEVO,PAQUETE C18 BLANCO,PRECISSIMO,HUEVO,PACIC,49.0,20221230,HIPERMERCADO SORIANA,SUPERMERCADO TIENDA DE AUTOSERVICIO,SORIANA HIPER SUCURSAL TORRECILLAS 96,MUNICIPIO LIBRE 555 ENTRE NAYARIT Y 5 DE MAYO ...,PUEBLA,PUEBLA,19.001040,-98.229813,18,BLANCO
16867,HUEVO,PAQUETE CON 12 BLANCO,SAN JUAN,HUEVO,BASICOS,35.5,20221230,HIPERMERCADO SORIANA,SUPERMERCADO TIENDA DE AUTOSERVICIO,SORIANA HIPER SUCURSAL TORRECILLAS 96,MUNICIPIO LIBRE 555 ENTRE NAYARIT Y 5 DE MAYO ...,PUEBLA,PUEBLA,19.001040,-98.229813,12,BLANCO
16868,HUEVO,PAQUETE CON 18 BLANCO,SAN JUAN,HUEVO,BASICOS,49.0,20221230,HIPERMERCADO SORIANA,SUPERMERCADO TIENDA DE AUTOSERVICIO,SORIANA HIPER SUCURSAL TORRECILLAS 96,MUNICIPIO LIBRE 555 ENTRE NAYARIT Y 5 DE MAYO ...,PUEBLA,PUEBLA,19.001040,-98.229813,18,BLANCO
16869,HUEVO,PAQUETE CON 30 BLANCO,SAN JUAN,HUEVO,BASICOS,84.9,20221230,HIPERMERCADO SORIANA,SUPERMERCADO TIENDA DE AUTOSERVICIO,SORIANA HIPER SUCURSAL TORRECILLAS 96,MUNICIPIO LIBRE 555 ENTRE NAYARIT Y 5 DE MAYO ...,PUEBLA,PUEBLA,19.001040,-98.229813,30,BLANCO


In [28]:
data_productos["fechaRegistro"] = [f"{num//10000}/{(num % 10000)//100}/{num % 100}" for num in data_productos["fechaRegistro"]]

In [29]:
data_productos.to_csv("data\\datos_productos_seleccionados.csv")