# Análisis de Ddatos
## TP N 1
----
### Grupo N
- Aviani, José
- Díaz, José Luis
- Silvera, Ricardo

---
## Introducción

Para este trabajo elegimos el el dataset Precios Claros – Base SEPA, perteneciente al “Sistema Electrónico de Publicidad de Precios Argentinos (SEPA)" (https://datos.gob.ar/), el cual reúne los precios de comercios minoristas (grandes establecimientos) de más de 70 mil productos en toda la Argentina. Particularmente para este trabajo, seleccionamos el set de datos del establecimiento **Carrefour** ya que era el de mayor tamaño, lo cual es deseable como entrada en un problema de aprendizaje de máquina.
A continuación realizamos el análisis exploratorio de los datos y finalizamos con las conclusiones obtenidas del trabajo.


### Importación de librerías

In [1]:
import pandas as pd

## Análisis Exploratorio de los Datos

### Carga y comprensión de los datos
Los datos están separados en 3 archivos
- comercio
- sucursales
- productos

Cada uno contiene información específica sobre la entidad que indica su nombre. Vamos a investigar a cada uno para comprender la información que contienen y como está organizada y unificar todos los datos que nos interesen en un único dataframe. 

#### Comercio

In [None]:
comercio=pd.read_csv('./dataset/comercio.csv',delimiter='|')
comercio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id_comercio                    4 non-null      object 
 1   id_bandera                     3 non-null      float64
 2   comercio_cuit                  3 non-null      float64
 3   comercio_razon_social          3 non-null      object 
 4   comercio_bandera_nombre        3 non-null      object 
 5   comercio_bandera_url           3 non-null      object 
 6   comercio_ultima_actualizacion  3 non-null      object 
 7   comercio_version_sepa          3 non-null      float64
dtypes: float64(3), object(5)
memory usage: 388.0+ bytes


In [16]:
comercio.head()

Unnamed: 0,id_comercio,id_bandera,comercio_cuit,comercio_razon_social,comercio_bandera_nombre,comercio_bandera_url,comercio_ultima_actualizacion,comercio_version_sepa
0,10,1.0,30687310000.0,INC S.A.,Hipermercado Carrefour,www.carrefour.com.ar,2025-07-11T04:30:04-03:00,1.0
1,10,3.0,30687310000.0,INC S.A.,Express,www.carrefour.com.ar,2025-07-11T04:30:04-03:00,1.0
2,10,2.0,30687310000.0,INC S.A.,Market,www.carrefour.com.ar,2025-07-11T04:30:04-03:00,1.0
3,Ultima actualización: 2025-07-11T04:30:04-03:00,,,,,,,


El dataframe **comercio** contiene solo 3 filas con información, mucha de la cuales son repetitiva y constante para nuestro caso que solo estudiaremos un solo comercio.

- `id_comercio`: Es el identificador de comercio, como trabajaremos solo con Carefour este data será constante en todo el dataset.

- `id_bandera`: Es de tipo numérico,  identifica el tipo de comercio cuya discreción en texto está en el campo comercio_bandera_nombre 
- `icomercio_cui`: Es de tipo numérico, contiene el numero de CUIT del comercio, constante para nuestro caso. 
- `comercio_razon_social`:  Es de tipo texto, contiene el la Razón Social del comercio, es constante para nuestro caso.
- `comercio_bandera_nombre`: Contiene la descripción del tipo de comercio (Hipermercado Carrefeour, Express, Market). es la descripción del valor numérico del campo id_bandera.
- `comercio_ultima_actualizacion`: Contiene la fecha y hora de la actualización del archivo. Es constante para nuestro caso ya que trabajaremos con un único archivo.
- `comercio_version_sepa`: Es el numero de versión que indica la versión del modelo de datos del paquete SEPA.

#### Sucursales

In [None]:
sucursales=pd.read_csv('./dataset/sucursales.csv',delimiter='|')

In [14]:
sucursales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 564 entries, 0 to 563
Data columns (total 21 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   id_comercio                            564 non-null    object 
 1   id_bandera                             563 non-null    float64
 2   id_sucursal                            563 non-null    float64
 3   sucursales_nombre                      563 non-null    object 
 4   sucursales_tipo                        563 non-null    object 
 5   sucursales_calle                       563 non-null    object 
 6   sucursales_numero                      559 non-null    float64
 7   sucursales_latitud                     563 non-null    float64
 8   sucursales_longitud                    563 non-null    float64
 9   sucursales_observaciones               17 non-null     object 
 10  sucursales_barrio                      302 non-null    object 
 11  sucurs

In [15]:
sucursales.head()

Unnamed: 0,id_comercio,id_bandera,id_sucursal,sucursales_nombre,sucursales_tipo,sucursales_calle,sucursales_numero,sucursales_latitud,sucursales_longitud,sucursales_observaciones,...,sucursales_codigo_postal,sucursales_localidad,sucursales_provincia,sucursales_lunes_horario_atencion,sucursales_martes_horario_atencion,sucursales_miercoles_horario_atencion,sucursales_jueves_horario_atencion,sucursales_viernes_horario_atencion,sucursales_sabado_horario_atencion,sucursales_domingo_horario_atencion
0,10,3.0,365.0,Nazca 1944,Autoservicio,Nazca,1944.0,-34.612145,-58.480997,,...,1416.0,Ciudad Autónoma de Buenos Aires,AR-C,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,10:30 a 20:00
1,10,3.0,408.0,Perú 916,Autoservicio,Perú,916.0,-34.618745,-58.374322,,...,1068.0,Ciudad Autónoma de Buenos Aires,AR-C,07:00 a 20:00,07:00 a 20:00,07:00 a 20:00,07:00 a 20:00,07:00 a 20:00,07:00 a 20:00,11:00 a 20:00
2,10,2.0,144.0,La Plata II,Supermercado,Calle 12,1200.0,-34.923011,-57.949931,,...,1900.0,La Plata,AR-B,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,09:00 a 20:00
3,10,3.0,755.0,C.Tribulato 1279 (San Miguel),Autoservicio,C Tribulato,1279.0,-34.541507,-58.713798,,...,1663.0,San Miguel,AR-B,07:00 A 22:00,07:00 A 22:00,07:00 A 22:00,07:00 A 22:00,07:00 A 22:00,07:00 A 22:00,09:00 A 20:00
4,10,3.0,479.0,Avenida Eva Perón 4215,Autoservicio,Avenida Eva Perón,4215.0,-34.690047,-58.689142,,...,1722.0,Merlo,AR-B,07:30 a 20:00,07:30 a 20:00,07:30 a 20:00,07:30 a 20:00,07:30 a 20:00,07:30 a 20:00,10:00 a 19:00


El archivo contiene información sobre las 563 sucursales del comercio

- `id_bandera`: Tipo de comercio, se relaciona con el campo de mismo nombre del archivo comercio

- `id_sucursal`: Es de tipo numérico, es el identificador de la sucursal

- `sucursales_nombre`: es de tipo texto, contine el noombre de la uscursal

- `sucursales_tipo`: Es de tipo texto, indica el tipo de establecimiento (por ejemplo, Autoservicio, Sueprmercado).
- `sucursales_calle`: Es de tipo texto, representa el nombre de la calle donde está ubicada la sucursal.
- `sucursales_numero`: Es de tipo numérico o texto, indica el número de la dirección de la sucursal.
- `sucursales_latitud`: Es de tipo numérico, representa la coordenada de latitud de la ubicación geográfica de la sucursal.
- `sucursales_longitud`: Es de tipo numérico, representa la coordenada de longitud de la ubicación geográfica de la sucursal.
- `sucursales_observaciones`: Es de tipo texto, contiene observaciones o notas adicionales sobre la sucursal.
- `sucursales_codigo_postal`: Es de tipo texto o numérico, representa el código postal correspondiente a la dirección de la sucursal.
- `sucursales_localidad`: Es de tipo texto, indica la localidad o ciudad donde se encuentra la sucursal.
- `sucursales_barrio`: Es de tipo texto, indica el barrio donde se encuentra ubicada la sucursal.
- `sucursales_provincia`: Es de tipo texto, contine un código que indica la provincia a la que pertenece la sucursal.
- `sucursales_lunes_horario_atencion`: Es de tipo texto, indica el horario de atención al público durante los días lunes.
- `sucursales_martes_horario_atencion`: Es de tipo texto, indica el horario de atención al público durante los días martes.
- `sucursales_miercoles_horario_atencion`: Es de tipo texto, indica el horario de atención al público durante los días miércoles.
- `sucursales_jueves_horario_atencion`: Es de tipo texto, indica el horario de atención al público durante los días jueves.
- `sucursales_viernes_horario_atencion`: Es de tipo texto, indica el horario de atención al público durante los días viernes.
- `sucursales_sabado_horario_atencion`: Es de tipo texto, indica el horario de atención al público durante los días sábados.
- `sucursales_domingo_horario_atencion`: Es de tipo texto, indica el horario de atención al público durante los días domingos.

Vamos a considerar todos los campos de este archivo

#### Productos

In [20]:
productos=pd.read_csv('./dataset/productos.csv',delimiter='|',low_memory=False)

In [21]:
productos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2835685 entries, 0 to 2835684
Data columns (total 17 columns):
 #   Column                                Dtype  
---  ------                                -----  
 0   id_comercio                           object 
 1   id_bandera                            float64
 2   id_sucursal                           float64
 3   id_producto                           float64
 4   productos_ean                         float64
 5   productos_descripcion                 object 
 6   productos_cantidad_presentacion       float64
 7   productos_unidad_medida_presentacion  object 
 8   productos_marca                       object 
 9   productos_precio_lista                float64
 10  productos_precio_referencia           float64
 11  productos_cantidad_referencia         float64
 12  productos_unidad_medida_referencia    object 
 13  productos_precio_unitario_promo1      float64
 14  productos_leyenda_promo1              object 
 15  productos_preci

In [22]:
productos.head()

Unnamed: 0,id_comercio,id_bandera,id_sucursal,id_producto,productos_ean,productos_descripcion,productos_cantidad_presentacion,productos_unidad_medida_presentacion,productos_marca,productos_precio_lista,productos_precio_referencia,productos_cantidad_referencia,productos_unidad_medida_referencia,productos_precio_unitario_promo1,productos_leyenda_promo1,productos_precio_unitario_promo2,productos_leyenda_promo2
0,10,1.0,63.0,7790771000000.0,1.0,TOALLA NOSOTRAS CLASICAS C CALENDULA X 16U,1.0,UNI,NOSOTRAS,2819.0,176.19,16.0,UNI,,,,
1,10,3.0,711.0,7790070000000.0,1.0,FIDEOS DEDALITOS LUCCHETTI BOLSA X 500 GRS,1.0,UNI,LUCCHETTI,1439.0,2878.0,500.0,GRM,,,,
2,10,1.0,44.0,7622202000000.0,1.0,GALLETITAS BOCA DE DAMA TERRABUSI X 170 GRS,1.0,UNI,TERRABUSI,1059.0,6229.41,170.0,GRM,,,,
3,10,2.0,62.0,7791293000000.0,1.0,ACONDICIONADOR LISO EFECTO BOTOX TRESEMME X 25...,1.0,UNI,TRESEMME,4455.0,17820.0,250.0,CM3,,,,
4,10,3.0,735.0,7798160000000.0,1.0,DURAZNOS EN MITADES CARREFOUR LATA X 820 GRS,1.0,UNI,CARREFOUR,2490.0,3036.59,820.0,GRM,,,,


El archivo contiene 2.835.685 filas con información de los productos.

-  `id_comercio ` : Es de tipo numérico, representa el identificador único del comercio al que pertenece el producto. Es constante para nuestro caso.

-  `id_bandera `: Se refiere al tipo de comercio, y está relacionado con el campo  `id_bandera ` del archivo de comercio.
-  `id_sucursal `: Es de tipo numérico, contiene el código de la sucursal específica dentro del comercio, se relaciona con el campo de mismo nommbre del archivo sucursales.
-  `id_producto `: Es de tipo numérico, es el identificador único del producto para el comercio.
-  `productos_ean `: Es de tipo numérico, representa el código EAN (European Article Number) del producto, utilizado como código de barras.
-  `productos_descripcion `: Es de tipo texto, contiene la descripción comercial del producto.
-  `productos_cantidad_presentacion `: Es de tipo numérico, indica la cantidad del producto contenida en la unidad.
-  `productos_unidad_medida_presentacion `: Es de tipo texto, representa la unidad de medida de la presentación del producto.
-  `productos_marca`: Es de tipo texto, indica el nombre de la marca comercial del producto.
-  `productos_precio_lista` : Es de tipo numérico, representa el precio de lista del producto, es decir, el precio regular sin promociones.
-  `productos_precio_referencia `: Es de tipo numérico, corresponde al precio de referencia.
-  `productos_cantidad_referencia `: Es de tipo numérico, indica la cantidad de producto usada como base para calcular el precio de referencia.
-  `productos_unidad_medida_referencia `: Es de tipo texto, representa la unidad de medida de la cantidad de referencia.
-  `productos_precio_unitario_promo1 `: Es de tipo numérico, indica el precio unitario del producto en la primera promoción (si existe).
-  `productos_leyenda_promo1 `: Es de tipo texto, contiene la leyenda o descripción asociada a la primera promoción.
-  `productos_precio_unitario_promo2 `: Es de tipo numérico, indica el precio unitario del producto en la segunda promoción (si existe).
-  `productos_leyenda_promo2 `: Es de tipo texto, contiene la leyenda o descripción asociada a la segunda promoción.

Vamos a descartar los datos del dataframe **comercio** ya que sus datos son constantes, excepto `id_bandera` y `comercio_bandera_nombre` que no son redundantes para nuestro estudio, ya que contamos con el campo `id_bandera` en el archivo sucursales.
Unimos el dataframe de **productos** y **sucursales** para dejarlos en un solo objeto y poder analizar toda la información junta.

In [23]:
datos= pd.merge(productos,sucursales,on='id_sucursal')
datos.head()

Unnamed: 0,id_comercio_x,id_bandera_x,id_sucursal,id_producto,productos_ean,productos_descripcion,productos_cantidad_presentacion,productos_unidad_medida_presentacion,productos_marca,productos_precio_lista,...,sucursales_codigo_postal,sucursales_localidad,sucursales_provincia,sucursales_lunes_horario_atencion,sucursales_martes_horario_atencion,sucursales_miercoles_horario_atencion,sucursales_jueves_horario_atencion,sucursales_viernes_horario_atencion,sucursales_sabado_horario_atencion,sucursales_domingo_horario_atencion
0,10,1.0,63.0,7790771000000.0,1.0,TOALLA NOSOTRAS CLASICAS C CALENDULA X 16U,1.0,UNI,NOSOTRAS,2819.0,...,9011.0,Santa Cruz,AR-Z,09:00 a 20:00,09:00 a 20:00,09:00 a 20:00,09:00 a 20:00,09:00 a 20:00,09:00 a 20:00,09:00 a 20:00
1,10,3.0,711.0,7790070000000.0,1.0,FIDEOS DEDALITOS LUCCHETTI BOLSA X 500 GRS,1.0,UNI,LUCCHETTI,1439.0,...,1427.0,Ciudad Autónoma de Buenos Aires,AR-C,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,11:00 a 20:00
2,10,1.0,44.0,7622202000000.0,1.0,GALLETITAS BOCA DE DAMA TERRABUSI X 170 GRS,1.0,UNI,TERRABUSI,1059.0,...,3500.0,Resistencia,AR-H,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,09:00 a 20:00
3,10,2.0,62.0,7791293000000.0,1.0,ACONDICIONADOR LISO EFECTO BOTOX TRESEMME X 25...,1.0,UNI,TRESEMME,4455.0,...,1629.0,Pilar,AR-B,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00,08:30 a 20:00
4,10,3.0,735.0,7798160000000.0,1.0,DURAZNOS EN MITADES CARREFOUR LATA X 820 GRS,1.0,UNI,CARREFOUR,2490.0,...,1428.0,Ciudad Autónoma de Buenos Aires,AR-C,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,08:00 a 20:00,11:00 a 20:00


### Resumen estadístico general



### Revisión de valores faltantes 



### Análisis de tipos de variables



### Distribuciones

### Relación entre variables

### Detección de outliers 

### Segmentación y agrupamientos

---
## Conclusiones