# Limpieza de Datos

In [363]:
import pandas as pd
from utils import convert_file

# Importar Datasets

### Dataset Movimientos-20190716

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [384]:
movimientos_col_names = [
    'idb', 'id_producto', 'fecha_trans', 'stock_unidades', 'venta_unidades', 'precio_unitario',
    'cd_abast', 'is_prod_rol_local'
]

In [385]:
path = './data/VMI_Movimientos-20190716.txt'
movimientos_df = pd.read_csv(path,
                 delimiter = '\t',
                 header=None,
                 names=movimientos_col_names)

In [386]:
movimientos_df.head()

Unnamed: 0,idb,id_producto,fecha_trans,stock_unidades,venta_unidades,precio_unitario,cd_abast,is_prod_rol_local
0,242,228217,20160715,24.0,0.0,13.63,0,SI
1,242,228217,20160716,24.0,0.0,13.63,0,SI
2,242,228217,20160717,24.0,0.0,13.63,0,SI
3,242,228217,20160718,24.0,0.0,13.63,0,SI
4,242,228217,20160719,24.0,0.0,13.63,0,SI


In [387]:
movimientos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8347817 entries, 0 to 8347816
Data columns (total 8 columns):
 #   Column             Dtype  
---  ------             -----  
 0   idb                int64  
 1   id_producto        int64  
 2   fecha_trans        int64  
 3   stock_unidades     float64
 4   venta_unidades     float64
 5   precio_unitario    float64
 6   cd_abast           int64  
 7   is_prod_rol_local  object 
dtypes: float64(3), int64(4), object(1)
memory usage: 509.5+ MB


#### Realizar ajustes a las columnas y verificar que no existan datos nulos, repetidos
- Convertir la columna fecha_trans a tipo de dato datetime.
- Convertir la columna is_prod_rol_local a tipo de dato string.
- Verificar por valores nulos y repetidos.
- Convertir la columna is_prod_rol_local a variable numerica donde 1 corresponde a SI y 0 corresponde a NO.
- Obtener las fechas máximas y minimas de transaciones
- Obtener una análisis descriptivo de los datos.

In [388]:
movimientos_df = convert_file(movimientos_df, 'fecha_trans', 'date')

In [389]:
movimientos_df.isnull().sum(axis=0)

idb                  0
id_producto          0
fecha_trans          0
stock_unidades       0
venta_unidades       0
precio_unitario      0
cd_abast             0
is_prod_rol_local    0
dtype: int64

In [390]:
movimientos_df.duplicated().sum()

0

In [391]:
movimientos_df = convert_file(movimientos_df, 'is_prod_rol_local', 'str')

In [392]:
movimientos_df['is_prod_rol_local'] = movimientos_df['is_prod_rol_local'].str.lower().apply(lambda x: 1 if x == 'si' else 0)

In [393]:
max_date = movimientos_df['fecha_trans'].max()
min_date = movimientos_df['fecha_trans'].min()

print(f"Minimum date: {min_date}")
print(f"Maximum date: {max_date}")

Minimum date: 2016-07-15 00:00:00
Maximum date: 2019-07-14 00:00:00


In [394]:
movimientos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8347817 entries, 0 to 8347816
Data columns (total 8 columns):
 #   Column             Dtype         
---  ------             -----         
 0   idb                int64         
 1   id_producto        int64         
 2   fecha_trans        datetime64[ns]
 3   stock_unidades     float64       
 4   venta_unidades     float64       
 5   precio_unitario    float64       
 6   cd_abast           int64         
 7   is_prod_rol_local  int64         
dtypes: datetime64[ns](1), float64(3), int64(4)
memory usage: 509.5 MB


In [395]:
movimientos_df.describe()

Unnamed: 0,idb,id_producto,stock_unidades,venta_unidades,precio_unitario,cd_abast,is_prod_rol_local
count,8347817.0,8347817.0,8347817.0,8347817.0,8347817.0,8347817.0,8347817.0
mean,6988.555,378548.9,20.65585,0.3133696,64.2605,5435.286,0.9609797
std,3300.353,91593.73,148.8001,0.8950359,65.82745,4533.729,0.1936432
min,242.0,164146.0,-542.0,-45.0,0.0,0.0,0.0
25%,5208.0,292945.0,6.0,0.0,22.51,0.0,1.0
50%,9026.0,415268.0,10.0,0.0,38.23,9217.0,1.0
75%,9159.0,458393.0,17.0,0.0,76.73,9217.0,1.0
max,9977.0,511326.0,16218.0,612.0,423.81,9217.0,1.0


In [396]:
# Verificar cuantos valores negativos tenemos en la columna venta_unidades
negative_values = movimientos_df[movimientos_df['venta_unidades'] < 0]
negative_values

Unnamed: 0,idb,id_producto,fecha_trans,stock_unidades,venta_unidades,precio_unitario,cd_abast,is_prod_rol_local
36280,247,242232,2017-03-16,9.0,-1.0,17.60,0,0
68252,247,454775,2017-03-16,5.0,-1.0,17.60,0,1
69533,247,454813,2019-04-01,2.0,-2.0,90.15,9217,1
114239,249,450347,2018-12-28,4.0,-1.0,67.73,9217,1
155981,257,240911,2016-10-18,7.0,-1.0,15.82,0,1
...,...,...,...,...,...,...,...,...
8289141,9977,249486,2017-09-02,10.0,-1.0,34.82,0,1
8297424,9977,342682,2017-07-21,5.0,-2.0,19.63,0,1
8301405,9977,342745,2018-07-28,7.0,-1.0,23.98,9217,1
8302475,9977,342762,2019-03-28,2.0,-1.0,71.12,9217,1


#### Observaciones dataset Movimientos-20190716

1. El dataset contiene la información referente a los movimientos de productos comprendidos entre Julio 15 de 2016 hasta el día 14 de Julio de 2019.
2. El dataset contiene 8347817 registros y 8 columnas identificadas así:
    - idb: Identificador interno de Boca
    - id_producto: Identificador interno de Artículo
    - fecha: Fecha de la Transacción,  1 dia menos que la fecha actual
    - stock_unidades: Stock en unidades del Artículo en la Boca
    - venta_unidades: Venta en unidades
    - precio_unitario: Precio de venta unitario
    - cd_abast: Que CD de la region del local abastece este producto al local para productos almacenados.
    - is_prod_rol_local: SI= sigue en Rol, NO= no esta en Rol el producto en el local.
3. No se observan valores NAN ó valores repetidos.
4. El valor medio de inventario en unidades es de 20.65585 unidades.
5. El valor medio de ventas en unidades es de 0.3133696 unidades.
6. La media del precio unitario es de 64.26050 pesos.

### Dataset Promociones-20190715

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [399]:
promo_col_names = [
        'idb', 'id_producto', 'fecha_desde', 'fecha_hasta', 'ventas_estimadas_und',
        'nro_prom', 'fecha_trans', 'porcentaje_dcto'
]

In [400]:
promo_df = pd.read_csv("./data/VMI_Promociones-20190715.txt",
                       encoding="utf-8",
                       header=None,
                       delimiter='\t',
                       names=promo_col_names)

In [401]:
promo_df.head()

Unnamed: 0,idb,id_producto,fecha_desde,fecha_hasta,ventas_estimadas_und,nro_prom,fecha_trans,porcentaje_dcto
0,242,228217,20161023,20161030,0.98,436830,20161005,7.0
1,242,228217,20161023,20161030,0.98,436830,20161006,7.0
2,242,228217,20161023,20161030,0.98,436830,20161007,7.0
3,242,228217,20161023,20161030,0.98,436830,20161008,7.0
4,242,228217,20161023,20161030,0.98,436830,20161009,7.0


In [402]:
promo_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 285253 entries, 0 to 285252
Data columns (total 8 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   idb                   285253 non-null  int64  
 1   id_producto           285253 non-null  int64  
 2   fecha_desde           285253 non-null  int64  
 3   fecha_hasta           285253 non-null  int64  
 4   ventas_estimadas_und  285253 non-null  float64
 5   nro_prom              285253 non-null  int64  
 6   fecha_trans           285253 non-null  int64  
 7   porcentaje_dcto       285253 non-null  float64
dtypes: float64(2), int64(6)
memory usage: 17.4 MB


#### Realizar ajustes a las columnas y verificar que no existan datos nulos, repetidos
- Convertir la columnas fecha_desde, fecha_hasta y fecha_trans a tipo de dato datetime.
- Verificar si existen valores nulos y/o repetidos.
- Obtener las fechas máximas y minimas de transaciones.
- Crear una nueva columnas llamada duracion_promo para obtener el delta de tiempo entre la fecha_desde y la fecha_hasta de una promoción.
- Obtener una análisis descriptivo de los datos.

In [315]:
promo_df = convert_file(promo_df, 'fecha_desde', 'date')

In [316]:
promo_df = convert_file(promo_df, 'fecha_hasta', 'date')

In [317]:
promo_df = convert_file(promo_df, 'fecha_trans', 'date')

In [318]:
promo_df.isnull().sum(axis=0)

idb                     0
id_producto             0
fecha_desde             0
fecha_hasta             0
ventas_estimadas_und    0
nro_prom                0
fecha_trans             0
porcentaje_dcto         0
dtype: int64

In [319]:
promo_df.duplicated().sum()

0

In [320]:
min_date = promo_df['fecha_desde'].min()
max_date = promo_df['fecha_hasta'].max()


print(f"Minimum date: {min_date}")
print(f"Maximum date: {max_date}")

Minimum date: 2016-07-19 00:00:00
Maximum date: 2019-07-16 00:00:00


In [321]:
min_date = promo_df['fecha_trans'].min()
max_date = promo_df['fecha_trans'].max()

print(f"Minimum date: {min_date}")
print(f"Maximum date: {max_date}")

Minimum date: 2016-07-14 00:00:00
Maximum date: 2019-07-14 00:00:00


In [325]:
# Crear una nueva columna llamada duracion de la promoción.
promo_df['duracion_promo'] = promo_df['fecha_hasta'] - promo_df['fecha_desde']

In [326]:
promo_df.describe()

Unnamed: 0,idb,id_producto,ventas_estimadas_und,nro_prom,porcentaje_dcto,duracion_promo
count,285253.0,285253.0,285253.0,285253.0,285253.0,285253
mean,7065.578963,388393.367197,24.622701,471275.031435,8.394103,8 days 09:27:30.480100121
std,3169.254446,83906.42082,30.314661,37596.939924,2.89357,2 days 21:26:44.418379945
min,242.0,164146.0,0.0,425196.0,3.0,3 days 00:00:00
25%,5207.0,342682.0,6.0,436830.0,7.0,7 days 00:00:00
50%,9026.0,427445.0,12.52,456807.0,7.0,7 days 00:00:00
75%,9159.0,458395.0,30.44,502702.0,8.0,8 days 00:00:00
max,9977.0,507528.0,300.82,541066.0,18.0,18 days 00:00:00


In [327]:
promo_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 285253 entries, 0 to 285252
Data columns (total 9 columns):
 #   Column                Non-Null Count   Dtype          
---  ------                --------------   -----          
 0   idb                   285253 non-null  int64          
 1   id_producto           285253 non-null  int64          
 2   fecha_desde           285253 non-null  datetime64[ns] 
 3   fecha_hasta           285253 non-null  datetime64[ns] 
 4   ventas_estimadas_und  285253 non-null  float64        
 5   nro_prom              285253 non-null  int64          
 6   fecha_trans           285253 non-null  datetime64[ns] 
 7   porcentaje_dcto       285253 non-null  float64        
 8   duracion_promo        285253 non-null  timedelta64[ns]
dtypes: datetime64[ns](3), float64(2), int64(3), timedelta64[ns](1)
memory usage: 19.6 MB


#### Observaciones dataset Promociones-20190715

1. El dataset contiene la información referente a las promociones realizadas desde 2016-07-19 hasta el 2019-07-16.
2. El dataset contiene 285253 registros y 9 columnas descritas así:
    - idb:	Identificador interno de Boca
    - id_producto:	Identificador interno de Artículo
    - fecha-desde: 	Fecha desde de la vigencia de la Promoción
    - fecha_hasta:	Fecha hasta de la vigencia de la Promoción
    - ventas_estimadas_und: Estimado de ventas en la promoción en Unidades
    - nro_prom: Número de la Promoción
    - fecha_trans: Fecha de la Información
    - porcentaje_dcto: Porcentaje de Descuento
    - duracion_promo: La diferencia entre fecha_desde y fecha_hasta.
3. No se observan valores NAN ó duplicados.
4. La media de ventas estimadas es de 24.62 unidades.
5. El máximo porcentaje de descuento es de 18% y el mínimo es de 3%.
6. La duración máxima de una promoción es de 18 días.
7. La duración media de una promoción es de 8 días.

### Dataset ProvProdu-20190712

In [350]:
prov_prod_col_names = [
    'id_proveedor', 'razon_social', 'id_sector', 'desc_sector', 'id_seccion',
    'desc_seccion', 'id_gran_flia', 'desc_gran_flia', 'id_flia', 'desc_flia',
    'id_sub_flia', 'desc_sub_flia', 'id_articulo', 'id_producto',
    'desc_producto', 'id_region', 'fecha'
]

In [351]:
prov_prod_df = pd.read_csv("./data/VMI_ProvProdu-20190712.txt",
                           encoding="ISO-8859-1",
                           header=None,
                           delimiter='\t',
                           names=prov_prod_col_names)

In [352]:
prov_prod_df.head()

Unnamed: 0,id_proveedor,razon_social,id_sector,desc_sector,id_seccion,desc_seccion,id_gran_flia,desc_gran_flia,id_flia,desc_flia,id_sub_flia,desc_sub_flia,id_articulo,id_producto,desc_producto,id_region,fecha
1,252,Reckitt Benckiser Argentina S.A.,1,Almacn,4,Limpieza,3,Ba¤o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27003,273920,REFILL CITRICO OIL ESCENCE AIR WICK CITRICOS ...,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almacn,4,Limpieza,3,Ba¤o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27004,273921,FRESHMATIC AIRWICK LAVANDA REPUESTO 250.00 MLT,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almacn,4,Limpieza,3,Ba¤o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27005,284012,AIR WICK CITRICO FULL REP.GRATIS AIR WICK AIR ...,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almacn,4,Limpieza,3,Ba¤o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27012,359572,MAGNOLIA Y CHERRY AIR WICK REPUESTO 175.00 GR,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almacn,4,Limpieza,3,Ba¤o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27007,415268,FRESHMATIC BOSQUE MµGICO APARATO AIR WICK LUSH...,1,2019-07-12 11:04:07.967


In [356]:
prov_prod_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 82 entries, 1 to 1
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   id_proveedor    82 non-null     int64 
 1   razon_social    82 non-null     object
 2   id_sector       82 non-null     int64 
 3   desc_sector     82 non-null     object
 4   id_seccion      82 non-null     int64 
 5   desc_seccion    82 non-null     object
 6   id_gran_flia    82 non-null     int64 
 7   desc_gran_flia  82 non-null     object
 8   id_flia         82 non-null     int64 
 9   desc_flia       82 non-null     object
 10  id_sub_flia     82 non-null     int64 
 11  desc_sub_flia   82 non-null     object
 12  id_articulo     82 non-null     int64 
 13  id_producto     82 non-null     int64 
 14  desc_producto   82 non-null     object
 15  id_region       82 non-null     int64 
 16  fecha           82 non-null     object
dtypes: int64(9), object(8)
memory usage: 11.5+ KB


- Arreglar errores de ortografia para las columnas desc_sector y desc_gran_flia.
- Convertir las columnas de tipo string a lower case.

In [353]:
prov_prod_df['desc_gran_flia'] = prov_prod_df['desc_gran_flia'].replace(to_replace=r'Ba¤o', value='Baño', regex=True)
prov_prod_df['desc_sector'] = prov_prod_df['desc_sector'].replace(to_replace=r'Almacn', value='Almacén', regex=True)

In [354]:
prov_prod_df = prov_prod_df.applymap(lambda x: x.lower() if isinstance(x, str) else x)

In [355]:
prov_prod_df.head()

Unnamed: 0,id_proveedor,razon_social,id_sector,desc_sector,id_seccion,desc_seccion,id_gran_flia,desc_gran_flia,id_flia,desc_flia,id_sub_flia,desc_sub_flia,id_articulo,id_producto,desc_producto,id_region,fecha
1,252,reckitt benckiser argentina s.a.,1,almacén,4,limpieza,3,baño y hogar,4,desodorantes de ambientes,1,desodorantes en aerosol,27003,273920,refill citrico oil escence air wick citricos ...,1,2019-07-12 11:04:07.967
1,252,reckitt benckiser argentina s.a.,1,almacén,4,limpieza,3,baño y hogar,4,desodorantes de ambientes,1,desodorantes en aerosol,27004,273921,freshmatic airwick lavanda repuesto 250.00 mlt,1,2019-07-12 11:04:07.967
1,252,reckitt benckiser argentina s.a.,1,almacén,4,limpieza,3,baño y hogar,4,desodorantes de ambientes,1,desodorantes en aerosol,27005,284012,air wick citrico full rep.gratis air wick air ...,1,2019-07-12 11:04:07.967
1,252,reckitt benckiser argentina s.a.,1,almacén,4,limpieza,3,baño y hogar,4,desodorantes de ambientes,1,desodorantes en aerosol,27012,359572,magnolia y cherry air wick repuesto 175.00 gr,1,2019-07-12 11:04:07.967
1,252,reckitt benckiser argentina s.a.,1,almacén,4,limpieza,3,baño y hogar,4,desodorantes de ambientes,1,desodorantes en aerosol,27007,415268,freshmatic bosque mµgico aparato air wick lush...,1,2019-07-12 11:04:07.967


In [357]:
prov_prod_df = convert_file(prov_prod_df, 'fecha', 'date')

### Dataset Locales-20190712

In [284]:
locales_df = pd.read_csv("./data/VMI_Locales-20190712.txt",
                         encoding="ISO-8859-1",
                         header=None,
                         delimiter='\t')

In [285]:
locales_col_names = [
    'id_cadena', 'desc_cadena', 'id_region', 'desc_region', 'idb',
    'desc_local', 'latitud', 'longitud', 'pd'
]
locales_df.columns = locales_col_names

In [286]:
locales_df['desc_local'] = locales_df['desc_local'].replace(to_replace=r'Rinc¢n', value='Rincón', regex=True)

In [287]:
locales_df.head()

Unnamed: 0,id_cadena,desc_cadena,id_region,desc_region,idb,desc_local,latitud,longitud,pd
0,1,Plaza Vea,1,Buenos Aires,9693,9693 - P Vea Villa Urquiza.,,,N
1,1,Plaza Vea,1,Buenos Aires,9694,9694 - P Vea JB Justo.,,,N
2,1,Plaza Vea,1,Buenos Aires,9695,695 - P Vea Acoyte.,0.0,0.0,N
3,1,Plaza Vea,1,Buenos Aires,9699,699 - P Vea Rivadavia.,0.0,0.0,N
4,1,Plaza Vea,1,Buenos Aires,9889,889 - Plaza Vea Carpa de liqui,,,N


In [288]:
locales_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_cadena    175 non-null    int64  
 1   desc_cadena  175 non-null    object 
 2   id_region    175 non-null    int64  
 3   desc_region  175 non-null    object 
 4   idb          175 non-null    int64  
 5   desc_local   175 non-null    object 
 6   latitud      140 non-null    float64
 7   longitud     140 non-null    float64
 8   pd           175 non-null    object 
dtypes: float64(2), int64(3), object(4)
memory usage: 12.4+ KB


In [289]:
locales_df.isnull().sum(axis=0)

id_cadena       0
desc_cadena     0
id_region       0
desc_region     0
idb             0
desc_local      0
latitud        35
longitud       35
pd              0
dtype: int64

In [290]:
locales_df.describe()

Unnamed: 0,id_cadena,id_region,idb,latitud,longitud
count,175.0,175.0,175.0,140.0,140.0
mean,4.502857,1.0,6909.617143,-31.533832,-52.839588
std,2.945627,0.0,3421.539461,10.718891,17.724343
min,1.0,1.0,242.0,-45.872649,-67.496036
25%,2.0,1.0,5213.5,-34.730633,-58.632039
50%,4.0,1.0,9019.0,-34.601654,-58.434434
75%,4.0,1.0,9158.5,-34.546212,-58.251974
max,11.0,1.0,9977.0,0.0,0.0


# Análisis Descriptivo

In [159]:
merged_df = pd.merge(prov_prod_df, locales_df, on='id_region')
merged_df.head()

Unnamed: 0,id_proveedor,razon_social,id_sector,desc_sector,id_seccion,desc_seccion,id_gran_flia,desc_gran_flia,id_flia,desc_flia,...,desc_articulo,id_region,id_cadena,desc_cadena,desc_region,idb,desc_local,latitud,longitud,pd
0,252,Reckitt Benckiser Argentina S.A.,1,Almacén,4,Limpieza,3,Baño y Hogar,4,Desodorantes de ambientes,...,refill citrico oil escence air wick citricos ...,1,1,Plaza Vea,Buenos Aires,9693,9693 - P Vea Villa Urquiza.,,,N
1,252,Reckitt Benckiser Argentina S.A.,1,Almacén,4,Limpieza,3,Baño y Hogar,4,Desodorantes de ambientes,...,refill citrico oil escence air wick citricos ...,1,1,Plaza Vea,Buenos Aires,9694,9694 - P Vea JB Justo.,,,N
2,252,Reckitt Benckiser Argentina S.A.,1,Almacén,4,Limpieza,3,Baño y Hogar,4,Desodorantes de ambientes,...,refill citrico oil escence air wick citricos ...,1,1,Plaza Vea,Buenos Aires,9695,695 - P Vea Acoyte.,0.0,0.0,N
3,252,Reckitt Benckiser Argentina S.A.,1,Almacén,4,Limpieza,3,Baño y Hogar,4,Desodorantes de ambientes,...,refill citrico oil escence air wick citricos ...,1,1,Plaza Vea,Buenos Aires,9699,699 - P Vea Rivadavia.,0.0,0.0,N
4,252,Reckitt Benckiser Argentina S.A.,1,Almacén,4,Limpieza,3,Baño y Hogar,4,Desodorantes de ambientes,...,refill citrico oil escence air wick citricos ...,1,1,Plaza Vea,Buenos Aires,9889,889 - Plaza Vea Carpa de liqui,,,N


In [160]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 14350 entries, 0 to 14349
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_proveedor    14350 non-null  int64  
 1   razon_social    14350 non-null  object 
 2   id_sector       14350 non-null  int64  
 3   desc_sector     14350 non-null  object 
 4   id_seccion      14350 non-null  int64  
 5   desc_seccion    14350 non-null  object 
 6   id_gran_flia    14350 non-null  int64  
 7   desc_gran_flia  14350 non-null  object 
 8   id_flia         14350 non-null  int64  
 9   desc_flia       14350 non-null  object 
 10  id_sub_flia     14350 non-null  int64  
 11  desc_sub_flia   14350 non-null  object 
 12  id_articulo     14350 non-null  int64  
 13  id_producto     14350 non-null  int64  
 14  desc_articulo   14350 non-null  object 
 15  id_region       14350 non-null  int64  
 16  id_cadena       14350 non-null  int64  
 17  desc_cadena     14350 non-null 

In [None]:
merged_df = pd.merge(merged_df, promo_df, on="idb")

In [147]:
merged_df.describe()

Unnamed: 0,id_proveedor,id_sector,id_seccion,id_gran_flia,id_flia,id_sub_flia,id_articulo,id_producto_x,id_region,id_cadena,idb,latitud,longitud,id_producto_y,fecha_desde,fecha_hasta,ventas_est_val,nro_prom,fecha,porc_dcto
count,23390750.0,23390746.0,23390746.0,23390746.0,23390746.0,23390746.0,23390750.0,23390750.0,23390746.0,23390750.0,23390750.0,20578560.0,20578560.0,23390750.0,23390750.0,23390750.0,23390750.0,23390750.0,23390750.0,23390750.0
mean,630.939,1.0,4.0,3.0,4.0,1.0,9979.622,389940.6,1.0,4.585547,7065.579,-34.58282,-57.9442,388393.4,20172790.0,20172810.0,24.6227,471275.0,20172720.0,8.394103
std,544.4794,0.0,0.0,0.0,0.0,0.0,13006.19,93248.1,0.0,2.661784,3169.249,4.395837,6.61996,83906.28,10799.48,10805.25,30.31461,37596.87,10800.04,2.893565
min,252.0,1.0,4.0,3.0,4.0,1.0,1088.0,164149.0,1.0,2.0,242.0,-45.87265,-67.49604,164146.0,20160720.0,20160730.0,0.0,425196.0,20160710.0,3.0
25%,314.0,1.0,4.0,3.0,4.0,1.0,4044.0,342679.0,1.0,2.0,5207.0,-34.76409,-58.57491,342682.0,20161020.0,20161030.0,6.0,436830.0,20161020.0,7.0
50%,314.0,1.0,4.0,3.0,4.0,1.0,6551.0,427444.5,1.0,4.0,9026.0,-34.61339,-58.43481,427445.0,20170420.0,20170420.0,12.52,456807.0,20170420.0,7.0
75%,1550.0,1.0,4.0,3.0,4.0,1.0,11022.0,466069.0,1.0,4.0,9159.0,-34.57286,-58.38981,458395.0,20180720.0,20180800.0,30.44,502702.0,20180720.0,8.0
max,1550.0,1.0,4.0,3.0,4.0,1.0,77023.0,511326.0,1.0,9.0,9977.0,0.0,0.0,507528.0,20190710.0,20190720.0,300.82,541066.0,20190710.0,18.0


In [158]:
print(merged_df.loc[:, ['id_producto_x', 'id_producto_y']])

          id_producto_x  id_producto_y
0                273920         164149
1                273920         164149
2                273920         164149
3                273920         164149
4                273920         164149
...                 ...            ...
23390741         507832         484434
23390742         507832         484434
23390743         507832         484434
23390744         507832         484434
23390745         507832         484434

[23390746 rows x 2 columns]
