# Limpieza de Datos

# Limpieza de Datos

In [None]:
import pandas as pd
from utils import convert_file, remove_non_ascii

# Importar Datasets

### Dataset Movimientos-20190716

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [None]:
movimientos_col_names = [
    'idb', 'id_producto', 'fecha_trans', 'stock_unidades', 'venta_unidades', 'precio_unitario',
    'cd_abast', 'is_prod_rol_local'
]

In [None]:
path = './data/VMI_Movimientos-20190716.txt'
movimientos_df = pd.read_csv(path,
                 delimiter = '\t',
                 header=None,
                 names=movimientos_col_names)

In [None]:
movimientos_df.head()

In [None]:
movimientos_df.info()

#### Ajustes al dataframe
- Convertir la columna fecha_trans a tipo de dato datetime.
- Convertir la columna is_prod_rol_local a tipo de dato string.
- Verificar por valores nulos y repetidos.
- Convertir la columna is_prod_rol_local a variable numerica donde 1 corresponde a SI y 0 corresponde a NO.
- Obtener las fechas máximas y minimas de transaciones
- Obtener una análisis descriptivo de los datos.

In [None]:
movimientos_df = convert_file(movimientos_df, col_name='fecha_trans', data_type='date')

In [None]:
movimientos_df.isnull().sum(axis=0)

In [None]:
movimientos_df.duplicated().sum()

In [None]:
movimientos_df = convert_file(movimientos_df, 'is_prod_rol_local', 'str')

In [None]:
movimientos_df['is_prod_rol_local'] = movimientos_df['is_prod_rol_local'].str.lower().apply(lambda x: 1 if x == 'si' else 0)

In [None]:
max_date = movimientos_df['fecha_trans'].max()
min_date = movimientos_df['fecha_trans'].min()

print(f"Minimum date: {min_date}")
print(f"Maximum date: {max_date}")

In [None]:
movimientos_df.info()

In [None]:
movimientos_df.describe()

In [None]:
# Verificar cuantos valores negativos tenemos en la columna venta_unidades
ventas_unidades_negativas = movimientos_df[movimientos_df['venta_unidades'] < 0]
ventas_unidades_negativas

In [None]:
# Verificar cuantos valores negativos tenemos en la columna stock unidades
stock_unidades_negativas = movimientos_df[movimientos_df['stock_unidades'] < 0]
print(stock_unidades_negativas)
stock_unidades_negativas.stock_unidades.sum()

#### Observaciones dataset Movimientos-20190716

1. El dataset contiene la información referente a los movimientos de productos comprendidos entre Julio 15 de 2016 hasta el día 14 de Julio de 2019.
2. El dataset contiene 8347817 registros y 8 columnas identificadas así:
    - idb: Identificador interno de Boca
    - id_producto: Identificador interno de Artículo
    - fecha: Fecha de la Transacción,  1 dia menos que la fecha actual
    - stock_unidades: Stock en unidades del Artículo en la Boca
    - venta_unidades: Venta en unidades
    - precio_unitario: Precio de venta unitario
    - cd_abast: Que CD de la region del local abastece este producto al local para productos almacenados.
    - is_prod_rol_local: SI= sigue en Rol, NO= no esta en Rol el producto en el local.
3. No se observan valores NAN ó valores repetidos.
4. El valor medio de inventario en unidades es de 20.65585 unidades.
5. El valor medio de ventas en unidades es de 0.3133696 unidades.
6. La media del precio unitario es de 64.26050 pesos.
7. Se observan 580 registros que contienen valores de ventas en unidades con valores negativos.
8. Se observan 45483 registros que contienen valores de stock en unidades negativos, como se observa en la columna stock_unidades.

### Dataset Promociones-20190715

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [None]:
promo_col_names = [
        'idb', 'id_producto', 'fecha_desde', 'fecha_hasta', 'ventas_estimadas_und',
        'nro_prom', 'fecha_trans', 'porcentaje_dcto'
]

In [None]:
promo_df = pd.read_csv("./data/VMI_Promociones-20190715.txt",
                       encoding="utf-8",
                       header=None,
                       delimiter='\t',
                       names=promo_col_names)

In [None]:
promo_df.head()

In [None]:
promo_df.info()

#### Ajustes al dataframe
- Convertir la columnas fecha_desde, fecha_hasta y fecha_trans a tipo de dato datetime.
- Verificar si existen valores nulos y/o repetidos.
- Obtener las fechas máximas y minimas de transaciones.
- Crear una nueva columnas llamada duracion_promo para obtener el delta de tiempo entre la fecha_desde y la fecha_hasta de una promoción.
- Obtener una análisis descriptivo de los datos.

In [None]:
promo_df = convert_file(promo_df, 'fecha_desde',  'date')

In [None]:
promo_df = convert_file(promo_df, 'fecha_hasta',  'date')

In [None]:
promo_df = convert_file(promo_df, 'fecha_trans', 'date')

In [None]:
promo_df.isnull().sum(axis=0)

In [None]:
promo_df.duplicated().sum()

In [None]:
min_date = promo_df['fecha_desde'].min()
max_date = promo_df['fecha_hasta'].max()


print(f"Minimum date: {min_date}")
print(f"Maximum date: {max_date}")

In [None]:
min_date = promo_df['fecha_trans'].min()
max_date = promo_df['fecha_trans'].max()

print(f"Minimum date: {min_date}")
print(f"Maximum date: {max_date}")

In [None]:
# Crear una nueva columna llamada duracion de la promoción.
promo_df['duracion_promo'] = promo_df['fecha_hasta'] - promo_df['fecha_desde']

In [None]:
promo_df.describe()

In [None]:
promo_df.info()

#### Observaciones dataset Promociones-20190715

1. El dataset contiene la información referente a las promociones realizadas desde 2016-07-19 hasta el 2019-07-16.
2. El dataset contiene 285253 registros y 9 columnas descritas así:
    - idb:	Identificador interno de Boca
    - id_producto:	Identificador interno de Artículo
    - fecha-desde: 	Fecha desde de la vigencia de la Promoción
    - fecha_hasta:	Fecha hasta de la vigencia de la Promoción
    - ventas_estimadas_und: Estimado de ventas en la promoción en Unidades
    - nro_prom: Número de la Promoción
    - fecha_trans: Fecha de la Información
    - porcentaje_dcto: Porcentaje de Descuento
    - duracion_promo: La diferencia entre fecha_desde y fecha_hasta.
3. No se observan valores NAN ó duplicados.
4. La media de ventas estimadas es de 24.62 unidades.
5. El máximo porcentaje de descuento es de 18% y el mínimo es de 3%.
6. La duración máxima de una promoción es de 18 días.
7. La duración media de una promoción es de 8 días.

### Dataset ProvProdu-20190712

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [None]:
prov_prod_col_names = [
    'id_proveedor', 'razon_social', 'id_sector', 'desc_sector', 'id_seccion',
    'desc_seccion', 'id_gran_flia', 'desc_gran_flia', 'id_flia', 'desc_flia',
    'id_sub_flia', 'desc_sub_flia', 'id_articulo', 'id_producto',
    'desc_producto', 'id_region', 'fecha'
]

In [None]:
prov_prod_df = pd.read_csv("./data/VMI_ProvProdu-20190712.txt",
                           encoding="ISO-8859-1",
                           header=None,
                           delimiter='\t',
                           names=prov_prod_col_names)

In [None]:
prov_prod_df.head()

In [None]:
prov_prod_df.info()

#### Ajustes al dataframe
- Arreglar errores de ortografia para las columnas desc_sector y desc_gran_flia.
- Convertir las columnas de tipo object a string y luego a lower case, esto nos va a facilitar realizar el análisis de variables categoricas.
- Verificar valores nulos y/o duplicados.
- Convertir la columna fecha a tipo datetime.
- Hacer un análisis descriptivo.

In [None]:
prov_prod_df['desc_gran_flia'] = prov_prod_df['desc_gran_flia'].replace(to_replace=r'Ba¤o', value='Baño', regex=True)
prov_prod_df['desc_sector'] = prov_prod_df['desc_sector'].replace(to_replace=r'Almacn', value='Almacén', regex=True)

In [None]:
columnas_categoricas = ['razon_social', 'desc_sector', 'desc_seccion', 'desc_gran_flia', 'desc_flia', 'desc_sub_flia', 'desc_producto']
prov_prod_df = convert_file(prov_prod_df, None,'str_m', columnas_categoricas,)

In [None]:
prov_prod_df = prov_prod_df.applymap(lambda x: x.lower() if isinstance(x, str) else x)

In [None]:
prov_prod_df = convert_file(prov_prod_df, 'fecha', 'date')

In [None]:
prov_prod_df.info()

In [None]:
# Conteo de los niveles en las diferentes columnas categóricas
for col in columnas_categoricas:
    print(f'Columna {col}: {prov_prod_df[col].nunique()} subnivele(s)')

#### Observaciones dataset ProvProdu-20190712

1. El dataset de ProvProdu tiene 17 columnas y un total de 82 registros.
2. Las columnas se describen así:
    - id_proveedor: Identificador interno del Proveedor
    - razon_social: Razón Social del Proveedor
    - id_sector: Código de Sector del Artículo
    - desc_sector: Descripción del Sector
    - id_seccion: Código de Sección del Artículo
    - desc_seccion: Descripción de la Sección
    - id_gran_flia: Código de Gran Familia
    - desc_gran_flia: Descripción de la Gran Familia
    - id_flia: Código de Familia
    - desc_flia: Descripción de la Familia
    - id_sub_flia: Código de Sub Familia
    - desc_sub_flia: Descripción de Sub Familia
    - id_articulo: Código del articulo
    - id_producto: Identificador del Producto (CLAVE con VMI_Promociones-yyyymmdd.txt)
    - desc_producto: Descripción del Producto
    - id_region: Código de Región
    - fecha: Fecha

3. Se observan 9 columnas de tipo numericos y 7 columnas de tipo categorico.
4. Para las columnas categoricas podemos observar los siguientes subniveles:
    - razon_social: 4 subnivele(s)
    - desc_sector: 1 subnivele(s)
    - desc_seccion: 1 subnivele(s)
    - desc_gran_flia: 1 subnivele(s)
    - desc_flia: 1 subnivele(s)
    - desc_sub_flia: 1 subnivele(s)
    - desc_producto: 81 subnivele(s)
5. El dataset contiene una primary key id_producto que podemos usar para hacer un join con el dataset VMI_Promociones.


### Dataset Locales-20190712

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [136]:
locales_col_names = [
    'id_cadena', 'desc_cadena', 'id_region', 'desc_region', 'idb',
    'desc_local', 'latitud', 'longitud', 'punto_dist'
]

In [137]:
locales_df = pd.read_csv("./data/Locales.txt",
                         encoding="UTF-8",
                         header=None,
                         delimiter='\t',
                         names=locales_col_names)

In [143]:
locales_df.head(40)


Unnamed: 0,id_cadena,desc_cadena,id_region,desc_region,idb,desc_local,latitud,longitud,punto_dist
0,1,plaza vea,1,buenos aires,9693,p vea villa urquiza.,,,n
1,1,plaza vea,1,buenos aires,9694,p vea jb justo.,,,n
2,1,plaza vea,1,buenos aires,9695,p vea acoyte.,0.0,0.0,n
3,1,plaza vea,1,buenos aires,9699,p vea rivadavia.,0.0,0.0,n
4,1,plaza vea,1,buenos aires,9889,plaza vea carpa de liqui,,,n
5,2,disco,1,buenos aires,247,sm 916 gorostiaga,-34.565259,-58.436583,n
6,2,disco,1,buenos aires,257,tortuguitas,-34.446043,-58.745098,n
7,2,disco,1,buenos aires,285,venado tuerto,,,n
8,2,disco,1,buenos aires,740,canning,-34.853221,-58.502247,n
9,2,disco,1,buenos aires,961,av. santa fç,,,n


In [None]:
locales_df['desc_local'] = locales_df['desc_local'].apply(remove_non_ascii)

In [139]:
locales_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_cadena    175 non-null    int64  
 1   desc_cadena  175 non-null    object 
 2   id_region    175 non-null    int64  
 3   desc_region  175 non-null    object 
 4   idb          175 non-null    int64  
 5   desc_local   175 non-null    object 
 6   latitud      140 non-null    float64
 7   longitud     140 non-null    float64
 8   punto_dist   175 non-null    object 
dtypes: float64(2), int64(3), object(4)
memory usage: 12.4+ KB


#### Ajustes al dataframe

- Limpiar la descripcion de la región, eliminando el numero y el simbolo (-) y convertir el nombre a minuscula.
- Convertir a 1 y 0 la columna punto de distribucción con la siguiente regla si el valor es 'S' = 1 que significa que es un punto de distribucción de lo contrario sería 0.
- Convertir a minusculas todos los tipos de datos object o string.

In [140]:
locales_df = locales_df.applymap(lambda x: x.lower() if isinstance(x, str) else x)

In [142]:
locales_df['desc_local'] = locales_df['desc_local'].replace(to_replace=r'^\d+\s*-\s*', value='', regex=True)

In [None]:
locales_df['desc_local'] = locales_df['desc_local'].replace(to_replace=r'Ba¤o', value='Baño', regex=True)

In [None]:
locales_df['desc_local'] = locales_df['desc_local'].replace(to_replace=r'Rinc¢n', value='Rincón', regex=True)

In [None]:
locales_df['desc_local'] = locales_df['desc_local'].replace(to_replace=r'F', value='Fé', regex=True)

In [None]:
locales_df['desc_local'] = locales_df['desc_local'].replace(to_replace=r'Mor¢n', value='Morén', regex=True)

In [None]:
print(locales_df.isna().sum())

In [None]:
locales_df.isnull().sum(axis=0)

In [None]:
locales_df.head(175)  Pte. Per¢n. Rodr¡guez Pe¤a.

In [None]:
locales_df.describe()

# Análisis Descriptivo

In [None]:
merged_df = pd.merge(prov_prod_df, locales_df, on='id_region')
merged_df.head()

In [None]:
merged_df.info()

In [None]:
merged_df = pd.merge(merged_df, promo_df, on="idb")

In [None]:
merged_df.describe()

In [None]:
print(merged_df.loc[:, ['id_producto_x', 'id_producto_y']])