# Limpieza de Datos Dataset ProvProdu-20190712

In [1]:
import pandas as pd
from utils_functions import convert_file, upload_to_bucket

# Importar Dataset

#### Importar el dataset y observar los primeros registros con head y verificar los tipos de datos con el método info.

In [2]:
prov_prod_col_names = [
    'id_proveedor', 'razon_social', 'id_sector', 'desc_sector', 'id_seccion',
    'desc_seccion', 'id_gran_flia', 'desc_gran_flia', 'id_flia', 'desc_flia',
    'id_sub_flia', 'desc_sub_flia', 'id_articulo', 'id_producto',
    'desc_producto', 'id_region', 'fecha'
]

In [3]:
prov_prod_df = pd.read_csv("../data/VMI_ProvProdu-20190712.txt",
                           encoding="UTF-8",
                           encoding_errors='replace',
                           header=None,
                           delimiter='\t',
                           names=prov_prod_col_names)

In [4]:
prov_prod_df.head()

Unnamed: 0,id_proveedor,razon_social,id_sector,desc_sector,id_seccion,desc_seccion,id_gran_flia,desc_gran_flia,id_flia,desc_flia,id_sub_flia,desc_sub_flia,id_articulo,id_producto,desc_producto,id_region,fecha
1,252,Reckitt Benckiser Argentina S.A.,1,Almac�n,4,Limpieza,3,Ba�o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27003,273920,REFILL CITRICO OIL ESCENCE AIR WICK CITRICOS ...,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almac�n,4,Limpieza,3,Ba�o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27004,273921,FRESHMATIC AIRWICK LAVANDA REPUESTO 250.00 MLT,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almac�n,4,Limpieza,3,Ba�o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27005,284012,AIR WICK CITRICO FULL REP.GRATIS AIR WICK AIR ...,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almac�n,4,Limpieza,3,Ba�o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27012,359572,MAGNOLIA Y CHERRY AIR WICK REPUESTO 175.00 GR,1,2019-07-12 11:04:07.967
1,252,Reckitt Benckiser Argentina S.A.,1,Almac�n,4,Limpieza,3,Ba�o y Hogar,4,Desodorantes de ambientes,1,Desodorantes en aerosol,27007,415268,FRESHMATIC BOSQUE M�GICO APARATO AIR WICK LUSH...,1,2019-07-12 11:04:07.967


In [5]:
prov_prod_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 82 entries, 1 to 1
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   id_proveedor    82 non-null     int64 
 1   razon_social    82 non-null     object
 2   id_sector       82 non-null     int64 
 3   desc_sector     82 non-null     object
 4   id_seccion      82 non-null     int64 
 5   desc_seccion    82 non-null     object
 6   id_gran_flia    82 non-null     int64 
 7   desc_gran_flia  82 non-null     object
 8   id_flia         82 non-null     int64 
 9   desc_flia       82 non-null     object
 10  id_sub_flia     82 non-null     int64 
 11  desc_sub_flia   82 non-null     object
 12  id_articulo     82 non-null     int64 
 13  id_producto     82 non-null     int64 
 14  desc_producto   82 non-null     object
 15  id_region       82 non-null     int64 
 16  fecha           82 non-null     object
dtypes: int64(9), object(8)
memory usage: 11.5+ KB


#### Ajustes al dataframe
- Arreglar errores de ortografia para las columnas desc_sector y desc_gran_flia.
- Convertir las columnas de tipo object a string y luego a lower case, esto nos va a facilitar realizar el análisis de variables categoricas.
- Verificar valores nulos y/o duplicados.
- Convertir la columna fecha a tipo datetime.
- Hacer un análisis descriptivo.

In [6]:
prov_prod_df['desc_gran_flia'] = prov_prod_df['desc_gran_flia'].replace(to_replace=r'Ba�o', value='Baño', regex=True)
prov_prod_df['desc_sector'] = prov_prod_df['desc_sector'].replace(to_replace=r'Almac�n', value='Almacén', regex=True)

In [7]:
columnas_categoricas = ['razon_social', 'desc_sector', 'desc_seccion', 'desc_gran_flia', 'desc_flia', 'desc_sub_flia', 'desc_producto']
prov_prod_df = convert_file(prov_prod_df, None,'str_m', col_names=columnas_categoricas,)

In [8]:
prov_prod_df = prov_prod_df.applymap(lambda x: x.lower() if isinstance(x, str) else x)

In [9]:
prov_prod_df = convert_file(prov_prod_df, 'fecha', 'date', date_format='%Y-%m-%d %H:%M:%S.%f')

In [10]:
prov_prod_df['year'] = prov_prod_df['fecha'].dt.year
prov_prod_df['month'] = prov_prod_df['fecha'].dt.month
prov_prod_df['weekday'] = prov_prod_df['fecha'].dt.weekday

print(prov_prod_df['year'].value_counts(dropna=False))

2019    82
Name: year, dtype: int64


In [11]:
prov_prod_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 82 entries, 1 to 1
Data columns (total 20 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_proveedor    82 non-null     int64         
 1   razon_social    82 non-null     object        
 2   id_sector       82 non-null     int64         
 3   desc_sector     82 non-null     object        
 4   id_seccion      82 non-null     int64         
 5   desc_seccion    82 non-null     object        
 6   id_gran_flia    82 non-null     int64         
 7   desc_gran_flia  82 non-null     object        
 8   id_flia         82 non-null     int64         
 9   desc_flia       82 non-null     object        
 10  id_sub_flia     82 non-null     int64         
 11  desc_sub_flia   82 non-null     object        
 12  id_articulo     82 non-null     int64         
 13  id_producto     82 non-null     int64         
 14  desc_producto   82 non-null     object        
 15  id_region

In [12]:
# Conteo de los niveles en las diferentes columnas categóricas
for col in columnas_categoricas:
    print(f'Columna {col}: {prov_prod_df[col].nunique()} subnivele(s)')

Columna razon_social: 4 subnivele(s)
Columna desc_sector: 1 subnivele(s)
Columna desc_seccion: 1 subnivele(s)
Columna desc_gran_flia: 1 subnivele(s)
Columna desc_flia: 1 subnivele(s)
Columna desc_sub_flia: 1 subnivele(s)
Columna desc_producto: 81 subnivele(s)


#### Observaciones dataset ProvProdu-20190712

1. El dataset de ProvProdu tiene 17 columnas y un total de 82 registros.
2. Las columnas se describen así:
    - id_proveedor: Identificador interno del Proveedor
    - razon_social: Razón Social del Proveedor
    - id_sector: Código de Sector del Artículo
    - desc_sector: Descripción del Sector
    - id_seccion: Código de Sección del Artículo
    - desc_seccion: Descripción de la Sección
    - id_gran_flia: Código de Gran Familia
    - desc_gran_flia: Descripción de la Gran Familia
    - id_flia: Código de Familia
    - desc_flia: Descripción de la Familia
    - id_sub_flia: Código de Sub Familia
    - desc_sub_flia: Descripción de Sub Familia
    - id_articulo: Código del articulo
    - id_producto: Identificador del Producto (CLAVE con VMI_Promociones-yyyymmdd.txt)
    - desc_producto: Descripción del Producto
    - id_region: Código de Región
    - fecha: Fecha

3. Se observan 9 columnas de tipo numericos y 7 columnas de tipo categorico.
4. Para las columnas categoricas podemos observar los siguientes subniveles:
    - razon_social: 4 subnivele(s)
    - desc_sector: 1 subnivele(s)
    - desc_seccion: 1 subnivele(s)
    - desc_gran_flia: 1 subnivele(s)
    - desc_flia: 1 subnivele(s)
    - desc_sub_flia: 1 subnivele(s)
    - desc_producto: 81 subnivele(s)
5. De los subniveles de la columna desc_producto, se observan que existen  81 descripciones únicas lo cual indicaría que existen 81 referencias de productos y existen una categoria única para la familia, subfamilia y gran familia.
6. La gran familia corresponde **Baño y Hogar**, la familia **desodorantes de ambientes** y la subfamilia es **Desodorantes en aerosol**
7. Se puede observar que existen 4 proveedores diferentes en el dataset.
8. El dataset contiene una primary key id_producto que podemos usar para hacer un join con el dataset VMI_Promociones.


#### Guardar el dataset limpio

In [13]:
prov_prod_df.to_csv('../clean_data/prov_prod_clean.csv', index=False)

#### Subir csv a google cloud storage

In [14]:
upload_to_bucket('deodorants', '../clean_data/prov_prod_clean.csv', 'prov_prod')

File ../clean_data/prov_prod_clean.csv uploaded successfully to bucket deodorants/prov_prod
