## Transformación Producto

A continuación se realizará la transformación de la tabla contenida en el archivo producto.parquet

In [3]:
# Importando
import pandas as pd
import pyarrow.parquet as pq
import unidecode
import numpy as np

In [4]:
# Importamos los datos
df_producto = pq.read_pandas('producto.parquet').to_pandas()
df_producto.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,


In [5]:
# Formateamos las columnas marca y nombre.
df_producto.marca = df_producto.marca.str.strip().str.capitalize()
df_producto.nombre = df_producto.nombre.str.split('(\d+)', expand=True)[0]
df_producto.nombre = df_producto.nombre.str.strip().str.capitalize()
df_producto.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,La anónima,Radicheta atada la anonima,1.0 un,,,
1,2288,La anónima,Perejil atado la anonima,1.0 un,,,
2,205870,Sin marca,Ojo de bife,1.0 kg,,,
3,205894,Sin marca,Milanesa de peceto novillito,1.0 kg,,,
4,205955,Sin marca,Chiquizuela novillito,1.0 kg,,,


In [6]:
# Vamos a descartar las columnas categoria 1, categoria 2 y categoria 3 cuyos valores sean todos nulos. 
# Construiremos una tabla para almacenar los pocos valores que no son nulos para que quede un
# registro de ellos.
producto_auxiliar = df_producto.loc[df_producto.categoria1.notnull()].copy()
# Cambiaremos el id para que no se confunda con los nuevos que seran generados.
producto_auxiliar.rename({'id': 'IdAntiguo'}, axis=1, inplace=True)
producto_auxiliar.head()


Unnamed: 0,IdAntiguo,marca,nombre,presentacion,categoria1,categoria2,categoria3
14903,7501001165260,Pantene,Acondicionador liso y sedoso pantene,400.0 ml,Perfumería y Cuidado Personal,Cuidado Capilar,Acondicionadores
53619,7798024299045,,,,Almacén,Aceites,Aerosol
55798,7798061190213,,,,Almacén,Aceites,Oliva
65297,7798183771123,Grido,Helado en pote tentacion,1.0 lt,Alimentos Congelados,Helados,Helados


In [7]:
# Descartamos filas y columnas que no proveen información.
df_producto.drop(['categoria1', 'categoria2', 'categoria3'], axis=1, inplace=True)
df_producto.drop(df_producto.loc[(df_producto.nombre.isnull()) | (df_producto.marca.isnull())].index, axis='index', inplace=True)
df_producto.head()

Unnamed: 0,id,marca,nombre,presentacion
0,1663,La anónima,Radicheta atada la anonima,1.0 un
1,2288,La anónima,Perejil atado la anonima,1.0 un
2,205870,Sin marca,Ojo de bife,1.0 kg
3,205894,Sin marca,Milanesa de peceto novillito,1.0 kg
4,205955,Sin marca,Chiquizuela novillito,1.0 kg


In [8]:
df_producto.to_csv('tabla_producto.csv', index=False)