# Procedimiento de automatizacion PARQUET

### Importamos las librerias

In [1]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


### Creamos el DataFrame

In [2]:
# Extraemos los datos del PARQUET: producto.parquet
data = pd.read_parquet('Datasets\producto.parquet', engine='pyarrow')
data.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,,,
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,,,
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,,,
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,,,
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,,,


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72038 entries, 0 to 72037
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            72038 non-null  object
 1   marca         72036 non-null  object
 2   nombre        72036 non-null  object
 3   presentacion  72036 non-null  object
 4   categoria1    4 non-null      object
 5   categoria2    4 non-null      object
 6   categoria3    4 non-null      object
dtypes: object(7)
memory usage: 3.8+ MB


In [4]:
data.shape

(72038, 7)

### Rellenamos valores en categorias faltantes

In [5]:
# Inputamos los valores faltantes con el string: 'Sin_Valor'
def sustituir(x):
    if x == None:
        return 'Sin_Valor'
    else:
        return x
    
data['categoria1'] = data['categoria1'].apply(sustituir)
data['categoria2'] = data['categoria2'].apply(sustituir)
data['categoria3'] = data['categoria3'].apply(sustituir)

### Quitamos valores nulos

In [6]:
# Porcentaje del número de valores nulos en las columnas :
total = data.shape[0]
list_porcent = list(map(lambda x: round(x * 100/ total,4), data.isnull().sum().tolist()))
total_por = sum(list_porcent)
print(f'Porcentaje total de valores nulos: {total_por}%')

Porcentaje total de valores nulos: 0.0084%


Como la cantidad de valores nulos es menor al 5%, se borrarán del dataset

In [7]:
# Eliminamos valores nulos
data.dropna(axis = 0, inplace=True)
data.shape

(72036, 7)

### Quitamos Duplicados

In [8]:
# Quitamos duplicados
data.drop_duplicates(inplace=True)
data.shape

(72036, 7)

In [9]:
data.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,Sin_Valor,Sin_Valor,Sin_Valor
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,Sin_Valor,Sin_Valor,Sin_Valor
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,Sin_Valor,Sin_Valor,Sin_Valor
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,Sin_Valor,Sin_Valor,Sin_Valor
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,Sin_Valor,Sin_Valor,Sin_Valor


### Cargamos los datos a la DB en MySQL

In [10]:
# Creamos la cadena para conectarnos nuestra base de datos: ETL_BD
cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
# Hacemos la conexion:
conexion = create_engine(cadena_conexion)
# Creamos la tabla en MySQL
data.to_sql(name = 'producto', con = conexion, if_exists = 'replace', index = False, index_label = 'id')
print('Tabla: "producto" creada en la base de datos "ETL_BD" de MySQL.')

Tabla: "producto" creada en la base de datos "ETL_BD" de MySQL.


# Funcion automatizada

In [11]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


In [12]:
def Ingesta_PARQUET(File):
    # Extraemos los datos del PARQUET
    print('Cargando el archivo ...\n')
    dprqt = pd.read_parquet(File, engine='pyarrow')
    # Rellenamos los valores faltantes de las categorias
    def sustituir(x):
        if x == None:
            return 'Sin_Valor'
        else:
            return x
    print('Limpiando el archivo ...\n')
    dprqt['categoria1'] = dprqt['categoria1'].apply(sustituir)
    dprqt['categoria2'] = dprqt['categoria2'].apply(sustituir)
    dprqt['categoria3'] = dprqt['categoria3'].apply(sustituir)
    # Porcentaje total de valores nulos en las columnas:
    total = dprqt.shape[0]
    list_porcent = list(map(lambda x: round(x * 100/ total,4), dprqt.isnull().sum().tolist()))
    total_por = sum(list_porcent)
    if total_por < 5:
        # Eliminamos valores nulos
        dprqt.dropna(axis = 0, inplace=True)
        # Quitamos duplicados
        dprqt.drop_duplicates(inplace=True)
    else:
        pass
    # Cargamos en la base de datos
    print('Cargando a la base de datos ...\n')
    cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
    conexion = create_engine(cadena_conexion)
    dprqt.to_sql(name = 'producto', con = conexion, if_exists = 'replace', index = False, index_label = 'id')
    print('DataFrame ingestado en la base de datos !!!\n')
    print(f'El DataFrame tiene {dprqt.shape[1]} columnas y {dprqt.shape[0]} filas.')
    return dprqt

In [13]:
# Corremos la función
File = 'Datasets\producto.parquet'
df = Ingesta_PARQUET(File)

Cargando el archivo ...

Limpiando el archivo ...

Cargando a la base de datos ...

DataFrame ingestado en la base de datos !!!

El DataFrame tiene 7 columnas y 72036 filas.


In [14]:
df.head()

Unnamed: 0,id,marca,nombre,presentacion,categoria1,categoria2,categoria3
0,1663,LA ANÓNIMA,Radicheta Atada La Anonima 1 Un,1.0 un,Sin_Valor,Sin_Valor,Sin_Valor
1,2288,LA ANÓNIMA,Perejil Atado La Anonima 1 Un,1.0 un,Sin_Valor,Sin_Valor,Sin_Valor
2,205870,SIN MARCA,Ojo de Bife 1 Kg,1.0 kg,Sin_Valor,Sin_Valor,Sin_Valor
3,205894,SIN MARCA,Milanesa de Peceto Novillito 1 Kg,1.0 kg,Sin_Valor,Sin_Valor,Sin_Valor
4,205955,SIN MARCA,Chiquizuela Novillito 1 Kg,1.0 kg,Sin_Valor,Sin_Valor,Sin_Valor
