# Procedimiento de automatizacion EXCEL

### Importamos las librerias

In [1]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


### Creamos el DataFrame

In [2]:
# Define filepath
FilePath = 'Datasets\precios_semanas_20200419_20200426.xlsx'

# Load Excel file using Pandas
excel = pd.ExcelFile(FilePath)

# Define an empty list to store individual DataFrames
list_of_dfs = []

# Iterate through each worksheet
for sheet in excel.sheet_names:
    
    # Parse data from each worksheet as a Pandas DataFrame
    df = excel.parse(sheet)

    # And append it to the list
    list_of_dfs.append(df)
    
# Combine all DataFrames into one
data = pd.concat(list_of_dfs, ignore_index=True)

# Preview first 10 rows
data.head(10)

Unnamed: 0,precio,sucursal_id,producto_id
0,399.0,2-1-092,2288.0
1,299.0,2-1-206,2288.0
2,399.0,2-2-241,2288.0
3,49999.0,9-1-430,205870.0
4,53999.0,9-2-4,205870.0
5,53999.0,9-3-5218,205870.0
6,58999.0,9-1-430,205894.0
7,18999.0,9-1-430,205955.0
8,10499.0,9-1-430,205979.0
9,2290.0,9-1-430,206020.0


In [3]:
data.shape

(937452, 3)

### Quitamos valores nulos

In [4]:
# Porcentaje del número de valores nulos en las columnas :
total = data.shape[0]
list_porcent = list(map(lambda x: round(x * 100/ total,4), data.isnull().sum().tolist()))
total_por = sum(list_porcent)
print(f'Porcentaje total de valores nulos: {total_por}%')

Porcentaje total de valores nulos: 1.8199999999999998%


In [5]:
# Eliminamos valores nulos
data.dropna(axis = 0, inplace=True)
data.shape

(920489, 3)

### Limpiar columna: "producto_id"

In [6]:
# Transformamos a string
data['producto_id_str'] = data['producto_id'].astype(str)
# Extraemos el valor limpio
data['producto_id_val'] = data['producto_id_str'].str.slice(-15, -2)
# Transformamos a ID
def TransformProductoId(x):
    string = str(x)
    ceros = (13-len(string)) * '0'
    return ceros + string
data["producto_id"] = data['producto_id_val'].apply(TransformProductoId)
# Eliminamos las columnas auxiliares
data.drop(['producto_id_str', 'producto_id_val'], axis=1, inplace = True)
data.head()

Unnamed: 0,precio,sucursal_id,producto_id
0,399.0,2-1-092,2288
1,299.0,2-1-206,2288
2,399.0,2-2-241,2288
3,49999.0,9-1-430,205870
4,53999.0,9-2-4,205870


### Limpiar columna: "sucursal_id"

In [7]:
# Transformamos a string
data['sucursal_id_str'] = data['sucursal_id'].astype(str)
# Creamos la primera partición: None,00:00:00
x = data['sucursal_id_str'].str.split(' ',expand=True)
# Concatenamos
data = pd.concat([data, x], axis = 1)
data.rename(columns={0 : 'Tosplit', 1 : 'Comp'}, inplace=True)
# Creamos la segunda partición: 5218,03,09
y = data['Tosplit'].str.split('-',expand=True)
# Concatenamos
data = pd.concat([data, y], axis = 1)
data.rename(columns={0 : 'Ultimo', 1 : 'Medio', 2 : 'Primero'}, inplace=True)
# Quitamos los ceros: 03 -> 3
data['Ultimo'] = data['Ultimo'].astype(int).astype(str)
data['Medio'] = data['Medio'].astype(int).astype(str)
data['Primero'] = data['Primero'].astype(int).astype(str)
# Acomodamos los valores extraidos: 5218 3 9 -> 9-3-5218
data['sucursal_id'] = data[["Primero","Medio","Ultimo","Comp"]].apply(
    lambda x: x.Primero+'-'+x.Medio+'-'+x.Ultimo 
    if (x.Comp != None) 
    else x.Ultimo+'-'+x.Medio+'-'+x.Primero,
    axis = 1)
# Eliminamos las columnas auxiliares
data.drop(['sucursal_id_str', 'Tosplit', 'Comp', 'Ultimo', 'Medio', 'Primero'], axis=1, inplace = True)
data

Unnamed: 0,precio,sucursal_id,producto_id
0,399.00,2-1-92,0000000002288
1,299.00,2-1-206,0000000002288
2,399.00,2-2-241,0000000002288
3,49999.00,9-1-430,0000000205870
4,53999.00,9-2-4,0000000205870
...,...,...,...
937447,139.99,25-1-2001,9569753142128
937448,34.99,25-1-2001,9795403001143
937449,312.50,5-1-2003,9990385651922
937450,312.50,5-1-2003,9990385651939


### Acomodamos las columnas

In [8]:
# Acomodamos la columna nueva
precio = data[["precio"]]
producto = data[["producto_id"]]
sucursal = data[["sucursal_id"]]
data = pd.concat([precio, producto, sucursal], axis = 1)

data.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,399.0,2288,2-1-92
1,299.0,2288,2-1-206
2,399.0,2288,2-2-241
3,49999.0,205870,9-1-430
4,53999.0,205870,9-2-4


### Quitamos Duplicados

In [9]:
# Quitamos duplicados
data.drop_duplicates(inplace=True)
data.shape

(919867, 3)

### Cargamos los datos a la DB en MySQL

In [10]:
# Creamos la cadena para conectarnos nuestra base de datos: ETL_BD
cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
# Hacemos la conexion:
conexion = create_engine(cadena_conexion)
# Creamos la tabla en MySQL
data.to_sql(name = 'precios', con = conexion, if_exists = 'append')
print('Tabla: "precios" creada en la base de datos "ETL_BD" de MySQL.')

Tabla: "precios" creada en la base de datos "ETL_BD" de MySQL.


# Funcion automatizada

In [11]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


In [12]:

def Ingesta_EXCEL(FilePath):
    # Extraemos los datos:
    print('Cargando el archivo ...\n')
    excel = pd.ExcelFile(FilePath)
    list_of_dfs = []
    for sheet in excel.sheet_names:
        print(f'    Cargando Hoja: {sheet} ...')
        df = excel.parse(sheet)
        list_of_dfs.append(df)
    dexcel = pd.concat(list_of_dfs, ignore_index=True)
    print('\n')
    # Porcentaje total de valores nulos en las columnas:
    print('Limpiando el archivo ...\n')
    total = dexcel.shape[0]
    list_porcent = list(map(lambda x: round(x * 100/ total,4), dexcel.isnull().sum().tolist()))
    total_por = sum(list_porcent)
    if total_por < 5:
        # Eliminamos valores nulos
        dexcel.dropna(axis = 0, inplace=True)
    else:
        pass
    # Limpiar columna: "producto_id"
    dexcel['producto_id_str'] = dexcel['producto_id'].astype(str) # Transformamos a string
    dexcel['producto_id_val'] = dexcel['producto_id_str'].str.slice(-15, -2) # Extraemos el valor limpio
    def TransformProductoId(x): # Funcion: Transformamos a ID
        string = str(x)
        ceros = (13-len(string)) * '0'
        return ceros + string
    dexcel["producto_id"] = dexcel['producto_id_val'].apply(TransformProductoId)
    dexcel.drop(['producto_id_str', 'producto_id_val'], axis=1, inplace = True) # Eliminamos las columnas auxiliares
    # Limpiar columna: "sucursal_id"
    dexcel['sucursal_id_str'] = dexcel['sucursal_id'].astype(str) # Transformamos a string
    x = dexcel['sucursal_id_str'].str.split(' ',expand=True) # Creamos la primera partición: None,00:00:00
    dexcel = pd.concat([dexcel, x], axis = 1) # Concatenamos
    dexcel.rename(columns={0 : 'Tosplit', 1 : 'Comp'}, inplace=True) # Renombramos columnas 0,1
    y = dexcel['Tosplit'].str.split('-',expand=True) # Creamos la segunda partición: 5218,03,09
    dexcel = pd.concat([dexcel, y], axis = 1) # Concatenamos
    dexcel.rename(columns={0 : 'Ultimo', 1 : 'Medio', 2 : 'Primero'}, inplace=True) # Renombramos columnas 0,1
    dexcel['Ultimo'] = dexcel['Ultimo'].astype(int).astype(str) # Quitamos los ceros: 03 -> 3
    dexcel['Medio'] = dexcel['Medio'].astype(int).astype(str) # Quitamos los ceros: 03 -> 3
    dexcel['Primero'] = dexcel['Primero'].astype(int).astype(str) # Quitamos los ceros: 03 -> 3
    # Acomodamos los valores extraidos: 5218 3 9 -> 9-3-5218
    dexcel['sucursal_id'] = dexcel[["Primero","Medio","Ultimo","Comp"]].apply(
        lambda x: x.Primero+'-'+x.Medio+'-'+x.Ultimo 
        if (x.Comp != None) 
        else x.Ultimo+'-'+x.Medio+'-'+x.Primero,
        axis = 1)
    # Eliminamos las columnas auxiliares
    dexcel.drop(['sucursal_id_str', 'Tosplit', 'Comp', 'Ultimo', 'Medio', 'Primero'], axis=1, inplace = True)
    # Acomodamos las columnas nuevas
    precio = dexcel[["precio"]]
    producto = dexcel[["producto_id"]]
    sucursal = dexcel[["sucursal_id"]]
    dexcel = pd.concat([precio, producto, sucursal], axis = 1)
    # Quitamos duplicados
    dexcel.drop_duplicates(inplace=True)
    # Cargamos en la base de datos
    print('Cargando a la base de datos ...\n')
    cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
    conexion = create_engine(cadena_conexion)
    dexcel.to_sql(name = 'precios', con = conexion, if_exists = 'append')
    print('DataFrame ingestado en la base de datos !!!\n')
    print(f'El DataFrame tiene {dexcel.shape[1]} columnas y {dexcel.shape[0]} filas.')
    return dexcel

In [13]:
FilePath = 'Datasets\precios_semanas_20200419_20200426.xlsx'
df = Ingesta_EXCEL(FilePath)

Cargando el archivo ...

    Cargando Hoja: precios_20200426_20200426 ...
    Cargando Hoja: precios_20200419_20200419 ...


Limpiando el archivo ...

Cargando a la base de datos ...

DataFrame ingestado en la base de datos !!!

El DataFrame tiene 3 columnas y 919867 filas.


In [14]:
df.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,399.0,2288,2-1-92
1,299.0,2288,2-1-206
2,399.0,2288,2-2-241
3,49999.0,205870,9-1-430
4,53999.0,205870,9-2-4
