# Procedimiento de automatizacion CSV

### Importamos las librerias

In [1]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


### Creamos el DataFrame

In [2]:
# Extraemos los datos del CSV: precios_semana_20200413.csv
data = pd.read_csv('Datasets\precios_semana_20200413.csv', encoding = "utf-16")
data.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,1663,2-1-014
1,29.9,2288,2-1-032
2,39.9,2288,2-1-096
3,499.99,205870,9-1-686
4,519.99,205870,9-2-248


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 472166 entries, 0 to 472165
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       472153 non-null  float64
 1   producto_id  472151 non-null  object 
 2   sucursal_id  472151 non-null  object 
dtypes: float64(1), object(2)
memory usage: 10.8+ MB


In [4]:
data.shape

(472166, 3)

### Quitamos valores nulos

In [5]:
# Porcentaje del número de valores nulos en las columnas :
total = data.shape[0]
list_porcent = list(map(lambda x: round(x * 100/ total,4), data.isnull().sum().tolist()))
total_por = sum(list_porcent)
print(f'Porcentaje total de valores nulos: {total_por}%')

Porcentaje total de valores nulos: 0.0092%


Como la cantidad de valores nulos es menor al 5%, se borrarán del dataset

In [6]:
# Eliminamos valores nulos
data.dropna(axis = 0, inplace=True)
data.shape

(472151, 3)

### Quitamos Duplicados

In [7]:
# Quitamos duplicados
data.drop_duplicates(inplace=True)
data.shape

(472131, 3)

### Cargamos los datos a la DB en MySQL

In [8]:
# Creamos la cadena para conectarnos nuestra base de datos: ETL_BD
cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
# Hacemos la conexion:
conexion = create_engine(cadena_conexion)
# Creamos la tabla en MySQL
data.to_sql(name = 'precios', con = conexion, if_exists = 'append')
print('Tabla: "precios" creada en la base de datos "ETL_BD" de MySQL.')

Tabla: "precios" creada en la base de datos "ETL_BD" de MySQL.


# Funcion automatizada

In [9]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


In [10]:
def Ingesta_CSV(File, Encoding = 'utf-8'):
    # Extraemos los datos:
    print('Cargando el archivo ...\n')
    dcsv = pd.read_csv(File, encoding = Encoding)
    # Porcentaje total de valores nulos en las columnas:
    print('Limpiando el archivo ...\n')
    total = dcsv.shape[0]
    list_porcent = list(map(lambda x: round(x * 100/ total,4), dcsv.isnull().sum().tolist()))
    total_por = sum(list_porcent)
    if total_por < 5:
        # Eliminamos valores nulos
        dcsv.dropna(axis = 0, inplace=True)
        # Quitamos duplicados
        dcsv.drop_duplicates(inplace=True)
        # Pasar a sql
    else:
        pass
    # Cargamos en la base de datos
    print('Cargando a la base de datos ...\n')
    cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
    conexion = create_engine(cadena_conexion)
    dcsv.to_sql(name = 'precios', con = conexion, if_exists = 'append')
    print('DataFrame ingestado en la base de datos !!!\n')
    print(f'El DataFrame tiene {dcsv.shape[1]} columnas y {dcsv.shape[0]} filas.')
    return dcsv

In [11]:
File = 'Datasets\precios_semana_20200413.csv'
df = Ingesta_CSV(File, Encoding = 'utf-16')

Cargando el archivo ...

Limpiando el archivo ...

Cargando a la base de datos ...

DataFrame ingestado en la base de datos !!!

El DataFrame tiene 3 columnas y 472131 filas.


In [12]:
df.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,1663,2-1-014
1,29.9,2288,2-1-032
2,39.9,2288,2-1-096
3,499.99,205870,9-1-686
4,519.99,205870,9-2-248
