# Procedimiento de automatizacion JSON

### Importamos las librerias

In [1]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


### Creamos el DataFrame

In [2]:
# Extraemos los datos del JSON: precios_semana_20200503.json
data = pd.read_json('Datasets\precios_semana_20200503.json')
data.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-187
1,39.9,2288,2-3-247
2,499.99,205870,9-1-685
3,539.99,205870,9-2-22
4,519.99,205870,9-2-59


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 397734 entries, 0 to 397733
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   precio       397734 non-null  object
 1   producto_id  397734 non-null  object
 2   sucursal_id  397734 non-null  object
dtypes: object(3)
memory usage: 9.1+ MB


In [4]:
data.shape

(397734, 3)

### Quitamos valores nulos

In [5]:
# Porcentaje del número de valores nulos en las columnas :
total = data.shape[0]
list_porcent = list(map(lambda x: round(x * 100/ total,4), data.isnull().sum().tolist()))
total_por = sum(list_porcent)
print(f'Porcentaje total de valores nulos: {total_por}%')

Porcentaje total de valores nulos: 0.0%


No hay valores nulos

### Reemplazamos los '' por 0

In [6]:
# Reemplazamos los '' por 0
data.replace({'': 0}, inplace = True)

### Reemplazamos object a float64

In [7]:
# Transformamos la columna "precio" de tipo object a float64
data["precio"] = data["precio"].astype(float)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 397734 entries, 0 to 397733
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   precio       397734 non-null  float64
 1   producto_id  397734 non-null  object 
 2   sucursal_id  397734 non-null  object 
dtypes: float64(1), object(2)
memory usage: 9.1+ MB


### Quitamos Duplicados

In [8]:
# Quitamos duplicados
data.drop_duplicates(inplace=True)
data.shape

(397734, 3)

### Cargamos los datos a la DB en MySQL

In [9]:
# Creamos la cadena para conectarnos nuestra base de datos: ETL_BD
cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
# Hacemos la conexion:
conexion = create_engine(cadena_conexion)
# Creamos la tabla en MySQL
data.to_sql(name = 'precios', con = conexion, if_exists = 'append')
print('Tabla: "precios" creada en la base de datos "ETL_BD" de MySQL.')

Tabla: "precios" creada en la base de datos "ETL_BD" de MySQL.


# Funcion automatizada

In [10]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine

print('Importado !')

Importado !


In [11]:
def Ingesta_JSON(File):
    # Extraemos los datos:
    print('Cargando el archivo ...\n')
    djson = pd.read_json(File)
    # Eliminamos valores nulos
    print('Limpiando el archivo ...\n')
    total = djson.shape[0]
    list_porcent = list(map(lambda x: round(x * 100/ total,4), djson.isnull().sum().tolist()))
    total_por = sum(list_porcent)
    if total_por < 5:
        # Eliminamos valores nulos
        djson.dropna(axis = 0, inplace=True)
    else:
        pass
    # Reemplazamos los '' por 0
    djson.replace({'': 0}, inplace = True)
    # Transformamos la columna "precio" de tipo object a float64
    djson["precio"] = djson["precio"].astype(float)
    # Quitamos duplicados
    djson.drop_duplicates(inplace=True)
    # Cargamos en la base de datos
    print('Cargando a la base de datos ...\n')
    cadena_conexion = 'mysql+pymysql://root:123456789@localhost:3306/ETL_BD'
    conexion = create_engine(cadena_conexion)
    djson.to_sql(name = 'precios', con = conexion, if_exists = 'append')
    print('DataFrame ingestado en la base de datos !!!\n')
    print(f'El DataFrame tiene {djson.shape[1]} columnas y {djson.shape[0]} filas.')
    return djson 

In [12]:
File = 'Datasets\precios_semana_20200503.json'
df = Ingesta_JSON(File)

Cargando el archivo ...

Limpiando el archivo ...

Cargando a la base de datos ...

DataFrame ingestado en la base de datos !!!

El DataFrame tiene 3 columnas y 397734 filas.


In [13]:
df.head()

Unnamed: 0,precio,producto_id,sucursal_id
0,29.9,2288,2-1-187
1,39.9,2288,2-3-247
2,499.99,205870,9-1-685
3,539.99,205870,9-2-22
4,519.99,205870,9-2-59
