# Construcción del dataframe base

##### A partir los archivos JSON guardados en la base de datos, crear un dataframe modelo como base para el análisis de datos, creación de graficas y herramientas.

In [34]:
# Importamos las librerias necesarias

import pandas as pd
import certifi
import pymongo as py
import os
from dotenv import load_dotenv # Get env variables
load_dotenv()

mongo_uri = os.getenv('MONGO_URI')

In [35]:
# Creamos una variable con la conexion a la base de datos. 

from pymongo import MongoClient
cartonadoradores = MongoClient(mongo_uri)

# Seleccionamos la BD previamente creada en mongo shell y con las validaciones ya configuradas.

df = cartonadoradores['cartonadoradores']

In [36]:
# Importamos todas las coleeciones de las que obtenemos información.

usuarios = df['Usuarios']
productos = df['Productos']
ordenes = df['ordenesCompra']

In [37]:
# Todas las colecciones son recibidas como archivos JSON

for x in usuarios.find():
    print (x)

{'_id': ObjectId('5fba998a345a4bb6ed3446c8'), 'apellidoContacto': 'Gonzalez Martinez', 'nombreContacto': 'Enrique', 'email': 'onoYoko@dominio.com', 'calle': 'Dr. Enrique Gonzalez Martinez No. 6 Local ', 'numero': 'No.6 Local 1', 'alcaldia_municipio': 'Cuahutemoc', 'ciudad': 'CDMX', 'cp': 6400, 'rfc': 'LOQ640401GH0', 'nivelAcceso': 'USER', 'razonSocial': 'LOQUAY. S.A.', 'password': 'e10adc3949ba59abbe56e057f20f883e'}
{'_id': ObjectId('5fbb2a25169e8c0534716100'), 'apellidoContacto': 'Rodriguez  ', 'nombreContacto': 'Rosario', 'email': 'facturaciones@covadonga.com.mx', 'calle': 'Aldana', 'numero': 'No. 43', 'alcaldia_municipio': 'Texcoco', 'ciudad': 'Estado de México', 'cp': 56170, 'rfc': 'CCO810311660', 'nivelAcceso': 'USER', 'razonSocial': 'CREMERIA COVADONGA S.A. DE C.V.', 'password': 'e10adc3949ba59abbe56e057f20f883e'}
{'_id': ObjectId('5fbb463ad94852d0d6906924'), 'apellidoContacto': 'Parangueo', 'nombreContacto': 'Norma', 'email': 'invernaderos@izi.com.mx', 'calle': 'Jaime Torres Bod

In [19]:
    # En una variable asignamos el codigo pipeline que indica las agregaciones necesarias para crear nuestro dataset
    # a través de una vista

pipeline = [
    {
        '$unwind': {
            'path': '$Productos'
        }
    }, {
        '$lookup': {
            'from': 'Productos', 
            'localField': 'Productos.idProducto', 
            'foreignField': '_id', 
            'as': 'Especificaciones'
        }
    }, {
        '$unwind': {
            'path': '$Especificaciones'
        }
    }, {
        '$lookup': {
            'from': 'Usuarios', 
            'localField': 'idUsuario', 
            'foreignField': '_id', 
            'as': 'Usuario'
        }
    }, {
        '$unwind': {
            'path': '$Usuario'
        }
    }, {
        '$addFields': {
            'priceKey': {
                '$concat': [
                    {
                        '$toString': '$Especificaciones.calibreECT'
                    }, '$Especificaciones.tipo', '$Especificaciones.caraExterior'
                ]
            }
        }
    }]

Por medio del metodo _.aggregate()_, ejecutamos las agregaciones con la variable el pipeline como parametro.

Usamos el metodo _json_normalize()_ para convertir la lista en un dataframe con un registro por cada producto vendido en cada orden.

In [28]:
dfJSON = list(df.ordenesCompra.aggregate(pipeline))
operaciones = pd.json_normalize(dfJSON)

Usamos el metodo _.groupby()_ para mostrar los clientes existentes y usar la información en los filtros siguientes.

In [23]:
operaciones.groupby('Especificaciones.estructura').last()

Unnamed: 0_level_0,_id,idUsuario,tipo,estado,foliointerno,fechaEmision,fechaCierre,priceKey,Productos.idProducto,Productos.idLocal,...,Usuario.nombreContacto,Usuario.email,Usuario.calle,Usuario.numero,Usuario.alcaldia_municipio,Usuario.ciudad,Usuario.cp,Usuario.rfc,Usuario.nivelAcceso,Usuario.razonSocial
Especificaciones.estructura,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
caja en dos piezas,5fcbdc7e4124c8597eb6c8e3,5fba998a345a4bb6ed3446c8,ordenProduccion,abierta,23383,2020-02-27,2020-04-20,32dosPiezaskraft,5fc3dd7e30024fb085af64ad,CJ247,...,Enrique,onoYoko@dominio.com,Dr. Enrique Gonzalez Martinez No. 6 Local,No.6 Local 1,Cuahutemoc,CDMX,6400,LOQ640401GH0,cliente,LOQUAY. S.A.
caja regular,5fcbf3144124c8597eb6c910,5fba998a345a4bb6ed3446c8,ordenProduccion,abierta,23202,2020-01-28,2020-03-24,32regularkraft,5fc3d5a130024fb085af64ab,CJ246,...,Enrique,onoYoko@dominio.com,Dr. Enrique Gonzalez Martinez No. 6 Local,No.6 Local 1,Cuahutemoc,CDMX,6400,LOQ640401GH0,cliente,LOQUAY. S.A.
charola,5fc980408e8ca1720f06b590,5fbb56b3cfeb74a0ee851d57,ordenProduccion,abierta,0000001731,2020-10-23,2020-10-26,32N/Akraft,5fc9425462e33f09f0bd8a30,CAJACHAROLAOW1D,...,Modulares,mobiliario@modular.com.mx,Av. Lomas de sotelo,No. 1102 Piso 2 202,Miguel hidalgo,CDMX,11200,IMA191187OO8,cliente,"Intermuebles Modulares, S.A. de C.V."
separador,5fc94c7ceab151fb539d0ede,5fbb2a25169e8c0534716100,ordenProduccion,abierta,3685-354,2017-10-27,2017-11-15,26N/Akraft,5fc3f6b030024fb085af64b6,panela premium separador,...,Rosario,facturaciones@covadonga.com.mx,Aldana,No. 43,Texcoco,Estado de México,56170,CCO810311660,cliente,CREMERIA COVADONGA S.A. DE C.V.
suaje,5fcbc8fa4124c8597eb6c8cf,5fbb56b3cfeb74a0ee851d57,ordenProduccion,abierta,0000000167,2020-11-29,2020-12-02,32regularkraft,5fcbc5446966fe2679e7feab,CAJA35BWBE,...,Modulares,mobiliario@modular.com.mx,Av. Lomas de sotelo,No. 1102 Piso 2 202,Miguel hidalgo,CDMX,11200,IMA191187OO8,cliente,"Intermuebles Modulares, S.A. de C.V."


In [24]:
operaciones.columns

Index(['_id', 'idUsuario', 'tipo', 'estado', 'foliointerno', 'fechaEmision',
       'fechaCierre', 'priceKey', 'Productos.idProducto', 'Productos.idLocal',
       'Productos.unidades', 'Productos.precioUnitario', 'Productos.cantidad',
       'Productos.importe', 'Especificaciones._id', 'Especificaciones.idLocal',
       'Especificaciones.estructura', 'Especificaciones.descripcion',
       'Especificaciones.tipo', 'Especificaciones.calibreECT',
       'Especificaciones.caraExterior', 'Especificaciones.largo',
       'Especificaciones.ancho', 'Especificaciones.alto',
       'Especificaciones.tipoUnion', 'Especificaciones.suaje', 'Usuario._id',
       'Usuario.apellidoContacto', 'Usuario.nombreContacto', 'Usuario.email',
       'Usuario.calle', 'Usuario.numero', 'Usuario.alcaldia_municipio',
       'Usuario.ciudad', 'Usuario.cp', 'Usuario.rfc', 'Usuario.nivelAcceso',
       'Usuario.razonSocial'],
      dtype='object')

Creamos un dataframe filtrado por compañia para doble checar los detalles de las ordenes de compra por cada cliente y verificar que no haya repetidos

In [25]:
prueba = operaciones['Usuario.razonSocial'] == 'LOQUAY. S.A.'

#operaciones[prueba].groupby('foliointerno')[['_id','Especificaciones.calibreECT','Especificaciones.largo',
 #     'Especificaciones.ancho', 'Especificaciones.alto','Productos.precioUnitario', 'Especificaciones.descripcion', 'Productos.idProducto']].last()
    
operaciones.groupby(['Usuario.razonSocial']).agg({'_id': 'count', 'Productos.importe':'sum', 'Productos.cantidad': 'sum', 'Productos.idLocal': 'count'})    
    

Unnamed: 0_level_0,_id,Productos.importe,Productos.cantidad,Productos.idLocal
Usuario.razonSocial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CREMERIA COVADONGA S.A. DE C.V.,106,6467325.0,530.0,106
"Intermuebles Modulares, S.A. de C.V.",29,991275.0,20.725,29
"Invernaderos de Zitácuaro, S. de R.L.",12,867600.0,48.0,12
LOQUAY. S.A.,79,1455258.0,226.0,79
"PLASTONIUM, S.A DE C.V.",9,230660.0,25.5,9


Usamos el metodo _groupby()_ sobre el dataframe de prueba para verificar que los productos asociados a cada cliente no se repitan y esten correctamente ordenados con las caracteristicas correctas.

In [26]:
operaciones[prueba].groupby('Productos.idProducto')[['_id', 'Productos.idLocal', 'Especificaciones.calibreECT','Especificaciones.largo', \
'Especificaciones.ancho', 'Especificaciones.alto','Productos.precioUnitario', 'Especificaciones.descripcion', 'Productos.idProducto']].last()


Unnamed: 0_level_0,_id,Productos.idLocal,Especificaciones.calibreECT,Especificaciones.largo,Especificaciones.ancho,Especificaciones.alto,Productos.precioUnitario,Especificaciones.descripcion,Productos.idProducto
Productos.idProducto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
5fc3d5a130024fb085af64ab,5fcbf3144124c8597eb6c910,CJ246,32,32.3,24.5,30.3,10600.0,Corrugado 12 SH 1 LT,5fc3d5a130024fb085af64ab
5fc3dad730024fb085af64ac,5fcbed554124c8597eb6c8ff,CJ245,29,19.6,15.0,17.5,3536.0,Corrugado 12 remove,5fc3dad730024fb085af64ac
5fc3dd7e30024fb085af64ad,5fcbdc7e4124c8597eb6c8e3,CJ247,32,44.3,32.0,14.5,13832.0,Corrugado 24 VELLOS,5fc3dd7e30024fb085af64ad
5fc3df6630024fb085af64ae,5fcbf1c14124c8597eb6c90b,CJ65,29,20.0,10.4,18.5,2756.0,Corrugado primer PULVER AZUL 12 piezas,5fc3df6630024fb085af64ae
5fc3e05030024fb085af64af,5fcbf24f4124c8597eb6c90d,CJ67,29,26.3,17.8,13.2,4191.0,Corrugado 24 RPQ,5fc3e05030024fb085af64af
5fc3e18e30024fb085af64b0,5fcbf2174124c8597eb6c90c,CJ90,29,20.0,10.4,18.5,2756.0,CORRUGADO PULVER BLANCO 12 PIEZAS,5fc3e18e30024fb085af64b0
5fc3e2df30024fb085af64b1,5fcbecf24124c8597eb6c8fe,CJ186,29,19.0,12.7,18.6,3089.0,CORRUGADO TINTA COLOR 12 ETC,5fc3e2df30024fb085af64b1
5fc3e34730024fb085af64b2,5fcbef774124c8597eb6c905,CJ42,29,25.2,23.5,19.0,6178.0,CORRUGADO 30 ECT,5fc3e34730024fb085af64b2
5fc3e3ef30024fb085af64b3,5fcbe9ae4124c8597eb6c8f9,CJ22,32,26.0,19.5,20.0,12730.0,CORRUGADO 30 ECT,5fc3e3ef30024fb085af64b3
5fc9d818450966d58fee1ef3,5fcbdfe14124c8597eb6c8e9,CJ08,29,28.0,21.2,18.5,5845.0,"corrugado 30-36/120/50 ""PULVER 50G""",5fc9d818450966d58fee1ef3


Una vez limpio el dataset lo exportamos con el metodo _.to_csv_ para ubicarlo y utilizarlo facilmente

In [31]:
operaciones.to_csv('../analisis/operaciones.csv')