# API Revision de XML e integracion en Base de datos en la nube

## 0. Importación de librearias

In [2]:
import os
import numpy as np
import pandas as pd
import pymongo
import xmltodict
from pandas.io.json import json_normalize

import warnings
warnings.filterwarnings("ignore")

import io
from os import listdir, remove
from os.path import isfile, join
import pathlib
from datetime import datetime
from tqdm import tqdm_notebook as tqdm

import warnings
warnings.filterwarnings("ignore")

from pymongo import MongoClient

##  1. Funciones

In [3]:
#clean_folder

#Descripción General: Funcion para borrar archivos de la carpeta temporal
#Recibe: ruta (path) por default una carpeta temp dentro de la ruta actual
#Recibe: lista de archivos (fl)
#Regresa: None

def clean_folder(fl, path='./temp/'):
    for i in fl:
        remove(path+i)
    
    return None

#predict_encoding

#Descrición general: Predice la codificación de un archivo dado
#Recibe: Ruta del Archivo (file_path)
#Recibe: Numero de de lineas para la predicción (n_lines) por default 20. Entre mas líneas se mejora la probabilidad de una mejor preduccion
#Entrega: Predicción de codificación en un str

def predict_encoding(file_path, n_lines=20):
    '''Predict a file's encoding using chardet'''
    import chardet

    # Open the file as binary data
    with open(file_path, 'rb') as f:
        # Join binary lines for specified number of lines
        rawdata = b''.join([f.readline() for _ in range(n_lines)])

    return chardet.detect(rawdata)['encoding']

## 2. Ingreso de datos del usuario para la utilización del módulo

In [5]:
#Ingreso del RFC e ID del usuario
#rfc_usuario = input('Ingrese su el rfc del usuario')
#id_usuario = input('Ingrese su el id del usuario')

rfc_usuario ='IADA810218HG5'
id_usuario = 'albertoid'

## 3. Extracción de parámetros de los archivos XML

In [None]:
#Lectura de directorio y generacion de lista de facturas a analizar

filespath='./temp/'
fileslist = [f for f in listdir(filespath) if isfile(join(filespath, f))]


for i in fileslist:
    if i[-3:]!="xml":
        fileslist.remove(i)


for k,z in tqdm(enumerate(fileslist)): 
    #Opening File
    xml=open('./temp/'+z,'r')#,encoding=predict_encoding('./temp/'+z))
    xml_parsed=xmltodict.parse(xml.read())
        
    #Extending XML
    xml_keys=list(xml_parsed['cfdi:Comprobante'].keys())
    xml_values=list(xml_parsed['cfdi:Comprobante'].values())
    xml_df=pd.DataFrame(xml_values).T
    xml_df.columns=xml_keys

    #Descartando columnas no útiles (por el momento)
    columnas=['@xmlns:cfdi','@xmlns:xsi','@Certificado','@xsi:schemaLocation','@Sello']
    for i in columnas:
        try:
            xml_df.drop([i],axis=1,inplace=True)
        except:
            pass
    
    #Elementos para hacer sub-despliegue
    list_sub=['cfdi:Emisor','cfdi:Receptor'] #cfdi:Conceptos tiene una estructura  de mas grandos de profundidad

    #Sub-despliegue de elementos en list_sub
    for i in list_sub:
        for j in list(dict(xml_df[i][0]).keys()):
            xml_df[i+'_'+j] = xml_df[i][0][j]
            
            
    #Desplegar elementos con doble profundidad
    complemento='cfdi:Complemento'
    timbre='tfd:TimbreFiscalDigital'
        
    for i in list(dict(xml_df[[complemento]].values[0][0][timbre]).keys()):
        xml_df['tfd_'+i] = xml_df[[complemento]].values[0][0][timbre][i]
    

    #Quitar columnas con diccionarios de sub-despliegue
    xml_df.drop(['cfdi:Emisor','cfdi:Receptor','cfdi:Complemento'],axis=1,inplace=True)
    

    #Limpiar nombres columna
    for i,e in enumerate(xml_df.columns):
        xml_df.rename(columns={str(e):str(e).replace('cfdi:','')},inplace=True)
    for i,e in enumerate(xml_df.columns):
        xml_df.rename(columns={str(e):str(e).replace('@','')},inplace=True)
    for i,e in enumerate(xml_df.columns):
        xml_df.rename(columns={str(e):str(e).lower()},inplace=True)
    

    #Optimizar tipos de datos
    xml_df.fecha[0] = datetime.strptime(xml_df.fecha[0], '%Y-%m-%dT%H:%M:%S')
    xml_df.fecha
    
    '''#Se elimina la optimización, pues mongo no acepta datos optimizados con métodos de numpy
    for i in xml_df.columns:    
        try:
            xml_df[i] = pd.to_numeric(xml_df[i])

            if type(xml_df[i])==float:
                xml_df[i] = pd.to_numeric(xml_df[i], downcast='float')
            elif type(xml_df[i])==int:
                xml_df[i] = pd.to_numeric(xml_df[i], downcast='int')
        except:
            pass
    '''
    
    #Ingreso de identificadores
    
    xml_df['ingreso']= False if rfc_usuario==xml_df.receptor_rfc[0] else True
    xml_df['usuario']= id_usuario
    xml_df['rfc_usuario']=rfc_usuario
    
    #Ingresar xml completo como respaldo
    #xml_df['xml']=xml_txt
    
    #Cerrar archivo
    xml.close()
    
    #Integracion de la base de datos final
    if k == 0: 
        df_xml = xml_df #Crea base de datos de salida en la primera iteracion
    else:
        columnas_nuevas = list(xml_df.columns)
        columnas_existentes = list(df_xml.columns)
        
        #Busca columnas nuevas en el nuevo registro y crea la columna correspondiente
        for e in columnas_existentes:
            try:
                columnas_nuevas=columnas_nuevas.remove(e)
            except:
                pass
        
        try:
            for e in columnas_nuevas:
                df_xml[e] = df_xml[e].apply(lambda x: None)
        except:
            pass
        
        #copia la columna anterior con las nuevas columnas
        df_xml=df_xml.append(df_xml.iloc[0],ignore_index=True)
        
        #Ingreso de los registros uno a uno en donde pueden no existir todos los campos en el nuevo registro 
        columnas=df_xml.columns
        
        for i in columnas:
            try:
                df_xml[i].iloc[-1] = xml_df[i][0]
            except:
                df_xml[i].iloc[-1] = None

dict_xml=df_xml.to_dict('records')

#----------------------------Ingreso de datos en la base de datos de Mongo en la nube----------------------------

pwd=open('pw.txt','r')
pw=pwd.read()
cliente=MongoClient('mongodb+srv://api:'+pw.split('\n')[0]+'@clusterdeclaro-tya5c.mongodb.net/test?retryWrites=true&w=majority')
db_api=cliente.api
col_facturas=db_api.facturas

#Ingreso de facturas a Mongo
col_facturas.insert_many(dict_xml);

#------------------------------------Eliminación de los archivos XML---------------------------------------------

#Borrar archivos de temp
fileslist = [f for f in listdir(filespath) if isfile(join(filespath, f))]
clean_folder(fl=fileslist)
