# Funciones del Modelo

En el modelo podemos diferenciar dos tipos de funciones:
+ funciones para procesar información
+ funciones de apoyo

Generalmente las funciones para procesar informacion necesitan el objeto 'Indice' para guiar el procedimiento y la informacion de origen o destino de la data para las operaciones.  

Su objetivo es poder aplicar diferentes métodos de análisis a la data, con diversas variables y conservar una trazabilidad de los datos que se generan, creando indicadores que nos permite filtrar o clasificar los registros.  

Las funciones de apoyo son más sencillas y no requieren variables especificas, se caracterizan por generar informes, llevar una trazabilidad de las salidas, etc. Se deben desarrollar para optimizar la operación del modelo.


## Métodos

Los métodos son las funciones para procesar la informacién, se caracterizan por ser muy potentes y definir indicadores claros para clasificar o filtrar la información en caso que se utilice.

A continuación veremos uno a uno los métodos:

### Contenida

La función se llama palabra_contenida_sin_orden(indice, origen, destino) y se trata de poder hayar similitudes entre dos cadenas de texto, dado que tengan una parte de la cadena incluida en la otra o que esten en desorden, que este separada por un espacio, de la siguiente forma:

> Range Rover == Rover Ranger  
> Aveo Sport == Aveo


In [None]:

import pandas as pd

from utils.l1_contiene_l2 import l1_contiene_l2
import utils.utils as ut

def palabra_contenida_sin_orden(indice, origen, destino):    

    ut.save_log(f'Tamaño matrices a comparar: origen {len(origen)}, destino {len(destino)}')
        
    ut.save_log('Calculando comparaciones')                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             

    if len(indice.estrictas) > 0:
        df = origen.merge(destino, how = 'inner', on = indice.estrictas, 
                suffixes = ('_origen','_destino'))
            
    else: 
        df = origen.copy()
        df[indice.destino_id] = destino[indice.destino_id].copy()
        df[indice.COL_1] = origen[indice.ON].copy()
        df[indice.COL_2] = destino[indice.ON].copy()

    ut.save_log(f'Número de comparaciones: {len(df)}')

    df1 = pd.DataFrame()
    df2 = pd.DataFrame()
    
    ###########################
    ###########################

#     baches para lineas qx

    bach = df[indice.estrictas].drop_duplicates().copy()

    for referencia, marca in bach.itertuples(index=False):

        df_temp = df.loc[df['TABLA'].isin([referencia]) & df['marca'].isin([marca])]

        df1 = pd.concat(
               [df1, l1_contiene_l2(df_temp, indice.COL_1, indice.COL_2)])
        df2 = pd.concat(
               [df2, l1_contiene_l2(df_temp, indice.COL_2, indice.COL_1)])

    #####################

    ## Sin baches
    
#     df1 = pd.concat([df1, l1_contiene_l2(df, indice.COL_1, indice.COL_2)],
#             axis=1)
#     df2 = pd.concat([df2, l1_contiene_l2(df, indice.COL_2, indice.COL_1)],
#             axis=1)

    #####################
    #####################
    
    # Concatenamos resultados y generamos la salida
    
    df = pd.concat([df1, df2])
    df = df[indice.origen_id + indice.destino_id + [indice.COL_1, indice.COL_2] 
            + indice.estrictas + indice.conservar]
    df.loc[:,'Palabras_contenida'] = 'SI'
    sin_coincidencia = origen[~origen[indice.origen_id[0]].isin(
            df[indice.origen_id[0]])]

    ut.save_log(f'Resultado: homologaciones por palabras contenidas {len(df)}')
    ut.save_log(f'Resultados sin coincidencia: {len(sin_coincidencia)}')        
    
    return df, sin_coincidencia


### Cruzar

La funcion se llama destino_origen(indice, origen) y tiene como objetivo realizar automaticamente una verificacion cruzada de la informacion que se quiere procesar.  
Toma una lista de archivos procesados por otros metodos y los verifica mediante el metodo de semejanza contra los datos de destino

In [1]:
import os
import metadata.directory as metadir
import re
import pandas as pd
import metodos.semejanza as semejanza
import utils.utils as ut


def destino_origen(indice, origen):

    ut.save_log('### Calculando cruces en base de datos') 
    # Lectura nombres de archivos a trabajar

    dic_archivos = open(file=os.path.abspath(os.path.join(metadir.Path.CARPETA_RESULTADOS, 'dic_archivos.txt')), mode='r')
     
    # En listamos y depuracmos los nombres de los archivos

    list_files = dic_archivos.readlines()
    list_files_edit = [i.replace('\n', '') for i in list_files]

    # Leemos los archivos y los trabajamos
    
    for archivo in list_files_edit:
        ut.save_log(f'Lectura de datos de archivo: {archivo}') 
        df = pd.read_csv(os.path.abspath(os.path.join(metadir.Path.CARPETA_RESULTADOS, archivo)), sep = '\t', dtype=object) 
        
        # ut.save_log(f'Tamaño matrices a comparar: origen {len(origen)}, destino '
        #     + f'{len(df)}')
        #nombres_cols = input('')    

        # Calculamos semajanza
            
        ut.save_log('### Calculando semejanza')
        
        df = df.drop( indice.destino_id, axis = 1)

        temp_1 = indice.destino_id[0]
        temp_2 = indice.origen_id[0]
        indice.origen_id[0] = temp_1
        indice.destino_id[0] = temp_2
        homologacion, sin_coincidencia = semejanza.semejanza( indice, origen, df)
        indice.origen_id[0] = temp_2
        indice.destino_id[0] = temp_1

        name = 'cruce_' + archivo
        homologacion.to_csv(
            os.path.abspath(os.path.join(metadir.Path.CARPETA_RESULTADOS, name)), 
            sep = '\t', index = False)  
 

ModuleNotFoundError: No module named 'metadata'

### Desagregar

La funcion se llama desempate(indice, df, columna), especialmente disenada para Hologacion de vehiculos, se trata de identificar caracteristicas inconsistentes en una base de datos y poder retirarlas sin afectar previamente la data. Este proceso es un data clenaing predetermina especificamente para vehiculos pero se puede parametrizar para otros procesos.  
Usamos expresiones regulares y archivos de referencia para generar las nuevas columnas.



In [None]:
import re

#import numpy as np
import pandas as pd

import metadata.directory as metadir

def desagregar(indice, origen):  

    print(f'Desagregamos la columna: {indice.ON} de la base de datos origen')

    origen[indice.ON + '_ORIGINAL'] = origen[indice.ON]
    
    # Lecutra de datos con características a desagregar
    
    name = metadir.Path.limp_col
    reglas = pd.read_csv(name, sep=';')
    reglas = (reglas[reglas['campo'] != 'especial']
        .assign(ref_len=reglas.referencia.str.len())
        .sort_values('ref_len', ascending=False)
        .drop(columns='ref_len'))
    
    # Corrección de nombres
    
    reglas['campo'] = reglas['campo'].str.replace('CAJA', 'TIPO_CAJA')
    reglas['campo'] = reglas['campo'].str.replace('CARROCERIA', 'sin categoria')
    reglas['campo'] = reglas['campo'].str.replace('CAPACIDAD', 'sin categoria')
    reglas['campo'] = reglas['campo'].str.replace('PUERTAS', 'PUERTAS_LINEA')
    reglas['campo'] = reglas['campo'].str.replace('CLASE', 'sin categoria')
    reglas['campo'] = reglas['campo'].str.replace('CILINDRAJE', 'CILINDRAJE_LINEA')
    
    # Reemplazo por tipo de campo
    for i in range(reglas.shape[0]):

        encuentra, reemplaza, columna = reglas.iloc[i, 1:4].values

        if columna != 'sin categoria' and not columna in origen.columns:
            print('revisar columna inexistente: ' + columna)
            import pdb; pdb.set_trace()     

        index = origen[origen[indice.ON].str.contains(encuentra.upper(), 
                regex=False, na=False)].index

        if columna != 'sin categoria':
            origen.loc[index, columna] = reemplaza

        origen.loc[index, indice.ON] = (
                origen.loc[index, indice.ON].str.replace(
                        '(^| |-)' + re.escape(encuentra) + '($| |-)', ' '))      

    origen[indice.ON] = origen[indice.ON].str.strip()

    return origen

### Desempate

La funcion se llama desempate(indice, df, columna)

Se debe tener reglas claras, basadas en operaciones exactas como por ejemplo min, max, o casos solucionados en 'tablas de verdad'.

Funciona para establecer registros unicos o mas especificos de acuerdo a variables adicionales de comparacion, sin necesidad de entrar a discutir la veracidad de esas varibales.

In [None]:

import numpy as np
import pandas as pd
import os

import utils.utils as ut

import metadata.directory as metadir

CARPETA_DATA = metadir.Path.CARPETA_DATA

def desempate(indice, df, columna):

    # Filtramos homologaciones únicas     

    duplicadas = df[df.duplicated('ID_UNICO', keep = False)]
    
    total = df.copy()
    
    unicos = df.drop_duplicates('ID_UNICO', keep = False )
    
    ut.save_log('Criterio de trabajo: ', columna)

    ut.save_log(f'Registros unicos: {len(unicos)}, Registros duplicados: {len(duplicados)}')    
    
    if columna == 'CILINDRAJE':
        duplicadas['_diff'] = np.abs(duplicadas.CILINDRAJE_destino - duplicadas.CILINDRAJE_origen) # Cilindraje Destino menos Origen
        duplicadas = duplicadas[duplicadas._diff == duplicadas.groupby('ID_UNICO')['_diff'].transform(min)]
        duplicadas = duplicadas.drop(columns=['_diff'])

    elif columna == 'CAPACIDAD':
        duplicadas['_diff'] = np.abs(duplicadas.Capacidad_destino - duplicadas.Capacidad_origen)
        duplicadas = duplicadas[duplicadas._diff == duplicadas.groupby('ID_UNICO')['_diff'].transform(min)]
        duplicadas = duplicadas.drop(columns=['_diff'])

    elif columna == 'PROMEDIO':
        duplicadas = duplicadas[
            duplicadas.Promedio == duplicadas.groupby('ID_UNICO')['Promedio'].transform(max)
        ].drop_duplicates('ID_UNICO')

    else:            
    # Programar solución        
        
        if columna == 'CAJA':
            criterios = pd.read_csv(os.path.abspath(os.path.join(CARPETA_DATA, 'criterio_cajas.csv',)), 
                                    sep = ';', dtype = object,engine='python')
            
        elif columna == 'NRO_PUERTAS':
            criterios = pd.read_csv(os.path.abspath(os.path.join(CARPETA_DATA, 'criterio_puertas.csv',)), 
                                    sep = ';', dtype = object, engine='python')
            criterios.rename(index = str, columns = {criterios.columns[0] :'VALOR'}, inplace = True)
        elif columna == 'TRACCION':
            criterios = pd.read_csv(os.path.abspath(os.path.join(CARPETA_DATA, 'criterio_traccion.csv',)), 
                                    sep = ';', dtype = object, engine='python')
            criterios.rename(index = str, columns = {criterios.columns[0] :'VALOR'}, inplace = True)
             
        values = criterios['VALOR'].to_frame()
        values['BIN'] = [2**(i) for i in range(len(values))]

        for label, valor in values.itertuples(index=False):
            duplicadas.loc[duplicadas[columna + '_destino'] == label, 'suma'] = valor
        
        duplicadas.suma = duplicadas.suma.astype(str)
        duplicadas.suma = duplicadas.suma.str.replace('.0', '')
        duplicadas.suma = duplicadas.suma.astype(int)

        criterios_matriz = pd.melt(criterios, id_vars=['VALOR'], value_vars=criterios.columns[1:], 
                                              var_name='suma', value_name='criterio')

        criterios_matriz['suma'] = criterios_matriz['suma'].astype(float)

        # uniques = duplicadas[['ID_UNICO', 'suma']].groupby(['ID_UNICO', 'suma']).suma.unique()
        
        # suma = pd.DataFrame({'suma': np.nansum(pd.DataFrame(uniques.values.tolist()), axis=1)}, index=uniques.index)

        suma = duplicadas[indice.origen_id + ['suma']].drop_duplicates().groupby(indice.origen_id).sum().reset_index()

        duplicadas = duplicadas.drop(columns=['suma'])
        
        duplicadas = duplicadas.merge(suma, on = indice.origen_id)
        
        duplicadas = duplicadas.merge(criterios_matriz, left_on=['suma', columna + '_origen'], 
                right_on=['suma', 'VALOR'])  
        duplicadas_ = duplicadas[(duplicadas.criterio != '>') & (duplicadas[columna + '_destino'] == duplicadas.criterio)]
        duplicadas = duplicadas[duplicadas.criterio == '>']
        duplicadas = pd.concat([duplicadas, duplicadas_], sort = False)
        duplicadas = duplicadas.drop(columns=['suma', 'VALOR', 'criterio'])

    
    ut.save_log(f'Registros duplicados despues de criterio de desempate: {len(duplicados)}')

    df_consolidado = pd.concat([duplicadas, unicos], sort=False)

    # sin_solucion = total[total[indice.origen_id].isin(df[indice.origen_id])]
    
    return df_consolidado

### Exactas

La funcion se llama exactas(indice, origen, destino, k)

Es la automatizacion de varios procesos:
1. Calculo de posibles combinaciones de variables
2. Hallar registros con coincidencias exactas en todos los campos
3. Hallar registros con coincidencias exactas en campos especificos
4. Filtar y consolidar los registros de la base de datos de origen

Son procesos muy simples pero en esta configuracion optimiza mucho el analisis y garantiza la integridad de la informacion.

In [None]:
import pandas as pd
#import numpy as np
import os

import metadata.directory as metadir
import utils.utils as ut

path = metadir.Path.CARPETA_RESULTADOS

def exactas(indice, origen, destino, k):
 
    print(f'Combinaciones a comparar: {len(indice.on_cols)}')

    for i, comb in enumerate(indice.on_cols):
        print(f'Combinación {i+1}: {comb}') 

    # Aquí podemos editar cualquier comparación no deseada
    print('¿Desea eliminar alguna combinación? pruebe eliminando una '
            + 'combinación a la vez.')
    print('Si desea continuar digite el número cero(0)')
    var = int(input(
            f'Escoge un número entero entre 1 y {len(indice.on_cols)}: '))
    print(f'Digitó el número: {var}')

    while var != 0:

        del indice.on_cols[var-1]
        
        print(f'Combinaciones a comparar: {len(indice.on_cols)}')

        for i, comb in enumerate(indice.on_cols):
            print(f'Combinación {i+1}: {comb}')
        
        print('¿Desea eliminar alguna combinación? pruebe insertando '
                + 'uno o más dígitos separados por comas.')
        print('para continuar digite el número cero(0)')
        var = int(input(
                f'Escoge uno o más números enteroS entre 1 y '
                + f'{len(indice.on_cols)}: '))
        print(f'Digitó el número: {var}')

    # Editar orden de las comparaciones

    print('¿Desea reorganizar las combinaciones? pruebe organizando una '
            + 'combinación a la vez.')
    print('Si desea continuar digite el número cero(0)')
    var_2 = int(input(f'Escoge la combinación: '))
    print(f'Digitó el número: {var_2}')
    

    while var_2 != 0:
        
        indx = int(input(f'Escoge la posición que deseas que ocupe: '))
        print(f'Digitó el número: {indx}')
        item = indice.on_cols.pop(var_2-1)
        indice.on_cols.insert(indx-1, item)

        print(f'Combinaciones a comparar: {len(indice.on_cols)}')

        for i, comb in enumerate(indice.on_cols):
            print(f'Combinación {i+1}: {comb}')

        print('¿Desea reorganizar las combinaciones? pruebe organizando '
                + 'una combinación a la vez.')
        print('Si desea continuar digite el número cero(0)')
        var_2 = int(input(f'Escoge la combinación: '))
        print(f'Digitó el número: {var_2}')    

    ut.save_log(f'Combinaciones a comparar: {len(indice.on_cols)}')

    for i, comb in enumerate(indice.on_cols):
        ut.save_log(f'Combinación {i+1}: {comb}')

    ut.save_log(f'Tamaño matrices a comparar: origen {len(origen)}, destino '
            + f'{len(destino)}')

    no_match = origen.copy()
 
    for j, i in enumerate(indice.on_cols):
        
        if j == 0:
                exactas = pd.merge( no_match[indice.origen_cols], 
                                        destino[indice.destino_cols], 
                                        on = i)  

                #exactas = exactas.drop_duplicates(indice.destino_id)
                no_match = no_match[~no_match[indice.origen_cols[0]].isin(
                        exactas[indice.origen_cols[0]])]
                ut.save_log(f'Coincidentes exactas: {len(exactas)}, restantes: '
                        + f'{len(no_match)}')
                          
        else:
                exactas_incompletas = pd.merge( no_match[indice.origen_cols], 
                                        destino[indice.destino_cols], 
                                        on = i, suffixes= ('', '_modelo'))                 
                
                no_match = no_match[~no_match[indice.origen_cols[0]].isin(
                        exactas_incompletas[indice.origen_cols[0]])]
                ut.save_log(f'Columnas a comparar {i}, resultado: '
                        + f'{len(exactas_incompletas)} similitudes, restantes: '
                        + f'{len(no_match)}')
                name = 'detalle_comparacion_' + str(i) + '_' + str(k) + '.csv'
                exactas_incompletas.to_csv(
                        os.path.abspath(os.path.join(path, name)), sep = ';', 
                        index = False)
                ut.save_log(f'Archivos generado: detalle_comparacion {j}')
                ut.docs_save(name)

                del exactas_incompletas

        
    return exactas, no_match
        

### Semejanza

La funcion se llama semejanza(indice, origen, destino)

Consiste en generar un filtro a partir de un indicador de distancia entre dos cadenas de texto de la siguiente manera:

> c1 = Rochelle  
  c2 = Rochele  
  dist(c1,c2) = 0.9   
  si x > 0.7 -----> C > x == OK y C < x == NOT OK
  


In [None]:
from Levenshtein import ratio
from Levenshtein import jaro_winkler
import utils.utils as ut

import pandas as pd

def semejanza(indice, origen, destino):

    ut.save_log(f'Tamaño matrices a comparar: origen {len(origen)}, destino {len(destino)}')
        
    ut.save_log('Calculando comparaciones') 

    # Aquí hallamos todas las posibles comparaciones

    if len(indice.estrictas) > 0:
        df = origen.merge(destino, how = 'left', on = indice.estrictas, suffixes = ('_origen','_destino'))
            
    else: 
        df = origen.copy()
        df[indice.destino_id] = destino[indice.destino_id].copy()
        df[indice.COL_1] = origen[indice.ON].copy()
        df[indice.COL_2] = destino[indice.ON].copy()
    
    ut.save_log(f'Número de comparaciones: {len(df)}')
    ut.save_log('Cálculo de distancia levenshtein')

    ## Aplicar Group by MARCA, referencia y LINEA para reducir tiempos. 
    bach = df[indice.estrictas].drop_duplicates().copy()
    
    print(f'Número de baches: {bach.shape[0]}')

    porcentaje = float(input(
            f'Digite porcentaje para filtrar los resultados: '))
    ut.save_log(f'Porcentaje para filtrar resultados: {int(porcentaje*100)}%')
    
    count = 0
    df_consolidado = None

    for tabla, marca in bach.itertuples(index=False):
        
        count = count + 1
        #print(f'Bache: # {count} de {bach.shape[0]} avance {round((count/bach.shape[0])*100,2)}%')

        df_temp = df.loc[df['TABLA'].isin([tabla]) & df['marca'].isin([marca])].copy()
        
        df_temp['levenshtein'] = df_temp.apply(lambda x: ratio(str(x[indice.COL_1]), 
                str(x[indice.COL_2])), axis=1)

        df_temp = df_temp[df_temp.levenshtein >= porcentaje]

        if count == 0:            
            df_consolidado = df_temp.copy()
        else:
            df_consolidado = pd.concat([df_consolidado, df_temp])
        
    print(f'Bache: # {count} de {bach.shape[0]} avance {round((count/bach.shape[0])*100,2)}%')
#     ut.save_log('Cálculo de distancia jaro-winkler')
#     df['jaro-winkler'] = df.apply(lambda x: jaro_winkler(str(x[indice.COL_1]), 
#             str(x[indice.COL_2]), 0.1), axis=1)
    
    ut.save_log(f'Resultado: Mayores al {int(porcentaje*100)}% = {len(df_consolidado)}')
    ut.save_log('*ATENCIÓN: puede que aún falten filtros para establecer '
            + 'la mejor coincidencia.')
    
    df_consolidado = df_consolidado[indice.origen_id + indice.destino_id + [indice.COL_1, indice.COL_2] 
            + indice.estrictas + ['levenshtein'] 
            + indice.conservar]
    sin_coincidencia = origen[~origen[indice.origen_id[0]].isin(
        df_consolidado[indice.origen_id[0]])]

    ut.save_log(f'Resultados sin coincidencia: {len(sin_coincidencia)}')
    
    return df_consolidado, sin_coincidencia


## Funciones de apoyo

Generalmente son funciones de apoyo o generacion de documentos, se puede optimizar el modelo con diferentes funciones de apoyo sin necesidad de cambiar los metedos de analisis de informacion.

### Generar informe

Su objetivo es tomar las salidas del modelos y los resultados de los metodos del modelo y generar una salida en formato HTML o ipyn como bitacora del modelo.

Este resultado se guarda en la carpeta de resultados del modelo

In [None]:
import nbformat as nbf
import io
import os

from subprocess import check_output

#from objetos.datos import *
import metadata.directory as metadir

import datetime

path = metadir.Path.CARPETA_RESULTADOS

def generar_informe():
    
    nb = nbf.v4.new_notebook()
    nb['cells'] = [nbf.v4.new_markdown_cell("""\
# Bitácora Modelo""")]

    # Para incertar texto antes del reporte de resultados
    fecha_y_hora  =  datetime.datetime.now() 
    
    texto = 'fecha: ' + fecha_y_hora.strftime('%d/%m/%Y %H:%M:%S')
    nb['cells'].append(nbf.v4.new_markdown_cell(texto))

    fp = io.open(os.path.abspath(os.path.join(path, 'logs.txt')), mode='r', 
            encoding='utf-8')

    for i, line in enumerate(fp):
        if i == 0:
            nb['cells'].append(nbf.v4.new_markdown_cell(str(line)[1:]))
        else:
            nb['cells'].append(nbf.v4.new_markdown_cell(str(line)))
    fp.close()

    nbf.write(nb, os.path.abspath(os.path.join(path, 'bitacora_modelo.ipynb')))
    check_output('python -m nbconvert --to=html '
            + '--TemplateExporter.exclude_input=True ' 
            + os.path.abspath(os.path.join(path, 'bitacora_modelo.ipynb')), 
            shell=True)

### l1_contiene_l2

Una funcion especifica para el metodo de palabras cotenidas que nos permite desagregar una cadena de texto separandola por espacios en blanco y calculando cuantas palabras coinciden.

In [None]:
import pandas as pd

def l1_contiene_l2(df, columna1, columna2):
    
    ls = df.loc[:, [columna1, columna2]
            ].drop_duplicates([columna1, columna2]
            ).reset_index(drop=True)

    linea1_temp = ls[columna1].str.split(' ', expand=True)

    linea1_split = pd.melt(
            pd.concat([ls, linea1_temp], axis=1), 
            id_vars=[columna1, columna2],
            value_vars=linea1_temp.columns,
            var_name='posicion',
            value_name='palabra'
            ).drop_duplicates([columna1, columna2, 'palabra']).reset_index(
            drop=True).dropna()

    linea1_split['n_words'] = linea1_split.groupby([columna1, columna2]
            ).palabra.transform('count')

    linea2_temp = ls[columna2].str.split(' ', expand=True)

    linea2_split = pd.melt(
            pd.concat([ls, linea2_temp], axis=1), 
            id_vars=[columna1, columna2],
            value_vars=linea2_temp.columns,
            var_name='posicion',
            value_name='palabra'
            ).drop_duplicates([columna1, columna2, 'palabra']).reset_index(
            drop=True).dropna()

    if linea1_split.shape[0] == 0 or linea1_split.shape[0] == 0:
        return None   

    lineas = linea1_split.merge(
            linea2_split,
            how='inner',
            on=[columna1, columna2, 'palabra']
            )

    lineas['n_words_2'] = lineas.groupby([columna1, columna2]
            ).palabra.transform('count')

    lineas['resultado'] = lineas.n_words == lineas.n_words_2
    lins_g = lineas.groupby([columna1, columna2]).resultado.all().reset_index()
    df = df.merge(lins_g, on=[columna1, columna2], how='left')
    df = df[df.resultado == True].drop(columns=['resultado'])
    
    return df

### set_up

Descomprime la carpeta de entrada de datos y comprime la carpeta de resultados del modelo para evitar problemas de memoria.  

Genera las condiciones necesarias para correr el modelo.

In [None]:
import datetime
import metadata.directory as metadir
import os


def inicio():
                 
    fecha_ejecucion = datetime.datetime.now()

    # Genera directorios Input Output
    metadir.Path.generar_rutas_Input_Output(Input_ruta=metadir.Path.CARPETA_DATA, 
            Output_ruta=metadir.Path.CARPETA_RESULTADOS,firma='2019-05-17')

    # Crear logs.txt en CARPETA_RESULTADOS
    logs = open(file=os.path.abspath(os.path.join(metadir.Path.CARPETA_RESULTADOS, 
            'logs.txt')), mode='w') 
    logs.close()

    dic_archivos = open(file=os.path.abspath(os.path.join(metadir.Path.CARPETA_RESULTADOS, 
            'dic_archivos.txt')), mode='w') 
    dic_archivos.close()

def final():
    fecha_ejecucion = datetime.datetime.now()
    #Genera directorios Input Output
    metadir.Path.comprimir_rutas_Input_Output_en_zip(
            Input_ruta=metadir.Path.CARPETA_DATA, 
            Output_ruta=metadir.Path.CARPETA_RESULTADOS,
            firma=fecha_ejecucion.strftime('%Y-%m-%d_%H%M%S')
            )

### utils

Contiene las funciones mas pequenas y aleatorias:

* La funcion cols_combinations(flexibles, estrictas) nos permite hallar todas las posibles combinaciones en una lista de variables

* La funcion save_log(log) imprime y guarda las salidas programadas de cada metodo del modelo

In [None]:
import itertools as it 
#import numpy as np
#import pandas as pd
#import re
import os

import metadata.directory as metadir

# Obtenemos las combinaciones para aplicar simplificación

def cols_combinations(flexibles, estrictas):
    cols_comb = []
    cols = flexibles + estrictas
    for i in range(1,len(cols)+1):
        comb = it.combinations(cols, i)
        for i in comb:
            cols_comb.append(i)
    
    # cols_comb de lista de tupla a lista de listas
    un_tuple = []
    for i in cols_comb:
        y = [j for j in i] #+ estrictas
        un_tuple.append(y)  
    
    return un_tuple 

# Función para registrar las salidas del modelo

def save_log(log):
    path = metadir.Path.CARPETA_RESULTADOS
    print(log)
#    with open(str(path / 'logs.txt'), 'a', encoding='utf8') as f:
    with open(os.path.abspath(os.path.join(path, 'logs.txt')), 'a', 
              encoding='utf8') as f:
        f.write(log + '\n')

def docs_save(name):
    path = metadir.Path.CARPETA_RESULTADOS
    #print(log)
#    with open(str(path / 'logs.txt'), 'a', encoding='utf8') as f:
    with open(os.path.abspath(os.path.join(path, 'dic_archivos.txt')), 'a', 
              encoding='utf8') as f:
        f.write(name + '\n')
