In [1]:
import pandas as pd
import numpy as np
import pickle

In [2]:
# Funciones útiles

def traductor(s):
    '''
    Convierte string a formato
    utilizable
    '''
    if isinstance(s, str):
        a,b = 'áéíóúüñÁÉÍÓÚÜÑ','aeiouunAEIOUUN'
        trans = str.maketrans(a,b)
        s = s.translate(trans).lower()
        s = s.strip(".; ").split()
        s = " ".join(s)
    return s

def agregar_elem_dict(elem, cod, decod, val):
    '''
    Agrega elemento solo si no está en diccionario
    Si está a la llave elem se le asigna el valor val + 1
    y se retorna el nuevo valor de val y True
    
    '''
    booleano = False
    if elem not in cod:
        val = val + 1
        cod[elem] = val
        decod[val] = elem
        booleano = True
    return val, booleano

# Procesamiento `arbol.xlsx`

In [3]:
# Cargado árbol de especialidades
arbol = pd.read_excel('informacion/arbol.xlsx', header=19)
arbol.columns = ['servicio', 'promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s', 'n1', 'n2', 'n3', 'n4']
arbol = arbol.applymap(traductor)

In [4]:
# Identificación de errores
errores_arbol = arbol[arbol[['servicio', 'promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s']].isna().any(axis=1)]

# Extracción filas con información incompleta 
arbol.dropna(subset=['servicio', 'promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s'], inplace=True)

display(errores_arbol)

Unnamed: 0,servicio,promedio hs,minimo hs,maximo hs,promedio s,minimo s,maximo s,n1,n2,n3,n4
0,asesoria tributaria general,,,,,,,derecho tributario,asesoria tributaria local,asesoria tributaria empresas,


In [5]:
# Codificación, lista de padres y tabla de servicios
codificacion = {}
decodificacion = {}
padres = []
val = -1
cont = 0
servicios = pd.DataFrame(columns=['id', 'promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s'])
for index, row in arbol.iterrows():
    s = row['servicio']
    val, booleano = agregar_elem_dict(s, codificacion, decodificacion, val)
    if booleano:
        l = [val] + list(row[['promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s']])
        servicios.loc[cont] = l
        cont += 1 
        padres.append(-1)
    rama = list(row[['n1', 'n2', 'n3', 'n4', 'servicio']].dropna())
    rama.reverse()
    for i in range(1, len(rama)):
        rama[i] = f'n{len(rama) - i}' + rama[i]
        val, booleano = agregar_elem_dict(rama[i], codificacion, decodificacion, val)
        padres[codificacion[rama[i-1]]] = codificacion[rama[i]]
        if booleano:
            padres.append(-1)
        else:
            break
servicios['id'] = servicios['id'].astype(int)

In [6]:
# Guardamos objetos creados
file = open('codificacion.pickle', 'wb')
pickle.dump(codificacion, file)
file.close()

file2 = open('servicios.pickle', 'wb')
pickle.dump(servicios, file2)
file2.close()

file3 = open('padres.pickle', 'wb')
pickle.dump(padres, file3)
file3.close()

file4 = open('decodificacion.pickle', 'wb')
pickle.dump(decodificacion, file4)
file4.close()

In [20]:
########### EJECUTAR ESTO PARA NUEVA SESIONES #############

# Cargamos objetos
file = open('codificacion.pickle', 'rb')
codificacion = pickle.load(file)
file.close()

file2 = open('servicios.pickle', 'rb')
servicios = pickle.load(file2)
file2.close()

file3 = open('padres.pickle', 'rb')
padres = pickle.load(file3)
file3.close()

file4 = open('decodificacion.pickle', 'rb')
decodificacion = pickle.load(file4)
file4.close()

In [22]:
padres

[1,
 2,
 3,
 -1,
 1,
 1,
 1,
 8,
 2,
 8,
 11,
 12,
 3,
 11,
 11,
 11,
 17,
 12,
 17,
 20,
 21,
 3,
 20,
 20,
 20,
 26,
 21,
 28,
 29,
 3,
 28,
 59,
 28,
 34,
 29,
 34,
 34,
 38,
 3,
 38,
 38,
 42,
 3,
 42,
 42,
 42,
 42,
 48,
 38,
 50,
 51,
 52,
 -1,
 54,
 51,
 56,
 51,
 51,
 59,
 52,
 59,
 62,
 63,
 -1,
 62,
 66,
 63,
 66,
 66,
 66,
 66,
 66,
 73,
 74,
 -1,
 73,
 73,
 78,
 74,
 66,
 66,
 66,
 66,
 66,
 51,
 51,
 51,
 51,
 51,
 51,
 51,
 51,
 93,
 94,
 -1,
 93,
 93,
 93,
 93,
 100,
 94,
 100,
 100,
 100,
 100,
 106,
 94,
 106,
 106,
 106,
 106,
 106,
 113,
 94,
 113,
 113,
 117,
 118,
 119,
 -1,
 117,
 122,
 123,
 118,
 122,
 122,
 122,
 128,
 123,
 128,
 128,
 122,
 122,
 122,
 122,
 118,
 118,
 138,
 119,
 138,
 118,
 142,
 119,
 142,
 142,
 142,
 142,
 142,
 142,
 142,
 151,
 152,
 153,
 -1,
 151,
 156,
 152,
 156,
 159,
 152,
 161,
 152,
 163,
 152,
 151,
 166,
 167,
 168,
 -1,
 170,
 171,
 168,
 173,
 171,
 166,
 176,
 167,
 176,
 179,
 180,
 181,
 168,
 183,
 180,
 185,
 180,
 18

# Procesamiento `casos.xlsx`

In [8]:
# Cargado de casos
archivo_casos = pd.read_excel('informacion/casos.xlsx')
archivo_casos = list(archivo_casos.iloc[4:,0])

In [9]:
# Generación lista de casos con servicios asociados
casos = []
cont = 0
largo = len(archivo_casos)
errores = set()
while cont < largo:
    caso = []
    while cont < largo:
        serv = archivo_casos[cont]
        if serv is np.nan:
            cont += 3
            break
        try:
            caso.append(codificacion[traductor(serv)])
        except KeyError:
            errores.add(traductor(serv))
        cont += 1
    casos.append(caso)

In [10]:
# Guardamos casos
file = open('casos.pickle', 'wb')
pickle.dump(casos, file)
file.close()

In [11]:
########### EJECUTAR ESTO PARA NUEVA SESIONES #############

# Cargamos casos
file = open('casos.pickle', 'rb')
casos = pickle.load(file)
file.close()

# Procesamiento `abogados.xlsx`

In [12]:
# Cargado excel abogados
abogados = pd.read_excel('informacion/abogados.xlsx', header=4)
abogados.drop(columns=abogados.columns[0], inplace=True)
abogados.columns = ['nombre', 'disponibilidad hs','exp', 'n1', 'n2', 'n3', 'n4', 'servicios', 'servicio', 'nveces', 'calificacion']
abogados = abogados.applymap(traductor)

In [13]:
# Abogados sin horas disponibles declaradas o con información faltante
errores_abogados = abogados[abogados['exp'].isna()]

# Actualizamos lista de abogados sacando aquellos con información faltante
abogados = abogados[~abogados['exp'].isna()]
abogados = abogados[~abogados['servicios'].isna()]

display(errores_abogados)

Unnamed: 0,nombre,disponibilidad hs,exp,n1,n2,n3,n4,servicios,servicio,nveces,calificacion
13,vicente burgos,3.0,,derecho inmobiliario,bienes raices urbanos; bienes raices rurales,,,compraventa de inmuebles urbanos; compraventa ...,,,


In [14]:
cod_nombres = {}
decod_nombres = {}
tabla_abogados = pd.DataFrame(columns=['id', 'hb', 'exp', 'areas', 'declarados', 'realizados', 'cant', 'promedio'])
idx = 0
for index, row in abogados.iterrows():
    # codifico nombre abogado
    cod_nombres[row['nombre']] = idx
    
    # y guardo decodificacion
    decod_nombres[idx] = row['nombre']
   
    # construccion areas y declarados
    declarados = set()
    areas = set()
    servicios = row['servicios'].split(";")
    for s in servicios:
        if traductor(s) == '':
            continue
        try:
            cod = codificacion[traductor(s)]
        except KeyError:
            continue
        declarados.add(cod)
        padre = padres[cod]
        while True:
            p = padres[padre]
            if p != -1:
                declarados.add(padre)
                padre = p
            else:
                areas.add(padre)
                break
    declarados = list(declarados)
    areas = list(areas)
                
    # construccion realizados, cant y promedio
    realizados = []
    cant = []
    promedio = []
    if not isinstance(row['servicio'], float):
        realizados = row['servicio'].split(';')
        realizados = [codificacion[traductor(r)] for r in realizados]
    
        cant = str(row['nveces']).split(';')
        cant = [int(float(c)) for c in cant]
    
        promedio = str(row['calificacion']).split(';')
        promedio = [float(p) for p in promedio]
    
    fila = [idx, row['disponibilidad hs'], row['exp'], areas, declarados, realizados,
            cant, promedio]
    tabla_abogados.loc[idx] = fila
    idx += 1

In [15]:
# Guardamos objetos creados
file = open('cod_nombres.pickle', 'wb')
pickle.dump(cod_nombres, file)
file.close()

file2 = open('abogados.pickle', 'wb')
pickle.dump(tabla_abogados, file2)
file2.close()

file3 = open('decod_nombres.pickle', 'wb')
pickle.dump(decod_nombres, file3)
file3.close()

In [16]:
########### EJECUTAR ESTO PARA NUEVA SESIONES #############

# Cargamos objetos
file = open('cod_nombres.pickle', 'rb')
cod_nombres = pickle.load(file)
file.close()

file2 = open('abogados.pickle', 'rb')
abogados = pickle.load(file2)
file2.close()

file3 = open('decod_nombres.pickle', 'rb')
decod_nombres = pickle.load(file3)
file3.close()