In [1]:
import pandas as pd
import numpy as np

In [2]:
# Funciones útiles

def traductor(s):
    '''
    Convierte string a formato
    utilizable
    '''
    if isinstance(s, str):
        a,b = 'áéíóúüñÁÉÍÓÚÜÑ','aeiouunAEIOUUN'
        trans = str.maketrans(a,b)
        s = s.translate(trans).lower()
        s = s.strip(".; ").split()
        s = " ".join(s)
    return s

def agregar_elem_dict(elem, dic, val):
    '''
    Agrega elemento solo si no está en diccionario
    Si está a la llave elem se le asigna el valor val + 1
    y se retorna el nuevo valor de val y True
    
    '''
    booleano = False
    if elem not in dic:
        val = val + 1
        dic[elem] = val
        booleano = True
    return val, booleano

# Identificación áreas realizables

In [11]:
# Cargado excel abogados
abogados = pd.read_excel('abogados.xlsx', header=4)
abogados.drop(columns=abogados.columns[0], inplace=True)
abogados.columns = ['nombre', 'disponibilidad hs','exp', 'n1', 'n2', 'n3', 'n4', 'servicios', 'servicio', 'nveces', 'calificacion']
abogados = abogados.applymap(traductor)

## Errores en `abogados.xlsx`

In [12]:
# Abogados sin horas disponibles declaradas o con información faltante
errores_abogados = abogados[abogados['exp'].isna()]

# Actualizamos lista de abogados sacando aquellos con información faltante
abogados = abogados[~abogados['exp'].isna()]

display(errores_abogados)

Unnamed: 0,nombre,disponibilidad hs,exp,n1,n2,n3,n4,servicios,servicio,nveces,calificacion
13,vicente burgos,3.0,,derecho inmobiliario,bienes raices urbanos; bienes raices rurales,,,compraventa de inmuebles urbanos; compraventa ...,,,
20,ignacio rodriguez,10.0,,derecho comercial,desarrollo de proyectos,infraestructura y construccion,arrendamientos para proyectos de infraestructu...,arrendamiento para proyectos eolicos; usufruct...,,,
21,alberto llona,10.0,,derecho corporativo,derecho societario y contractual,,,fusiones de sociedades; divisiones de sociedad...,,,
22,rodrigo ropert,16.0,,derecho ambiental,consultoria ambiental; residuos; tramitacion a...,due diligence ambiental; ley de responsabilida...,tramitacion de una rca para un eia; regulacion...,reclamacion de una resolucion de calificacion ...,,,
23,macarena canepa,5.0,,derecho corporativo,derecho societario y contractual,,,fusiones de sociedades; divisiones de sociedad...,,,
24,ignacio ruiz tagle,10.0,,,,,,,,,


## Extracción áreas realizables

In [16]:
# Áreas realizables
areas_realizables = list(set(abogados['n1']))
print(areas_realizables)

['propiedad intelectual e industrial', 'derecho judicial', 'derecho tributario', 'derecho laboral', 'derecho corporativo', 'derecho de aguas', 'derecho inmobiliario']


# Procesamiento árbol de especialidades

In [5]:
# Cargado árbol de especialidades
arbol = pd.read_excel('arbol.xlsx', header=19)
arbol.columns = ['servicio', 'promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s', 'n1', 'n2', 'n3', 'n4']
arbol = arbol.applymap(traductor)

In [6]:
# Filtración de servicios pertenecientes a áreas realizables
arbol = arbol[arbol['n1'].isin(realizables)]

In [7]:
# Extracción filas con información incompleta 
arbol.dropna(subset=['servicio', 'promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s'], inplace=True)

In [8]:
# Construcción lista de padres, codificación y tabla servicios
codificacion = {}
padres = []
val = -1
cont = 0
servicios = pd.DataFrame(columns=['id', 'promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s'])
for index, row in arbol.iterrows():
    s = row['servicio']
    val, booleano = agregar_elem_dict(s, codificacion, val)
    if booleano:
        l = [val] + list(row[['promedio hs', 'minimo hs', 'maximo hs', 'promedio s', 'minimo s', 'maximo s']])
        servicios.loc[cont] = l
        cont += 1
        padres.append(-1)
    rama = list(row[['n1', 'n2', 'n3', 'n4', 'servicio']].dropna())
    rama.reverse()
    for i in range(1, len(rama)):
        val, booleano = agregar_elem_dict(rama[i], codificacion, val)
        padres[codificacion[rama[i-1]]] = codificacion[rama[i]]
        if booleano:
            padres.append(-1)
        else:
            break

# Procesamiento datos abogados

In [9]:
# Extraer abogados con información esencial incompleta
abogados = abogados[~(abogados['disponibilidad hs'].isna() | abogados['exp'].isna() | abogados['servicios'].isna())]

In [10]:
errores_abogados = set()
serv = list(abogados['servicios'])
for s in serv:
    declarado = s.split("; ")
    for i in range(len(declarado)):
        try:
            declarado[i] = codificacion[declarado[i]]
        except KeyError:
            errores_abogados.add(declarado[i])

In [12]:
for s in errores_abogados:
    print(s)
    print()

analisis de registrabilidad de marcas

solicitud de amparo de agua

representacion clientes en procedimientos sancionatorios ante tribunales civiles

constitucion de comunidades de aguas

organizaciones de usuarios de agua

solicitud de derecho de aguas superficiales

solicitud de revocacion de nombre de dominio .cl

testamentos, tributacion dfl2

aprobacion de embalses

busqueda y analisis de factibilidad de dominios .cl

presentacion y alegatos en 2da instancia (tdpi)

regularizacion de derechos de aprovechamiento de aguas

representacion clientes en procedimientos sancionatorios ante tribunales civiles interposicion de medidas prejudiciales procedimiento concursal

exencion iva importacion bienes de capital

administracion, custodia y vigilancia de dominios.cl

planificaciones patrimoniales y tributarias, fusiones y adquisiciones, financiamiento de proyectos y mercado de capitales

seguimiento marcas

solicitud de derecho de aguas subterraneas

representacion clientes en juicios ind

# Procesamiento info casos

In [13]:
# Cargado de casos
archivo_casos = pd.read_excel('casos.xlsx')
archivo_casos = list(archivo_casos.iloc[4:,0])

In [14]:
casos = []
cont = 0
largo = len(archivo_casos)
errores = set()
while cont < largo:
    caso = []
    while cont < largo:
        serv = archivo_casos[cont]
        if serv is np.nan:
            cont += 3
            break
        try:
            caso.append(codificacion[traductor(serv)])
        except KeyError:
            errores.add(traductor(serv))
        cont += 1
    casos.append(caso)

In [15]:
for s in errores:
    print(s)
    print()

acuerdos de intencion o mou para proyectos eolicos

promesa de compraventa de inmueble

transformacion de sociedad

arrendamiento para proyectos eolicos

aprobacion de embalses

busqueda y analisis de factibilidad de dominios .cl

contrato de suministro electrico

fusion de sociedades

contrato de operacion y mantenimiento

dfl 2

contrato de conexion electrica

preparacion de reposicion administrativa

administracion, custodia y vigilancia de dominios.cl

solicitud de derecho de aguas subterraneas

transferencia y cesion de marca en el extranjero a traves de un agente internacional

constitucion de hipoteca

estudio de titulos

presentacion y tramitacion de una marca en el extranjero a traves de un agente internacional

inscripcion y renovacion de nombres de dominio .cl

construccion o modificacion de bocatomas

cambios de punto de captacion de derecho de aprovechamiento de aguas

compraventa de inmueble

preparacion de poderes

contrato de peajes de transmision

preparacion de regist