# Preprocesamiento

In [1]:
import re
import spacy
import pandas as pd 
from unidecode import unidecode
from collections import Counter

nlp = spacy.load("es_core_news_md")
nlp = spacy.load("es_core_news_sm")

In [2]:
def Limpiar_texto2(texto):
    texto = unidecode(texto)
    # Eliminar cualquier signo de puntuación
    puntuación = r'[.,;:¡!¿?@#$%&[\](){}<>~=+\-*/|\\_^`"\']'
    #puntuación = r'[^\w\s]|(?<=\w)\.(?=[a-zA-Z])'
    texto = re.sub(puntuación, '', texto)

    # Eliminar cualquier carácter que no sea una letra o un número
    alfanumérico = r'\w+(?:-\w+)*'
    texto = re.sub(alfanumérico, lambda x: x.group(0).replace('-', ' '), texto)

    # Eliminar cualquier caracter que no sea una letra o un número o un espacio en blanco
    texto = re.sub(r'[^a-zA-Z0-9\s]', '', texto)

    doc = nlp(texto.lower())

    return " ".join(unidecode(token.norm_) for token in doc if not token.is_punct)


In [3]:
accionados = pd.read_excel('Demandado.xlsx')
accionados.shape

(16898, 3)

In [4]:
accionados['texto_limpio'] = accionados['Demandado'].apply(Limpiar_texto2)    
accionados.head(20)

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio
0,TAHBAAA,2023-02-20,JUZGADO 005 CIIVL MUNICIPAL DE EJECUCION DE SE...,juzgado 005 ciivl municipal de ejecucion de se...
1,TAHBAAB,2023-02-20,SAVIA SALUDEPS YOTROS,savia saludeps yotros
2,TAHBAAE,2023-02-20,NUEVA EPS,nueva eps
3,TAHBAAH,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial para la atencio...
4,TAHBAAJ,2023-02-20,REGISTRADURIA NACIONAL DEL ESTADO CIVIL COLOMB...,registraduria nacional del estado civil colomb...
5,TAHBAAM,2023-02-20,ELECTRIFICADORA DE SANTANDER S.A. E.S.P.,electrificadora de santander sa esp
6,TAHBAAN,2023-02-20,DERLY ALCANTAR SEPULVEDA,derly alcantar sepulveda
7,TAHBAAP,2023-02-20,FINCA LA MAGDALENA MUNICIPIO DE URRAO,finca la magdalena municipio de urrao
8,TAHBAAS,2023-02-20,SANITAS EPS Y OTROS,sanitas eps y otros
9,TAHBAAT,2023-02-20,ADMINISTRADORA COLOMBIANA DE PENSIONES - COLPE...,administradora colombiana de pensiones colpe...


# Etiqueta Otros

In [5]:
otros = r'\botro\b|\byotros\b|\byotro\b|\botros\b|y\botro\b|y\botros\b|y\botrs\b|y\botrosm\b|y\botroos\b'
accionados = accionados.assign(otros=accionados['Demandado'].astype(str).str.contains(otros, flags=re.IGNORECASE).astype(int))
accionados['texto_limpio'] = accionados['texto_limpio'].str.replace(otros, ' ', regex=True)

In [6]:
accionados.loc[accionados.otros ==1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros
0,TAHBAAA,2023-02-20,JUZGADO 005 CIIVL MUNICIPAL DE EJECUCION DE SE...,juzgado 005 ciivl municipal de ejecucion de se...,1
1,TAHBAAB,2023-02-20,SAVIA SALUDEPS YOTROS,savia saludeps,1
8,TAHBAAS,2023-02-20,SANITAS EPS Y OTROS,sanitas eps y,1
10,TAHBABA,2023-02-20,EMSSANAR EPS Y OTROS,emssanar eps y,1
14,TAHBABJ,2023-02-20,MINISTERIO DE TRANSPORTEY OTROS,ministerio de transportey,1
...,...,...,...,...,...
16877,TAESTPT,2023-02-24,NUEVA EPS Y OTRO,nueva eps y,1
16884,TAESTSN,2023-02-24,COLSUBSIDIO Y OTRO,colsubsidio y,1
16888,TAESTTA,2023-02-24,NUEVA EPS Y OTRO,nueva eps y,1
16889,TAESTTB,2023-02-24,REGISTRADURIA NACIONAL DEL ESTADO CIVIL Y OTRO,registraduria nacional del estado civil y,1


# Stop Words

In [7]:
stop_words = ["sa", "sas", "ltda", "y", "e", "ni", "que", "pero", "si", "porque", "cuando", "pues", "sino",
            "aunque","el","los","las","lo","la", "un","una","unos","unas","al","del",
            "a","ante","bajo","cabe","con","contra","de","desde",
            "en","entre","hacia","hasta","para",
            "por" ,"segun" ,"sin" ,"so" ,"sobre" ,"tras"]
letras_solas = r'\b[a-zA-Z]\b'
accionados['texto_limpio'] = accionados['texto_limpio'].apply(lambda x: re.sub(letras_solas, '', x))
patron = r"\b(" + "|".join(stop_words) + r")\b"
accionados['texto_limpio'] = accionados['texto_limpio'].apply(lambda x: re.sub(patron,"",x))
accionados['texto_limpio'] = accionados['texto_limpio'].apply(lambda x: re.sub(' +', ' ', x))

In [8]:
accionados.head(20)

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros
0,TAHBAAA,2023-02-20,JUZGADO 005 CIIVL MUNICIPAL DE EJECUCION DE SE...,juzgado 005 ciivl municipal ejecucion sentenci...,1
1,TAHBAAB,2023-02-20,SAVIA SALUDEPS YOTROS,savia saludeps,1
2,TAHBAAE,2023-02-20,NUEVA EPS,nueva eps,0
3,TAHBAAH,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0
4,TAHBAAJ,2023-02-20,REGISTRADURIA NACIONAL DEL ESTADO CIVIL COLOMB...,registraduria nacional estado civil colombiano,0
5,TAHBAAM,2023-02-20,ELECTRIFICADORA DE SANTANDER S.A. E.S.P.,electrificadora santander esp,0
6,TAHBAAN,2023-02-20,DERLY ALCANTAR SEPULVEDA,derly alcantar sepulveda,0
7,TAHBAAP,2023-02-20,FINCA LA MAGDALENA MUNICIPIO DE URRAO,finca magdalena municipio urrao,0
8,TAHBAAS,2023-02-20,SANITAS EPS Y OTROS,sanitas eps,1
9,TAHBAAT,2023-02-20,ADMINISTRADORA COLOMBIANA DE PENSIONES - COLPE...,administradora colombiana pensiones colpensiones,0


# Tokens

In [9]:
def tokenizar(texto):
    doc = nlp(texto)
    return [token.text for token in doc]

In [10]:
accionados["tokens"] = accionados["texto_limpio"].apply(tokenizar)
accionados.head(20)

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens
0,TAHBAAA,2023-02-20,JUZGADO 005 CIIVL MUNICIPAL DE EJECUCION DE SE...,juzgado 005 ciivl municipal ejecucion sentenci...,1,"[juzgado, 005, ciivl, municipal, ejecucion, se..."
1,TAHBAAB,2023-02-20,SAVIA SALUDEPS YOTROS,savia saludeps,1,"[savia, saludeps]"
2,TAHBAAE,2023-02-20,NUEVA EPS,nueva eps,0,"[nueva, eps]"
3,TAHBAAH,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0,"[unidad, administrativa, especial, atencion, r..."
4,TAHBAAJ,2023-02-20,REGISTRADURIA NACIONAL DEL ESTADO CIVIL COLOMB...,registraduria nacional estado civil colombiano,0,"[registraduria, nacional, estado, civil, colom..."
5,TAHBAAM,2023-02-20,ELECTRIFICADORA DE SANTANDER S.A. E.S.P.,electrificadora santander esp,0,"[electrificadora, santander, esp]"
6,TAHBAAN,2023-02-20,DERLY ALCANTAR SEPULVEDA,derly alcantar sepulveda,0,"[derly, alcantar, sepulveda]"
7,TAHBAAP,2023-02-20,FINCA LA MAGDALENA MUNICIPIO DE URRAO,finca magdalena municipio urrao,0,"[finca, magdalena, municipio, urrao]"
8,TAHBAAS,2023-02-20,SANITAS EPS Y OTROS,sanitas eps,1,"[sanitas, eps]"
9,TAHBAAT,2023-02-20,ADMINISTRADORA COLOMBIANA DE PENSIONES - COLPE...,administradora colombiana pensiones colpensiones,0,"[administradora, colombiana, pensiones, colpen..."


In [11]:
all_tokens = [token for lista_tokens in accionados["tokens"] for token in lista_tokens]
conteo_tokens = Counter(all_tokens)
conteo_tokens_ordenado = dict(sorted(conteo_tokens.items(), key=lambda x: x[1], reverse=True))
for token, conteo in conteo_tokens_ordenado.items():
    print(f"{token}: {conteo}")

eps: 3997
alcaldia: 1552
secretaria: 1389
nacional: 1350
salud: 1207
nueva: 1169
juzgado: 1014
bogota: 875
colpensiones: 752
unidad: 731
uariv: 691
civil: 683
municipal: 677
movilidad: 645
ministerio: 620
transito: 566
victimas: 533
instituto: 521
colombia: 477
sanitas: 473
seguridad: 458
transporte: 452
administrativa: 440
especial: 432
reparacion: 424
atencion: 419
seguros: 394
sura: 388
pensiones: 387
medellin: 353
estado: 351
penitenciario: 347
administradora: 342
distrital: 341
policia: 340
direccion: 337
carcelario: 335
defensa: 334
ejecucion: 311
circuito: 306
integral: 305
colombiana: 285
banco: 279
asmet: 278
total: 278
savia: 271
gobernacion: 264
penas: 262
educacion: 259
inpec: 255
medidas: 243
servicio: 243
general: 238
superior: 221
famisanar: 220
fiscalia: 219
sala: 208
penal: 208
tribunal: 207
coosalud: 202
registraduria: 200
cali: 198
santander: 190
esp: 188
sanidad: 185
judicial: 185
emssanar: 176
nacion: 170
hacienda: 166
fondo: 164
cartagena: 164
antioquia: 163
socia

# Pensiones 

In [12]:
Pensiones = r"porvenir|colfondos|colfondo|skandia|proteccion|colpensiones|pension|pensiones|afp"
accionados["pensiones"] = accionados["texto_limpio"].str.contains(Pensiones).astype(int)
accionados.loc[accionados.pensiones == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones
9,TAHBAAT,2023-02-20,ADMINISTRADORA COLOMBIANA DE PENSIONES - COLPE...,administradora colombiana pensiones colpensiones,0,"[administradora, colombiana, pensiones, colpen...",1
21,TAHBAEB,2023-02-20,SOCIEDAD ADMINISTRADORA DE FONDO DE PENSIONES ...,sociedad administradora fondo pensiones cesant...,1,"[sociedad, administradora, fondo, pensiones, c...",1
29,TAHBAET,2023-02-20,ADMINISTRADORA COLOMBIANA DE PENSIONES - COLPE...,administradora colombiana pensiones colpensiones,0,"[administradora, colombiana, pensiones, colpen...",1
36,TAHBAHN,2023-02-20,SOCIEDAD ADMINISTRADORA DE FONDO DE PENSIONES ...,sociedad administradora fondo pensiones cesant...,0,"[sociedad, administradora, fondo, pensiones, c...",1
39,TAHBAHT,2023-02-20,ADMINISTRADORA COLOMBIANA DE PENSIONES - COLPE...,administradora colombiana pensiones colpensiones,1,"[administradora, colombiana, pensiones, colpen...",1
...,...,...,...,...,...,...,...
16835,TAESTHP,2023-02-24,MINISTERIO DE SALUD Y PROTECCION SOCIAL Y OTROS,ministerio salud proteccion social,1,"[ministerio, salud, proteccion, social]",1
16839,TAESTJB,2023-02-24,MINISTERIO DE HACIENDA Y CREDITO PUBLICO OFICI...,ministerio hacienda credito publico oficina bo...,0,"[ministerio, hacienda, credito, publico, ofici...",1
16847,TAESTJT,2023-02-24,FONDO DE PENSIONES Y CESANTIAS PORVENIR,fondo pensiones cesantias porvenir,0,"[fondo, pensiones, cesantias, porvenir]",1
16872,TAESTPJ,2023-02-24,ADMINISTRADORA COLOMBIANA DE PENSIONES COLPENS...,administradora colombiana pensiones colpensiones,0,"[administradora, colombiana, pensiones, colpen...",1


# EPS

In [13]:
lista_eps = ["asmet","entidad promotora salud","empresa promotora salud", "eps", "epss" "epsi", "sos","aliansalud", "ambuq","cajacopi", "cafam", "capital salud", "capresoca", "colsubsidio", "comfandi", 'comfachocó', 'comfaoriente', 'comfamiliar', 'comfenalco', "compensar", "coomeva", "coosalud", "cruz blanca", "sanitas", "sura", "famisanar", "medimas", "mutual ser", "nueva eps", "salud total","savia", "anas wayuu", "asociacion indigena cauca","aic", "asociacion mutual ser", "mutualser", "cooperativa salud"]

regex = "|".join([re.escape(eps) for eps in lista_eps])
eps = re.compile(regex, flags=re.IGNORECASE)
accionados["eps"] = accionados["texto_limpio"].str.contains(eps).astype(int)

In [14]:
accionados.loc[accionados.eps ==1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps
1,TAHBAAB,2023-02-20,SAVIA SALUDEPS YOTROS,savia saludeps,1,"[savia, saludeps]",0,1
2,TAHBAAE,2023-02-20,NUEVA EPS,nueva eps,0,"[nueva, eps]",0,1
8,TAHBAAS,2023-02-20,SANITAS EPS Y OTROS,sanitas eps,1,"[sanitas, eps]",0,1
10,TAHBABA,2023-02-20,EMSSANAR EPS Y OTROS,emssanar eps,1,"[emssanar, eps]",0,1
15,TAHBABM,2023-02-20,COOSALUD EPS,coosalud eps,0,"[coosalud, eps]",0,1
...,...,...,...,...,...,...,...,...
16884,TAESTSN,2023-02-24,COLSUBSIDIO Y OTRO,colsubsidio,1,[colsubsidio],0,1
16885,TAESTSP,2023-02-24,COOSALUD EPS,coosalud eps,0,"[coosalud, eps]",0,1
16888,TAESTTA,2023-02-24,NUEVA EPS Y OTRO,nueva eps,1,"[nueva, eps]",0,1
16892,TAESTTJ,2023-02-24,NUEVA EPS,nueva eps,0,"[nueva, eps]",0,1


# Judiciales 

In [15]:
judicial = r"juzgado|juzgados|juez|judicial"
accionados["judicial"] = accionados["texto_limpio"].str.contains(judicial).astype(int)
accionados.loc[accionados.judicial == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial
0,TAHBAAA,2023-02-20,JUZGADO 005 CIIVL MUNICIPAL DE EJECUCION DE SE...,juzgado 005 ciivl municipal ejecucion sentenci...,1,"[juzgado, 005, ciivl, municipal, ejecucion, se...",0,0,1
16,TAHBABN,2023-02-20,JUZGADO 002 DE FAMILIA DE VALLEDUPAR,juzgado 002 familia valledupar,0,"[juzgado, 002, familia, valledupar]",0,0,1
19,TAHBABT,2023-02-20,JUZGADO 011 CIVIL MUNICIPAL DE BOGOTÁ Y OTROS,juzgado 011 civil municipal bogota,1,"[juzgado, 011, civil, municipal, bogota]",0,0,1
23,TAHBAEH,2023-02-20,JUZGADO 004 CIVIL MUNICIPAL DE GIRARDOT,juzgado 004 civil municipal girardot,0,"[juzgado, 004, civil, municipal, girardot]",0,0,1
28,TAHBAES,2023-02-20,JUZGADO 011 CIVIL MUNICIPAL DE EJECUCIÓN DE SE...,juzgado 011 civil municipal ejecucion sentenci...,0,"[juzgado, 011, civil, municipal, ejecucion, se...",0,0,1
...,...,...,...,...,...,...,...,...,...
16762,TAESEPB,2023-02-24,JUZGADO 26 DE EJECUCION DE PENAS Y MEDIDAS DE ...,juzgado 26 ejecucion penas medidas seguridad b...,0,"[juzgado, 26, ejecucion, penas, medidas, segur...",0,0,1
16765,TAESEPJ,2023-02-24,CENTRO DE SERVICIOS ADMINISTRATIVO DE LOS JUZG...,centro servicios administrativo juzgados ejecu...,1,"[centro, servicios, administrativo, juzgados, ...",0,0,1
16822,TAESTEJ,2023-02-24,JUZGADO 4 DE FAMILIA DEL CIRCUITO DE SANTA MAR...,juzgado 4 familia circuito santa marta,1,"[juzgado, 4, familia, circuito, santa, marta]",0,0,1
16832,TAESTHJ,2023-02-24,JUZGADOS DE EJECUCION DE PENAS Y MEDIDAS DE SE...,juzgados ejecucion penas medidas seguridad aca...,1,"[juzgados, ejecucion, penas, medidas, segurida...",0,0,1


# UARIV

In [16]:
UARIV = r"(?:(?:\bunidad\b.*\bvictimas\b)|(?:\bvictimas\b.*\bunidad\b)|\buariv\b)"
accionados["uariv"] = accionados["texto_limpio"].str.contains(UARIV).astype(int)
accionados.loc[accionados.uariv == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial,uariv
3,TAHBAAH,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0,"[unidad, administrativa, especial, atencion, r...",0,0,0,1
30,TAHBAHA,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0,"[unidad, administrativa, especial, atencion, r...",0,0,0,1
71,TAHBAPB,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0,"[unidad, administrativa, especial, atencion, r...",0,0,0,1
76,TAHBAPN,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0,"[unidad, administrativa, especial, atencion, r...",0,0,0,1
81,TAHBASB,2023-02-20,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0,"[unidad, administrativa, especial, atencion, r...",0,0,0,1
...,...,...,...,...,...,...,...,...,...,...
16823,TAESTEM,2023-02-24,UNIDAD ADMINISTRATIVA ESPECIAL PARA LA ATENCIO...,unidad administrativa especial atencion repara...,0,"[unidad, administrativa, especial, atencion, r...",0,0,0,1
16829,TAESTHB,2023-02-24,UNIDAD PARA LA ATENCION Y REPARACION INTEGRAL ...,unidad atencion reparacion integral victimas u...,0,"[unidad, atencion, reparacion, integral, victi...",0,0,0,1
16862,TAESTNJ,2023-02-24,UNIDAD PARA LA ATENCION Y LA REPARACION INTEGR...,unidad atencion reparacion integral victimas,0,"[unidad, atencion, reparacion, integral, victi...",0,0,0,1
16874,TAESTPN,2023-02-24,UNIDAD ADMINISTRATIVA ESPECIAL DE ATENCIN Y RE...,unidad administrativa especial atencin reparac...,0,"[unidad, administrativa, especial, atencin, re...",0,0,0,1


# Ministerios y Secretarias 

In [17]:
ministerios = r"\bministerio\b"
accionados["ministerios"] = accionados["texto_limpio"].str.contains(ministerios).astype(int)
accionados.loc[accionados.ministerios == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial,uariv,ministerios
14,TAHBABJ,2023-02-20,MINISTERIO DE TRANSPORTEY OTROS,ministerio transportey,1,"[ministerio, transportey]",0,0,0,0,1
34,TAHBAHJ,2023-02-20,MINISTERIO DDE DEFENSA DIRECCION DE SANIDAD DE...,ministerio dde defensa direccion sanidad ejerc...,0,"[ministerio, dde, defensa, direccion, sanidad,...",0,0,0,0,1
48,TAHBAJS,2023-02-20,MINISTERIO DE DEFENSA NACIONAL - EJERCITO NACI...,ministerio defensa nacional ejercito nacional,0,"[ministerio, defensa, nacional, ejercito, naci...",0,0,0,0,1
49,TAHBAJT,2023-02-20,MINISTERIO DE DEFENSA NACIONAL,ministerio defensa nacional,0,"[ministerio, defensa, nacional]",0,0,0,0,1
62,TAHBANE,2023-02-20,MINISTERIO DEDEFENSA NACIONAL - POLICIA NACIONAL,ministerio dedefensa nacional policia nacional,0,"[ministerio, dedefensa, nacional, policia, nac...",0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...
16791,TAESPTB,2023-02-24,MINISTERIO DE DEFENSA POLICIA NACIONAL,ministerio defensa policia nacional,0,"[ministerio, defensa, policia, nacional]",0,0,0,0,1
16803,TAESTAM,2023-02-24,MINISTERIO DE DEFENSA NACIONAL EJERCITO NACIONAL,ministerio defensa nacional ejercito nacional,0,"[ministerio, defensa, nacional, ejercito, naci...",0,0,0,0,1
16835,TAESTHP,2023-02-24,MINISTERIO DE SALUD Y PROTECCION SOCIAL Y OTROS,ministerio salud proteccion social,1,"[ministerio, salud, proteccion, social]",1,0,0,0,1
16839,TAESTJB,2023-02-24,MINISTERIO DE HACIENDA Y CREDITO PUBLICO OFICI...,ministerio hacienda credito publico oficina bo...,0,"[ministerio, hacienda, credito, publico, ofici...",1,0,0,0,1


In [18]:
secretarias = r"\bsecretaria\b"
accionados["secretarias"] = accionados["texto_limpio"].str.contains(secretarias).astype(int)
accionados.loc[accionados.secretarias == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial,uariv,ministerios,secretarias
43,TAHBAJH,2023-02-20,ALCALDÍA DE FLORENCIA SECRETARÍA DE PLANEACIÓN,alcaldia florencia secretaria planeacion,0,"[alcaldia, florencia, secretaria, planeacion]",0,0,0,0,0,1
50,TAHBAMA,2023-02-20,"ALCALDIA DE SIBATE, SECRETARIA DE MOVILIDAD",alcaldia sibate secretaria movilidad,0,"[alcaldia, sibate, secretaria, movilidad]",0,0,0,0,0,1
63,TAHBANH,2023-02-20,"ALCALDIA DE BOGOTA, SECRETARIA DISTRITAL DE MO...",alcaldia bogota secretaria distrital movilidad,0,"[alcaldia, bogota, secretaria, distrital, movi...",0,0,0,0,0,1
97,TAHBATP,2023-02-20,ALCALDÍA DE YUMBO - VALLE DEL CAUCA SECRETARÍA...,alcaldia yumbo valle cauca secretaria transito,0,"[alcaldia, yumbo, valle, cauca, secretaria, tr...",0,0,0,0,0,1
107,TAHBBAP,2023-02-20,GOBERNACION DEL TOLIMA SECRETARIA DE TRANSITO ...,gobernacion tolima secretaria transito transporte,0,"[gobernacion, tolima, secretaria, transito, tr...",0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...
16851,TAESTMH,2023-02-24,SECRETARIA DE TRANSITO Y TRANSPORTE DE SUCRE,secretaria transito transporte sucre,0,"[secretaria, transito, transporte, sucre]",0,0,0,0,0,1
16856,TAESTMS,2023-02-24,SECRETARIA DE TRANSITO Y TRANSPORTE DE SUCRE,secretaria transito transporte sucre,0,"[secretaria, transito, transporte, sucre]",0,0,0,0,0,1
16865,TAESTNP,2023-02-24,SECRETARIA DE EDUCACION DEPARTAMENTAL DEL ATLA...,secretaria educacion departamental atlantico,1,"[secretaria, educacion, departamental, atlantico]",0,0,0,0,0,1
16890,TAESTTE,2023-02-24,SECRETARIA DE TRANSITO Y TRANSPORTE DE CURUMANI,secretaria transito transporte curumani,0,"[secretaria, transito, transporte, curumani]",0,0,0,0,0,1


# Alcaldias

In [19]:
alcaldia = r"\balcaldia\b"
accionados["alcaldias"] = accionados["texto_limpio"].str.contains(alcaldia).astype(int)
accionados.loc[accionados.alcaldias == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial,uariv,ministerios,secretarias,alcaldias
26,TAHBAEN,2023-02-20,"ALCALDIA DE BOGOTA, SECRETARIADISTRITAL DE MOV...",alcaldia bogota secretariadistrital movilidad,0,"[alcaldia, bogota, secretariadistrital, movili...",0,0,0,0,0,0,1
43,TAHBAJH,2023-02-20,ALCALDÍA DE FLORENCIA SECRETARÍA DE PLANEACIÓN,alcaldia florencia secretaria planeacion,0,"[alcaldia, florencia, secretaria, planeacion]",0,0,0,0,0,1,1
50,TAHBAMA,2023-02-20,"ALCALDIA DE SIBATE, SECRETARIA DE MOVILIDAD",alcaldia sibate secretaria movilidad,0,"[alcaldia, sibate, secretaria, movilidad]",0,0,0,0,0,1,1
63,TAHBANH,2023-02-20,"ALCALDIA DE BOGOTA, SECRETARIA DISTRITAL DE MO...",alcaldia bogota secretaria distrital movilidad,0,"[alcaldia, bogota, secretaria, distrital, movi...",0,0,0,0,0,1,1
85,TAHBASM,2023-02-20,ALCALDÍA DE NEIVA - HUILA Y OTROS,alcaldia neiva huila,1,"[alcaldia, neiva, huila]",0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
16837,TAESTHT,2023-02-24,ALCALDIA MUNICIPAL DE SABANETA EMPRESA DE DESA...,alcaldia municipal sabaneta empresa desarrollo...,0,"[alcaldia, municipal, sabaneta, empresa, desar...",0,0,0,0,0,0,1
16840,TAESTJE,2023-02-24,ALCALDIA MUNICIPAL DE MAGANGUE BOLIVAR Y OTRO,alcaldia municipal magangue bolivar,1,"[alcaldia, municipal, magangue, bolivar]",0,0,0,0,0,0,1
16848,TAESTMA,2023-02-24,ALCALDIA DE SINCELEJO,alcaldia sincelejo,0,"[alcaldia, sincelejo]",0,0,0,0,0,0,1
16854,TAESTMN,2023-02-24,ALCALDIA MUNICIPAL DE PLANETA RICA CORDOBA,alcaldia municipal planeta rica cordoba,0,"[alcaldia, municipal, planeta, rica, cordoba]",0,0,0,0,0,0,1


# Movilidad-Transito

In [20]:
movilidad = r"\bmovilidad\b|\btransito\b"
accionados["movilidad"] = accionados["texto_limpio"].str.contains(movilidad).astype(int)
accionados.loc[accionados.movilidad == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial,uariv,ministerios,secretarias,alcaldias,movilidad
26,TAHBAEN,2023-02-20,"ALCALDIA DE BOGOTA, SECRETARIADISTRITAL DE MOV...",alcaldia bogota secretariadistrital movilidad,0,"[alcaldia, bogota, secretariadistrital, movili...",0,0,0,0,0,0,1,1
50,TAHBAMA,2023-02-20,"ALCALDIA DE SIBATE, SECRETARIA DE MOVILIDAD",alcaldia sibate secretaria movilidad,0,"[alcaldia, sibate, secretaria, movilidad]",0,0,0,0,0,1,1,1
63,TAHBANH,2023-02-20,"ALCALDIA DE BOGOTA, SECRETARIA DISTRITAL DE MO...",alcaldia bogota secretaria distrital movilidad,0,"[alcaldia, bogota, secretaria, distrital, movi...",0,0,0,0,0,1,1,1
97,TAHBATP,2023-02-20,ALCALDÍA DE YUMBO - VALLE DEL CAUCA SECRETARÍA...,alcaldia yumbo valle cauca secretaria transito,0,"[alcaldia, yumbo, valle, cauca, secretaria, tr...",0,0,0,0,0,1,1,1
104,TAHBBAJ,2023-02-20,ALCALDIA DE LOS PATIOS INSTITUTO DE TRANSITO Y...,alcaldia patios instituto transito transporte,0,"[alcaldia, patios, instituto, transito, transp...",0,0,0,0,0,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16856,TAESTMS,2023-02-24,SECRETARIA DE TRANSITO Y TRANSPORTE DE SUCRE,secretaria transito transporte sucre,0,"[secretaria, transito, transporte, sucre]",0,0,0,0,0,1,0,1
16860,TAESTNE,2023-02-24,INSTITUTO MUNICIPAL DE TRANSITO Y TRANSPORTE D...,instituto municipal transito transporte soleda...,0,"[instituto, municipal, transito, transporte, s...",0,0,0,0,0,0,0,1
16861,TAESTNH,2023-02-24,INSTITUTO DE TRANSITO DEL ATLANTICO,instituto transito atlantico,0,"[instituto, transito, atlantico]",0,0,0,0,0,0,0,1
16890,TAESTTE,2023-02-24,SECRETARIA DE TRANSITO Y TRANSPORTE DE CURUMANI,secretaria transito transporte curumani,0,"[secretaria, transito, transporte, curumani]",0,0,0,0,0,1,0,1


# Entidades Carcelarias 

In [21]:
carcelario = r"\bpenitenciario\b|\bcarcelario\b|\binpec\b|(?:\binstituto\b.*\bpenitenciario\b)"
accionados["carcelario"] = accionados["texto_limpio"].str.contains(carcelario).astype(int)
accionados.loc[accionados.carcelario == 1]

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial,uariv,ministerios,secretarias,alcaldias,movilidad,carcelario
40,TAHBAJA,2023-02-20,INSTITUTO NACIONAL PENITENCIARIO Y CARCELARIO ...,instituto nacional penitenciario carcelario in...,0,"[instituto, nacional, penitenciario, carcelari...",0,0,0,0,0,0,0,0,1
69,TAHBANT,2023-02-20,INSTITUTO NACIONAL PENITENCIARIO Y CARCELARIO ...,instituto nacional penitenciario carcelario in...,0,"[instituto, nacional, penitenciario, carcelari...",0,0,0,0,0,0,0,0,1
132,TAHBBHE,2023-02-20,INPEC ESTABLECIMIENTO CARCELARIO Y PENITENCIAR...,inpec establecimiento carcelario penitenciario...,0,"[inpec, establecimiento, carcelario, penitenci...",0,0,0,0,0,0,0,0,1
147,TAHBBJP,2023-02-20,INPEC ESTABLECIMIENTO PENITENCIARIO DE MEDIANA...,inpec establecimiento penitenciario mediana se...,0,"[inpec, establecimiento, penitenciario, median...",0,0,0,0,0,0,0,0,1
258,TAHBEMS,2023-02-20,INPEC,inpec,0,[inpec],0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16492,TAENTAA,2023-02-24,COMPLEJO PENITENCIARIO Y CARCELARIO METROPOLIT...,complejo penitenciario carcelario metropolitan...,0,"[complejo, penitenciario, carcelario, metropol...",0,0,1,0,0,0,0,0,1
16581,TAENTTA,2023-02-24,INPEC ESTABLECIMIENTO PENITENCIARIO Y CARCELAR...,inpec establecimiento penitenciario carcelario...,0,"[inpec, establecimiento, penitenciario, carcel...",0,0,0,0,0,0,0,0,1
16686,TAESBTM,2023-02-24,CENTRO PENITENCIARIO Y CARCELARIO RODRIGO DE B...,centro penitenciario carcelario rodrigo bastid...,1,"[centro, penitenciario, carcelario, rodrigo, b...",0,0,0,0,0,0,0,0,1
16694,TAESEAH,2023-02-24,COMPLEJO CARCELARIO Y PENITENCIARIO DE MEDELLI...,complejo carcelario penitenciario medellin ped...,0,"[complejo, carcelario, penitenciario, medellin...",0,0,0,0,0,0,0,0,1


# Sin etiqueta

In [22]:
filtro = (accionados[['pensiones', 'eps', 'judicial', 'uariv', 'alcaldias', 'ministerios', 'secretarias', 'movilidad', 'carcelario']] == 0).all(axis=1)
sin_etiqueta = accionados[filtro]
sin_etiqueta

Unnamed: 0,ID_Expediente,Fecha,Demandado,texto_limpio,otros,tokens,pensiones,eps,judicial,uariv,ministerios,secretarias,alcaldias,movilidad,carcelario
4,TAHBAAJ,2023-02-20,REGISTRADURIA NACIONAL DEL ESTADO CIVIL COLOMB...,registraduria nacional estado civil colombiano,0,"[registraduria, nacional, estado, civil, colom...",0,0,0,0,0,0,0,0,0
5,TAHBAAM,2023-02-20,ELECTRIFICADORA DE SANTANDER S.A. E.S.P.,electrificadora santander esp,0,"[electrificadora, santander, esp]",0,0,0,0,0,0,0,0,0
6,TAHBAAN,2023-02-20,DERLY ALCANTAR SEPULVEDA,derly alcantar sepulveda,0,"[derly, alcantar, sepulveda]",0,0,0,0,0,0,0,0,0
7,TAHBAAP,2023-02-20,FINCA LA MAGDALENA MUNICIPIO DE URRAO,finca magdalena municipio urrao,0,"[finca, magdalena, municipio, urrao]",0,0,0,0,0,0,0,0,0
11,TAHBABB,2023-02-20,GRUPO SUN FLY COLOMBIA SAS,grupo sun fly colombia,0,"[grupo, sun, fly, colombia]",0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16886,TAESTSS,2023-02-24,FUNDACION DE LA MUJER COLOMBIA S.A.S,fundacion mujer colombia,0,"[fundacion, mujer, colombia]",0,0,0,0,0,0,0,0,0
16887,TAESTST,2023-02-24,SOCIEDAD DE ACTIVOS ESPECIALES SAE SAS,sociedad activos especiales sae,0,"[sociedad, activos, especiales, sae]",0,0,0,0,0,0,0,0,0
16889,TAESTTB,2023-02-24,REGISTRADURIA NACIONAL DEL ESTADO CIVIL Y OTRO,registraduria nacional estado civil,1,"[registraduria, nacional, estado, civil]",0,0,0,0,0,0,0,0,0
16893,TAESTTM,2023-02-24,FIDUPREVISORA S.A.,fiduprevisora,0,[fiduprevisora],0,0,0,0,0,0,0,0,0


In [23]:
porcentaje_sin_etiquetar = len(sin_etiqueta) / len(accionados) * 100
print(porcentaje_sin_etiquetar, "%")

35.98650727896793 %


In [24]:
all_tokens2 = [token for lista_tokens in sin_etiqueta["tokens"] for token in lista_tokens]
conteo_tokens2 = Counter(all_tokens2)
conteo_tokens_ordenado2 = dict(sorted(conteo_tokens2.items(), key=lambda x: x[1], reverse=True))
for token, conteo in conteo_tokens_ordenado2.items():
    print(f"{token}: {conteo}")

nacional: 708
colombia: 448
seguros: 368
estado: 350
civil: 338
banco: 279
instituto: 226
fiscalia: 215
general: 200
registraduria: 199
policia: 183
esp: 178
nacion: 161
servicio: 152
direccion: 143
hospital: 141
bogota: 139
superior: 130
gobernacion: 124
compania: 122
sala: 121
tribunal: 120
unidad: 116
comision: 113
santander: 108
san: 108
servicios: 105
superintendencia: 102
salud: 102
universidad: 98
arl: 98
seccional: 92
consejo: 92
administrativo: 90
sanidad: 89
municipio: 88
ese: 88
regional: 87
registro: 85
oficina: 83
norte: 82
publicos: 82
claro: 80
fondo: 80
empresa: 80
clinica: 79
colombiano: 78
social: 78
departamento: 78
migracion: 77
junta: 71
positiva: 69
bolivar: 68
departamental: 68
centro: 67
colpatria: 66
agustin: 63
 : 63
antioquia: 62
previsora: 59
geografico: 58
conjunto: 58
codazzi: 57
fundacion: 57
invalidez: 57
administrativa: 57
medellin: 57
judicatura: 56
agencia: 56
municipal: 56
especial: 55
calificacion: 55
cnsc: 55
residencial: 54
caja: 52
axa: 50
famili