# <font color='#6CAD50'> Taller PLN: Minería de texto
Integrantes:
* Sebastián Monsalve
* Valentina Ortega



## <font color='#6CAD50'>**Introducción del problema:**

* **Problema identificado:** Falta de agilidad y demora en los procesos judiciales.

Normalmente un proceso judicial es un acto que conlleva de un tiempo considerable en resolverse, esto puede ser debido al cúmulo de archivos y documentación de cada caso que es necesario ser leído por una persona para que esta pueda considerar remitirlo al departamento correspondiente al caso, pero esto es un proceso limitado y por tal motivo genera retrasos en el proceso de resolución del mismo.
Es innegable el valor de la tecnología para la sociedad y por supuesto para los procesos judiciales es una herramienta que puede aportar mucho como sociedad que se lleven a cabo con más agilidad,

* **Solución:**  Por tal motivo decidimos atender esta problemática con el desarrollo de un algoritmo que utilizando métodos de minería de texto, tenga la capacidad de clasificar un caso según su tipo, y así agilizar de una mejor manera el primer filtro que cualquier denuncia puede tener.

##<font color='#6CAD50'>**FUNCIONES**

###<font color='#6CAD50'>*Lectura de archivos*

In [None]:
# Importando librerías
import pandas as pd  # Análisis de datos, manejo de BD
import numpy as np  #Álgebra lineal, manejo de listas [] y tuplas ()
import nltk # Procesamiento de Lenguaje Natural
import os #Para funciones del sistema
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Esta función sirve para leer y guardar el texto de varios archivos

In [None]:
#Lectura de múltiples archivos
import pathlib
def lectura(path):
  lista=[]
  ruta = pathlib.Path(path)
  for archivo in ruta.glob('*.txt'):
    optext = open(archivo,'r')
    text = optext.read() #Lectura del archivo

    optext.close() #Cierre del archivo

    lista.append(text)
  return lista

### <font color='#6CAD50'>*Tokenizar texto*

In [None]:
import nltk.corpus # Texto de muestra a continuación para hacer ensayos
from nltk.tokenize import word_tokenize # Separar la frase en "tokens"
# importing word_tokenize from nltk

Esta función tokeniza el contenido de un texto

In [None]:
def tokenizar(texto):
  word_tkn = word_tokenize(texto)
  token=[]
  #minúsculas
  for i in range(len(word_tkn)):
    token.append(word_tkn[i].lower())
  return token

###<font color='#6CAD50'>*Lematización*

In [None]:
# Importing Lemmatizer library from nltk
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

Esta función lematiza el contenido tokenizado de un texto

In [None]:
def lemmatizar(token):
  lm = token #En token tenemos las palabras de la canción (párrafo, frase)
  token_process_lemm=[]
  for word in lm :
    token_process_lemm.append(lemmatizer.lemmatize(word))
  return token_process_lemm

###<font color='#6CAD50'>*Stop words*

In [None]:
# importing stopwors from nltk library
from nltk import word_tokenize
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

En los siguientes bloques de código se eliminan los signos de puntuación y stopwords del texto

In [None]:
#Set de stopwords
from nltk.corpus import stopwords
palabras_vacias = set(stopwords.words("spanish"))
#Set de puntuaciones
from string import punctuation
puntuacion = set(punctuation)

In [None]:
def words(token_process_lemm):
  word_clean = [x for x in token_process_lemm if x not in palabras_vacias and x not in puntuacion] #El resultado a guardar será la palabra, para cada palabra en token siempre y cuando x no esté en palabras
  return word_clean

###<font color='#6CAD50'>*Palabras Clave*

Esta función halla palabras clave de los diferentes tipos de delito en un texto.
Retorna el porcentaje de cada tipo de delito para un caso

In [None]:
def funcion_palabras_clave(lista_delitos,text_clean):
  contador=[[0]*len(lista_delitos)]*len(lista_delitos)
  contador
  for i in range(len(text_clean)):
    word=text_clean[i]
    for j in range(len(lista_delitos)):
      if word in lista_delitos[j]:
        contador[j][j]+=1

  resultado=[[0]*len(lista_delitos)]*len(lista_delitos)
  for i in range(len(lista_delitos)):
    total= sum(contador[i])
    if total>0:
      resultado[i]= round(contador[i][i]/total*100,2)
  return resultado

In [None]:
# def palabras_clave(text):
#   Infan=0;Blancas=0;Drogas=0;Sexual=0
#   Key_Words_Drog=['estupefacientes','microtráfico','tráfico', 'red','drogas','sustancias','efectos','psicoactivos','banda','narcotráfico']
#   Key_Words_Infan=['menor','edad','violencia', 'explotación','trabajar','niño','niña','vender']
#   Key_Words_Blanc=['sexual','entretenimiento','adulto', 'contenido','extranjero','explícito','niña','vender']
#   Key_Words_Sex=['sexual','abuso','partes', 'íntimas','tocar','jugar','violencia','violación']

#   for i in range(len(text)):

#       word=text[i]

#       for o in range(len(Key_Words_Drog)):
#         if Key_Words_Drog[o]==word:
#           Drogas+=1

#       for e in range(len(Key_Words_Infan)):
#         if Key_Words_Infan[e]==word:
#           Infan+=1

#       for a in range(len(Key_Words_Blanc)):
#         if Key_Words_Blanc[a]==word:
#           Blancas+=1

#       for u in range(len(Key_Words_Sex)):
#         if Key_Words_Sex[u]==word:
#           Sexual+=1


#   Percent_B=0
#   Percent_I=0
#   Percent_D=0
#   Percent_S=0
#   if (Infan+Blancas+Drogas+Sexual)>0:
#     Percent_B= round(Blancas/(Infan+Blancas+Drogas+Sexual)*100,2)
#     Percent_I= round(Infan/(Infan+Blancas+Drogas+Sexual)*100,2)
#     Percent_D= round(Drogas/(Infan+Blancas+Drogas+Sexual)*100,2)
#     Percent_S= round(Sexual/(Infan+Blancas+Drogas+Sexual)*100,2)

#   Result="Potencial Delito: Trata de Blancas: "+ str(Percent_B)+"%   Delito Sexual: "+ str(Percent_S)+ "%   Trafico de Drogas: "+str(Percent_D)+ "%  Explotacion Infantil: " +  str(Percent_I)+ "%"
#   return Result

##<font color='#6CAD50'>**APLICACIÓN**

###<font color='#6CAD50'>*Lectura de casos*

In [None]:
lista=lectura('/content/casos')
#lista

En el siguiente bloque de código se crea un df que contiene los casos

In [None]:
d=pd.DataFrame(lista)
styler = d.style
df_casos = styler.set_table_styles([
    {"selector": "tr", "props": "line-height: 24px;"},
    {"selector": "td,th", "props": "line-height: inherit; padding: 0;"}
])

###<font color='#6CAD50'>*Tokenización, Lemmatización, Stopwords y Palabras clave*


Listas de palabras clave de los diferentes delitos

In [None]:
lista_delitos=[['estupefacientes','microtráfico','tráfico', 'red','drogas','sustancias','efectos','psicoactivos','banda','narcotráfico'],
               ['menor','edad','violencia', 'explotación','trabajar','niño','niña','vender'],
               ['sexual','entretenimiento','adulto', 'contenido','extranjero','explícito','niña','vender'],
               ['sexual','abuso','partes', 'íntimas','tocar','jugar','violencia','violación']]

En el siguiente bloque se aplican todas las funciones a cada caso:
* ```tokenizar()```: Tokeniza el texto
* ```lemmatizar()```: Lematiza la lista tokenizada
* ```words()```: Crea una lista de palabras sin stopwords
* ```funcion_palabras_clave()```: Nos da los porcentajes de cada delito para el caso


In [None]:
result=[]
for i in range(len(lista)):
  token=tokenizar(lista[i])
  token_process=lemmatizar(token)
  text_clean=words(token_process)
  result.append(funcion_palabras_clave(lista_delitos,text_clean))

###<font color='#6CAD50'>*Porcentaje por delito para caso*

Se crea un dataframe ```porc_caso```
que contiene el porcentaje por delito para cada caso

In [None]:
#LISTA PARA NÚMERO DE CASOS
inde= []
for i in range(len(lista)):
  inde.append("Caso {}".format(i+1))

In [None]:
delitos=["Drogas","Infantil","Blancas","Sexual"]
porc_caso= pd.DataFrame(result,columns=delitos,index=inde)
#porc_caso Contiene el porcentaje de delito para cada caso

###<font color='#6CAD50'>*Clasificación de posible delito*

Se crea un dataframe ```df_clasificación``` que contiene la clasificación de delito por caso y su respectivo porcentaje

Para esto:
* **Bloque 1:** Se obtienen los valores máximos de los resultados obtenidos anteriormente (almacenados en la lista```result```) y su posición

* **Bloque 2:** Se obtienen los tipos de delito de acuerdo al porcentaje máximo con su posición

* **Bloque 3:** Se contruye el dataframe ```df_clasificación``` con los resultados anteriores

In [None]:
#CICLO para obtener y almacenar los números máximos y su posición
posiciones_max= []
max_num=[]
for i in range(len(result)):
  temp = max(result[i])
  for k, j in enumerate(result[i]):
    if j == temp:
      posiciones_max.append(k)
  max_num.append(round(temp,2))


In [None]:
#LISTA CON CASOS CLASIFICADOS
tipo_delito=[]
for i in range(len(result)):
  tipo_delito.append(delitos[posiciones_max[i]])

tipos=pd.DataFrame(tipo_delito)

In [None]:
posiciones=pd.DataFrame(posiciones_max)
porcentajes=pd.DataFrame(max_num)

df1= pd.concat([pd.DataFrame(inde),porcentajes,tipos],axis=1)
df1.columns = ["Num_Caso","Porcentaje","Posible Delito"]
df_clasificacion= df1.set_index('Num_Caso')

#df_clasificacion contiene la calsificación de delito por caso

##<font color='#6CAD50'>**RESULTADOS**

In [None]:
df_casos

Unnamed: 0,0
0,"IGNACIO, con domicilio en Bogotá, es detenido en la transversal superior debido a que previas investigaciones  en cubierto se identifica que es uno de los que lidera la  red de microtráfico y venta ilegal de estupefacientes en  el mismo sector de su detención, además fue capturado bajo efectos de sustancias psicoactivas."
1,Los padres de Camilo presentan una denuncia a la fiscalía debido a que en repetidas ocasiones su tía  Elen lo ha llamado a su cuarto para hacerle una supuesta revision médica en la cual toca y juega con  sus partes íntimas
2,"ANA es capturada luego de que las autoridades realizaran por medio de una orden judicial allanamiento en su residencia ubicada en la ciudad de medellin, luego de que se conoció evidencia probatoria de que en su residencia se custodia parte de la droga y los estupefacientes de la banda “los del socorro” quienes financian su grupo armado con la red de microtráfico instaruada en el sector."
3,"GLORIA pretende promover demanda en contra de PEDRO domiciliado en Cartagena, y de RODOLFO con domicilio en Bogotá, señalados de tener en la ciudad de Medellín una serie de casas destinadas para entretenimiento adulto, y  practicas sexuales, quienes asegura que enviaron a su hija al extranjero a ser explotada después de haber caído  en engaños que la convencieron de adentrarse en el mundo  de la creacion de contenido explicito modelaje webcam."
4,"Maritza, dueña de la tienda ""Las margaritas"" presenta una  denuncia hacia los padres de Julian, un niño menor de edad de aproximadamente 12 años debido a que lo obligan a trabajar y a vender dulces en los semáforos para ganar un sustento y ni siquiera dejan que se quede con sus ganancias"
5,"Juanita es menor de edad, parece tener alrededor de 10 años,  vive en una finca desde que nació y trabaja recolectando semillas de café para poder comer y vivir. El trabajo que ella realiza ahí es bastante pesado y las personas encargadas  de ella no la dejan tomar un descanso  hasta que recolecte por lo mínimo 10 canastas de café."
6,"María y Juan son amigos, un día Juan le dice a María que está muy triste y que necesita de su apoyo, cuando ella va hacia la casa de él y entra, Juan le ofrece una bebida que la deja débil, María recuerda momentos borrosos,  entre ellos, se encuentra Juan amarrándola y desnudándola, también recuerda un fuerte dolor en sus partes intimas, María denuncia que sufrió de abuso sexual."
7,"Carlos realiza una denuncia ante la fiscalía general de la nación en contra de los delitos incurridos el presente año por Margarita Casas, hacia su hija a quien  sometió a que siendo menor de edad, esta fuera explotada  sexualmente por personas mayores y a quienes les ofrecía  contenido explícito de la víctima para la comercialización  ilegal del mismo."


In [None]:
porc_caso

Unnamed: 0,Drogas,Infantil,Blancas,Sexual
Caso 1,100.0,0.0,0.0,0.0
Caso 2,0.0,0.0,0.0,100.0
Caso 3,100.0,0.0,0.0,0.0
Caso 4,0.0,0.0,100.0,0.0
Caso 5,0.0,83.33,16.67,0.0
Caso 6,0.0,100.0,0.0,0.0
Caso 7,0.0,0.0,25.0,75.0
Caso 8,0.0,50.0,50.0,0.0


In [None]:
df_clasificacion

Unnamed: 0_level_0,Porcentaje,Posible Delito
Num_Caso,Unnamed: 1_level_1,Unnamed: 2_level_1
Caso 1,100.0,Drogas
Caso 2,100.0,Sexual
Caso 3,100.0,Drogas
Caso 4,100.0,Blancas
Caso 5,83.33,Infantil
Caso 6,100.0,Infantil
Caso 7,75.0,Sexual
Caso 8,50.0,Infantil
