### Universidad Nacional de Córdoba - Facultad de Matemática, Astronomía, Física y Computación

### Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones 2021
Búsqueda y Recomendación para Textos Legales

Mentor: Jorge E. Pérez Villella

# Práctico Introducción al Aprendizaje Automático

Integrantes: Carrion Nicolas, Delgado Gabriel
    
    

El objetivo de este práctico es afianzar los conocimientos adquiridos hasta este momento, haciendo un proceso de re-análisis de los datos para encarar desde distintas perspectivas (selección de features, redefinición de clases y subclases) para conseguir nuevos resultados sobre los modelos ya trabajados, añadiendo ensamble learning al análisis.

La idea es aprender a iterar en el proceso de ciencia de datos, no quedarnos con los resultados obtenidos del primer proceso realizado.

Profundizar el tema de stop words y cómo generar uno propio.

En este práctico, para resolver el problema de la clasificación se propone entrenar los siguientes modelos de la librería scikit-learn: LogisticRegretion y SGDClassifier.

Fecha de Entrega: 12 de septiembre de 2021

In [27]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import random

from sklearn.pipeline import Pipeline
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from yellowbrick.classifier import ROCAUC
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, HashingVectorizer

from sklearn.model_selection import train_test_split, GridSearchCV

from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.datasets import make_multilabel_classification
from sklearn.multioutput import MultiOutputClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, precision_score, recall_score, f1_score,roc_auc_score

import itertools
import warnings
warnings.filterwarnings("ignore")

In [31]:
def getListOfFiles(dirName, quantity=None):
    # create a list of file and sub directories 
    # names in the given directory
    files = os.listdir(dirName)
    allFiles = list()
    # Iterate over all the entries
    if not quantity:
        for file in files:
            # Create full path
            fullPath = dirName + "\\" + file
            # If entry is a directory then get the list of files in this directory 
            if os.path.isdir(fullPath) and not quantity:
                allFiles = allFiles + getListOfFiles(fullPath)
            else:
                allFiles.append(fullPath)
    else:
        allFiles = allFiles + getListOfFiles(dirName)[:quantity]
    return allFiles

def create_corpus(file):
    corpus=[]
    f = open (file,'r', encoding="utf8")
    corpus=f.read()
    return corpus


cant_letters=2
def normalize(s):
    replacements = (
        ("á", "a"),
        ("é", "e"),
        ("í", "i"),
        ("ó", "o"),
        ("ú", "u"),
    )
    for a, b in replacements:
        s = s.replace(a, b)
    return s

def limpieza_curacion(files):
    lista=[]
    for file in files:
        tokenizer = RegexpTokenizer(r'\w+')
        tokens=tokenizer.tokenize(file)

        tokens_normalize = [normalize(word) for word in tokens]

        tokens_normalize=[token for token in tokens_normalize if len(token) > cant_letters]

        file_stopwords='stopwords.txt'
        f = open (file_stopwords,'r', encoding="utf-8")
        stopwords_list=f.read()
        #stopwords_list.replace('\n', ' ')
        stopwords_tokens=tokenizer.tokenize(stopwords_list)
        stopwords_tokens=stopwords.words('spanish')
        stopwords_tokens.extend(stopwords_tokens)
        words = [token for token in tokens_normalize if token not in stopwords_tokens]


        spanish_stemmer = SnowballStemmer('spanish')
        tokens_stemm=[spanish_stemmer.stem(word) for word in words]

        lista.append( ' '.join(tokens_stemm))
    return lista


def graph_frequency(dataframe):
    plt.figure(figsize=(10,6))
    sns.barplot(x=dataframe[:15].Token, y=dataframe[:15].Frecuencia, color='skyblue')
    plt.xticks(rotation=90)
    sns.despine()

def obtain_tokens_and_dataframe(corpus):
    tokens=[t for t in corpus.split()]
    freq = nltk.FreqDist(tokens)
    data = pd.DataFrame(freq.items(), columns=['Token', 'Frecuencia']).sort_values(by="Frecuencia", ascending=False)
    return data
    

***CREACION DE STOPWORDS***

Una parte muy importante de la limpieza de datos en NLP, es la eleccion de las stopwords.Estas, como mencionamos en el practico 2, son palabras que vamos a eliminar del texto que vamos a utilizar para entrenar. En el practico 2 se determino una lista de stopwords, basada en la lista de palabras que obtuvimos de un repositorio muy popular (https://raw.githubusercontent.com/Alir3z4/stop-words/master/spanish.txt ) y de las stopwords propuestas por NLTK. Ahora ademas de esas listas, vamos a agregar una lista de stopwords creadas por nosotros, basandonos en diferentes tecnicas propuestas en el articulo (http://kavita-ganesan.com/tips-for-constructing-custom-stop-word-lists/#.YTedC470mUm)  Vamos a probar diferentes tecnicas con el corpus total y vamos a elegir solo una para volver a hacer el procesamiento de datos.


1. Términos más frecuentes como palabras vacías

In [3]:
fueros=['FAMILIA', 'LABORAL', 'MENORES', 'PENAL']
root=os.getcwd()
dirname=f'{root}\\Documentos'
files=getListOfFiles(dirname)

In [4]:
import nltk
dirname= "Corpus.txt"

f = open (dirname,'r', encoding="utf-8")
corpus=f.read()
f.close
corpus= corpus.lower()
data=obtain_tokens_and_dataframe(corpus)
data

Unnamed: 0,Token,Frecuencia
6,de,82491
59,la,58221
52,que,40215
87,el,35123
75,en,33032
...,...,...
34699,abonadas-,1
34698,09);,1
34697,(octubre,1
34696,(13.08.09),1


In [5]:
data.Frecuencia.sum()

1195411

Vemos que la cantidad de palabras diferentes del corpus total es de 63107 y el total de tokens es 1195411

In [6]:
data.describe()

Unnamed: 0,Frecuencia
count,63107.0
mean,18.942605
std,531.02428
min,1.0
25%,1.0
50%,2.0
75%,4.0
max,82491.0


In [7]:
data.Frecuencia.mean()

18.942605416197885

La frecuencia media de todos las palabras es de 18,9, por lo cual podriamos eliminar las palabras que aparecen mas veces de lo que indica la media.

In [8]:
data_w_most_frecuency=data[data['Frecuencia']>data.Frecuencia.mean()]
data_w_most_frecuency

Unnamed: 0,Token,Frecuencia
6,de,82491
59,la,58221
52,que,40215
87,el,35123
75,en,33032
...,...,...
6001,turno.,19
4072,-primer,19
42772,coerción,19
6006,papá,19


In [9]:
data_w_most_frecuency.Frecuencia.sum()

1036612

*La cantidad de palabras diferentes que eliminarias si dejamos esta lista como stopwords es de 5355 y de tokens totales de 1036612*

In [10]:
data_w_most_frecuency
words_w_most_frecuency=list(data_w_most_frecuency.Token) #Asi generariamos la lista de stopwords

2. Términos menos frecuentes como palabras vacías

Si hacemos el proceso inverso y elegimos los terminos menos frecuentes como stopwords, hay que elegir un numero coherente, si hacemos el data.describe() de la frecuencia de los terminos podemos ver que el 50% de las palabas se repite al menos 2 veces. Por lo cual podria ser un buen indicador para tomar como limite

In [11]:
data.describe()

Unnamed: 0,Frecuencia
count,63107.0
mean,18.942605
std,531.02428
min,1.0
25%,1.0
50%,2.0
75%,4.0
max,82491.0


In [12]:
data_w_lowest_frecuency=data[data['Frecuencia']<=2]
data_w_lowest_frecuency

Unnamed: 0,Token,Frecuencia
3795,"advoctaus,",2
44808,suceso-,2
48658,presumirlo,2
37003,demonio,2
31148,"(tavip,",2
...,...,...
34699,abonadas-,1
34698,09);,1
34697,(octubre,1
34696,(13.08.09),1


In [13]:
data_w_lowest_frecuency.Frecuencia.sum()

50889

Aqui eliminariamos 41038 palabras diferentes y 50889 tokens

In [14]:
words_w_lowest_frecuency=list(data_w_lowest_frecuency.Token)
data_w_lowest_frecuency.sample(5)

Unnamed: 0,Token,Frecuencia
56722,"“smit”,",1
24327,forzado,2
59638,(zabala).,1
50209,festiva.,1
54103,nicomáquea,1


3. Términos de baja IDF como palabras vacías

La frecuencia inversa de documentos (IDF) básicamente se refiere a la fracción inversa de documentos en su colección que contiene un término específico ti. Digamos que tiene N documentos. Y el término X ocurrió en M de los N documentos. Por tanto, la IDF de X se calcula como:

            IDF (X) = Log N / M
Entonces, cuantos más documentos contengan X, menor será la puntuación de la IDF. Esto significa que los términos que aparecen en todos y cada uno de los documentos tendrán una puntuación IDF de 0. Si clasifica cada X en su colección por su puntuación IDF en orden descendente, puede tratar los K términos inferiores con las puntuaciones IDF más bajas como su parada palabras.

Para poder hacer este calculo, no se puede utilizar un unicocorpus, si no que hay que pasarle al metodo un conjunto de documentos, cada uno con su corpus correspondiente. Esto es para poder hacer el calculo de aparicion de cada termino en cada documento

In [15]:
data= pd.DataFrame(files, columns=['file'])
data['fuero']= data['file'].apply(lambda x: x.split('\\')[-2])
data['texto']= data['file'].apply(lambda x: create_corpus(x))
#data['texto']= data['texto'].apply(lambda x: ' '.join(limpieza_curacion(x)))
data['fuero'].value_counts()

FAMILIA    124
PENAL       53
LABORAL     37
MENORES     29
Name: fuero, dtype: int64

In [16]:
transformer = TfidfVectorizer(ngram_range=(1,1))
tfidf = transformer.fit(data['texto'])
df_tfidf = pd.DataFrame(transformer.idf_,columns=["idf_"])
df_tfidf.insert(0,'palabra',tfidf.vocabulary_.keys())
df_tfidf.sort_values('idf_')

Unnamed: 0,palabra,idf_
24094,alarcón,1.000000
5292,delimita,1.000000
12185,559,1.000000
9883,interpersonal,1.000000
26535,anfibológicos,1.000000
...,...,...
15951,avocada,5.804021
15952,801,5.804021
15953,reformula,5.804021
15957,liquidadas,5.804021


In [17]:
df_tfidf.describe()

Unnamed: 0,idf_
count,30063.0
mean,4.979908
std,1.051303
min,1.0
25%,4.551258
50%,5.398556
75%,5.804021
max,5.804021


Podemos eliminar el 20% de palabras con menos importancia segun el calculo del tfidf

In [18]:
data_w_lower_idf=df_tfidf[df_tfidf['idf_'] < df_tfidf['idf_'].quantile(0.20)]
data_w_lower_idf

Unnamed: 0,palabra,idf_
0,auto,3.000661
1,122,2.585145
19,art,2.508184
27,violencia,2.090449
31,secretaría,2.078328
...,...,...
30055,contribuían,2.859582
30057,acogieron,2.042821
30058,paraguas,3.789118
30061,contemplase,3.361674


In [19]:
data_w_lower_idf.idf_.max()

4.0992729524948315

Si tomamos como stopword las palabras que tienen un idf menor a 4,09 eliminariamos 5690 palabras del actual corpus

In [20]:
data_w_lower_idf.palabra.values
len(data_w_lower_idf)

5690

Vamos a utilizar esta ultima tecnica como metodo para seleccionar nuevos stopwords, ademas de los que ya teniamos en el practico 2. Asi que vamos a crear una nueva lista de stopwords que contenga los stopwords viejos y nuevos

In [21]:
tokenizer = RegexpTokenizer(r'\w+')
file_stopwords='stopwords.txt'
f = open (file_stopwords,'r', encoding="utf-8")
stopwords_list=f.read()
stopwords_tokens_list=tokenizer.tokenize(stopwords_list)
stopwords_tokens=stopwords.words('spanish')
stopwords_tokens.extend(stopwords_tokens_list)
stopwords_tokens.extend(data_w_lower_idf.palabra.values) #Aca se agregar los nuevos stopwords
STOPWORDS =set([normalize(word.lower()) for word in stopwords_tokens])


***Limpieza del corpus***

Una vez generado la lista de stopwords extendida a lo que ya teniamos en el practico 2, vamos a generar la funcion de limpieza que tambien habiamos creado en el practico mencionado, repasando los procesamientos mas importantes que aplicabamos:


- Tokenizamos el corpus
- Lo normalizamos, quitando los acentos de las palabras
- Eliminamos las palabras que tienen menos de 3 letras
- Eliminamos los stopwords
- Aplicamos stemming


Ademas de los pasos mencionados, decidimos eliminar los numeros presentes en el corpus con la funcion isalpha().

Una vez aplicado esto pudimos observar que el corpus quedaba lo suficientemente limpio, ya que en el practico 2 se aplicaron bastante tecnicas de preprocesamiento.

In [22]:
def limpieza_curacion(file):
    
    tokenizer = RegexpTokenizer(r'\w+')
    tokens=tokenizer.tokenize(file)

    tokens_normalize = [normalize(word) for word in tokens if word.isalpha()]

    tokens_normalize=[token for token in tokens_normalize if len(token) > cant_letters]

    words = [token for token in tokens_normalize if token not in STOPWORDS]


    spanish_stemmer = SnowballStemmer('spanish')
    tokens_stemm=[spanish_stemmer.stem(word) for word in words]
    return tokens_stemm


In [23]:
clean_corpus= limpieza_curacion(corpus)

In [24]:
random.sample(clean_corpus, 10)

['mil',
 'particul',
 'casacion',
 'sig',
 'premur',
 'ccc',
 'estudi',
 'ocasion',
 'cient',
 'plaz']

***Generacion de Pipeline y entrenamiento***

Para poder facilitar la realizacion del preprocesamiento de los textos, asi como su vectorizacion, entrenamiento y evaluacion se pueden generar pipelines de ejecucion con diferentes steps en donde el output de cada step, es el input del step siguiente. Es importante recalcar que para que diferentes steps funcionen dentro del Pipeline de sklearn que es el que vamos a estar usando, tienen que si o si implementar las funciones **fit** y **transform**

El Pipeline de sklearn permite Aplicar secuencialmente una lista de transformaciones y un estimador final. Los pasos intermedios de la tubería deben ser 'transformaciones', es decir, deben implementar métodos **fit** y **transform**. El estimador final solo necesita implementar el ajuste. Los transformadores en la tubería se pueden almacenar en caché usando memoryargumento.

El propósito de la canalización es ensamblar varios pasos que se pueden validar juntos mientras se establecen diferentes parámetros. Para ello, permite configurar los parámetros de los distintos pasos utilizando sus nombres y el nombre del parámetro separados por un '__', como en el ejemplo siguiente. El estimador de un paso se puede reemplazar por completo configurando el parámetro con su nombre en otro estimador, o se puede eliminar un transformador configurándolo en 'passthrough' o None.

Si queremos mas detalles de la implementacion podemos consultar en el codigo fuente https://github.com/scikit-learn/scikit-learn/blob/2beed5584/sklearn/pipeline.py#L166

In [25]:
X_train, X_test, y_train, y_test=train_test_split(data['texto'], data['fuero'], test_size=0.3, random_state=42)

Teniendo en cuenta la informacion previa, vamos a crear una clase que a cada documento, le aplique la funcion de limpieza y curacion para un primer step del Pipeline, respetando las restricciones propuestas por sklearn de crear el metodo fit y transform

In [26]:
class Normalizer():

    def transform(self, x, y=None):
        resultado=[]
        for i in x:
            resultado.append( ' '.join(limpieza_curacion(i)))
        return resultado

    def fit(self, x, y=None):
        return self
    

***Regresion Logistica***

La regresión logística es un método estadístico que trata de modelar la probabilidad de una variable cualitativa binaria (dos posibles valores) en función de una o más variables independientes. 
La principal aplicación de la regresión logística es la creación de modelos de clasificación binaria.

Regresión logística multinomial es una extensión de la regresión logística que agrega soporte nativo para problemas de clasificación de clases múltiples.

- **Regresión logística binomial:** Regresión logística estándar que predice una probabilidad binomial (es decir, para dos clases) para cada ejemplo de entrada.
- **Regresión logística multinomial:** Versión modificada de la regresión logística que predice una probabilidad multinomial (es decir, más de dos clases) para cada ejemplo de entrada.

***Optimizacion de hiperparametros con GridSearch***

Para la optimizacion de hiperparametros con GridSearch utilizamos como metrica de scoring el F1, debido a que cuando las clases estan desbalanceadas, no se recomienda como buena practica utilizar el accuracy
- penalty: Se utiliza para especificar la norma utilizada en la penalización. (Link con data interesante sobre los penalties l1 y l2 https://towardsdatascience.com/l1-and-l2-regularization-methods-ce25e7fc831c)
- C: Inversa de la fuerza de regularización; debe ser un flotador positivo. Al igual que en las máquinas de vectores de soporte, los valores más pequeños especifican una regularización más fuerte.
- max_iter: Número máximo de iteraciones que se toman para que los solucionadores converjan.
- solver: Algoritmo a utilizar en el problema de optimización.Para conjuntos de datos pequeños, 'liblinear' es una buena opción, mientras que 'sag' y 'saga' son más rápidos para los grandes.Para problemas multiclase, solo 'newton-cg', 'sag', 'saga' y 'lbfgs' manejan la pérdida multinomial; 'liblinear' se limita a esquemas uno versus resto.

In [28]:
%%time
from sklearn.linear_model import LogisticRegression

param_grid = {'model__penalty': ['l1', 'l2', 'none'],
              'model__solver': ['lbfgs', 'liblinear', 'sag', 'saga'],
              'model__C': [0.1, 1, 10],
              'model__max_iter': [5]}

clf = Pipeline([('normalizer', Normalizer()),('TfidfVectorizer', TfidfVectorizer()), ('model',LogisticRegression())])
cv = GridSearchCV(clf, param_grid, scoring = 'f1_macro', refit=True, cv=5, n_jobs = -1)
cv.fit(X_train,y_train)
test_predictions=cv.predict(X_test)
print(classification_report(test_predictions, y_test,zero_division=0))
print('Mejores hiperparametros: ', cv.best_params_)

              precision    recall  f1-score   support

     FAMILIA       1.00      1.00      1.00        37
     LABORAL       1.00      1.00      1.00        11
     MENORES       1.00      1.00      1.00         9
       PENAL       1.00      1.00      1.00        16

    accuracy                           1.00        73
   macro avg       1.00      1.00      1.00        73
weighted avg       1.00      1.00      1.00        73

Mejores hiperparametros:  {'model__C': 0.1, 'model__max_iter': 5, 'model__penalty': 'none', 'model__solver': 'saga'}
Wall time: 25min 40s


*Con optimizacion de hiperparametros el modelo y a la perfeccion al conjunto de test, de acuerdo a lo que podemos ver en los resultado.*

***Descenso de gradiente estocástico(SGD)***

El descenso de gradiente estocástico (SGD) es un enfoque simple pero muy eficiente para ajustar clasificadores y regresores lineales bajo funciones de pérdida convexa como máquinas de vectores de soporte (lineales) y regresión logística.
El SGD se ha aplicado con éxito a los problemas de aprendizaje de las máquinas a gran escala y escasas que se encuentran a menudo en la clasificación de textos y el procesamiento del lenguaje natural.
Estrictamente hablando, SGD es simplemente una técnica de optimización y no corresponde a una familia específica de modelos de aprendizaje automático. Es solo una forma de entrenar a un modelo.

Por ejemplo, usar SGDClassifier(loss='log') da como resultado una regresión logística, es decir, un modelo equivalente a LogisticRegression que se ajusta a través de SGD en lugar de ser ajustado por uno de los otros solucionadores en LogisticRegression.

***Optimizacion de hiperparametros con GridSearch***

Para la optimizacion de hiperparametros con GridSearch utilizamos como metrica de scoring el F1, debido a que cuando las clases estan desbalanceadas, no se recomienda como buena practica utilizar el accuracy

- loss: Se utiliza para especificar la funcion de perdida(”hinge”: Máquina Vectorial de Soporte lineal 'SVM', ”log”: regresión logística).
- learning_rate: Nos dice que tanto actualizamos los pesos en cada iteración. ”constant”: eta = eta0, ”optimal”: eta = 1.0 / (alpha * (t + t0))d onde t0 es elegida por una heurística propuesta por Leon Bottou y por ultimo ”adaptive”: eta = eta0, siempre que el entrenamiento siga disminuyendo. Cada vez que n_iter_no_change épocas consecutivas no logran disminuir la pérdida de entrenamiento en tol o no aumentan la puntuación de validación en tol si early_stopping es True, la tasa de aprendizaje actual se divide por 5. 
- alpha: Constante que multiplica el plazo de regularización. Cuanto mayor sea el valor, más fuerte será la regularización. También se utiliza para calcular la tasa de aprendizaje cuando se establece en learning_rate como ”optimal”.

In [29]:
%%time
from sklearn.linear_model import SGDClassifier
param_dist = {
    'model__loss': [
        'hinge',        # SVM
        'log',          # logistic regression
    ],
    'model__learning_rate':['constant', 'optimal','adaptive'],
    'model__alpha': [0.1,0.5,1,5,10,50]}

clf = Pipeline([('normalizer', Normalizer()),('TfidfVectorizer', TfidfVectorizer()), ('model',SGDClassifier(random_state=42, eta0=0.1))])
cv = GridSearchCV(clf, param_dist, scoring = 'f1_macro', refit=True, cv=5, n_jobs=-1)
cv.fit(X_train,y_train)
test_predictions=cv.predict(X_test)
print(classification_report(test_predictions, y_test,zero_division=0))
print('Mejores hiperparametros: ', cv.best_params_)

              precision    recall  f1-score   support

     FAMILIA       1.00      0.66      0.80        56
     LABORAL       0.91      1.00      0.95        10
     MENORES       0.00      0.00      0.00         0
       PENAL       0.44      1.00      0.61         7

    accuracy                           0.74        73
   macro avg       0.59      0.67      0.59        73
weighted avg       0.93      0.74      0.80        73

Mejores hiperparametros:  {'model__alpha': 0.1, 'model__learning_rate': 'optimal', 'model__loss': 'hinge'}
Wall time: 24min 49s


*Como podemos observar las metricas no fueron las mejores, mas teniendo en cuenta que SVM y regresion logistica (vistas en el practico anterior), nos arrojaron mejores resultados.
Ademas tanto learning_rate como loss, se considero que lo mas optimo sean los valores por defecto. Mientras que el alpha si se aleja bastente de su valor por defecto que es 0.0001*

***Conclusion***

En este trabajo practico, de alguna forma hicimos una iteracion incremental con respecto a los temas que ya habiamos visto en los trabajos practicos anteriores, para mejorar el preprocesamiento de los datos. Algunos de los procesamientos que aplicamos fueron:
- Eliminar los tokens que eran numeros, ya que no consideramos que sean importantes a la hora de clasificar
- Se creo una lista de stopwords propia. A partir de diferentes alternativas contempladas, nos parecio la mas optima la generada a partir de coeficiente proporcionado por TDFIDF.
- Se genero un Pipeline que aplica de manera secuencial, la limpieza de datos, la vectorizacion y la estimacion generada por un modelo dado.

Posterior a esto, probamos entrenar y evaluar con Logistic Regression y SDGClassifier. 
Con Logistic Regression obtuvimos muy buenos resultados tal como habia sucedido en el practico anterior. En cambio con SGDClassifier, no obtuvimos buenas metricas, lo cual podria ser por el desbalanceo de los datos y la cantidad baja de ejemplos (En los fueros donde hay mas archivos, el modelo predice mejor)