### Universidad Nacional de Córdoba - Facultad de Matemática, Astronomía, Física y Computación

#### Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones 2020

Búsqueda y Recomendación de Textos Legales - Análisis y Curación de Datos

Mentor: Claudio Sarate

Integrantes:
* Clara Quintana
* Ezequiel Juarez
* David Veisaga
* Jorge Pérez 

### Práctico de Introducción al Aprendizaje Automático

El objetivo de este práctico es desarrollar distintos modelos de clasificación para poder evaluar la performance y la exactitud de predicción de cada modelo.

### Requisitos iniciales

El corpus debe estar ya depurado y debe poseer una columna con clases definidas previamente.

Nota: es importante que la cantidad de las distintas clases sea medianamente balanceada para que el entrenamiento sea lo mas eficiente posible.

In [None]:
import sys
import pandas

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, HashingVectorizer
from sklearn.model_selection import train_test_split, StratifiedKFold
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn import ensemble
from sklearn import svm
from sklearn.metrics import classification_report, confusion_matrix

#from sklearn.model_selection import train_test_split
#from sklearn.model_selection import cross_val_score, StratifiedKFold
#from sklearn.feature_extraction.text import TfidfVectorizer
#from sklearn.linear_model import LogisticRegression
#from sklearn.metrics import classification_report
#import numpy as np
#import seaborn as sns
#import pandas as pd
#import eli5

In [None]:
# Se verfica entorno de ejecución
in_colab = "google.colab" in sys.modules

if in_colab:
    from google.colab import drive

    drive.mount("/content/drive")
    BASE_DIR = "/content/drive/My Drive/Diplo2020 Mentoria/"
else:
    BASE_DIR = "../"

In [None]:
train_data = BASE_DIR + "corpus3.csv"
dataset = pandas.read_csv(train_data)
dataset.head()

In [None]:
dataset['TIPO'].value_counts()

### Enunciado del práctico

 ----------------------------------------------------------------------------------------------------------

Transformar el texto en vectores numéricos utilizando scikit-learn. Los procesos de vectorización, clasificación y evaluación de performance pueden ser hechos paso a paso o mediante el uso de pipelines para mayor eficiencia.

Scikit-learn ofrece 3 modelos de vectorización:

* *CountVectorizer*: Convert a collection of text documents to a matrix of token counts
* *TfidfVectorizer*: Convert a collection of raw documents to a matrix of TF-IDF features.
*  *HashingVectorizer*: Convert a collection of text documents to a matrix of token occurrences

Comparamos los 3 modelos usando el primer documento del corpus.

In [None]:
# Texto del primer documento
texto = dataset[0:1].TEXTO

*CountVectorizer*

El recuento de palabras es un buen punto de partida, pero es muy básico. Un problema con los recuentos simples es que algunas palabras como “testamento” aparecerán muchas veces y sus recuentos grandes no serán muy significativos en los vectores codificados.

In [None]:
vectorizer_1 = CountVectorizer()

In [None]:
# tokenizar y construir el vocabulario
vectorizer_1.fit(texto)

In [None]:
# resumen
print(vectorizer_1.vocabulary_)

In [None]:
# codificador de documentos
vector_1 = vectorizer_1.transform(texto)

In [None]:
# resumir vector codificado
print(vector_1.shape)
print(type(vector_1))
print(vector_1.toarray())

*TfidfVectorizer*

TF-IDF es un acrónimo que significa Frecuencia de Término – Frecuencia Inversa de Documento que son los componentes de las puntuaciones resultantes asignadas a cada palabra.

* **Término Frecuencia**: Esto resume la frecuencia con la que una palabra dada aparece dentro de un documento.
* **Frecuencia inversa de documentos**: Esto reduce la escala de las palabras que aparecen mucho en los documentos.

El peso que tiene cada palabra ($w_i,_j$) es directamente proporcional a las veces que aparece en el documento ($tf_i,_j$) e inversamente proporcional a las veces que aparece en todos los documentos ($df_i$).

$$ w_i,_j = tf_i,_j * log \frac{N}{df_i} $$

$tf_i,_j$ Frecuencia de la palabra $i$ en el documento $j$.

$df_i$ Número de documentos que contienen la palabra $i$.

$N$ Número total de documentos.


TF-IDF son puntuaciones de frecuencia de palabras que tratan de resaltar las palabras que son más interesantes, por ejemplo, frecuentes en un documento pero no en todos los documentos.

Los recuentos y las frecuencias pueden ser muy útiles, pero una limitación de estos métodos es que el vocabulario puede llegar a ser muy amplio. Esto, a su vez, requerirá grandes vectores para codificar los documentos e impondrá grandes requisitos a la memoria y a los algoritmos de ralentización. 

In [None]:
vectorizer_2 = TfidfVectorizer()

In [None]:
# tokenizar y construir el vocabulario
vectorizer_2.fit(texto)

In [None]:
# resumir
print(vectorizer_2.vocabulary_)
print(vectorizer_2.idf_)

In [None]:
# documento codificado
vector_2 = vectorizer_2.transform(texto)

In [None]:
# resumir vector codificado
print(vector_2.shape)
print(vector_2.toarray())

*HashingVectorizer*

Podemos usar un hash de palabras para convertirlas en números enteros. La ventaja de esto, es que permite no tener vocabulario y poder elegir un vector de longitud fija arbitraria. Una desventaja es que el hash es una función unidireccional, por lo que no hay forma de volver a convertir la codificación en una palabra.

La clase HashingVectorizer implementa este enfoque que se puede utilizar para convertir palabras en hash de forma coherente y, a continuación, convertir en token y codificar documentos según sea necesario.

In [None]:
vectorizer_3 = HashingVectorizer(n_features=300)

In [None]:
# documento codificado
vector_3 = vectorizer_3.transform(texto)

In [None]:
# resumir vector codificado
print(vector_3.shape)
print(vector_3.toarray())

Al ejecutar el ejemplo se codifica el documento de muestra como una matriz dispersa de 300 elementos. Los valores del documento codificado corresponden a recuentos de palabras normalizados por defecto en el rango de -1 a 1, pero se pueden hacer recuentos enteros simples cambiando la configuración por defecto.

De los 3 métodos posibles utilizaremos TfidfVectorizer

### Dividir los datos en entrenamiento y validación con un procentaje de 70% para entrenamiento y 30% para validación con shuffle, seleccionar las features X e Y. 

In [None]:
# División entre instancias vectorizadas y etiquetas
X, y = TfidfVectorizer().fit_transform(dataset["TEXTO"]), dataset["TIPO"]

In [None]:
# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, shuffle=True)

In [None]:
# Dividimos en 5 subgrupos
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)

 ----------------------------------------------------------------------------------------------------------

### Clasificar utilizando los datos de entrenamiento mediante Logistic Regresion, Naive Bayes, Random Forest y SVM.

In [None]:
def calculo_metricas(tn, fp, fn, tp):
    accuracy = 0
    precision = 0
    recall = 0
    f1 = 0

    if (tp + fp + fn + tn) > 0:
        accuracy = (tp + tn) / (tp + fp + fn + tn)
    if (tp + fp) > 0:
        precision = (tp) / (tp + fp) 
    if (tp + fn) > 0:
        recall = (tp) / (tp + fn)
    if (precision + recall) > 0:
        f1 = (2 * precision * recall) / (precision + recall)

    return accuracy, precision, recall, f1

In [None]:
def modelo_LogisticRegretion(X_train, y_train, X_test, y_test):
    model = LogisticRegression(solver='lbfgs')
    model.fit(X_train, y_train)
   
    y_test_pred = model.predict(X_test)
    
    tn, fp, fn, tp = confusion_matrix(y_test, y_test_pred).ravel()

    accuracy, precision, recall, f1 = calculo_metricas(tn, fp, fn, tp)
    
    return tp, fp, tn, fn, accuracy, precision, recall, f1

In [None]:
def modelo_NaiveBayes(X_train, y_train, X_test, y_test):
    model = MultinomialNB()
    model.fit(X_train, y_train)
    
    y_test_pred = model.predict(X_test)
    
    tn, fp, fn, tp = confusion_matrix(y_test, y_test_pred).ravel()
    
    accuracy, precision, recall, f1 = calculo_metricas(tn, fp, fn, tp)
        
    return tp, fp, tn, fn, accuracy, precision, recall, f1

In [None]:
def modelo_RamdomForest(X_train, y_train, X_test, y_test):
    model = ensemble.RandomForestClassifier(random_state=0)
    model.fit(X_train, y_train)
    
    y_test_pred = clf.predict(X_test)
    
    tn, fp, fn, tp = confusion_matrix(y_test, y_test_pred).ravel()
    
    accuracy, precision, recall, f1 = calculo_metricas(tn, fp, fn, tp)
        
    return tp, fp, tn, fn, accuracy, precision, recall, f1    

In [None]:
def modelo_SVM(X_train, y_train, X_test, y_test):
    model = svm.SVC()
    model.fit(X_train, y_train)
    
    y_test_pred = clf.predict(X_test)
    
    tn, fp, fn, tp = confusion_matrix(y_test, y_test_pred).ravel()
    
    accuracy, precision, recall, f1 = calculo_metricas(tn, fp, fn, tp)
        
    return tp, fp, tn, fn, accuracy, precision, recall, f1    

In [None]:
model_list = []
grupo = 0
for train_index, val_index in kf.split(X, y):
    grupo += 1
      
    # Entreno con Logistic Regretion
    tp, fp, tn, fn, accuracy, precision, recall, f1 = modelo_LogisticRegretion(X_train, y_train, X_val, y_val)
    model_list.append([grupo, 'Logistic Regretion', tp, fp, tn, fn, accuracy, precision, recall, f1])

    # Entreno con Naive Bayes
    tp, fp, tn, fn, accuracy, precision, recall, f1 = modelo_NaiveBayes(X_train, y_train, X_val, y_val)
    model_list.append([grupo, 'Naive Bayes', tp, fp, tn, fn, accuracy, precision, recall, f1])

    # Entreno con Random Forest
    tp, fp, tn, fn, accuracy, precision, recall, f1 = modelo_RandomForest(X_train, y_train, X_val, y_val)
    model_list.append([grupo, 'Random Forest', tp, fp, tn, fn, accuracy, precision, recall, f1])

    # Entreno con SVM
    tp, fp, tn, fn, accuracy, precision, recall, f1 = modelo_SVM(X_train, y_train, X_val, y_val)
    model_list.append([grupo, 'SVM', tp, fp, tn, fn, accuracy, precision, recall, f1])


 ----------------------------------------------------------------------------------------------------------

### Realizar las predicciones para cada caso generando la matriz de confusión (plotear) y los reportes de performance con valores para precision, recall, f1-score y support.

 ----------------------------------------------------------------------------------------------------------

### Determinar el modelo con mejor performance.

In [None]:
df = pandas.DataFrame(model_list, columns=['grupo', 'modelo', 'tp', 'fp', 'tn', 'fn', 'accuracy', 'precision', 'recall', 'f1'])
df.sort_values(by='accuracy', ascending=False)

 ----------------------------------------------------------------------------------------------------------

### Probar con y sin shuffle en la partición de los datos y con distintos hiperparámetros para ver si los resultados cambian de acuerdo a si los datos se han mezclado al entrenar y validar o no.

 ----------------------------------------------------------------------------------------------------------

## Conclusiones

 ----------------------------------------------------------------------------------------------------------

### Entrega

Formato de entrega: Deberán utilizar esta notebook con los códigos con los que hicieron el análisis y los anaálisis y conclusiones despues de cada proceso. 

Fecha de entrega: 16/8

 ----------------------------------------------------------------------------------------------------------