### Universidad Nacional de Córdoba - Facultad de Matemática, Astronomía, Física y Computación

#### Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones 2020

Búsqueda y Recomendación de Textos Legales - Análisis y Curación de Datos

Mentor: Claudio Sarate

Integrantes:
* Clara Quintana
* Ezequiel Juarez
* David Veisaga
* Jorge Pérez 

### Práctico de Introducción al Aprendizaje Automático

El objetivo de este práctico es desarrollar distintos modelos de clasificación para poder evaluar la performance y la exactitud de predicción de cada modelo.

### Requisitos iniciales

El corpus debe estar ya depurado y debe poseer una columna con clases definidas previamente.

Nota: es importante que la cantidad de las distintas clases sea medianamente balanceada para que el entrenamiento sea lo mas eficiente posible.

In [2]:
import sys
import pandas

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, HashingVectorizer
from sklearn.model_selection import train_test_split

In [3]:
# Se verfica entorno de ejecución
in_colab = "google.colab" in sys.modules

if in_colab:
    from google.colab import drive

    drive.mount("/content/drive")
    BASE_DIR = "/content/drive/My Drive/Diplo2020 Mentoria/"
else:
    BASE_DIR = "../"

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /content/drive


In [4]:
train_data = BASE_DIR + "corpus3.csv"
dataset = pandas.read_csv(train_data)
dataset.head()

Unnamed: 0.1,Unnamed: 0,TEXTO,DOCUMENTO,TIPO
0,0,sala electoral comp.originaria tribunal superi...,/content/drive/My Drive/Diplo2020 Mentoria/Dat...,AUTO
1,1,sala electoral comp.originaria tribunal superi...,/content/drive/My Drive/Diplo2020 Mentoria/Dat...,SENTENCIA
2,2,sala electoral comp.originaria tribunal superi...,/content/drive/My Drive/Diplo2020 Mentoria/Dat...,AUTO
3,3,sala electoral comp.originaria tribunal superi...,/content/drive/My Drive/Diplo2020 Mentoria/Dat...,AUTO
4,4,sala electoral comp.originaria tribunal superi...,/content/drive/My Drive/Diplo2020 Mentoria/Dat...,AUTO


In [5]:
dataset['TIPO'].value_counts()

AUTO         125
SENTENCIA     25
Name: TIPO, dtype: int64

### Enunciado del práctico

 ----------------------------------------------------------------------------------------------------------

Transformar el texto en vectores numéricos utilizando scikit-learn. Los procesos de vectorización, clasificación y evaluación de performance pueden ser hechos paso a paso o mediante el uso de pipelines para mayor eficiencia.

Scikit-learn ofrece 3 modelos de vectorización:

* *CountVectorizer*: Convert a collection of text documents to a matrix of token counts
* *TfidfVectorizer*: Convert a collection of raw documents to a matrix of TF-IDF features.
*  *HashingVectorizer*: Convert a collection of text documents to a matrix of token occurrences

Comparamos los 3 modelos usando el primer documento del corpus.

In [None]:
# Texto del primer documento
texto = dataset[0:1].TEXTO

*CountVectorizer*

El recuento de palabras es un buen punto de partida, pero es muy básico. Un problema con los recuentos simples es que algunas palabras como “testamento” aparecerán muchas veces y sus recuentos grandes no serán muy significativos en los vectores codificados.

In [None]:
vectorizer = CountVectorizer()

In [None]:
# tokenizar y construir el vocabulario
vectorizer.fit(texto)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [None]:
# resumen
print(vectorizer.vocabulary_)

{'sala': 663, 'electoral': 321, 'comp': 171, 'originaria': 555, 'tribunal': 741, 'superior': 705, 'protocolo': 598, 'auto': 127, 'nro': 534, 'resolución': 643, 'año': 132, '2018': 21, 'tomo': 728, 'folio': 381, 'expediente': 358, '5897764': 49, 'cooperativa': 216, 'integral': 449, 'provisión': 602, 'servicios': 678, 'públicos': 612, 'vivienda': 760, 'consumo': 203, 'villa': 755, 'carlos': 149, 'paz': 566, 'ltda': 483, 'municipalidad': 518, 'recurso': 625, 'directo': 300, 'numero': 536, 'cordoba': 219, 'vistos': 758, 'caratulados': 148, 'expte': 364, 'sac': 662, 'fs': 384, '145': 7, '155vta': 8, 'comparecen': 172, 'doctores': 308, 'julio': 470, 'isidro': 464, 'altamira': 91, 'gigena': 396, 'carolina': 150, 'representación': 638, 'actora': 67, 'interponen': 453, 'extraordinario': 366, 'federal': 374, 'términos': 744, 'artículo': 116, '14': 6, 'ley': 479, '48': 41, '197': 16, 'emanado': 325, 'fecha': 373, '16': 10, 'septiembre': 675, '2016': 20, 'resolvió': 646, 'declarar': 261, 'inadmisi

In [None]:
# codificador de documentos
vector = vectorizer.transform(texto)

In [None]:
# resumir vector codificado
print(vector.shape)
print(type(vector))
print(vector.toarray())

(1, 767)
<class 'scipy.sparse.csr.csr_matrix'>
[[ 1  5  1  1  2  2  7  2  2  1  3  3  1  3  6  1  2  1  1  1  2  1  1  5
   1  1  1  1  2  1  3  1  1  3  1  2  1  1  1  3  1  5  1  1  1  2  1  4
   5 11  1  1  1  1  1  1  1  1  1  1  1  7  4  1  1  1  2  8  1  3  1  1
   1  1  1  1  1  1  1  1  1  2  2  3  3  1  1  1  4  1  1  2  1  7  1  1
   1  1  2  1  2  1  1  4  1  1  3  1  1  6  1  1  3  1  1  4 14  2  1  1
   1  1  1  1  1  1  1 12  1  1  1  1  1  2  1  1  1  1  1  2  1  1  1  1
   1  1  1  1  1 26  1  1  3  1  6  2  2  1  5  3  2  3  2  2 13  5  5  1
   1  4  1  1  1  1  1  1  1  1  1  3  1  2  1  1  1  1  1  1  4  1  1  1
   1  2  1  1  1  1  1  1  1  4  1  3  1  1  1  1  1  3  1  2  1  1  1  1
   3  2  2  1  1  1  2  1  4  1  1  2  1  1  3  4  1  1  1  1  2  7  1  1
   4  2  1  1  1  1  3  1  3  1  1  4  1  1  1  1  6  1  2  2  1  2  2  3
   5  2  2  1  1  1  1  2  1  2  9  3  1  1  1  1  1  1  1  1  1  1  2  1
   1  3  1  1  2  1  3  1  2  1  1  1  8  2  1  1  2  1  3  3  1 

*TfidfVectorizer*

TF-IDF es un acrónimo que significa Frecuencia de Término – Frecuencia Inversa de Documento que son los componentes de las puntuaciones resultantes asignadas a cada palabra.

* **Término Frecuencia**: Esto resume la frecuencia con la que una palabra dada aparece dentro de un documento.
* **Frecuencia inversa de documentos**: Esto reduce la escala de las palabras que aparecen mucho en los documentos.

El peso que tiene cada palabra ($w_i,_j$) es directamente proporcional a las veces que aparece en el documento ($tf_i,_j$) e inversamente proporcional a las veces que aparece en todos los documentos ($df_i$).

$$ w_i,_j = tf_i,_j * log \frac{N}{df_i} $$

$tf_i,_j$ Frecuencia de la palabra $i$ en el documento $j$.

$df_i$ Número de documentos que contienen la palabra $i$.

$N$ Número total de documentos.


TF-IDF son puntuaciones de frecuencia de palabras que tratan de resaltar las palabras que son más interesantes, por ejemplo, frecuentes en un documento pero no en todos los documentos.

Los recuentos y las frecuencias pueden ser muy útiles, pero una limitación de estos métodos es que el vocabulario puede llegar a ser muy amplio. Esto, a su vez, requerirá grandes vectores para codificar los documentos e impondrá grandes requisitos a la memoria y a los algoritmos de ralentización. 

In [None]:
vectorizer = TfidfVectorizer()

In [None]:
# tokenizar y construir el vocabulario
vectorizer.fit(texto)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

In [None]:
# resumir
print(vectorizer.vocabulary_)
print(vectorizer.idf_)

{'sala': 663, 'electoral': 321, 'comp': 171, 'originaria': 555, 'tribunal': 741, 'superior': 705, 'protocolo': 598, 'auto': 127, 'nro': 534, 'resolución': 643, 'año': 132, '2018': 21, 'tomo': 728, 'folio': 381, 'expediente': 358, '5897764': 49, 'cooperativa': 216, 'integral': 449, 'provisión': 602, 'servicios': 678, 'públicos': 612, 'vivienda': 760, 'consumo': 203, 'villa': 755, 'carlos': 149, 'paz': 566, 'ltda': 483, 'municipalidad': 518, 'recurso': 625, 'directo': 300, 'numero': 536, 'cordoba': 219, 'vistos': 758, 'caratulados': 148, 'expte': 364, 'sac': 662, 'fs': 384, '145': 7, '155vta': 8, 'comparecen': 172, 'doctores': 308, 'julio': 470, 'isidro': 464, 'altamira': 91, 'gigena': 396, 'carolina': 150, 'representación': 638, 'actora': 67, 'interponen': 453, 'extraordinario': 366, 'federal': 374, 'términos': 744, 'artículo': 116, '14': 6, 'ley': 479, '48': 41, '197': 16, 'emanado': 325, 'fecha': 373, '16': 10, 'septiembre': 675, '2016': 20, 'resolvió': 646, 'declarar': 261, 'inadmisi

In [None]:
# documento codificado
vector = vectorizer.transform(texto)

In [None]:
# resumir vector codificado
print(vector.shape)
print(vector.toarray())

(1, 767)
[[0.01092195 0.05460976 0.01092195 0.01092195 0.0218439  0.0218439
  0.07645366 0.0218439  0.0218439  0.01092195 0.03276586 0.03276586
  0.01092195 0.03276586 0.06553171 0.01092195 0.0218439  0.01092195
  0.01092195 0.01092195 0.0218439  0.01092195 0.01092195 0.05460976
  0.01092195 0.01092195 0.01092195 0.01092195 0.0218439  0.01092195
  0.03276586 0.01092195 0.01092195 0.03276586 0.01092195 0.0218439
  0.01092195 0.01092195 0.01092195 0.03276586 0.01092195 0.05460976
  0.01092195 0.01092195 0.01092195 0.0218439  0.01092195 0.04368781
  0.05460976 0.12014147 0.01092195 0.01092195 0.01092195 0.01092195
  0.01092195 0.01092195 0.01092195 0.01092195 0.01092195 0.01092195
  0.01092195 0.07645366 0.04368781 0.01092195 0.01092195 0.01092195
  0.0218439  0.08737562 0.01092195 0.03276586 0.01092195 0.01092195
  0.01092195 0.01092195 0.01092195 0.01092195 0.01092195 0.01092195
  0.01092195 0.01092195 0.01092195 0.0218439  0.0218439  0.03276586
  0.03276586 0.01092195 0.01092195 0.0109

*HashingVectorizer*

Podemos usar un hash de palabras para convertirlas en números enteros. La ventaja de esto, es que permite no tener vocabulario y poder elegir un vector de longitud fija arbitraria. Una desventaja es que el hash es una función unidireccional, por lo que no hay forma de volver a convertir la codificación en una palabra.

La clase HashingVectorizer implementa este enfoque que se puede utilizar para convertir palabras en hash de forma coherente y, a continuación, convertir en token y codificar documentos según sea necesario.

In [None]:
vectorizer = HashingVectorizer(n_features=300)

In [None]:
# documento codificado
vector = vectorizer.transform(texto)

In [None]:
# resumir vector codificado
print(vector.shape)
print(vector.toarray())

(1, 300)
[[-0.046321    0.          0.         -0.01158025 -0.05790125  0.
   0.046321   -0.01158025  0.231605   -0.01158025 -0.01158025  0.
  -0.0231605  -0.0231605  -0.0231605  -0.01158025  0.1621235   0.
   0.0694815   0.         -0.01158025 -0.01158025  0.         -0.08106175
  -0.05790125  0.01158025 -0.05790125  0.15054325 -0.31266675 -0.046321
  -0.01158025  0.          0.01158025  0.0231605   0.         -0.0231605
   0.046321   -0.01158025  0.08106175  0.1621235  -0.0231605   0.01158025
  -0.01158025 -0.0231605  -0.01158025 -0.03474075  0.046321    0.08106175
   0.01158025  0.          0.092642    0.         -0.22002475 -0.03474075
  -0.05790125 -0.046321    0.01158025  0.         -0.0231605   0.01158025
  -0.0231605   0.01158025  0.          0.0231605  -0.046321    0.01158025
  -0.0231605   0.03474075 -0.01158025  0.0231605  -0.046321    0.15054325
   0.          0.01158025  0.         -0.03474075 -0.03474075  0.0231605
   0.03474075  0.01158025  0.0231605   0.          0.0694

Al ejecutar el ejemplo se codifica el documento de muestra como una matriz dispersa de 300 elementos. Los valores del documento codificado corresponden a recuentos de palabras normalizados por defecto en el rango de -1 a 1, pero se pueden hacer recuentos enteros simples cambiando la configuración por defecto.

De los 3 métodos posibles utilizaremos TfidfVectorizer

### Dividir los datos en entrenamiento y validación con un procentaje de 70% para entrenamiento y 30% para validación con shuffle, seleccionar las features X e Y. 

In [7]:
# División entre instancias y etiquetas
X, y = dataset.TEXTO, dataset.TIPO

# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, shuffle=True)

Convertiremos el texto en frecuencias de palabras con TfidfVectorizer

In [8]:
vectorizer = TfidfVectorizer()
vectorizer.fit(X_train)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

 ----------------------------------------------------------------------------------------------------------

### Clasificar utilizando los datos de entrenamiento mediante Logistic Regresion, Naive Bayes, Random Forest y SVM.

 ----------------------------------------------------------------------------------------------------------

### Realizar las predicciones para cada caso generando la matriz de confusión (plotear) y los reportes de performance con valores para precision, recall, f1-score y support.

 ----------------------------------------------------------------------------------------------------------

### Determinar el modelo con mejor performance.

 ----------------------------------------------------------------------------------------------------------

### Probar con y sin shuffle en la partición de los datos y con distintos hiperparámetros para ver si los resultados cambian de acuerdo a si los datos se han mezclado al entrenar y validar o no.

 ----------------------------------------------------------------------------------------------------------

## Conclusiones

 ----------------------------------------------------------------------------------------------------------

### Entrega

Formato de entrega: Deberán utilizar esta notebook con los códigos con los que hicieron el análisis y los anaálisis y conclusiones despues de cada proceso. 

Fecha de entrega: 16/8

 ----------------------------------------------------------------------------------------------------------