# Modelo de Procesamiento Completo

## Procesamiento de Corpus con Clasificación y Query al modelo con nuevas expresiones

En las celdas que siguen desarrollaremos de manera simplificada algunas de las técnicas, algoritmos y consideraciones que hemos trabajado en clase con el objetivo de poder procesar un ***corpus*** de frases previamente etiquetadas, entrenando con eso los modelos de predicción y sometiéndolos a prueba, además de testear con nuevas frases que podremos agregar AdHoc al final.

### Objetivo

Disponemos de una Base de Datos que tiene todas las "Respuestas Posibles" para diferentes preguntas, clasificadas según diferentes atributos:
* **Carrera**
* **Intención**
* **Sub-Intención** (más específica, dentro de la Intención general)
* **W5** (Los cinco tipos de preguntas más frecuentes: Cuándo, Cuánto, Dónde, Qué, Quién)

La intención es poder recibir del usuario una pregunta cualquiera, e identificar en la misma estos atributos. Con esa información (claves) entramos en la Base de Datos y obtenemos la respuesta deseada.

### Consideraciones previas

* **Completitud:** La BD debe contener la respuesta para cada combinación posible de los atributos señalados.


* **Suficiencia de ejemplos para entrenamiento:** debemos contar con suficientes "ejemplos" para poder entrenar el modelo, contando con muchas maneras diferentes de preguntar lo mismo. Esto puede ser total o parcial, es decir: podemos segmentar en diferentes tablas de entrenamiento diferentes maneras de nombrar o referir cada ***Carrera***, en otra tabla diferentes formas de preguntar para establecer una ***Intención*** y ***Sub-Intención***, y en otra tabla diferentes formas de preguntar por cada una de las ***W5***.


* **Evitar el "ruido" en los casos de ejemplo:** si queremos entrenar el reconocimiento de carreras, deberíamos alimentar el modelo con frases sustantivas que refieran a cada carrera, sin otros elementos gramaticales. Una buena manera de hacer esto es extrayendo manualmente las carreras o sus referencias alternativas (pseudosinónimos) de las oraciones de ejemplo de nuestro corpus, entrenando el pronosticador de carrera sólo con los textos limpios. Por ejemplo: si una pregunta dice "Cómo hago para inscribirme en la carrera de Análisis de Sistemas?", deberemos manualmente extraer la subcadena "Análisis de Sistemas" que es la referencia a la carrera en cuestión, y alimentar con esa cadena el conjunto de ejemplos para el modelo: {"Análisis de Sistemas", "INF"}. Los mecanismos de pronóstico se basan en vectores multidimensionales construidos sobre cada término presente en el corpus, por lo que la presencia de términos ajenos a la denominación propiamente dicha de la carrera puede generar falsas identificaciones, en el caso que los ejemplos sean pocos. Por el contrario, si los ejemplos son muchos, la probabilidad de repetición de los términos ajenos a la denominación propiamente dicha es alta, por lo cual, su peso específico será bajo, y por tanto, su impacto en la selección también menor. En este tipo de sistemas, es muy importante ser cuidadosos a la hora de seleccionar los datos con que se alimentarán los modelos. Se cumple aquí, quizá con más fuerza que en otros campos de la IA, la premisa de entrenamiento de los modelos de "garbage in, garbage out".


* **Disponer de "ejemplos balanceados":** Si en la tabla de referencias de Carreras tenemos muchas maneras de referirnos a unas, y muy pocas para referirnos a otra, eso puede contribuir a un entreramiento erróneo de nuestros modelos... Especialmente si utilizamos modelos basados en redes neuronales! Deberemos procurar más sinónimos para equilibrar. No es buena idea repetir términos, pues en vez de favorecer el pronósitico, le quitan peso relativo a las palabras que los constituyen.



### Archivo de datos para clasificación de carreras

El CSV que disponemos tiene sólo 2 columnas: la denominación de la carrera, y su código.
Los siguientes son ejemplos de sus registros:

> **oracion;carrera**
>
> Diseño de Multimedios;MM
>
> Analista de Sistemas;INF
>
> Diseñador Gráfico;DG


Como puede observar, el primero y el tercer registro comparten una palabra muy parecida. Es más, quizá alguien pueda referirse a la carrera de DG como "Diseño Gráfico". Si estableciéramos los vectores con las palabras así, tal cual han sido provistas, el algoritmo probablemente establezca idéntica probabilidad de identificación con ambos registros: con el primero por la palabra "Diseño", y con el tercero por la palabra "Gráfico"!

Para prevenir esto, e incluso resolver diferencias de tipeo, errores involuntarios, etc, sería interesante realizar sobre los textos de éste, nuestro corpus para carreras, algunas tareas de limpieza y normalización, incluyendo y en éste orden:
* Minusculización
* Remoción de tokens que no sean "palabras" (signos de puntuación, dígitos numéricos, secuencias de longitud 1 - las palabras de una sola letra son parte de las StopWords por lo que no tiene sentido identificarlas ni conservarlas-, etc)
* Limpieza de espacios u otros caracteres no alfabéticos antes o después de cada palabra tokenizada
* Corrección de posibles errores de tipeo
* Remoción de StopWords
* Lematización
* Stemming sobre los tokens lematizados

En general, en contextos más amplios, habría que agregar a la lista anterior otros dos:
* Vectorización por n-grams: esto aporta mucho en términos de identificación por secuencias de palabras. Dependiendo del tamaño del corpus, la potencia de cómputo, y la naturaleza del texto a procesar, habrá que definir el rango de n: de 1 a 3 o 4 es razonable, siendo preferibles los n-grams de longitud variable y no fija, es decir, identificar como tokens todas las secuencias de longitud 1, 2 y 3; y no sólo las de longitud 3.

* Adición del POS Tagging de cada palabra en el corpus original al modelo final lematizado y stemmizado. ***Cuidado!*** Eso debe hacerse "al principio" ya que la estructura gramatical completa de cada documento (oración) es fundamental para poder establecer el POS Tagging. Si se pretende sobre los conjuntos ya truncados, los resultados serán erráticos y no sumarán para la identificación.

### Codificación de caracteres y uniformidad en todos los datos a procesar ###

Es fundamental que todas las cadenas del sistema se encuentren codificadas del mismo modo. Desde la versión 3, Python gestiona internamente todas sus cadenas en UTF-8, por lo que resulta conveniente convertir a dicha codificación todos los datos a procesar. Deberemos revisar y eventualente corregir los archivos de datos.



In [1]:
# Codificación
# -*- coding: utf-8 -*-

# Bibliotecas que usaremos
import numpy as np
import pandas as pd
import sklearn
import nltk

In [2]:
# Leemos el archivo de datos
df_textos=pd.read_csv('data_carreras.csv', sep=';', encoding = "utf-8")

In [3]:
# Verificamos su estructura y contenido (correr varias veces esta celda...)
from sklearn.utils import shuffle
shuffle(df_textos).head()

Unnamed: 0,Oración,Carrera
52,"Plan de cuentas, contabiliad, gestión",GCF
176,videojuegos,Svirt
114,Compras y ventas en el exterior,CI
0,Diseño de Multimedios,MM
150,Desarrollo de software,INF


In [4]:
# Generamos el corpus con todas las frases o descriptores de carrera
corpus=df_textos['Oración']

In [5]:
# Visualizamos la Pandas Series...
corpus

0                 Diseño de Multimedios
1                            Multimedia
2                           multi media
3                            mutimedios
4      creación de piezas multimediales
                     ...               
180           desarrollo de videojuegos
181               Diseño de Videojuegos
182                  Creación de juegos
183            Creación de video juegos
184              simulaciones virtuales
Name: Oración, Length: 185, dtype: object

Es muy importante mantener el orden! Jamás deberemos incurrir en procesos de reindexación no controlados pues podemos perder la relación entre las frases y el código de carrera que representan!



### Correcciones de tipeo y posibles diferencias léxicas

En este punto, podemos implementar el Algoritmo de Peter Norvig que hemos estudiado para corregir posibles errores de escritura. Conviene realizarlo sobre el corpus, y al igual que todas las técnicas de normalización que aplicaremos sobre él, deberemos también implementarlas sobre la oración a pronosticar!

Considerando la variedad de datos disponibles (poquísimos!!) no tiene mucho sentido utilizarlo en este caso, pero es una buena práctica de cara a idéntico proceso que realizaremos sobre el corpus más extenso que contiene las preguntas completas, y todavía mucho más utilizarlo sobre la oración o pregunta a pronosticar: podemos, eventualmente, realizar la corrección manual de las cadenas de entrenamiento, pero jamás podremos anticiparnos a cómo, o de qué manera, escribirá el usuario su consulta.

Para la implementación de ese algoritmo, un recurso esencial es el diccionario con frecuencias. Deberemos añadir al mismo todos los términos presentes en este corpus si ha sido adecuadamente corregido, para evitar que alguna palabra del mismo sea sustituida involuntariamente. Para ello, conviene agregarlas con una frecuencia artificial, alta!

Quedará su implementación por su cuenta...


### La carrera de Impresión en 3D: un caso especial###

Es posible que, tanto en el corpus como en las eventuales preguntas a responder al usuario, se refieran a "3D" como "3 D", "3 d", "tres D", "tres dimensiones", "tercer dimensión", etc... En términos generales, algunos de estos casos estarán considerados en la vectorización sin problemas, pero es posible que la separación de "3" y "D" como dos tokens diferentes nos traiga problemas, pues se refieren a una única entidad semántica. Para prevenir esto, deberemos corregir manualmente en el corpus, y también en la cadena de consulta del usuario, la secuencia formada por cualquiera de los casos nombrados, incluyendo n espacios entre "3" o "tres" o "tercera" y "D" o "dimensión" o "dimensiones", reemplazándola en todos los casos por la secuencia "3D". Esta función depuradora debería formar parte de Pipeline de Preprocesamiento que definamos.


In [6]:
import re
def Correccion3D(cadena):
    s1=re.compile(r'(3|tres|tercera|tersera)(\s*)(d|dimension|dimensión|dimensiones|dimencion|dimención|dimenciones)$', re.IGNORECASE)
    s2=re.compile(r'(3|tres|tercera|tersera)(\s*)(d|dimension|dimensión|dimensiones|dimencion|dimención|dimenciones)([^A-ZÁÉÍÓÚa-záéíóú]+)', re.IGNORECASE)
    s=s1.sub(r'3D',cadena)
    s=s2.sub(r'3D\4',s)
    return s

#Probar...
print(Correccion3D(r'3D'))
print(Correccion3D(r'3 D'))
print(Correccion3D(r'Puedo rendir 3 días seguidos'))
print(Correccion3D(r'Impresión 3 d'))
print(Correccion3D(r'Impresión 3 d'))
print(Correccion3D(u'Impresión 3 D y algo más'))
print(Correccion3D(r'Impresión en tErcErA Dimension y algo más'))

3D
3D
Puedo rendir 3 días seguidos
Impresión 3D
Impresión 3D
Impresión 3D y algo más
Impresión en 3D y algo más


In [7]:
# Aplicamos la función a los documentos de nuestro corpus
df_textos['Oración'] = df_textos['Oración'].apply(Correccion3D)
df_textos[df_textos['Oración'].str.contains('3')]


Unnamed: 0,Oración,Carrera
135,3D,3D
136,impresión 3D,3D
137,Diseño e impresión 3D,3D
138,Diseño 3D,3D
139,3D,3D
140,Impresión en impresoras 3D,3D
142,software de edición en 3D,3D


Como puede verse, han quedado tres documentos idénticos: situación que debemos evitar! Deberemos verificar  que no tengamos registros con idéntico texto y diferente categoría, lo cual sería un claro error en los datos... Podemos finalmente eliminar las redundancias!

Pero nos ocuparemos de eso luego de terminar nuestro Pipeline de "Preprocesamiento"

### Otros casos?... ###

Lo mismo deberíamos hacer con la carrera de Analista de Sistemas, que puede ser descripta por su sigla "ASC" con o sin espacios o puntos intermedios...
Queda esto en sus manos!

### Lematizing y Stemming: reducir las palabras a la raíz de su forma genénica ###

Una vez que hemos saneado nuestro conjunto de documentos, tendremos que aplicar tres etapas más del Pipeline de Preprocesamiento:
* Remoción de StopWords
* Lematización
* Stemming

#### Remoción de StopWords ####

Levantamos las StopWords que tenemos precargadas en el archivo **stopwords.txt**

In [8]:
# Levantamos la lista de StopWords que tenemos en el archivo, y la inspeccionamos visualmente
f = open('stopwords.txt', 'r', encoding='utf8')
stopwords = f.read().split('\n')
f.close()
" ".join(stopwords)

'a al algo algún alguna algunas alguno algunos ambos ante aquel aquella aquellas aquello aquellos aun aún aunque cabe cada casi con contra cual cuales cualquiera cuanto cuantos de del demás desde durante e el él ella ellas ello ellos en entre es esa esas ese eso esos esta estas este esto estos haber hacia hasta incluso la las le les lo los mas más me mi mí mía mías mío míos mis muy nada ni ningún ninguna ninguno no nos nosotras nosotros nuestra nuestras nuestro nuestros o os otra otras otro otros para pero por porque pues que qué quien quienes relacionada relacionadas relacionado relacionados relacione según ser si sí sin sino so su sus suya suyas suyo suyos tal también tan tanta tantas tanto tantos te ti tras tu tú tus tuya tuyas tuyo tuyos un una unas uno unos vosotras vosotros vuestra vuestras vuestro vuestros y ya yo   '

In [9]:
# Filtramos la cadena "Oración" para nuestros documentos
# ------------------------------------------------------

oraciones=list(df_textos['Oración'])

oraciones_filtradas = [" ".join([
                          palabra for palabra in oracion.split()
                          if palabra not in stopwords])
                          for oracion in oraciones]
oraciones_filtradas

['Diseño Multimedios',
 'Multimedia',
 'multi media',
 'mutimedios',
 'creación piezas multimediales',
 'desarrollo multimedios',
 'creación multimedia',
 'desarrollo web aplicaciones',
 'creación video audio',
 'edición sonido video',
 'Diseño Gráfico',
 'Gráfico',
 'Artista gráfico',
 'dibujo digital',
 'diseño packaging',
 'diseño envases',
 'diseño piezas gráficas',
 'desarrollo logotipos',
 'creación isologo',
 'desarrollo imagen gráfica',
 'Publicidad',
 'Técnicas publicitarias',
 'Propagandas',
 'Publicista',
 'Agencia Publicidad',
 'Medios publicitarios',
 'Gestión publicidad',
 'Desarrollo imagen publicitaria',
 'Pauta publicitaria',
 'Pauta medios comunicación',
 'Relaciones Públicas Institucionales',
 'Relaciones Públicas',
 'Imagen pública empresa',
 'Gestión relaciones comunidad',
 'Relaciones comunidad',
 'Relaciones públicos internos externos',
 'Agenda medios',
 'Ceremonial protocolo',
 'Organización eventos',
 'Manejo ceremonial, eventos protocolo',
 'Gestión Contable 

No nos preocupamos en esta instancia por minusculizar, quitar acentos, quitar signos de puntuación, etc... pues de eso se encargarán los procesos de Lematización, Stemming, y Vectorización

#### Lematización ####

Podemos usar la funcionalidad de Spacy u otra de las tantas disponibles... Es interesante conservar una lista separada, siguiendo el mismo orden, con los POS_Tags de las palabras, para luego unirlos en el conjunto a vectorizar. En un conjunto de datos como el de este ejemplo no tiene mucho sentido ya que no se trata de "frases completas" que es donde mayor riqueza aporta el cálculo de POS Tagging.

In [10]:
import spacy
nlp=spacy.load('es_core_news_sm')

oraciones_filtradas_lematizadas=[]

for oracion in oraciones_filtradas:
    oracion_lematizada = []
    for palabra in oracion.split():
        doc=nlp(palabra)
        oracion_lematizada.append(doc[0].lemma_)
    oraciones_filtradas_lematizadas.append(" ".join(oracion_lematizada))
    
oraciones_filtradas_lematizadas

['Diseño Multimedios',
 'Multimedia',
 'multi medio',
 'mutimedio',
 'creación pieza multimedial',
 'desarrollo multimedio',
 'creación multimedia',
 'desarrollo web aplicación',
 'creación video audio',
 'edición sonido video',
 'Diseño Gráfico',
 'Gráfico',
 'Artista gráfico',
 'dibujo digital',
 'diseño packaging',
 'diseño envase',
 'diseño pieza gráfico',
 'desarrollo logotipo',
 'creación isologo',
 'desarrollo imagen gráfico',
 'publicidad',
 'Técnicas publicitaria',
 'propaganda',
 'Publicista',
 'Agencia publicidad',
 'Medios publicitario',
 'Gestión publicidad',
 'Desarrollo imagen publicitario',
 'Pauta publicitario',
 'Pauta medio comunicación',
 'Relaciones pública institucional',
 'Relaciones pública',
 'Imagen público empresa',
 'Gestión relación comunidad',
 'Relaciones comunidad',
 'Relaciones público interno externo',
 'Agenda medio',
 'Ceremonial protocolo',
 'Organización evento',
 'Manejo ceremonial evento protocolo',
 'Gestión Contable Financiera',
 'Contabilidad'

#### Stemming ####

Sobre las oraciones cuyas palabras ya fueron filtradas por eventuales errores, y también lematizadas, haremos finalmente un proceso de Stemming para quedarnos con la "raíz" de cada palabra que constituye esas oraciones.
Se recomienda utilizar el Stemmer de Porter en su versión adaptada al castellano, ya que implementa la extracción según nuestras reglas morfológicas generales.

In [11]:
# Importamos el SnowballStemmer

from nltk.stem import SnowballStemmer

spanish_stemmer = SnowballStemmer('spanish')

oraciones_filtradas_lematizadas_stemm=[]

for oracion in oraciones_filtradas_lematizadas:
    oracion_stemm = []
    for palabra in oracion.split():
        oracion_stemm.append(spanish_stemmer.stem(palabra))
    oraciones_filtradas_lematizadas_stemm.append(" ".join(oracion_stemm))
    
oraciones_filtradas_lematizadas_stemm


['diseñ multimedi',
 'multimedi',
 'multi medi',
 'mutimedi',
 'creacion piez multimedial',
 'desarroll multimedi',
 'creacion multimedi',
 'desarroll web aplic',
 'creacion vide audi',
 'edicion son vide',
 'diseñ grafic',
 'grafic',
 'artist grafic',
 'dibuj digital',
 'diseñ packaging',
 'diseñ envas',
 'diseñ piez grafic',
 'desarroll logotip',
 'creacion isolog',
 'desarroll imag grafic',
 'public',
 'tecnic publicitari',
 'propagand',
 'public',
 'agenci public',
 'medi publicitari',
 'gestion public',
 'desarroll imag publicitari',
 'paut publicitari',
 'paut medi comun',
 'relacion public institucional',
 'relacion public',
 'imag public empres',
 'gestion relacion comun',
 'relacion comun',
 'relacion public intern extern',
 'agend medi',
 'ceremonial protocol',
 'organiz event',
 'manej ceremonial event protocol',
 'gestion contabl financ',
 'contabil',
 'administr contabl financ',
 'administr contabl',
 'asistent contabl',
 'asistent contador',
 'gestion contabl',
 'gestion 

#### Juntando las piezas... ####

Ahora que tenemos nuestra lista de oraciones con sus palbras filtradas, lematizadas y stemmizadas, podemos agregarla como columna al DataFrame original, reemplazando las oraciones originales con estas que hemos transformado.

In [12]:
df_textos['Oración'] = oraciones_filtradas_lematizadas_stemm
df_textos

Unnamed: 0,Oración,Carrera
0,diseñ multimedi,MM
1,multimedi,MM
2,multi medi,MM
3,mutimedi,MM
4,creacion piez multimedial,MM
...,...,...
180,desarroll videojueg,Svirt
181,diseñ videojueg,Svirt
182,creacion jueg,Svirt
183,creacion vide jueg,Svirt


### Eliminación de documentos duplicados ###

Ahora sí, llegó el momento de eliminar los documentos duplicados ya que aportarán confusión al modelo, produciendo sesgos en los resultados, overfiting, y demás problemas según cuál o cuáles sean los modelos que utilicemos.



In [13]:
# Extraemos en un df auxiliar las combinaciones de Oración/Carrera que tengamos, contabilizando aquellas que tengan repetidos...
aux_duplicados = df_textos.groupby(['Oración']).filter(lambda x: len(x) > 1).sort_values(by=['Oración','Carrera'])
aux_duplicados

Unnamed: 0,Oración,Carrera
135,3d,3D
139,3d,3D
63,logist,Log
64,logist,Log
96,negoci agricol,Agro
99,negoci agricol,Agro
95,negoci agropecuari,Agro
100,negoci agropecuari,Agro
147,program,INF
148,program,INF


In [14]:
# Saneamos el DataFrame eliminando los duplicados
df_textos = df_textos.drop_duplicates().reset_index(drop=True)
df_textos

Unnamed: 0,Oración,Carrera
0,diseñ multimedi,MM
1,multimedi,MM
2,multi medi,MM
3,mutimedi,MM
4,creacion piez multimedial,MM
...,...,...
173,desarroll videojueg,Svirt
174,diseñ videojueg,Svirt
175,creacion jueg,Svirt
176,creacion vide jueg,Svirt


### Vectorización inicial (BoW) ###

Para la vectorización utilizaremos una función disponible en **sklearn** llamada **CountVectorizer**. 

En términos generales, está muy buena porque se encarga de ejecutar los primeros pasos que delineamos en nuestro algoritmo de manera automática: Minusculización, Remoción de tokens que no sean "palabras" (signos de puntuación, dígitos numéricos, etc), Limpieza de espacios u otros caracteres no alfabéticos antes o después de cada palabra tokenizada... Sin embargo, nosotros hemos realizado ese trabajo como parte de una estrategia más generalista de lematización y stemming, por lo que nos da igual usar este u otro vectorizador de BOW (Bag of Words).

Deberemos probarla para asegurarnos que la secuencia "3D" no se convierta en sólo "D"...

In [15]:
# Reconstruímos el corpus luego de realizadas las acciones de "Preprocesamiento"
corpus=df_textos['Oración']

# Tokenizamos...
from sklearn.feature_extraction.text import CountVectorizer
vectorizador = CountVectorizer(binary=False, ngram_range=(1,2))
X = vectorizador.fit_transform(corpus)
X

<178x340 sparse matrix of type '<class 'numpy.int64'>'
	with 597 stored elements in Compressed Sparse Row format>

In [16]:
# Visualizar la Sparse Matrix generada
A=X.toarray()
for f in A:
    for c in f:
        print(c,end='')
    print('')

0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000001100000000000000000000000000000000000000000000000000000000000000000000000000000000000000

0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100100000000000000000000000000000000000000000000000000000000000000000000000000000000001001000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001000000000000000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000101000000000000000000000000001000000000000000000000000000000000000000000000000000000000
000000000000000000000000000000000000000000000000000000000000000000001000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000110000000000000000000000000000011000000000000000000000000000000000000000000000000000000000000000

0000000000000000000000001000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000110000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000011000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000011000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001000000000000000000000

0100000100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000001100000000000000000000000
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000000000110000000000000000000000000000000000000000000000000000000
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000000000000000000000011000000000000000001100000000000000

0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000001100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000000000000000000110000000000000000000000000000000000000000000000000000000000000000000000000001000000000000100010000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000010000000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000110000000000000000000000000000000000000000000000000010000000000000
1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000000000000000000000000000000000000000011000000000000000000000000000000000000000110000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000011000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000001010000000000000000000000000000000000000000100000000000000000000000000000000000000000000000

### Dimensionalidad de la Matriz Generada ###
Como se puede ver, la matriz generada tiene 77 filas: tantas como documentos (registros leídos del archivo) han sido procesados y filtrados; y tiene tantas columnas como tokens (palabras) se encuentran presentes en dichos documentos y que hayan sobrevidido a los filtros aplicados (stopwords, repetidos post lematización y stemming, etc).

Cuando generamos la matriz anteriormente, pusimos como parámetro del método CountVectorizer que la generara con "unigrams" ( ngram_range=(1,1) ) es decir, que cada palabra fuera un token. 

> vectorizador = CountVectorizer(binary=False, **ngram_range=(1,1)** )

El experimento puede modificarse generardo bigrams, o n-grams variando ese parámetro: los dos números de esa tupla son la cardinalidad mínima y máxima de los ngram a generar. Evidentemente eso modificará la dimensionalidad de la matriz generada, y habrá que investigar su impacto en los resultados posteriores...


### Construir un DataFrame con los datos de la matriz, etiquetando las columnas con el token correspondiente y anexando el documento a cada fila ###

Para poder trabajar con los datos, resultará útil disponerlos en un DataFrame de las caracterísitcas mencionadas.
Podemos acceder la lista de palabras del Diccionario generado con otra función del Vectorizador: **get_features_names()**

In [17]:
vocabulario = vectorizador.get_feature_names()
vocabulario

['3d',
 'administr',
 'administr agropecuari',
 'administr compr',
 'administr contabl',
 'administr empres',
 'administr gerenci',
 'administr personal',
 'administr turist',
 'agenci',
 'agenci public',
 'agenci turism',
 'agend',
 'agend medi',
 'agricol',
 'agricultur',
 'agricultur ganad',
 'agro',
 'agronegoci',
 'agropecuari',
 'almac',
 'almac organiz',
 'almacen',
 'almacen material',
 'ambiental',
 'anal',
 'anal sistem',
 'analisis',
 'analisis impact',
 'aplic',
 'artificial',
 'artificial cienci',
 'artist',
 'artist grafic',
 'asc',
 'asistent',
 'asistent contabl',
 'asistent contador',
 'audi',
 'automatiz',
 'automatiz control',
 'bien',
 'bien servici',
 'big',
 'big dat',
 'braz',
 'braz mecan',
 'bromatolog',
 'bromatolog inspeccion',
 'camp',
 'campañ',
 'campañ vent',
 'ceremonial',
 'ceremonial event',
 'ceremonial protocol',
 'cienci',
 'cienci dat',
 'cientif',
 'cientif dat',
 'circuit',
 'circuit turist',
 'comerci',
 'comerci exterior',
 'comerci internacion

In [18]:
# Cuántas palabras distintas hay en el Vocabulario?
len(vocabulario)

340

In [19]:
# Generamos el DataFrame X
df_X=pd.DataFrame(X.toarray(), columns=vectorizador.get_feature_names())
df_X

Unnamed: 0,3d,administr,administr agropecuari,administr compr,administr contabl,administr empres,administr gerenci,administr personal,administr turist,agenci,...,viaj,viaj turism,vide,vide audi,vide jueg,videojueg,virtual,virtual videojueg,web,web aplic
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
174,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
175,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
176,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,1,0,0,0,0,0


In [26]:
# Finalmente construímos el DataFrame final (df) anexando la matriz a los documentos con su categoría
df_bow=df_textos.join(df_X)
df_bow

Unnamed: 0,Oración,Carrera,3d,administr,administr agropecuari,administr compr,administr contabl,administr empres,administr gerenci,administr personal,...,viaj,viaj turism,vide,vide audi,vide jueg,videojueg,virtual,virtual videojueg,web,web aplic
0,diseñ multimedi,MM,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,multimedi,MM,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,multi medi,MM,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,mutimedi,MM,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,creacion piez multimedial,MM,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,desarroll videojueg,Svirt,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
174,diseñ videojueg,Svirt,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
175,creacion jueg,Svirt,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
176,creacion vide jueg,Svirt,0,0,0,0,0,0,0,0,...,0,0,1,0,1,0,0,0,0,0


In [27]:
# Chequeamos integridad para un caso tomado de ejemplo...
# Vemos qué columnas tienen 1 en una oración de varias palabras (por ejemplo, la de índice 4)
indice=4
for x,y in zip([i for i in df_bow.iloc[indice].index],df_bow.iloc[indice]):
    if y!=0:
        print(x,": ",y)


Oración :  creacion piez multimedial
Carrera :  MM
creacion :  1
creacion piez :  1
multimedial :  1
piez :  1
piez multimedial :  1


### TF * IDF en vez de un simple BOW ###

La biblioteca *sklearn* implementa también, de manera automatizada y muy flexible, el algoritmo para generar la matriz de relación término / documento utilizando TF * IDF (*Term Frequency * Inverse Document Frequency*) en vez de la simple matriz binaria empleada para BOW.

Podemos utilizar directamente el objeto **TfidfVectorizer** para generar la matriz, o en su defecto, si ya tenemos generada la BOW, convertirla con **TfidfTransformer**.

In [28]:
from sklearn.feature_extraction.text import TfidfTransformer

# Construímos el TFIDF Transformer y lo entrenamos con la matriz BOW
tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True) 
tfidf_transformer.fit(X)

# Obtenemos la matriz dispersa de TFIDF
X_tfidf = tfidf_transformer.transform(X)

# Ensamblamos el DataFrame con las columnas de TFIDF precedidas por los documentos y su clase o categoría
df_tfidf = pd.DataFrame(X_tfidf.toarray(), columns=vectorizador.get_feature_names())
df_tfidf = df_textos.join(df_tfidf)
df_tfidf

Unnamed: 0,Oración,Carrera,3d,administr,administr agropecuari,administr compr,administr contabl,administr empres,administr gerenci,administr personal,...,viaj,viaj turism,vide,vide audi,vide jueg,videojueg,virtual,virtual videojueg,web,web aplic
0,diseñ multimedi,MM,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.0
1,multimedi,MM,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.0
2,multi medi,MM,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.0
3,mutimedi,MM,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.0
4,creacion piez multimedial,MM,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,desarroll videojueg,Svirt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.531182,0.000000,0.0,0.0,0.0
174,diseñ videojueg,Svirt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.531182,0.000000,0.0,0.0,0.0
175,creacion jueg,Svirt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.000000,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.0
176,creacion vide jueg,Svirt,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.415573,0.0,0.513489,0.000000,0.000000,0.0,0.0,0.0


In [32]:
# Nuevamente, chequeamos integridad para un caso tomado de ejemplo...
# Vemos qué columnas tienen distinto de 0 en una oración de varias palabras (por ejemplo, la de índice 4)
indice=4
for x,y in zip([i for i in df_tfidf.iloc[indice].index],df_tfidf.iloc[indice]):
    if y!=0:
        print(x,": ",y)


Oración :  creacion piez multimedial
Carrera :  MM
creacion :  0.30423763429165884
creacion piez :  0.5104979627677723
multimedial :  0.5104979627677723
piez :  0.35442199693370785
piez multimedial :  0.5104979627677723


### Modelización ###

In [33]:
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score
from sklearn.model_selection import GridSearchCV

In [34]:
X=df_tfidf.drop(axis=1,columns=['Oración','Carrera'])
y=df_tfidf['Carrera']

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.20,random_state=123)

In [123]:
# Visualizar todo junto (la serie de clases y la matriz dispersa de BOW)
y_train_X_train=pd.DataFrame(y_train).join(X_train)
y_train_X_train

Unnamed: 0,Carrera,3d,administr,administr agropecuari,administr compr,administr contabl,administr empres,administr gerenci,administr personal,administr turist,...,viaj,viaj turism,vide,vide audi,vide jueg,videojueg,virtual,virtual videojueg,web,web aplic
63,Log,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
77,RRHH,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
42,GCF,0.0,0.33404,0.0,0.0,0.486872,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
150,INF,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
10,DG,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17,DG,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
98,Agro,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
66,Log,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
126,MKT,0.0,0.00000,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [142]:
# Probaremos la inferencia del modelo...

# Generar vector para la nueva pregunta:

new_doc = "quiero estudiar algo relacionado con atención al público y las relaciones con la gente"

# OJO!! Esto hay que completarlo con todos los pasos realizados previamente... Conviene definir una función que se ocupe de todo, y reutilizarla aquí.
# Sólo para probar, nos limitaremos a hacer remoción de Stopwords y Stemming

# Generamos el vector BOW para el nuevo término con el vectorizador ya entrenado para todo el corpus
X_new = vectorizador.transform([" ".join([spanish_stemmer.stem(token) for token in new_doc.split() if token not in stopwords])])
X_new


<1x340 sparse matrix of type '<class 'numpy.int64'>'
	with 2 stored elements in Compressed Sparse Row format>

In [146]:
# Generamos el DataFrame para X_new
df_X_new = pd.DataFrame(X_new.toarray(), columns=vectorizador.get_feature_names())


# Chequeamos integridad y pertinencia
print('Términos identificados en la BOW:')
for x,y in zip([i for i in df_X_new.iloc[0].index],df_X_new.iloc[0]):
    if y!=0:
        print(x,": ",y)


# Obtenemos la matriz dispersa de TFIDF
X_tfidf_new = tfidf_transformer.transform(X_new)

# Ensamblamos el DataFrame con las columnas de TFIDF
df_tfidf_new = pd.DataFrame(X_tfidf_new.toarray(), columns=vectorizador.get_feature_names())
df_tfidf_new

# Chequeamos integridad y pertinencia (Ahora con TFIDF)
print('')
print('Términos ponderados en la TFIDF:')
for x,y in zip([i for i in df_tfidf_new.iloc[0].index],df_tfidf_new.iloc[0]):
    if y!=0:
        print(x,": ",y)



Términos identificados en la BOW:
public :  1
relacion :  1

Términos ponderados en la TFIDF:
public :  0.672455674525453
relacion :  0.7401373965680412


In [164]:
print(np.shape(X_tfidf.toarray()))
print(np.shape(X_tfidf_new.toarray()))
X_tfidf.toarray()

(185, 340)
(1, 340)


array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [166]:
# Computamos la "Distancia vectorial" entre el término de búsqueda y las oraciones del corpus
def distancia_coseno(u, v):
    distancia = 1.0 - (np.dot(u, v) / (np.sqrt(sum(np.square(u))) * np.sqrt(sum(np.square(v)))))
    return distancia

#from scipy.sparse import csc_matrix
#from gensim import matutils

#scipy_csc_matrix = matutils.corpus2csc(tfidf_corpus)
#scipy_csc_matrix_query = matutils.corpus2csc([tfidf_query])

#full_matrix=csc_matrix(scipy_csc_matrix).toarray()
#vector_query=csc_matrix(scipy_csc_matrix_query).toarray()
#vector_query=np.concatenate([vector_query, np.array([np.zeros(len(full_matrix)-len(vector_query))],dtype=np.float64).T])

full_matrix  = X_tfidf.toarray()
vector_query = X_tfidf_new.toarray()

resultado = [distancia_coseno(d,vector_query[0]) for d in full_matrix]

dfResultado=pd.DataFrame(resultado, columns=['Distancia']).join(df[['Oración','Carrera']]).sort_values(by='Distancia')

dfResultado

Unnamed: 0,Distancia,Oración,Carrera
31,0.222107,relacion public,RRPP
23,0.327544,public,Pub
20,0.327544,public,Pub
30,0.454322,relacion public institucional,RRPP
35,0.550248,relacion public intern extern,RRPP
...,...,...,...
70,1.000000,optimiz flet transport,Log
71,1.000000,almacen material,Log
72,1.000000,gestion inventari,Log
64,1.000000,logist,Log


Como podemos ver, la "menor" distancia vectorial es la que corresponde al documento más próximo a la query planteada! La **Distancia** será un valor comprendido entre 0 y 1, siendo 0 "exactamente" el mismo vector, y 1 el más lejano.

## Organizando todo: funcionalización del Pipeline de Preprocesamiento, Entrenamiento del Modelo, Query determinista según umbral ##

Hemos visto todo lo necesario, parte por parte. Ahora podemos juntarlo todo en un par de funciones de alto nivel que consumiremos desde la lógica de nuestro programa.

### Pipeline de Preprocesamiento ###

Deberemos cargar las bibliotecas al principio, incluyendo el modelo de Spacy que usaremos para la clasificación de POS Tagging, y también tener en memoria los archivos de referencias, como las stopwords, y las funciones de corrección.

Luego tendremos las dos funciones principales a definir:
- Pipe de preprocesamiento
- Entrenamiento del modelo con el corpus

In [35]:
# Para comenzar desde cero, reseteamos el kernel de Python, liberando todos los objetos creados anteriormente
import IPython
IPython.Application.instance().kernel.do_shutdown(True)

{'status': 'ok', 'restart': True}

In [1]:
# Codificación
# -*- coding: utf-8 -*-

# Bibliotecas que usaremos
import numpy as np
import pandas as pd
import sklearn
import nltk
import re

# Spacy
import spacy
nlp=spacy.load('es_core_news_md')

# Stemmer
from nltk.stem import SnowballStemmer
spanish_stemmer = SnowballStemmer('spanish')

# Levantamos la lista de StopWords
f = open('stopwords.txt', 'r', encoding='utf8')
stopwords = f.read().split('\n')
f.close()


In [2]:
def Correccion3D(cadena):
    s1=re.compile(r'(3|tres|tercera|tersera)(\s*)(d|dimension|dimensión|dimensiones|dimencion|dimención|dimenciones)$', re.IGNORECASE)
    s2=re.compile(r'(3|tres|tercera|tersera)(\s*)(d|dimension|dimensión|dimensiones|dimencion|dimención|dimenciones)([^A-ZÁÉÍÓÚa-záéíóú]+)', re.IGNORECASE)
    s=s1.sub(r'3D',cadena)
    s=s2.sub(r'3D\4',s)
    return s

def CorreccionVideoJuegos(cadena):
    s1=re.compile(r'(video|videos)(\s*)(juego|juegos)$', re.IGNORECASE)
    s=s1.sub(r'videojuego',cadena)
    return s

def PreProcesar(Corpus, POS=False, Lema=True, Stem=True):
    """
    Recibe como parámetro una lista de cadenas. Cada elemento es un documento (oración) del corpus
    a procesar.
    Devuelve una lista de documentos con sus palabras filtradas y transformadas: Cada elemento de 
    la lista devuelta es la cadena correspondiente a la oración original pero transformada según lo
    indiquen los parámetros:
    - POS: Si recibe True agrega a la palabra su POS Tagging. Por ejemplo "inteligencia" se convierte 
           en "inteligencia_noun", "artificial" se convierte en "artificial_adj"
    - Lema: Cada palabra se lematiza previamente.
    - Stem: Se realiza stemming de cada palabra, dejando su raíz y eventualmente su POS.
    """
    
    # Depurar términos posiblemente confusos en las Oraciones
    Corpus = [Correccion3D(oracion) for oracion in Corpus]
    Corpus = [CorreccionVideoJuegos(oracion) for oracion in Corpus]
    
    # Generar una lista de documentos de spacy para tratar el POS Tagging y la Lematización
    docs=[]
    for oracion in Corpus:
        docs.append(nlp(oracion.lower())) #La lematización funciona mejor en minúsculas
    
    # Crear una lista de oraciones, donde cada elemento es una lista de palabras.
    # Cada palabra está definida por una tupla (Texto, POSTag, Lema)
    # Se omiten los tokens que son identificados como signos de puntuación
    oraciones=[]
    for doc in docs:
        oracion=[]
        for token in doc:
            if token.pos_ != 'PUNCT':
                oracion.append((token.text, token.pos_, token.lemma_))
        oraciones.append(oracion)
    
    # Removemos StopWords (finándonos en el lema de cada palabra en vez de su texto!)
    # No conviene quitar las StopWords antes de lematizar pues son útiles para ese proceso...
    oraciones = [[palabra for palabra in oracion if palabra[2] not in stopwords] for oracion in oraciones]
    
    # Stemming
    if Stem==True:
        oraciones_aux=[]
        for oracion in oraciones:
            oracion_aux=[]
            for palabra in oracion:
                p_texto, p_pos, p_lema = palabra
                # Si Lema es True, se Stemmatiza el lema; si no, se Stemmatiza la palabra original
                if Lema==True:
                    oracion_aux.append((p_texto, p_pos, p_lema, spanish_stemmer.stem(p_lema)))
                else:
                    oracion_aux.append((p_texto, p_pos, p_lema, spanish_stemmer.stem(p_texto)))
            oraciones_aux.append(oracion_aux)
        
        oraciones = oraciones_aux
    
    # Finalmente: devolver nuevamente una lista de cadenas como la recibida, pero con el contenido
    # de cada cadena conformado según los parámetros:
    
    Corpus_Procesado = [] #Variable de salida
    
    for doc in oraciones:
        oracion = ''
        for palabra in doc:
            if Stem == True:
                # Devolver cadena de Stemming
                oracion = oracion + palabra[3]
            else:
                if Lema == True:
                    # Devolver cadena de Lemas
                    oracion = oracion + palabra[2]
                else:
                    # Devolver cadena de palabras originales
                    oracion = oracion + palabra[0]
            
            if POS == True:
                #Concatenar POS a cada palabra
                oracion = oracion + '_' + palabra[1].lower()
            
            oracion = oracion + ' '
        
        Corpus_Procesado.append(oracion)
        
    return Corpus_Procesado


def Corregir_Documentos(df_textos, columnas, POS=False, Lema=True, Stem=True):
    """
    Recibe un DataFrame con el corpus clasificado a procesar (típicamente con dos columnas:
    Oración y Categoria)
    Devuelve un DataFrame con la misma estructura pero con sus Oraciones filtradas, corregidas,
    y sin redundancias.
    El parámetro columnas es una lista con los nombres de columnas del df_textos a corregir: se
    itera una por una reemplazándola en el df_textos original.
    Los parámetros POS, Lema y Stem se pasan a su vez al PreProcesador y definen su lógica.
    """
    
    for col in columnas:
        df_textos[col] = PreProcesar(list(df_textos[col]), POS, Lema, Stem)
    
    # Sanear el DataFrame eliminando los duplicados y reindexándolo
    df_textos = df_textos.drop_duplicates().reset_index(drop=True)
    
    return df_textos


def Generar_Matriz_BOW(df_textos, columna, binario=False, ngram=(1,1)):
    """
    Recibe un DataFrame con el corpus etiquetado a procesar (típicamente dos columnas:
    Oración y Categoria). El segundo parámetro indica el nombre de la columna a modelar, o sea,
    la columna que tiene los documentos a escanear para generar la matriz.
    Devuelve un objeto Vectorizador entrenado con la matriz BOW para las oraciones recibidas, y
    también el dataframe recibido al que se añaden tantas columnas como tokens se hayan identificado
    en el proceso de generación de la matriz, etiquetando cada una con el nombre de dicho token,
    y con sus cantidades contabilizadas en la matriz.
    El parámetro binario establece si cuenta cada ocurrencia del token en el documento, o si sólo
    cuenta uno o cero, sin importar cuántas veces esté presente la misma palabra en el documento.
    El parámetro ngram es una tupla (m,n) que establece el tamaño mínimo y máximo de los ngrams
    a considerar. Para tokenizar sólo con palabras individuales pasar (1,1), para sólo bigramas
    pasar (2,2), para sólo trigramas pasar (3,3), para incluir los tres anteriores pasar (1,3).
    """
    
    # Vectorizar, usando CountVectorizer de sklearn.feature_extraction.text
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizador = CountVectorizer(binary=binario, ngram_range=ngram)
    X = vectorizador.fit_transform(df_textos[columna])
    
    # Generar el DataFrame a devolver
    df_X = pd.DataFrame(X.toarray(), columns=vectorizador.get_feature_names())
    df = df_textos.join(df_X)
    
    return vectorizador, df


def Generar_Matriz_Tfidf(df_textos, columna, ngram=(1,1)):
    """
    Recibe un DataFrame con el corpus etiquetado a procesar (típicamente dos columnas:
    Oración y Categoria). El segundo parámetro indica el nombre de la columna a modelar, o sea,
    la columna que tiene los documentos a escanear para generar la matriz.
    Devuelve un objeto Vectorizador entrenado con la matriz Tf*Idf para las oraciones recibidas, y
    también el dataframe recibido al que se añaden tantas columnas como tokens se hayan identificado
    en el proceso de generación de la matriz, etiquetando cada una con el nombre de dicho token,
    y con sus cantidades contabilizadas en la matriz.
    El parámetro ngram es una tupla (m,n) que establece el tamaño mínimo y máximo de los ngrams
    a considerar. Para tokenizar sólo con palabras individuales pasar (1,1), para sólo bigramas
    pasar (2,2), para sólo trigramas pasar (3,3), para incluir los tres anteriores pasar (1,3).
    """
    
    # Vectorizar... Directamente usar aquí el TfidfVectorizer de sklearn en vez del CountVectorizer
    # (Lleva los mismos parámetros y directamente nos devuelve la matriz con los vectores Tf*Idf)
    from sklearn.feature_extraction.text import TfidfVectorizer
    vectorizador = TfidfVectorizer(ngram_range=ngram)
    X = vectorizador.fit_transform(df_textos[columna])
    
    # Generar el DataFrame a devolver
    df_X = pd.DataFrame(X.toarray(), columns=vectorizador.get_feature_names())
    df = df_textos.join(df_X)
    
    return vectorizador, df


def Distancia_Coseno(u, v):
    """
    Recibe dos vectores (de idéntica dimensión, no importa su tamaño)
    Devuelve su distancia coseno: por eso se complementa a 1.
    Interpretación: dos documentos están más próximos mientras más cercano a 0 es su distancia.
    Dos documentos están completamente lejos (no tienen nada en común) si su distancia es 1.
    """
    distancia = 1.0 - (np.dot(u, v) / (np.sqrt(sum(np.square(u))) * np.sqrt(sum(np.square(v)))))
    return distancia


In [3]:
# Probar los modelos...

from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score
from sklearn.model_selection import GridSearchCV

#1. Cargar y corregir el corpus
df_textos = pd.read_csv('data_carreras.csv', sep=';', encoding = "utf-8")
df_textos = Corregir_Documentos(df_textos,['Oración'],False,True,True)

#2. Modelizar los documentos de df_textos
vectorizador, df_textos = Generar_Matriz_Tfidf(df_textos,'Oración',ngram=(1,3))
#vectorizador, df_textos = Generar_Matriz_BOW(df_textos,'Oración')

#3. Separar el corpus en Train/Test
X = df_textos.drop(['Carrera'],axis=1)
y = df_textos[['Carrera']]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=124)
X_train.reset_index(drop=True, inplace=True)
y_train.reset_index(drop=True, inplace=True)
X_test.reset_index(drop=True, inplace=True)
y_test.reset_index(drop=True, inplace=True)

#Auxiliar: Evaluar correspondencia de documentos con sus términos (tokens) obteniendo el TFIDF calculado
_="""
df_prueba=y_train.join(X_train)
for doc_index, doc in df_prueba.iterrows():
    print(doc_index) #Indice
    for col_index, value in doc.items():
        if type(value)==str:
            print(col_index, value)
        else:
            if value!=0:
                print('--> {0:.4f}'.format(value), col_index)
    print()
"""



In [4]:
_="""
#4. Probar con una nueva Query
df_query = pd.DataFrame(['diseño gráfico'],columns=['Oración'])
df_query = Corregir_Documentos(df_query,['Oración'],False,True,True)

#5. Computar la "distancia" entre el vector de la Query y cada vector de documento de la matriz
Q = vectorizador.transform(df_query['Oración'])
array_X = X_train[X_train.columns[1:]].values
distancia = [Distancia_Coseno(Q.A[0],fila) for fila in array_X]
df_Resultado = pd.DataFrame(distancia, columns=['Distancia']).join(X_train[['Oración']]).join(y_train[['Carrera']]).sort_values(by='Distancia')
print(df_Resultado)
"""

### Funciones de Ejecución y Evaluación de los Modelos ###

Estas dos funciones que siguen las utilizamos para ejecutar cada modelo contra el Test Set.
Imprimen en pantalla los resultados y los registran en el DataFrame ***df_comparativa***

In [34]:
# Crear el DataFrame para albergar los resultados de ejecución de cada modelo
df_comparativa = pd.DataFrame(columns=['Modelo','Umbral','Aciertos','Errores','Indeterm','Precision','Recall','Accuracy','F1','df_Aciertos','df_Errores','df_Indeterm'])

In [35]:
# EVALUAR EL MODELO! (Para los restantes, esta funcionalidad será embebida en una función diferente.
# En este caso no se puede porque difiere la lógica de ejecución del modelo: cálculo manual!)

def Evaluar_Modelo_Distancia_Coseno(X_train, X_test, y_test, umbral=0.7):
    # Recorrer todo el Test Set prediciendo para cada oración de X_test y comparando con y_test
    global df_comparativa
    df_test = X_test[['Oración']].join(y_test)
    array_X = X_train[X_train.columns[1:]].values
    lista_distancia = [] #Distancia con el elemento más cercano (predicción)
    lista_predic    = [] #Predicción del elemento más cercano
    lista_similar   = [] #Texto del elemento más cercano
    for test_doc in df_test.iterrows():
        i,d = test_doc
        df_query = pd.DataFrame([d['Oración']],columns=['Oración'])
        Q = vectorizador.transform(df_query['Oración'])
        distancia = [Distancia_Coseno(Q.A[0],fila) for fila in array_X]
        df_Resultado = pd.DataFrame(distancia, columns=['Distancia']).join(X_train[['Oración']]).join(y_train[['Carrera']]).sort_values(by='Distancia').head(1)

        lista_distancia.append(df_Resultado.iloc[0]['Distancia'])
        lista_predic.append(df_Resultado.iloc[0]['Carrera']) 
        lista_similar.append(df_Resultado.iloc[0]['Oración'])

    # Agregar columnas con resultados predichos al df_test
    df_test['Distancia'] = lista_distancia
    df_test['Predic']    = lista_predic
    df_test['Similar']   = lista_similar

    # Evaluar el resultado en df_test
    print('Cantidad de registros evaluados:', len(df_test))
    print('--------------------')
    aciertos = df_test[ ( df_test['Carrera'] == df_test['Predic'] ) & 
                        ( df_test['Distancia'] <= umbral ) ]['Carrera'].count()
    errores  = df_test[ ( df_test['Carrera'] != df_test['Predic'] ) & 
                        ( df_test['Distancia'] <= umbral) ]['Carrera'].count()
    indeterm = df_test[ ( df_test['Distancia'] > umbral) ]['Distancia'].count()
    print('Aciertos:', aciertos)
    print('Errores :', errores)
    print('Indeterm:', indeterm)
    print('--------------------')
    precision = aciertos/(aciertos+errores)
    recall    = aciertos/(aciertos+indeterm)
    accuracy  = (aciertos+indeterm)/(aciertos+errores+indeterm)
    F1        = 2*((precision*recall)/(precision+recall))
    print('Precision: {0:.3f} <- aciertos/(aciertos+errores)'.format(precision))
    print('Recall   : {0:.3f} <- aciertos/(aciertos+indeterm)'.format(recall))
    print('Accuracy : {0:.3f} <- (aciertos+indeterm)/(aciertos+errores+indeterm)'.format(accuracy))
    print('F1       : {0:.3f} <- 2*((precision*recall)/(precision+recall))'.format(F1))

    # Registrar Resultados
    df_comparativa = df_comparativa.append({'Modelo': 'Distancia coseno',
                                            'Umbral': umbral,
                                            'Aciertos': aciertos,
                                            'Errores': errores,
                                            'Indeterm': indeterm,
                                            'Precision': precision,
                                            'Recall': recall,
                                            'Accuracy': accuracy,
                                            'F1': F1,
                                            'df_Aciertos': df_test[ ( df_test['Carrera'] == df_test['Predic'] ) & ( df_test['Distancia'] <= umbral ) ],
                                            'df_Errores' : df_test[ ( df_test['Carrera'] != df_test['Predic'] ) & ( df_test['Distancia'] <= umbral ) ],
                                            'df_Indeterm': df_test[ ( df_test['Distancia'] > umbral ) ]
                                           }, ignore_index=True)
    return

def Evaluar_Modelo(modelo, nombre_modelo, X_test, y_test, umbral=0.7):
    # Recorrer todo el Test Set prediciendo para cada oración de X_test y comparando con y_test
    global df_comparativa
    df_test = X_test[['Oración']].join(y_test)
    lista_predic       = [] #Predicción
    lista_probabilidad = [] #Probabilidad de la predicción
    for test_doc in df_test.iterrows():
        i,d = test_doc
        df_query = pd.DataFrame([d['Oración']],columns=['Oración'])
        Q = vectorizador.transform(df_query['Oración'])
        pronostico = modelo.predict([Q.A[0]])
        probabilidad = modelo.predict_proba([Q.A[0]])
        lista_predic.append(pronostico[0])
        lista_probabilidad.append(probabilidad[0].max())
    
    # Agregar columnas con resultados predichos al df_test
    df_test['Probabilidad'] = lista_probabilidad
    df_test['Predic'] = lista_predic
    
    # Evaluar el resultado en df_test
    print('Cantidad de registros evaluados:', len(df_test))
    print('--------------------')
    aciertos = df_test[ ( df_test['Carrera'] == df_test['Predic'] ) & 
                        ( df_test['Probabilidad'] >= umbral ) ]['Carrera'].count()
    errores  = df_test[ ( df_test['Carrera'] != df_test['Predic'] ) & 
                        ( df_test['Probabilidad'] >= umbral) ]['Carrera'].count()
    indeterm = df_test[ ( df_test['Probabilidad'] < umbral) ]['Probabilidad'].count()
    
    print('Aciertos:', aciertos)
    print('Errores :', errores)
    print('Indeterm:', indeterm)
    print('--------------------')
    precision = aciertos/(aciertos+errores)
    recall    = aciertos/(aciertos+indeterm)
    accuracy  = (aciertos+indeterm)/(aciertos+errores+indeterm)
    F1        = 2*((precision*recall)/(precision+recall))
    print('Precision: {0:.3f} <- aciertos/(aciertos+errores)'.format(precision))
    print('Recall   : {0:.3f} <- aciertos/(aciertos+indeterm)'.format(recall))
    print('Accuracy : {0:.3f} <- (aciertos+indeterm)/(aciertos+errores+indeterm)'.format(accuracy))
    print('F1       : {0:.3f} <- 2*((precision*recall)/(precision+recall))'.format(F1))

    # Registrar Resultados
    df_comparativa = df_comparativa.append({'Modelo': nombre_modelo,
                                            'Umbral': umbral,
                                            'Aciertos': aciertos,
                                            'Errores': errores,
                                            'Indeterm': indeterm,
                                            'Precision': precision,
                                            'Recall': recall,
                                            'Accuracy': accuracy,
                                            'F1': F1,
                                            'df_Aciertos': df_test[ ( df_test['Carrera'] == df_test['Predic'] ) & ( df_test['Probabilidad'] >= umbral ) ],
                                            'df_Errores' : df_test[ ( df_test['Carrera'] != df_test['Predic'] ) & ( df_test['Probabilidad'] >= umbral ) ],
                                            'df_Indeterm': df_test[ ( df_test['Probabilidad'] < umbral ) ]
                                           }, ignore_index=True)
    return

### Modelo: Cálculo de Distancia Vectorial (Coseno) ###

Este modelo "no es un modelo"! Es simplemente el cálculo de la distancia vectorial (coseno) de cada documento respecto de los demás, determinando el más probable por cercanía.
La distancia está medida en coseno, siendo el valor más próximo a 0 (cero) el más cercano, y los valores distantes serán los más cercanos a 1 (uno).

In [58]:
Evaluar_Modelo_Distancia_Coseno(X_train, X_test, y_test, umbral=0.8)

Cantidad de registros evaluados: 36
--------------------
Aciertos: 24
Errores : 5
Indeterm: 7
--------------------
Precision: 0.828 <- aciertos/(aciertos+errores)
Recall   : 0.774 <- aciertos/(aciertos+indeterm)
Accuracy : 0.861 <- (aciertos+indeterm)/(aciertos+errores+indeterm)
F1       : 0.800 <- 2*((precision*recall)/(precision+recall))


### Regresión Logística (sin Regularización) ###

In [39]:
print("Modelo: Regresión Logística sin regularizacion")

from sklearn.linear_model import LogisticRegression

# Crear el modelo con los parámetros que no cambiarán: observar que no le pasamos el valor de C de regulrización
RLog=LogisticRegression(penalty='none', max_iter=10000, tol=0.0001, multi_class='ovr',)

# Armar el diccionario con el nombre y valores para los Hiperparámetros
parametros_RLog = {'C':[1]}

# Armar el GridSearchCV
grid_RLog = GridSearchCV(estimator = RLog,scoring = 'accuracy',param_grid = parametros_RLog, cv = 5,
                        n_jobs = -1)

# Entrenar con el Train Set
grid_RLog.fit(X_train[X_train.columns[1:]].values, y_train);

# Obtener el mejor AC 
AC_RLog_best=grid_RLog.best_score_
print('Mejor accuracy: ' + str(round(AC_RLog_best,4)))

C_RLog_best=grid_RLog.best_params_ 
print('Mejor C: ' + str(C_RLog_best))

Modelo: Regresión Logística sin regularizacion


  return f(**kwargs)


Mejor accuracy: 0.7143
Mejor C: {'C': 1}


In [40]:
Evaluar_Modelo(grid_RLog, 'Regresión Logística Sin Regularización', X_test, y_test, umbral=0.8)

Cantidad de registros evaluados: 36
--------------------
Aciertos: 25
Errores : 5
Indeterm: 6
--------------------
Precision: 0.833 <- aciertos/(aciertos+errores)
Recall   : 0.806 <- aciertos/(aciertos+indeterm)
Accuracy : 0.861 <- (aciertos+indeterm)/(aciertos+errores+indeterm)
F1       : 0.820 <- 2*((precision*recall)/(precision+recall))


### Regresion Logística con Regularización Ridge ###

In [42]:
print("Modelo: Regresión Logística con Regularización Ridge")

from sklearn.linear_model import LogisticRegression

# Creamos el modelo con los parámetros que no cambiarán, observe que no le pasamos el valor de C de regulrización
Log_Ridge=LogisticRegression(penalty='l2', max_iter=20000, multi_class='ovr') 

# Armamos el diccionario con el  nombre y valores para los Hiperparámetros
parametros_Ridge = {'C':[1e-6,1e-5,1e-4,0.001,0.01,0.1,1,10,100,1000,10000]}

# Armamos el GridSearchCV
grid_Ridge = GridSearchCV(estimator = Log_Ridge,param_grid = parametros_Ridge,scoring = 'accuracy', cv = 5, verbose = 1,
                        n_jobs = -1)

# Lo entrenamos en el Train Set (él lo dividirá internamente y en cada fold estarán en ValTrain y ValTest)
grid_Ridge.fit(X_train[X_train.columns[1:]].values, y_train)
# Listo!

# Obtenemos el mejor AC 
AC_Ridge_best=grid_Ridge.best_score_
print("Mejor accuracy: " + str(round(AC_Ridge_best,4)))

C_Ridge_best=grid_Ridge.best_params_ 
print('Mejor C: ' + str(C_Ridge_best))

Modelo: Regresión Logística con Regularización Ridge
Fitting 5 folds for each of 11 candidates, totalling 55 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:    3.6s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    5.1s finished
  return f(**kwargs)


Mejor accuracy: 0.7071
Mejor C: {'C': 10}


In [43]:
Evaluar_Modelo(grid_Ridge, 'Regresión Logística Con Regularización Ridge', X_test, y_test, umbral=0.8)

Cantidad de registros evaluados: 36
--------------------
Aciertos: 0
Errores : 0
Indeterm: 36
--------------------
Precision: nan <- aciertos/(aciertos+errores)
Recall   : 0.000 <- aciertos/(aciertos+indeterm)
Accuracy : 1.000 <- (aciertos+indeterm)/(aciertos+errores+indeterm)
F1       : nan <- 2*((precision*recall)/(precision+recall))


  precision = aciertos/(aciertos+errores)


### Regresion Logística con Regularización Lasso ###

In [45]:
print("Modelo: Regresión Logística con Regularización Lasso")

from sklearn.linear_model import LogisticRegression

# Creamos el modelo con los parámetros que no cambiarán, observe que no le pasamos el valor de C de regulrización
Log_Lasso=LogisticRegression(penalty='l1', solver= 'liblinear', max_iter=10000, tol=0.0001, multi_class='ovr') 

# Armamos el diccionario con el  nombre y valores para los Hiperparámetros
parametros_Lasso = {'C':[1e-6,1e-5,1e-4,0.001,0.01,0.1,1,10,100,1000]}

# Armamos el GridSearchCV
grid_Lasso = GridSearchCV(estimator = Log_Lasso,param_grid = parametros_Lasso,scoring = 'accuracy', cv = 5, verbose = 1,
                        n_jobs = -1)

# Lo entrenamos en el Train Set (él lo dividirá internamente y en cada fold estarán en ValTrain y ValTest)
grid_Lasso.fit(X_train[X_train.columns[1:]].values, y_train)
# Listo!

# Obtenemos el mejor AC 
AC_Lasso_best=grid_Lasso.best_score_
print('Mejor accuracy: ' + str(round(AC_Lasso_best,4)))

C_Lasso_best=grid_Lasso.best_params_ 
print('Mejor C: ' + str(C_Lasso_best))

Modelo: Regresión Logística con Regularización Lasso
Fitting 5 folds for each of 10 candidates, totalling 50 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done  43 out of  50 | elapsed:  1.4min remaining:   13.6s
[Parallel(n_jobs=-1)]: Done  50 out of  50 | elapsed:  1.6min finished
  return f(**kwargs)


Mejor accuracy: 0.5857
Mejor C: {'C': 1000}




In [46]:
Evaluar_Modelo(grid_Lasso, 'Regresión Logística Con Regularización Lasso', X_test, y_test, umbral=0.8)

Cantidad de registros evaluados: 36
--------------------
Aciertos: 22
Errores : 5
Indeterm: 9
--------------------
Precision: 0.815 <- aciertos/(aciertos+errores)
Recall   : 0.710 <- aciertos/(aciertos+indeterm)
Accuracy : 0.861 <- (aciertos+indeterm)/(aciertos+errores+indeterm)
F1       : 0.759 <- 2*((precision*recall)/(precision+recall))


### Random Forest ###

In [48]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

#Creo el modelo
rf=RandomForestClassifier(n_jobs=-1,random_state=123)

#Le paso el modelo al grid search con los parametros
grid_rf= GridSearchCV(estimator=rf, param_grid={'n_estimators':[100,150,200,250,300,400,500]}, cv=5,n_jobs=-1, return_train_score=True)

#Entreno el modelo
grid_rf.fit(X_train[X_train.columns[1:]].values, y_train)

#Obtengo el accuracy del mejor
AC_rf_best=grid_rf.best_score_
print('Mejor accuracy: ' + str(round(AC_rf_best,4)))
    
NroArboles_rf_best = grid_rf.best_params_
print('Mejor Nro arboles: ' + str(NroArboles_rf_best))

  self.best_estimator_.fit(X, y, **fit_params)


Mejor accuracy: 0.6429
Mejor Nro arboles: {'n_estimators': 200}


In [49]:
Evaluar_Modelo(grid_rf, 'Random Forest', X_test, y_test, umbral=0.8)

Cantidad de registros evaluados: 36
--------------------
Aciertos: 4
Errores : 0
Indeterm: 32
--------------------
Precision: 1.000 <- aciertos/(aciertos+errores)
Recall   : 0.111 <- aciertos/(aciertos+indeterm)
Accuracy : 1.000 <- (aciertos+indeterm)/(aciertos+errores+indeterm)
F1       : 0.200 <- 2*((precision*recall)/(precision+recall))


### Evaluación de comparativa de los modelos ###

In [59]:
df_comparativa

Unnamed: 0,Modelo,Umbral,Aciertos,Errores,Indeterm,Precision,Recall,Accuracy,F1,df_Aciertos,df_Errores,df_Indeterm
0,Distancia coseno,0.7,20,3,13,0.869565,0.606061,0.916667,0.714286,Oración Carrera Di...,Oración Carrera Distancia Pred...,Oración Carrera ...
1,Regresión Logística Sin Regularización,0.8,25,5,6,0.833333,0.806452,0.861111,0.819672,Oración Carrera ...,Oración Carrera Probabilid...,Oración Carrera Probabilid...
2,Regresión Logística Con Regularización Ridge,0.8,0,0,36,,0.0,1.0,,"Empty DataFrame Columns: [Oración, Carrera, Pr...","Empty DataFrame Columns: [Oración, Carrera, Pr...",Oración Carrera ...
3,Regresión Logística Con Regularización Lasso,0.8,22,5,9,0.814815,0.709677,0.861111,0.758621,Oración Carrera ...,Oración Carrera Probabilid...,Oración Carrera Proba...
4,Random Forest,0.8,4,0,32,1.0,0.111111,1.0,0.2,Oración Carrera Pr...,"Empty DataFrame Columns: [Oración, Carrera, Pr...",Oración Carrera ...
5,Distancia coseno,0.8,24,5,7,0.827586,0.774194,0.861111,0.8,Oración Carrera ...,Oración Carrera Distancia ...,Oración Carrera Dista...


In [60]:
# Investigar resultados particulares...

df_comparativa.iloc[5].df_Aciertos

Unnamed: 0,Oración,Carrera,Distancia,Predic,Similar
0,desarroll multimedi,MM,0.43441,MM,multimedi
1,agenci turism,TUR,0.478557,TUR,turism
2,administr agropecuari,Agro,0.406046,Agro,agropecuari
3,automatiz control robot,Rob,0.330473,Rob,control robot
4,desarroll recurs human,RRHH,0.286071,RRHH,recurs human
5,impresion 3d,3D,0.318475,3D,diseñ impresion 3d
8,comerci exterior,CI,0.686052,CI,vent exterior
9,marketing,MKT,0.437997,MKT,marketing mercade
10,gestion comerci exterior,CI,0.777634,CI,vent exterior
11,gestion contabl financier,GCF,0.362322,GCF,gestion contabl


In [61]:
df_comparativa.iloc[5].df_Errores

Unnamed: 0,Oración,Carrera,Distancia,Predic,Similar
7,tecnic vent,MKT,0.680446,Pub,tecnic publicitari
20,diseñ piez grafic,DG,0.341007,3D,diseñ piez
23,tecnic ia,IA,0.699248,Pub,tecnic publicitari
34,promocion vent,MKT,0.759692,CI,vent exterior
35,manej vent equip vent,MKT,0.745038,CI,vent exterior


In [62]:
df_comparativa.iloc[5].df_Indeterm

Unnamed: 0,Oración,Carrera,Distancia,Predic,Similar
6,organiz event,RRPP,0.80623,Admin,organiz administr empres
15,comerci internacional,CI,1.0,RRPP,agend medi
18,asc,INF,1.0,RRPP,agend medi
21,import export bien servici,CI,0.810957,TUR,servici turist
25,merchandising,MKT,1.0,RRPP,agend medi
30,gestion campañ vent,MKT,0.8256,CI,vent exterior
32,optimiz flet transport,Log,0.803633,Log,transport almacen


In [75]:
# Comparativa de aciertos entre dos modelos

dfAciertos1 = df_comparativa.iloc[1].df_Aciertos[['Oración','Carrera','Predic']]
dfAciertos2 = df_comparativa.iloc[5].df_Aciertos[['Oración','Carrera','Predic']]
#print(dfAciertos1[(dfAciertos1[['Oración','Carrera','Predic']] == dfAciertos2[['Oración','Carrera','Predic']]).all(axis=1) == False])
print(dfAciertos1)
print(dfAciertos2)

                              Oración Carrera Predic
0                desarroll multimedi       MM     MM
1                      agenci turism      TUR    TUR
2              administr agropecuari     Agro   Agro
3            automatiz control robot      Rob    Rob
4             desarroll recurs human     RRHH   RRHH
5                       impresion 3d       3D     3D
8                   comerci exterior       CI     CI
9                          marketing      MKT    MKT
10          gestion comerci exterior       CI     CI
11         gestion contabl financier      GCF    GCF
12                     import export       CI     CI
13                     gestion rr.hh     RRHH   RRHH
14                       cientif dat       IA     IA
16     relacion public intern extern     RRPP   RRPP
17                            grafic       DG     DG
21        import export bien servici       CI     CI
22  gestion segur incendi plan evacu      HyS    HyS
24         seleccion reclut personal     RRHH 

### Elección del mejor modelo y entrenamiento completo ###

Una vez seleccionado el modelo que mejor ajusta, con sus hiperparámetros y umbral de confianza elegido, podemos entrenarlo con la totalidad de los datos, y grabarlo para luego simplemente usarlo.

In [20]:
# Entrenar el modelo elegido con todos los datos

print("Modelo: Regresión Logística sin regularizacion")

from sklearn.linear_model import LogisticRegression

# Crear el modelo con los parámetros que no cambiarán: observar que no le pasamos el valor de C de regulrización
RLog=LogisticRegression(penalty='none', max_iter=10000, tol=0.0001, multi_class='ovr',)

# Armar el diccionario con el nombre y valores para los Hiperparámetros
parametros_RLog = {'C':[1]}

# Armar el GridSearchCV
grid_RLog = GridSearchCV(estimator = RLog,scoring = 'accuracy',param_grid = parametros_RLog, cv = 5,
                        n_jobs = -1)

# Entrenar con el Data Set Completo!
grid_RLog.fit(X[X.columns[1:]].values, y)

# Obtener el mejor AC 
AC_RLog_best=grid_RLog.best_score_
print('Mejor accuracy: ' + str(round(AC_RLog_best,4)))

C_RLog_best=grid_RLog.best_params_ 
print('Mejor C: ' + str(C_RLog_best))

Modelo: Regresión Logística sin regularizacion


  return f(**kwargs)


Mejor accuracy: 0.7722
Mejor C: {'C': 1}


In [21]:
Evaluar_Modelo(grid_RLog, 'Regresión Logística Sin Regularización', X_test, y_test, umbral=0.8)

Cantidad de registros evaluados: 36
--------------------
Aciertos: 36
Errores : 0
Indeterm: 0
--------------------
Precision: 1.000 <- aciertos/(aciertos+errores)
Recall   : 1.000 <- aciertos/(aciertos+indeterm)
Accuracy : 1.000 <- (aciertos+indeterm)/(aciertos+errores+indeterm)
F1       : 1.000 <- 2*((precision*recall)/(precision+recall))


### Grabar la configuración y entrenamiento de los modelos ###

Podemos grabar en un archivo binario la configuración de los modelos que usaremos, como así también el vectorizador; de esta manera, para poner el sistema en producción no deberemos reentrenar cada vez...

In [22]:
import pickle

# Grabar el modelo elegido
nombre_archivo='modelo_carreras.sav'
pickle.dump(grid_RLog, open(nombre_archivo, 'wb'))

# Grabar el vectorizador
nombre_archivo='vectorizador_carreras.sav'
pickle.dump(grid_RLog, open(nombre_archivo, 'wb'))
