# Tutorial Scikit Learn para trabajar con texto

Scikit Learn, es una de las principales herramientas de Machine Learning, de proposito general, pero no esta especialmente orientada a texto como las anteriores, por lo tanto el objetivo es de este tutoria es explorar algunas de las caracteristicas scikit-learn en relación a tareas de Machine Learning orientadas a texto.

En esta sección veremos cómo:

- Cargar el contenido del archivo y las categorías

- Extraer vectores de características adecuados para el aprendizaje automático

- Entrenar un modelo lineal para realizar la categorización

- Usar una estrategia de búsqueda de cuadrícula para encontrar una buena configuración tanto de los componentes de extracción de características como del clasificador

## Carga de Datos

Para el ejemplo lo primero que haremos sera cargar grupos de noticias de distintas categorias del dataset **fetch_20newsgroups**

In [2]:
categories = ['alt.atheism', 'soc.religion.christian','comp.graphics', 'sci.med']

In [1]:
from sklearn.datasets import fetch_20newsgroups

In [3]:
twenty_train = fetch_20newsgroups(subset='train',categories=categories, shuffle=True, random_state=42)

El objeto **twenty_train** es un objeto contenedor, con distintos campos a los que podemso acceder, como claves de un diccionario, o atributos de un objeto, por ejemplo **target_names**, contiene las categorias que antes selecionamos

In [9]:
twenty_train.target_names

['alt.atheism', 'comp.graphics', 'sci.med', 'soc.religion.christian']

Podemos ver el número de datos

In [10]:
len(twenty_train.data)

2257

Que coincide con el número de ficheros

In [11]:
len(twenty_train.filenames)

2257

Para entender el contenido vamos a mostrar las primeras lineas del fichero cargado

In [16]:
print("\n".join(twenty_train.data[0].split("\n")[:10]))

print(twenty_train.target_names[twenty_train.target[0]])

From: sd345@city.ac.uk (Michael Collier)
Subject: Converting images to HP LaserJet III?
Nntp-Posting-Host: hampton
Organization: The City University
Lines: 14

Does anyone know of a good way (standard PC application/PD utility) to
convert tif/img/tga files into LaserJet III format.  We would also like to
do the same, converting to HPGL (HP plotter) files.

comp.graphics


La categoria o la variable a predecir, se encuentra en el array **twenty_train.target**. Podemos obtener el nombre introduciendo el indice en **twenty_train.target_names[indice]**

In [19]:
for t in twenty_train.target[:10]:
  print(twenty_train.target_names[t])

comp.graphics
comp.graphics
soc.religion.christian
soc.religion.christian
soc.religion.christian
soc.religion.christian
soc.religion.christian
sci.med
sci.med
sci.med


## Obtener BoW

### Tokenización del texto

El procesamiento de texto, la tokenización y el filtrado de Stop Words estan incluidas en la clase **CountVectorizer** de scikit-learn, que crea un diccionario de caracteristicas y transforma los documentos ne vectores de caracteristicas

In [20]:
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data) # Pasamos los datos a vectores de caracteristucas
X_train_counts.shape

(2257, 35788)

La extración ha dado como resultado una matriz dispersa de 2257 filas y 35788 columnas (las palabras)

In [33]:
count_vect.vocabulary_ # Aqui podemos ver que para cada palabra se ha calculado un indice en base a su frecuencia

{'from': 14887,
 'sd345': 29022,
 'city': 8696,
 'ac': 4017,
 'uk': 33256,
 'michael': 21661,
 'collier': 9031,
 'subject': 31077,
 'converting': 9805,
 'images': 17366,
 'to': 32493,
 'hp': 16916,
 'laserjet': 19780,
 'iii': 17302,
 'nntp': 23122,
 'posting': 25663,
 'host': 16881,
 'hampton': 16082,
 'organization': 23915,
 'the': 32142,
 'university': 33597,
 'lines': 20253,
 '14': 587,
 'does': 12051,
 'anyone': 5201,
 'know': 19458,
 'of': 23610,
 'good': 15576,
 'way': 34755,
 'standard': 30623,
 'pc': 24651,
 'application': 5285,
 'pd': 24677,
 'utility': 33915,
 'convert': 9801,
 'tif': 32391,
 'img': 17389,
 'tga': 32116,
 'files': 14281,
 'into': 18268,
 'format': 14676,
 'we': 34775,
 'would': 35312,
 'also': 4808,
 'like': 20198,
 'do': 12014,
 'same': 28619,
 'hpgl': 16927,
 'plotter': 25361,
 'please': 25337,
 'email': 12833,
 'any': 5195,
 'response': 27836,
 'is': 18474,
 'this': 32270,
 'correct': 9932,
 'group': 15837,
 'thanks': 32135,
 'in': 17556,
 'advance': 4378,

[('00', 0),
 ('000', 1),
 ('0000', 2),
 ('0000001200', 3),
 ('000005102000', 4),
 ('0001', 5),
 ('000100255pixel', 6),
 ('00014', 7),
 ('000406', 8),
 ('0007', 9),
 ('000usd', 10),
 ('0010', 11),
 ('001004', 12),
 ('0010580b', 13),
 ('001125', 14),
 ('001200201pixel', 15),
 ('0014', 16),
 ('001642', 17),
 ('00196', 18),
 ('002', 19),
 ('0028', 20),
 ('003258u19250', 21),
 ('0033', 22),
 ('0038', 23),
 ('0039', 24),
 ('004021809', 25),
 ('004158', 26),
 ('004627', 27),
 ('0049', 28),
 ('00500', 29),
 ('005148', 30),
 ('00630', 31),
 ('008561', 32),
 ('0094', 33),
 ('00am', 34),
 ('00index', 35),
 ('00pm', 36),
 ('01', 37),
 ('0100', 38),
 ('010116', 39),
 ('010702', 40),
 ('011255', 41),
 ('011308pxf3', 42),
 ('011605', 43),
 ('011720', 44),
 ('012019', 45),
 ('012536', 46),
 ('012946', 47),
 ('013', 48),
 ('013034', 49),
 ('0131', 50),
 ('013423tan102', 51),
 ('013657', 52),
 ('0138', 53),
 ('013846', 54),
 ('0150', 55),
 ('015518', 56),
 ('01580', 57),
 ('015931', 58),
 ('01720', 59),

In [38]:
count_vect.vocabulary_.items()



### Pasar de ocurrencias a frecuencias

Para calcular la frecuencia relativa de los terminos en los documentos, usamos la tecnica tf-idf, en la que el termino tf, calculara la frecuencia de un determinado termino en el documento, y idf, relativizara esa frecuencia en función de la aparición del termino en otros documentos.

In [43]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

(2257, 35788)

Ahora las palabras estan ya en terminos de frecuencias tf-idf

## Entrenar un clasificador

Dado que ya hemos procesado las entradas de texto, podemos usarlas con los clasificadores

## Clasificación Naive Bayes

Es un clasificador estadístico, la mejor opción dentro del paquete de scikit-learn es el MultinomialNB

In [46]:
from sklearn.naive_bayes import MultinomialNB # Importamos el clasificador  
clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target) # Le pasamos como parámetros de entrenamiento la bolsa de palabras con su frecuencia  tfidf que calculamos antes y la clase objetivo

Con esto ya tenemos entrenado el clasificador, ahora habría que probarlo

In [55]:
docs_new = ['God is love', 'OpenGL on the GPU is fast','Cancer is a dangerous disease']
X_new_counts = count_vect.transform(docs_new)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)
predicted = clf.predict(X_new_tfidf)
for doc, category in zip(docs_new, predicted):
  print('%r => %s' % (doc, twenty_train.target_names[category]))

'God is love' => soc.religion.christian
'OpenGL on the GPU is fast' => comp.graphics
'Cancer is a dangerous disease' => sci.med


### Pipelines

Podemos crear pipelines para realizar todas las tareas que hemos realizado sobre un conjunto de datos. DE esta forma las salidas de un proceso, serán las entradas del siguiente. Por ejemplo

In [58]:
from sklearn.pipeline import Pipeline

text_clf = Pipeline([
  ('vect', CountVectorizer()), # Vectorización
  ('tfidf', TfidfTransformer()), # Transformación a TfidfTransformer
  ('clf', MultinomialNB()), # Entrenamiento del modelo
])

Los nombres vect, tfidfy clf(clasificador) son arbitrarios, solo es para que podamos identificar el proceso facilmente Despues los usaremos para realizar una búsqueda en cuadrícula de los hiperparámetros adecuados a continuación.

Ahora podemos entrenar el modelo con un solo comando:

In [59]:
text_clf.fit(twenty_train.data, twenty_train.target)

Pipeline(steps=[('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),
                ('clf', MultinomialNB())])

Ahora vamos a crear un conjunto de test, y evaluar con el la precisión de el modelo

In [60]:
import numpy as np # Importamos numpy por que lo necesitaremos para calcular la media de aciertos
twenty_test = fetch_20newsgroups(subset='test',categories=categories, shuffle=True, random_state=42) # Vamos a coger un conjunto aleatorio de muestras para test
docs_test = twenty_test.data # Los guardamos en docs_test
predicted = text_clf.predict(docs_test) # Y llamamos al nuestro modelo, para que haga las predicciones a partir del conjunto de test
np.mean(predicted == twenty_test.target) # Calculamos la media de los aciertos

0.8348868175765646

La precisión, es de un 83.48%. No esta mal para empezar

Vamos a probar con otros modelos, a ver si conseguimos mejorar la precisión

### Modelo SVM

In [63]:
from sklearn.linear_model import SGDClassifier # importamos el modelo que queremos usar
text_clf = Pipeline([ # Creamos el Pipeline, para entrenar el modelo
  ('vect', CountVectorizer()), # Vectorización
  ('tfidf', TfidfTransformer()), # Transformación a TfidfTransformer
  ('clf', SGDClassifier(loss='hinge', penalty='l2', # Entrenamiento del modelo, pasandole los hiperparametros
                        alpha=1e-3, random_state=42,
                        max_iter=5, tol=None)),
])

In [64]:
#Entrenamos el modelo
text_clf.fit(twenty_train.data, twenty_train.target)

Pipeline(steps=[('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),
                ('clf',
                 SGDClassifier(alpha=0.001, max_iter=5, random_state=42,
                               tol=None))])

In [65]:
# Predecimos sobre el modelo SVM
predicted = text_clf.predict(docs_test)

In [66]:
# Calculamos la precisión
np.mean(predicted == twenty_test.target)

0.9101198402130493

Claramente hemos mejorado

Vamos a ver el detalle

In [68]:
from sklearn import metrics

In [69]:
print(metrics.classification_report(twenty_test.target, predicted,target_names=twenty_test.target_names))

                        precision    recall  f1-score   support

           alt.atheism       0.95      0.80      0.87       319
         comp.graphics       0.87      0.98      0.92       389
               sci.med       0.94      0.89      0.91       396
soc.religion.christian       0.90      0.95      0.93       398

              accuracy                           0.91      1502
             macro avg       0.91      0.91      0.91      1502
          weighted avg       0.91      0.91      0.91      1502



In [70]:
metrics.confusion_matrix(twenty_test.target, predicted)

array([[256,  11,  16,  36],
       [  4, 380,   3,   2],
       [  5,  35, 353,   3],
       [  5,  11,   4, 378]])

### Búsqueda de hiperpárametros

Parece que podemos concluir, que el modelo SVM funciona mejor que el modelo Naive Bayes, pero, ¿Los hiperparámetros de la Vectorización, del TfidfTransformer y del SGDClassifiertiene son los mejores posibles?

Para saberlo, vamos a definir un espacio de búsqueda en el cual barreremos estos parametros, entre dos rangos, a ver si encontramos los hiperparámetros que hagan que el modelo funcione mejor.

Para la converisión a vectores vamos a probar con unigramas o bigramas
Para tf-idf, vamos a probar con y son idf
Y  para le modelo SVN, vamos a barrer lso distintos posibles del parámetro alpha de penalización entre  0,01 o 0,001

In [72]:
from sklearn.model_selection import GridSearchCV
parameters = {
  'vect__ngram_range': [(1, 1), (1, 2)],
  'tfidf__use_idf': (True, False),
  'clf__alpha': (1e-2, 1e-3),
}

Esta búsqueda sera pesada, pro que necesitara probar con todas las combinaciones en el espacio de busqueda que hemos definido, por lo que intentaremos usar todos los nuecleos de CPU, que esten disponibles. Esto podemos hacerlo dando el valor -1 al parámetro n_jobs.

In [73]:
gs_clf = GridSearchCV(text_clf, parameters, cv=5, n_jobs=-1)

Tambien para tardar menos, realizaremso la búsqueda entrenendo con un conjunto más pequeño de 400 elementos

In [74]:
gs_clf = gs_clf.fit(twenty_train.data[:400], twenty_train.target[:400])

Podemos ver los resultados de el mejor entrenamiento

In [78]:
print(gs_clf.best_score_)
for param_name in sorted(parameters.keys()):
  print("%s: %r" % (param_name, gs_clf.best_params_[param_name]))

0.9175000000000001
clf__alpha: 0.001
tfidf__use_idf: True
vect__ngram_range: (1, 1)


De aqui podemos sacar la conclusión de que:
- Es mejor entrenar con unigramas
- Es mejor usar tfidf
- El mejor valor para alpha es 0.001