# Optimización y Procesos Estocásticos

## Análisis de Texto

El propósito de esta sección es analizar una colección de documentos de textos y clasificarlos de acuerdo a un conjunto establecido de categorias. 

En el siguiente ejemplo se utiliza el conjunto 20 Newsgroups para entrenar un clasificador.  

## Ejemplo

### Cargar el dataset 20 newsgroups

En conjunto de datos está dividido en 20 categorias. Para facilitar la ejecución, solo se cargan las siguientes 4 categorias:

In [36]:
categories = ['alt.atheism', 'soc.religion.christian',
              'comp.graphics', 'sci.med']

Ahora se cargan las categorias seleccionadas a partir del conjunto de datos de entrenamiento `train`:

In [37]:
from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train',
    categories=categories, shuffle=True, random_state=42)

es posible imprimir el nombre de las categorias mediante el atributo `target_names`:

In [5]:
twenty_train.target_names

['alt.atheism', 'comp.graphics', 'sci.med', 'soc.religion.christian']

los datos están almacenados en el atributo `data`

In [22]:
len(twenty_train.data)

2257

cada dato está almacenado en un archivo:

In [24]:
len(twenty_train.filenames)

2257

es posible imprimir las 3 primeras líneas del primer registro:

In [26]:
print("\n".join(twenty_train.data[0].split("\n")[:10]))

From: sd345@city.ac.uk (Michael Collier)
Subject: Converting images to HP LaserJet III?
Nntp-Posting-Host: hampton
Organization: The City University
Lines: 14

Does anyone know of a good way (standard PC application/PD utility) to
convert tif/img/tga files into LaserJet III format.  We would also like to
do the same, converting to HPGL (HP plotter) files.



y el nombre de la categoría a la que pertenece:

In [9]:
print(twenty_train.target_names[twenty_train.target[0]])

comp.graphics


los algoritmos de aprendizaje supervisado requieren una etiqueta de categoría para cada documento en el conjunto de entrenamiento. 

Para mayor eficiencia (velocidad de acceso y almacenamiento), las categorias se guardan como un arreglo de índices que corresponden con el nombre de la categoría en la lista `target_names`:

In [10]:
twenty_train.target[:10]

array([1, 1, 3, 3, 3, 3, 3, 2, 2, 2])

además, es posible obtener el nombre de las categorias por medio de:

In [11]:
for t in twenty_train.target[:10]:
    print(twenty_train.target_names[t])

comp.graphics
comp.graphics
soc.religion.christian
soc.religion.christian
soc.religion.christian
soc.religion.christian
soc.religion.christian
sci.med
sci.med
sci.med


### Extraer características de los archivos de texto

Para aplicar aprendizaje de máquina se debe convertir el contenido de texto en vectores de características numéricas.

#### Bolsa de palabras (Bag of words)

La bolsa de palabras es una forma intuitiva de representar vectores de características. Para constrir una bolsa de palabras, se debe:

1. Asignar un entero a cada palabra presente en el documento del conjunto de entrenamiento (Ej: crear diccionario)

1. Para cada documento `#i`, contar el número de ocurrencias de cada palabra `w` y almacenarla en `X[i, j]` como el valor de la característica `#j`, donde `j` es el índice de la palabra `w` en el diccionario.

#### Tokenizar texto

Procesar texto, tokenizar y filtrar palabras son funciones incluidas  en el módulo que permite construir el diccionario de características.

In [12]:
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data)
X_train_counts.shape

(2257, 35788)

`CountVetorizer()` soporta el conteo de N-gramas de palabras o caracteres consecutivos. Una vez ajustado, el vectorizador construye un diccionario de índices de características.

In [13]:
count_vect.vocabulary_.get(u'algorithm')

4690

el valor del índice de una palabra en el vocabulario está relacionado con su frecuencia en el corpus de entrenamiento.

#### Ocurrencias y frecuencias

El conteo de ocurrencias es un buen inicio pero presenta un problema: los documentos grandes tienen promedios mayores de conteos en relación con documentos más cortos; incluso así traten sobre el mismo tema.

Para evitar este problema se divide el conteo ocurrencias entre el número total de palabras. Esta característica es llamada *Frecuencia de Término* `tr`:

In [14]:
from sklearn.feature_extraction.text import TfidfTransformer

tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)

X_train_tf = tf_transformer.transform(X_train_counts)

X_train_tf.shape

(2257, 35788)

Otro refinamiento de `tr` consite en reducir la escala de los pesos de las palabras presentes en varios documentos y son por lo tanto menos informativas que equellas que ocurren una porción pequeña del corpus.

La reducción de escala es llamada *Frecuencia de Término – Frecuencia Inversa de Documento* `tr-idf`:

In [15]:
tfidf_transformer = TfidfTransformer()

X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

X_train_tfidf.shape

(2257, 35788)

### Entrenar un clasificador

A partir de las características, es posible entrenar un clasificador para predecir la categoría de un post. Para iniciar se utilizará el clasificador *Bayesiano ingenuo*:

In [16]:
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)

Para predecir la salida de un documento nuevo, se debe extraer el vector de características usando la misma secuencia de comandos: 

In [32]:
docs_new = ['God is no love', 'OpenGL on the GPU is fast']

In [33]:
X_new_counts = count_vect.transform(docs_new)
print (X_new_counts)

  (0, 15521)	1
  (0, 18474)	1
  (0, 20537)	1
  (0, 23123)	1
  (1, 14048)	1
  (1, 15628)	1
  (1, 18474)	1
  (1, 23733)	1
  (1, 23790)	1
  (1, 32142)	1


In [34]:
X_new_tfidf = tfidf_transformer.transform(X_new_counts)
print (X_new_tfidf)

  (0, 23123)	0.39402786843718135
  (0, 20537)	0.7439192906079218
  (0, 18474)	0.2351920329081378
  (0, 15521)	0.4858094643096148
  (1, 32142)	0.08911222342423189
  (1, 23790)	0.6004835548758104
  (1, 23733)	0.12841275467883223
  (1, 18474)	0.10034018439702404
  (1, 15628)	0.6778395554688327
  (1, 14048)	0.38138440035334437


In [35]:
predicted = clf.predict(X_new_tfidf)

for doc, category in zip(docs_new, predicted):
    print('%r => %s' % (doc, twenty_train.target_names[category]))

'God is no love' => soc.religion.christian
'OpenGL on the GPU is fast' => comp.graphics


## Referencias

* http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html