Procesamiento del Lenguaje Natural
===
Lab 3 - Procesando Texto y usando SciKit-learn
===
Alumno: Gonzalo Bertinat

Legajo: 160.615-3

Curso: K3572

============================================

El uso de SciKit-learn
===

SciKit-learn es una biblioteca de Python para Machine Learning. Sirve para el procesar textos, mediante el agrupamiento y la clasificación. Incluye la tokenización, el conteo de palabras y el steamming.

Para poder utilizarlo debemos importarlo:

In [1]:
# Importamos scikit learn
import sklearn
# También importamos numPy, lo vamos a necesitar luego
import numpy as np

Algo importante para destacar, es que SciKit Learn interactúa bien con paquetes de visualización como Pyplot.

Veamos un ejemplo en pyplot para visualizar una matriz bidimensonal que representa a una función:

In [2]:
# Importamos pyplot
import matplotlib.pyplot as plt

# Usamos numPy para armar un array tomando puntos x,y en forma de vector [x,y]
data = np.array([[1,2], [2,3], [3,4], [4,5], [5,6]])
# Tomamos los valores de X y de Y
x = data[:,0]
y = data[:,1]

# Armamos el gráfico
plt.scatter(x,y)
plt.grid(True)
# Lo mostramos
plt.show()

<Figure size 640x480 with 1 Axes>

Preprocesamiento de Texto con SciKit-learn
===

Muchas de las aplicaciones de análisis de texto requieren que tomemos un texto, lo tokenizemos, y usemos los tokens como features, posiblemente después de eliminar palabras con lematización y stop words.

Afortunadamente, no es necesario escribir todo este código, ya que SciKit-learn nos hace todo más fácil.
Existe una clase CountVectorizer que se encarga de esto.

Vamos a ver un ejemplo:

In [3]:
# Importamos la clase
from sklearn.feature_extraction.text import CountVectorizer
# Instanciamos
vectorizer = CountVectorizer(min_df=1)

Para representar documentos a procesar vamos a utilizar una colección.
Por ser un primer ejemplo, usamos una lista de cadenas como documentos:

In [4]:
content = ["How to format my hard disk", "Hard disk format problems"]

Con nuestra instancia, podemos extraer una bolsa de palabras de los documentos. Para eso usamos el método fit_transform:

In [5]:
X = vectorizer.fit_transform(content)

fit_transform extrajo siete features de los dos "documentos", si queremos verlas usamos get_feature_names:

In [6]:
vectorizer.get_feature_names()

['disk', 'format', 'hard', 'how', 'my', 'problems', 'to']

También, podemos ver cuántas veces cada una de estas siete features se produce en los dos documentos haciendo:

In [7]:
X.toarray()

array([[1, 1, 1, 1, 1, 0, 1],
       [1, 1, 1, 0, 0, 1, 0]])

Esto devuelve una matriz de dos filas, una por documento. Cada fila tiene siete elementos. Cada elemento representa el número de veces que una feature se produjo en ese documento.

Entonces:

In [8]:
X.toarray()[0]

array([1, 1, 1, 1, 1, 0, 1])

Con esta última operación obtenemos el vector sólo para el primer documento "How to format my hard disk", que contiene todas las features, excepto "problems".

Ahora si queremos la cantidad de veces que aparece la palabra 'hard' en el segundo documento:

In [9]:
X.toarray()[1,2]

1

Ahora vamos a ver cómo funciona esta librería pero con una verdadera colección de documentos.

Vamos a utilizar el dataset '20 Newsgroups', que es una colección de alrededor de 20.000 documentos procedentes de 20 grupos de noticias diferentes, que se usa comúnmente en experimentos de clasificación y agrupación de texto.

In [10]:
# Importamos el dataset
from sklearn.datasets import fetch_20newsgroups

# Para no extender demasiado el lab, usaremos sólo un subconjunto de los documentos
# Más precisamente, 4 categorías
categories = ['alt.atheism','soc.religion.christian','comp.graphics','sci.med']

Podemos importar los documentos pertenecientes a las categorías de la siguiente manera:

In [11]:
twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)

Los archivos quedan cargados en el atributo 'data' del objeto twenty_train. 

Vamos a crear un nuevo objeto CountVectorizer:

In [12]:
# Como hicimos antes, importamos y luego instanciamos
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

Vamos a hacer lo mismo de antes. Usaremos la función fit_transform para tokenizar los documentos, identificar palabras relevantes, y crear una representación vectorial en que las palabras son features y el valor de estas features es el número de ocurrencias de cada palabra en un documento:

In [13]:
# Invocamos a fit_transform
train_counts = vectorizer.fit_transform(twenty_train.data)

Por ejemplo, si queremos ver la frecuencia de la palabra 'algorithm' dentro del subconjunto que elegimos de la colección 20Newsgroups haremos lo siguiente:

In [14]:
vectorizer.vocabulary_.get('algorithm')

4690

Para ver cuántos features fueron extraídos, usamos la función get_feature_names() de antes, pero pedimos su longitud:

In [15]:
# Recordamos: con len() pedimos la longitud de una lista
len(vectorizer.get_feature_names())

35788

Punto y aparte, la clase CountVectorizer también puede hacer más procesamiento previo de una colección que simples tokenizaciones.

Una importante etapa de preprocesamiento adicional es la eliminación de "stop words", que son las palabrás más comúnes y puntuaciones de algún idioma.

Podemos hacer esto de la siguiente forma:



In [16]:
# Instanciamos la clase, pero pasandole de parámetro el idioma
# que queremos que tenga en cuenta para ignorar Stop Words.
Vectorizer = CountVectorizer(stop_words = 'english')

Para ver qué palabras son Stop Words, hacemos lo siguiente:

In [17]:
# Usamos el método get_stop_words()
# En este caso lo ordenamos, y luego pedimos las primeras 20 posiciones
sorted(Vectorizer.get_stop_words())[:20]

['a',
 'about',
 'above',
 'across',
 'after',
 'afterwards',
 'again',
 'against',
 'all',
 'almost',
 'alone',
 'along',
 'already',
 'also',
 'although',
 'always',
 'am',
 'among',
 'amongst',
 'amoungst']

Si quisieramos hacer stemming (obtener la palabra raíz) y un pre-procesamiento más avanzado, necesitamos complementar a SciKit-learn con NLTK.

Vamos a ello...

Pre-procesamiento más avanzado con NLTK
===

NLTK es una biblioteca que ya usamos en los labs anteriores.

Es compatible con la mayoria de los tipos de procesamiento previo, y es una biblioteca mucho más grande que SciKit-learn, ya que incluye su propia implementación de muchos algoritmos de aprendizaje automático.

Para importarlo, como siempre:

In [18]:
import nltk

El steamming en NLTK incluye implementaciones de varios algoritmos muy conocidos y utilizados, como el Porter Stemmer y el Lancaster Stemmer.

Vamos a ver como crear un stemmer de Inglés:

In [19]:
s = nltk.stem.SnowballStemmer('english')

Luego de instanciarlo, pidamos la raíz de algunas palabras:

In [20]:
# Con el método stem, nos devuelve el steam de cada palabra
s.stem("cats")

'cat'

In [21]:
s.stem("loving")

'love'

Otros tipos de pre-procesamiento de NLTK incluyen implementaciones de muchos de los módulos de procesamiento previo y analizadores sintácticos que discutimos en las clases:
- Identificadores de idioma
- Tokenizers para varios idiomas
- Divisores de oraciones
- POS taggers
- Chunkers
- Parsers

Además, NLTK incluye implementaciones para NER (Named Entity Recognition), análisis de sentimientos y extracción de información de redes sociales.

Por ejemplo, el código siguiente nos permite tokenizar una frase y luego usarla de input en un POS tagger:

In [22]:
# Importamos el tokenizer
from nltk.tokenize import word_tokenize
# Tokenizamos una frase
text = word_tokenize("And now for something completely different")
# Ejecutamos el POS tagger
nltk.pos_tag(text)

[('And', 'CC'),
 ('now', 'RB'),
 ('for', 'IN'),
 ('something', 'NN'),
 ('completely', 'RB'),
 ('different', 'JJ')]

La integración del Steammer de NLTK con CountVectorizer de SciKit-learn:
===

El steammer de NLTK puede ser utilizado antes de alimentar a CountVectorizer de SciKit, obteniendo un índice más compacto.

Es decir, convertimos todas las palabras de los documentos primero a su raíz (steam) y luego van como input del CountVectorizer

Una forma de hacer esto es definir una clase nueva que herede de CountVectorizer y redefinir el método build_analyzer(). Este método toma un string como entrada y retorna una lista de tokens.

Veamos como trabaja originalmente:


In [23]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(stop_words='english')
analyze = vectorizer.build_analyzer()
analyze("John bought carrots and potatoes")

['john', 'bought', 'carrots', 'potatoes']

NOTA: Vemos como se ignoró la palabra "and" ya que esta vez tuvimos en cuenta las Stop Words!

Vamos a crear la clase y a sobreescribir el método:

In [24]:
import nltk.stem
english_stemmer = nltk.stem.SnowballStemmer('english')

# Definición de la clase
class StemmedCountVectorizer(CountVectorizer):
    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizer,self).build_analyzer()
        # Aplicamos el Steammer de NLTK a la salida del build_analyzer
        return lambda doc: (english_stemmer.stem(w) for w in analyzer(doc))

Ahora instanciamos nuestra clase:

In [25]:
stem_vectorizer = StemmedCountVectorizer(min_df=1, stop_words='english')
stem_analyze = stem_vectorizer.build_analyzer()

Ahora veamos la lista de tokens que nos retonra nuestro build_analyzer:

In [26]:
Y = stem_analyze("John bought carrots and potatoes")
for token in Y:
    print(token)

john
bought
carrot
potato


Se puede ver como "carrots" y "potatoes" pasaron a su versión en singular, "carrot" y "potato" respectivamente, es decir, sus steams.

Ahora usemos este nuevo Vectorizer personalizado para extraer features para el subconjunto del dataset 20_Newsgroups que consideramos antes. Se espera tener un número menor de features:

In [27]:
# Importamos el dataset
from sklearn.datasets import fetch_20newsgroups
# Definimos las categorías para el subset
categories = ["alt.atheism","soc.religion.christian","comp.graphics","sci.med"]
# Pedimos un subset
twenty_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42)
# Aplicamos el dataset al Stem Vectorizer
stem_vectorizer.fit_transform(twenty_train.data)
# Pedimos la cantidad de features obtenidos
train_counts = len(stem_vectorizer.get_feature_names())
# Mostramos esa cantidad
print(train_counts)

26888


Podemos ver que el número se redujo ampliamente respecto de  las 35788 features obtenidas antes sin el Steamming. Esto se debe a que varias palabras pueden tener como raíz la misma palabra, por lo que se tiene en cuenta en la implementación personalizada solo a la raíz y no a sus palabras derivadas.

Implementación personalizada de NLTK para CountVectoirzer que haga steam y stopwords del idioma español y dos ejemplos de oracionetrain_counts s usando esa clase:
LINK: --