# Clasificación de textos

<img src="images/text_classification.png" alt="drawing" width="600"/>

<img src="images/sentiment_analysis.png" alt="drawing" width="600"/>

# Corpus, Vocabulario y extracción de características

En un dataset grande (no tanto), lleva a un representacion sparse (muchos ceros)!! Y esto lleva al problema:

    - Mayor tiempo de entrenamiento.
    - Mayor tiempo para hacer una predicción.

#### Aplicación de métodos probabilísticos (Naive Bayes, suavizado laplaciano, etc)

<img src="images/probs.png" alt="drawing" width="500"/>

# Tokenización (Tokenization)

La tokenización no es mas que separar un texto en unidades mas pequeñas: palabras, subpalabras o caracteres.

### Tokenización en palabras

In [34]:
text = "el machine learning es una rama de estudio de la inteligencia artificial. artificiale es nnn"

token = 'xxtokenraroxx'

In [33]:
text.split()

['el',
 'machine',
 'learning',
 'es',
 'una',
 'rama',
 'de',
 'estudio',
 'de',
 'la',
 'inteligencia',
 'artificial.',
 'artificiale',
 'es',
 'nnn']

**El principal problema es el manejo de palabras fuera del vocabulario. ¿Entonces?**

    - Se puede resolver armando un top de palabras mas frecuentes y tokenizar las palabras mas raras con otro token (el problema acá es que cada palabra "rara" tendra la misma representacion)

### Tokenización en caracteres

In [18]:
text = "maquina"

In [19]:
[x for x in text]

['m', 'a', 'q', 'u', 'i', 'n', 'a']

El texto se descompone en caracteres, se limita el tamaño del vocabulario.

El principal problema que tiene:

    - Es mas dificil aprender relaciones entre caracteres para formar frases significativas.

### Tokenización en subpalabras

In [20]:
text = "maquina"

In [21]:
["ma", "qui", "na"]

['ma', 'qui', 'na']

In [5]:
import spacy

nlp = spacy.load('es_core_news_sm')

text = """me gusta aprender procesamiento de lenguaje natural."""
doc = nlp(text) # Crea un objeto de spacy tipo nlp
tokens = [t.orth_ for t in doc] # Crea una lista con las palabras del texto

In [6]:
tokens

['me', 'gusta', 'aprender', 'procesamiento', 'de', 'lenguaje', 'natural', '.']

# Stemming & Lemmatization

* El ***stemming*** es quitar y reemplazar los sufijos de la raiz de la palabra; llevarla a su raíz.
* El resultado no tiene por que ser una palabra de un idioma.

In [38]:
import nltk
from nltk import SnowballStemmer

In [39]:
stemmer = SnowballStemmer("spanish")

text = """Esta es una oración y debe ser procesada o procesado a la brevedad. Cantar, bailar y escribir. Cantó, bailó y escribió."""

tokens = text.split(' ')

stems = [stemmer.stem(token) for token in tokens]

In [40]:
stems

['esta',
 'es',
 'una',
 'oracion',
 'y',
 'deb',
 'ser',
 'proces',
 'o',
 'proces',
 'a',
 'la',
 'brevedad.',
 'cantar,',
 'bail',
 'y',
 'escribir.',
 'canto,',
 'bail',
 'y',
 'escribio.']

* La ***lemmatizacion*** es llevar una palabra a su forma canónica.
* Ejemplo: escribe -> escribir

In [28]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = """Esta es una oración y debe ser procesada a la brevedad. Cantar, bailar y escribir. Cantó, bailó y escribió."""
doc = nlp(text)
lemmas = [tok.lemma_.lower() for tok in doc]

In [29]:
lemmas

['este',
 'ser',
 'uno',
 'oración',
 'y',
 'deber',
 'ser',
 'procesar',
 'a',
 'el',
 'brevedad',
 '.',
 'cantar',
 ',',
 'bailar',
 'y',
 'escribir',
 '.',
 'cantó',
 ',',
 'bailar',
 'y',
 'escribir',
 '.']