# Clasificación de texto con Spacy

El texto es una fuente de información extremadamente rica. Cada minuto, las personas envían cientos de millones de nuevos correos electrónicos y mensajes de texto. Hay una verdadera montaña de datos de texto que esperan ser extraídos para obtener información. Pero los científicos de datos que desean obtener el significado de todos esos datos de texto enfrentan un desafío: es difícil de analizar y procesar porque existe en forma no estructurada.

En este tutorial, veremos cómo podemos transformar todos esos datos de texto no estructurados en algo más útil para el análisis y el procesamiento del lenguaje natural, utilizando el útil paquete de Python spaCy.

Una vez que hayamos hecho esto, podremos derivar patrones y temas significativos de los datos de texto. Esto es útil en una amplia variedad de aplicaciones de ciencia de datos: filtrado de spam, tickets de soporte, análisis de redes sociales, publicidad contextual, revisión de comentarios de los clientes y más.

Específicamente, vamos a echar un vistazo de alto nivel al procesamiento del lenguaje natural (PNL). Luego, analizaremos algunas de las operaciones básicas importantes para limpiar y analizar datos de texto con spaCy. Luego nos sumergiremos en la clasificación de texto, específicamente en la Clasificación de regresión logística, utilizando algunos datos del mundo real (reseñas de texto del altavoz inteligente para el hogar Alexa de Amazon).

## ¿Qué es el procesamiento de lenguaje natural?
El procesamiento del lenguaje natural (PNL) es una rama del aprendizaje automático que se ocupa del procesamiento, el análisis y, a veces, la generación del habla humana ("lenguaje natural").

No hay duda de que los humanos siguen siendo mucho mejores que las máquinas para determinar el significado de una cadena de texto. Pero en ciencia de datos, a menudo nos encontramos con conjuntos de datos que son demasiado grandes para ser analizados por un humano en un período de tiempo razonable. También podemos encontrar situaciones en las que no hay humanos disponibles para analizar y responder a una entrada de texto. En estas situaciones, podemos usar técnicas de procesamiento de lenguaje natural para ayudar a las máquinas a comprender el significado del texto (y, si es necesario, responder en consecuencia).

Por ejemplo, el procesamiento del lenguaje natural se usa ampliamente en el análisis de sentimientos, ya que los analistas a menudo intentan determinar el sentimiento general a partir de grandes volúmenes de datos de texto que requerirían mucho tiempo para que los humanos lo revisen. También se utiliza en la coincidencia de anuncios: determina el tema de un cuerpo de texto y asigna un anuncio relevante automáticamente. Y se usa en chatbots, asistentes de voz y otras aplicaciones donde las máquinas necesitan comprender y responder rápidamente a las entradas que vienen en forma de lenguaje humano natural.

## Análisis y procesamiento de texto con **spaCy**
`spaCy` es una biblioteca de procesamiento de lenguaje natural de código abierto para Python. Está diseñado especialmente para uso en producción y puede ayudarnos a crear aplicaciones que procesen volúmenes masivos de texto de manera eficiente. Primero, echemos un vistazo a algunas de las tareas analíticas básicas que `SpaCy` puede manejar.

### Tokenización de texto
La tokenización es el proceso de dividir el texto en pedazos, llamados tokens, e ignorar caracteres como signos de puntuación (,. "‘) y espacios. El tokenizador de spaCy toma la entrada en forma de texto unicode y genera una secuencia de objetos token.

Veamos un ejemplo simple. Imagine que tenemos el siguiente texto y nos gustaría tokenizarlo:

> ¿Cuáles son las mejores películas de la historia del cine? Las imprescindibles, las icónicas, las que todo cinéfilo debería ver. La respuesta a esa pregunta puede cambiar mucho dependiendo a quién se pregunte.

Hay un par de formas diferentes en que podemos abordar esto. El primero se llama **tokenización** de palabras, lo que significa dividir el texto en palabras individuales. Este es un paso crítico para muchas aplicaciones de procesamiento de lenguaje, ya que a menudo requieren entrada en forma de palabras individuales en lugar de cadenas de texto más largas.

En el siguiente código, importaremos spaCy y su modelo en español, y le diremos que procesaremos nuestro lenguaje natural utilizando ese modelo. Luego asignaremos nuestra cadena de texto a `text`. Usando `nlp(text)`, procesaremos ese texto en spaCy y asignaremos el resultado a una variable llamada `my_doc`.

En este punto, nuestro texto ya ha sido tokenizado, pero spaCy almacena el texto tokenizado como un documento, y nos gustaría verlo en forma de lista, por lo que crearemos un bucle `for` que itera a través de nuestro documento, agregando cada palabra token que encuentra en nuestra cadena de texto a una lista llamada `token_list` para que podamos ver mejor cómo se tokenizan las palabras.

In [2]:
# Importar librería y modelo de español
import spacy
nlp = spacy.load("es_core_news_sm")

In [3]:
# Abrir archivo de texto
with open("ElHombreInvisible.txt", encoding="utf8") as f:
    text = f.read()

# El objeto "nlp" se usa para crear documentos con anotaciones lingüísticas
my_doc = nlp(text)

# Crea lista de tokens
token_list = [token for token in my_doc]
print(token_list)

[La, nueva, versión, de, El, hombre, invisible, tiene, un, concepto, brillante, y, una, ejecución, irregular, ., Pero, tiene, un, concepto, brillante, ,, algo, no, tan, común, en, el, cine, fantástico, y, de, terror, contemporáneo, (, valioso, por, otras, razones, ), ,, que, de, alguna, manera, arrasa, con, todo, ., La, película, de, Leigh, Whannell, ,, y, esta, vez, tiene, mucho, sentido, hablar, de, “, la, película, de, ”, porque, estamos, ante, una, de, las, voces, más, estimulantes, del, cine, de, género, actual, (, recuperen, su, magnífico, thriller, de, ciencia, ficción, Upgrade, ), ,, cambian, el, enfoque, y, el, planteamiento, del, relato, original, ., Esta, versión, no, está, narrada, desde, el, punto, de, vista, del, monstruo, ,, aquí, presentado, –, antes, de, su, transición, a, Hombre, Invisible, –, como, un, poderoso, magnate, de, la, óptica, ., Está, narrada, desde, el, punto, de, vista, de, su, víctima, ,, su, pareja, (, una, magnífica, Elisabeth, Moss, ), ,, a, la, que,

Como podemos ver, spaCy produce una lista que contiene cada token como un elemento separado.

Primero necesitamos cargar diccionarios de idiomas. Aquí, en un ejemplo, estamos cargando el diccionario de español usando `spacy.load("es_core_news_sm")` y creando un objeto nlp `nlp`. El objeto "nlp" se utiliza para crear documentos con anotaciones lingüísticas y varias propiedades nlp. Después de crear el documento, estamos creando una lista de tokens.

Si queremos, también podemos dividir el texto en oraciones en lugar de palabras. Esto se llama **tokenización de oraciones**. Al realizar la tokenización de oraciones, el tokenizador busca caracteres específicos que se encuentran entre oraciones, como puntos, signos de exclamación y caracteres de nueva línea. Para la tokenización de oraciones, usaremos una tubería de preprocesamiento (pipeline) porque el preprocesamiento de oraciones usando spaCy incluye un tokenizador, un etiquetador, un analizador y un reconocedor de entidad al que debemos acceder para identificar correctamente qué es una oración y qué no.

En el siguiente código, spaCy tokeniza el texto y crea un objeto Doc. Este objeto Doc utiliza el etiquetador de componentes, el analizador y el reconocedor de entidades de nuestro pipeline de preprocesamiento para dividir el texto en componentes. Desde este pipeline podemos extraer cualquier componente, pero aquí vamos a acceder a los tokens de oración usando el componente `sentencizer`.

In [4]:
# Crea el pipeline "sentencizer"
sbd = nlp.create_pipe("sentencizer")

# Añade el componente al pipeline
nlp.add_pipe(sbd)

# Crea lista de tokens de oración
oracion_list = [oracion for oracion in my_doc.sents]
oracion_list

[La nueva versión de El hombre invisible tiene un concepto brillante y una ejecución irregular.,
 Pero tiene un concepto brillante, algo no tan común en el cine fantástico y de terror contemporáneo (valioso por otras razones), que de alguna manera arrasa con todo.,
 La película de Leigh Whannell, y esta vez tiene mucho sentido hablar de “la película de” porque estamos ante una de las voces más estimulantes del cine de género actual (recuperen su magnífico thriller de ciencia ficción Upgrade), cambian el enfoque y el planteamiento del relato original.,
 Esta versión no está narrada desde el punto de vista del monstruo, aquí presentado –antes de su transición a Hombre Invisible– como un poderoso magnate de la óptica.,
 Está narrada desde el punto de vista de su víctima, su pareja (una magnífica Elisabeth Moss), a la que maltrata tanto antes como una vez convertido en villano incorpóreo.
 ,
 El hombre invisible va más allá del cine de terror que capta el sentir del momento.,
 No es cine m

Nuevamente, spaCy ha analizado correctamente el texto en el formato que queremos, esta vez generando una lista de oraciones encontradas en nuestro texto fuente.

## Limpieza de datos de texto: eliminación de *Stopwords*
La mayoría de los datos de texto con los que trabajamos contendrán muchas palabras que en realidad no nos son útiles. Estas palabras, llamadas ***stopwords***, son útiles en el habla humana, pero no tienen mucho que aportar al análisis de datos. Eliminar las palabras vacías nos ayuda a eliminar el ruido y la distracción de nuestros datos de texto y también acelera el tiempo que toma el análisis (ya que hay menos palabras para procesar).

Echemos un vistazo a las palabras vacías que SpaCy incluye de forma predeterminada. Importaremos spaCy y asignaremos las palabras vacías en su modelo en español a una variable llamada spacy_stopwords para que podamos echar un vistazo.

In [5]:
# Importar las palabras vacías del lenguaje español
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS

# Imprimir el número total de palabras vacías
print("Número de palabras vacías: {}".format(len(spacy_stopwords)))

# Imprimir las palabras vacías
print(spacy_stopwords)

Número de palabras vacías: 551
{'próximos', 'estuvo', 'cuál', 'más', 'esta', 'la', 'tus', 'emplean', 'hicieron', 'principalmente', 'tarde', 'mío', 'estados', 'aun', 'muchos', 'tres', 'consigue', 'diferente', 'hago', 'nuevos', 'asi', 'estan', 'mí', 'suyas', 'ya', 'hay', 'haceis', 'ninguno', 'adelante', 'arriba', 'partir', 'por', 'va', 'actualmente', 'pasado', 'da', 'trabajas', 'otro', 'ambos', 'el', 'posible', 'deprisa', 'conseguimos', 'vamos', 'hacer', 'hace', 'ningunos', 'bien', 'poder', 'ésas', 'tenía', 'cuatro', 'otras', 'detrás', 'podriamos', 'aún', 'dias', 'quizás', 'tercera', 'trabajais', 'cuanta', 'alrededor', 'bueno', 'fuera', 'ti', 'usais', 'dijeron', 'sin', 'existen', 'usamos', 'ampleamos', 'supuesto', 'algún', 'queremos', 'saber', 'vuestro', 'ser', 'yo', 'mientras', 'igual', 'estaba', 'enfrente', 'mucha', 'fin', 'intentas', 'no', 'buen', 'usa', 'mis', 'hoy', 'mal', 'ver', 'llevar', 'cuando', 'te', 'solo', 'cada', 'mia', 'trata', 'cierta', 'siete', 'trabaja', 'ocho', 'cuáles'

Como podemos ver, la lista predeterminada de palabras vacías en español de spaCy incluye 551 entradas totales y cada entrada es una sola palabra. También podemos ver por qué muchas de estas palabras no serían útiles para el análisis de datos.

Si quisiéramos, también podríamos crear nuestra propia lista personalizada de palabras clave. Pero para nuestros propósitos en este tutorial, la lista predeterminada que proporciona spaCy estará bien.

### Eliminar palabras vacías de nuestros datos
Ahora que tenemos nuestra lista de palabras vacías, usémosla para eliminar las palabras vacías en el texto en el que estábamos trabajando.

spaCy incluye un montón de [atributos de token útiles](https://spacy.io/usage/rule-based-matching#adding-patterns-attributes) y usaremos uno de ellos llamado `is_stop` para identificar palabras que no están en la lista de palabras clave y luego las agregaremos a nuestra lista `oraciones_filter`.

In [6]:
oraciones_filter = [word for word in my_doc if not word.is_stop]
print(oraciones_filter)

[versión, hombre, invisible, concepto, brillante, y, ejecución, irregular, ., concepto, brillante, ,, común, cine, fantástico, y, terror, contemporáneo, (, valioso, razones, ), ,, arrasa, ., película, Leigh, Whannell, ,, y, sentido, hablar, “, película, ”, voces, estimulantes, cine, género, actual, (, recuperen, magnífico, thriller, ciencia, ficción, Upgrade, ), ,, cambian, enfoque, y, planteamiento, relato, original, ., versión, narrada, punto, vista, monstruo, ,, presentado, –, transición, a, Hombre, Invisible, –, poderoso, magnate, óptica, ., narrada, punto, vista, víctima, ,, pareja, (, magnífica, Elisabeth, Moss, ), ,, a, maltrata, convertido, villano, incorpóreo, ., 

, hombre, invisible, allá, cine, terror, capta, sentir, ., cine, metafórico, ,, contrario, :, cine, extremadamente, concreto, ., propuesta, Whannell, película, terror, encierra, alegoría, violencia, machista, ., película, violencia, machista, pone, artillería, cine, terror, servicio, expresión, sufrimiento, y, miedo

No es demasiado difícil ver por qué las palabras vacías pueden ser útiles. Eliminarlas ha reducido nuestro texto original a un número bastante menor de palabras que nos dan una buena idea de lo que están expresando las oraciones.

## Normalización de léxico
La normalización del léxico es otro paso en el proceso de limpieza de datos de texto. En general, la normalización convierte las características de alta dimensión en características de baja dimensión que son apropiadas para cualquier modelo de aprendizaje automático. Para nuestros propósitos aquí, solo vamos a ver la **lematización**, una forma de procesar palabras que las reduce a sus raíces.

### Lematización
La lematización es una forma de lidiar con el hecho de que, si bien palabras como *conexión*, *conectar*, *conectando*, *conectado*, etc. no son exactamente lo mismo, todas tienen el mismo significado esencial: *conectar*. Las diferencias en la ortografía tienen funciones gramaticales en el lenguaje hablado, pero para el procesamiento automático, esas diferencias pueden ser confusas, por lo que necesitamos una forma de cambiar todas las palabras que son *formas* de la palabra *conectar* a la palabra *conectar* a sí misma.

Un método para hacer esto se llama ***stemming***. El stemming implica simplemente cortar prefijos y sufijos fácilmente identificables para producir lo que a menudo es la versión más simple de una palabra (raiz). Este tipo de truncado simple a menudo es todo lo que se necesita, pero la lematización, que en realidad analiza las palabras y sus raíces (llamadas lemas) como se describe en el diccionario, es más precisa (siempre que las palabras existan en el diccionario).

Dado que spaCy incluye una forma integrada de dividir una palabra en su lema, simplemente podemos usar eso para la lematización. En el siguiente ejemplo muy simple, usaremos `.lemma_` para producir el lema para cada palabra que estamos analizando.

In [7]:
for word in nlp("comer comida comiendo comiste comedor"):
    print(word.text, word.lemma_)

comer comer
comida comer
comiendo comer
comiste comer
comedor comedor


## Etiquetado gramatical (POS - part-of-speech tagging)
El etiquetado gramatical es el proceso de asignar a cada una de las palabras su categoría gramatical. Un sustantivo, por ejemplo, identifica un objeto. Un adjetivo describe un objeto. Un verbo describe la acción. La identificación y etiquetado de la parte del discurso de cada palabra en el contexto de una oración se denomina etiquetado gramatical o etiquetado POS.

¡Intentemos algunas etiquetas de POS con spaCy!

In [8]:
# usamos solo las primeras 25 palabras
for word in my_doc[:25]:
    print(word.text, word.pos_)

La DET
nueva ADJ
versión NOUN
de ADP
El DET
hombre NOUN
invisible ADJ
tiene VERB
un DET
concepto NOUN
brillante ADJ
y CONJ
una DET
ejecución NOUN
irregular ADJ
. PUNCT
Pero CONJ
tiene VERB
un DET
concepto NOUN
brillante ADJ
, PUNCT
algo PRON
no ADV
tan ADV


¡Bien! spaCy ha identificado correctamente cada palabra en esta oración. Ser capaz de identificarlas es útil en una variedad de contextos relacionados con el PNL, porque ayuda a comprender con mayor precisión las oraciones de entrada y a construir con mayor precisión las respuestas de salida.

## Detección de entidades
La **detección de entidades**, también denominada reconocimiento de entidades, es una forma más avanzada de procesamiento del lenguaje que identifica elementos importantes como lugares, personas, organizaciones e idiomas dentro de una cadena de texto de entrada. Esto es realmente útil para extraer rápidamente información del texto, ya que puede seleccionar rápidamente temas importantes o identificar secciones clave de texto.

Probemos alguna detección de entidades usando algunos párrafos. Usaremos `.label` para tomar una etiqueta para cada entidad que se detecte en el texto, y luego veremos estas entidades en un formato más visual usando `displaCy` de spaCy.

In [9]:
from spacy import displacy

texto = nlp("El Club Atlético de Madrid es un club de fútbol español de la ciudad de Madrid, fundado el 26 de abril de 1903. Compite actualmente en la Primera División de España y disputa sus partidos como local desde la temporada 2017/18, en el Estadio Metropolitano, con capacidad de 69.829 espectadores")

entidades = [(i, i.label_, i.label) for i in texto.ents]
entidades

[(Club Atlético de Madrid, 'ORG', 383),
 (Madrid, 'LOC', 385),
 (Compite, 'LOC', 385),
 (Primera División de España, 'MISC', 7654241940133152407),
 (Estadio Metropolitano, 'LOC', 385)]

Usando esta técnica, podemos identificar una variedad de entidades dentro del texto. La documentación de spaCy proporciona una [lista completa de tipos de entidades compatibles](https://spacy.io/api/annotation#named-entities), y podemos ver en el breve ejemplo anterior que puede identificar una variedad de tipos de entidades diferentes, incluidas ubicaciones (LOC), compañías e instituciones (ORG), etc.

Usando `DisplaCy` también podemos visualizar nuestro texto de entrada, con cada entidad identificada resaltada por color y etiquetada. Utilizaremos `style = "ent"` para indicar a `DisplaCy` que queremos visualizar entidades aquí.

In [10]:
displacy.render(texto, style = "ent")

## Análisis de dependencia
El **análisis de dependencias** es una técnica de procesamiento del lenguaje que nos permite determinar mejor el significado de una oración analizando cómo se construye para determinar cómo se relacionan las palabras individuales entre sí.

Consideremos, por ejemplo, la oración "Juan tira la pelota". Tenemos dos sustantivos (Juan y pelota) y un verbo (tira). Para entender la oración correctamente, debemos observar el orden de las palabras y la estructura de la oración, no solo las palabras y sus etiquetas gramaticales.

Hacer esto es bastante complicado, pero afortunadamente spaCy se encargará del trabajo por nosotros. Usaremos `noun_chunks`, que divide la entrada en sustantivos y las palabras que los describen, e iteramos a través de cada fragmento en nuestro texto fuente, identificando la palabra, su raíz, su identificación de dependencia y a qué fragmento pertenece.

In [11]:
texto = nlp("El Club Atlético de Madrid es un club de fútbol español de la ciudad de Madrid")

for chunk in texto.noun_chunks:
    print(chunk.text, chunk.root.text, chunk.root.dep_, chunk.root.head.text)

El Club Atlético de Madrid Club nsubj club
un club club ROOT club
fútbol fútbol nmod club
la ciudad ciudad nmod club
Madrid Madrid nmod ciudad


Esta salida puede ser un poco difícil de seguir, pero como ya importamos el visualizador `displaCy`, podemos usarlo para ver un diagrama de dependencia usando `style = "dep"` que es mucho más fácil de entender:

In [12]:
displacy.render(texto, style="dep", jupyter=True)