<a href="https://colab.research.google.com/github/aksil-2013/tic-Y8289446F/blob/main/PreporcesoCorpusSpaCy_SPA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Descargar, instalar y utilizar SpaCy

Una vez que tenemos ya abierto un cuaderno en Colab ya podemos utilizar Python.

Para realizar el análisis computacional de un texto, sin embargo, es necesario instalar módulos específicos. En este caso vamos a instalar SpaCy.

Tres son los pasos que vamos a realizar:

* importarlo SpaCy (para que esté activo desde Python),
* descargar el módulo de idioma (español en este caso) y
* activar el módulo de idioma.

En este caso vamos a trabajar con un corpus en español. Las opciones para un corpus en inglés están en el otro cuaderno.

Todo esto se realiza con el siguiente código. Incluyo un comentario de lo que hace cada línea (los comentarios empiezan con el símbolo "#").

In [None]:
import spacy #Importa SpaCy para que se pueda ejecutar desde Python.

!python -m spacy download es_core_news_sm #Descarga módulos SpaCy para español.

import es_core_news_sm
nlp_esp = es_core_news_sm.load() #Importa y carga el analizador del español en la variable "nlp_esp".

Collecting es_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)
[K     |████████████████████████████████| 16.2 MB 7.2 MB/s 
Building wheels for collected packages: es-core-news-sm
  Building wheel for es-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for es-core-news-sm: filename=es_core_news_sm-2.2.5-py3-none-any.whl size=16172933 sha256=d07fef9d671b25e6ae31881bf3437d899992202c816981ac2ea837c054f3f33f
  Stored in directory: /tmp/pip-ephem-wheel-cache-6an9jnpt/wheels/21/8d/a9/6c1a2809c55dd22cd9644ae503a52ba6206b04aa57ba83a3d8
Successfully built es-core-news-sm
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')


A partir de este momento, los módulos de PLN para analizar textos en español están en la variable "nlp_esp". Para analizar un texto hay que llamar (mediante órdenes Python que luego veremos) a esta varible. Pero antes necesitamos cargar el corpus.

# Cargar y abrir un fichero de texto desde Colab


Al ser una herramienta en la nube, una de las desventajas de usar Colab es que no tenemos un acceso fácil a los textos de nuestra máquina.

Aquí se expone un método sencillo para subir a Colab un documento de texto que será nuestro corpus y cómo introducirlo en una variable para poder procesarlo en Python. Subir un directorio completo con varios textos es más complejo. Por ahora haremos el preproceso de un solo texto.


## Cargar el corpus.

El corpus será por ahora un único documento. Debe estar en nuestro ordenador. En principio será un texto sencillo (*plain text*) codificado en UTF-8.

Para cargarlos en nuestro cuaderno Colab, utilizamos el siguiente código. Una vez ejecutado aparecerá un pequeño formulario para subir el fichero de texto.

> Más fácil: utiliza la opción de subir fichero de Google Colab que tienes en el menú de la izquierda :-)

In [None]:
from google.colab import files
files.upload()

## Abrir el documento: asignarlo a una variable.

Una vez subido el texto a Colab, debemos asignarlo a una varialbe. La variable representará a partir de ahora todo el corpus y de esta manera podremos procesarlo en Python.

Para ello utilizamos el siguiente código. La primera línea abre ("open") el fichero que se ha subido antes y lo lee ("read"), es decir, transforma el fichero en cadena de caracteres que se pueda procesar. La segunda línea simplemente muestra en la pantalla ("print") los cien primeros caracteres para comprobar que el fichero se ha cargado sin problemas. 

In [None]:
corpus = open("trafalgar1.txt", "r").read() #Abre el fichero de texto y lo lee (es decir, lo transforma en una cadena de caracteres).
print(corpus[:100]) #Muestra en pantalla los cien primeros caracteres solo para comprobar que va todo bien.


(NOTA febrero 2021: para subir un corpus de varios ficheros, ver aquÍÍ: https://rozbeh.github.io/colab_101.html)

# Analizar el texto

Una vez cargado SpaCy y nuestro texto, ya podemos proceder a su análisis.

El análisis es bastante sencillo. Basta con escribir esto

In [None]:
analisis = nlp_esp(corpus)

"nlp_esp()" es el analizador que hemos cargado al principio.

Mediante la expresión "nlp_esp(corpus)" indicamos a Pyhon que con el analizador antes cargado analice el corpus contenido en la variable "corpus".

Finalmente, el análisis se almacena en la variable "analisis".

Si ha ido todo bien, no aparecerá nada en la pantalla. En las siguientes secciones veremos cómo mostrar y extraer los análisis realizados.

## Mostrar el texto analizado

Para mostrar el análisis realizado debemos crear un bucle que vaya exrayendo cada palabra analizada de la variable y lo vaya mostrando en pantalla.

De los diferentes análisis que hace SpaCy, vamos a ver:

* lemas y categorías gramaticales,
* grupos sintáticos (*chunks*) y
* entidades.

### Mostrar palabra, lema y categoría gramatical

Vamos a extraer del análisis cada palabra (opción "token"), su lema (opción "token.lemma_") y su categoría gramatical (opción "token.pos_").

Para que el código funcione bien es muy importante respetar cómo está escrito: la tabulación, los paréntesis, los puntos, etc. Cualquier cambio en esto puede hacer que el código no funcione.

En este caso "for" establece el bucle. La primera línea se leería: "por cada token en la variable 'analisis'" (que es donde está el corpus analizado). Esta línea debe acabar en dos puntos ":".

La segunda línea indica qué debe hacer por cada token. En este caso, mostrar en pantalla ("print") el token, su lema y su categoría gramatical. Esta línea tiene que estar tabulada.

In [None]:
for token in analisis:
  print(token, token.lemma_, token.pos_)


Simplemente está mostrando en pantalla el análisis de tokens, lemas y categorías gramaticales (comete al menos un error, ¿lo veis?).

Esto, así como está ahora, no nos sirve de mucho. Para poder utilizarlo luego en, por ejemplo, Stylo o para analizarlo con AntConc necesitamos generar un nuevo fichero de texto con el corpus analizado. Para ello se realiza el siguiente proceso:

1. creamos una variable vacía con formato cadena. El formato cadena es el texto plano. Aquí guardaremos el corpus analizado en formato texto para luego poder descargarlo.

2. repetimos el bucle de antes pero ahora, en vez de mostrarlo en pantalla, damos la orden de que, primero, pase la información del análisis a cadena de texto y, segundo, lo guarde en la variable anterior.

Para comprobar que está todo bien, daremos también la orden de que imprima en pantalla los 200 primeros caracteres:

In [None]:
corpus_pos = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar el corpus analizado.

for token in analisis: #inicio de bucle
  palabra = str(token) #convierte "token" a cadena de texto y lo guarda en "palabra"
  lema = str(token.lemma_) #Idem con el lema
  cat = str(token.pos_) #Idem con la categoría gramatical.
  corpus_pos += palabra+"\t"+lema+"\t"+cat+"\n" #Con "+=" se va introduciendo en la variable anterior el análisis de cada palabra.
                                                #"\t" indica que se separe con un tabulador y "\n" (cambio de línea) que introduzca un token por línea.

print(corpus_pos[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.

#	#	PROPN
Benito	Benito	PROPN
Pérez	Pérez	PROPN
Galdós	Galdós	PROPN

	
	SPACE
#	#	PROPN
Trafalgar	Trafalgar	PROPN

	
	SPACE
#	#	PROPN
Biblioteca	Biblioteca	PROPN
Virtual	Virtual	PROPN
Migue	Migue	PROP


Por ahora va todo bien.

Como veis, cada línea es el análisis de un *token* (incluido el espacio). Cada *token* tiene asociado su lema (segunda columna) y su categoría gramatical (tercera columna).

Las etiquetas categoriales y su significado lo podéis ver aquí:

<https://spacy.io/api/annotation#pos-tagging>

Esto es lo mismo que nos ofrece Freeling o Contawords, herramientas que vimos en asignaturas anteriores.


## Guardar el análisis en un fichero de texto y decargarlo

Si ya tenemos el análisis de token, lema y categoría gramatical en una variable texto (fomrato cadena), solo queda guardar el contenido de la variable en un fichero y descargarlo.

Para ello... (en comentario se explica lo que hace cada línea):

In [None]:
salida = open('analisis_pos.csv', 'w') #Se crea un fichero de texto nuevo con opción de escritura ("w") y se asigna a la variable "salida".
salida.write(corpus_pos) #La opción "write" escribe el texto de la variable "corpus_pos" en el fichero creado.
salida.close() #Se cierra el fichero

files.download('analisis_pos.csv') #Orden de descarga del fichero creado.

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Extraer solo lemas

Una opción muy común en análisis de corpus es analizar éste solo con los lemas. De esta manera, como sabéis, los problemas derivados de la flexión morfológica (sobre todo la flexión verbal) se ignoran. Con el corpus lematizado podemos, por ejemplo, extraer una lista de frecuencias más real o podemos comparar textos con Stylo sin tener en cuenta variaciones morfológicas.

El siguiente código repite lo que hemos hecho antes pero, en vez de guardar *token*, lema y categoría gramatical, guarda solo los lemas.

Partimos de que el corpus está ya analizado en la variable "analisis". El proceso es el siguiente:


In [None]:
corpus_lemas = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar los lemas.

for token in analisis: #inicio de bucle
  lema = str(token.lemma_) #Extrae el lema de cada token y lo pasa a cadena de texto
  corpus_lemas += lema+" " #Introduce en la variable corpus_lemas el lema de cada palabra y los separa con un espacio en blanco.
print(corpus_lemas[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.

salida = open('analisis_lemas.txt', 'w') #Genera fichero, lo escribe, guarda y descarga.
salida.write(corpus_lemas)
salida.close()

files.download('analisis_lemas.txt')


Benito Pérez Galdós 
 Trafalgar 

 Se me permitir que antes de referir el gran suceso de que ser testigo , decir alguno palabra sobrar mi infancia , explicar por qué extraño manera me llevar lo azarar


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Como veis, el código es similar al anterior. Cambian las variables y que, en este caso, solo nos quedamos con los lemas. El resultado es el mismo corpus que hemos cargado al principio pero formado solo por los lemas (en vez de las palabras flexionadas).

## Extraer solo nombres

Otra preproceso común en lingüística de corpus es analizar un corpus solo por las palabras con significado léxico (nombre, verbos, adjetivos y adverbios) y filtrar las palabras con significado gramatical. Para análisis temáticos (que se verán en otro tema) es una práctica común.

A modo de prueba, el siguiente código extraerá del corpus analizado solo los nombres comunes. El código es similar al anterior, pero se va a inroducir un condicional. Los condicionales empiezan siempre por "if". Con esto daremos la orden de que se incluyan en la variable solo aquellas palabras (condicional "if") cuya categoría gramatical sea nombre:

In [None]:
corpus_soloNombres = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar los lemas.

for token in analisis: #inicio de bucle
  if token.pos_ == "NOUN": #Condicional: solo aquellos *tokens* cuya categoría gramatical sea "NOUN".
    nombre = str(token.lemma_) #Extrae el lema de cada nombre y lo pasa a cadena de texto
    corpus_soloNombres += nombre+" " #Introduce en la variable corpus_soloNombres el lema de cada nombre y los separa con un espacio en blanco.
print(corpus_soloNombres[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.

salida = open('analisis_soloNombres.txt', 'w') #Crea fichero, etc.
salida.write(corpus_soloNombres)
salida.close()

files.download('analisis_soloNombres.txt')

suceso testigo palabra infancia manera azarar vida catástrofe marino nacimiento partir hecho vida parentela vez descendiente partir librar apellido ser madre tiempo noticiar ascendiente parentesco Doy


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

El fichero resultante es por tanto solo el lema de los nombres del corpus.

Podríamos hacer lo mismo con los verbos ("VERB"), los adjetivos ("ADJ") o incluso solo con preposiones, determinantes, etc. Y en vez de lemas se podría guardar el *token* de cada nombre.

Si se quisiera un análisis más fino (por tipos de nombres, o tipos de verbo), en vez de extraer la categoría gramatical con "token.pos_", habría que usar la opción "token.tag_". Cómo interpretar cada etiqueta se puede consultar aquí: <https://spacy.io/api/annotation#pos-tagging>

Por ejemplo, en atribución de autoría hay una hipótesis que dice que el estilo de una persona viene determinado por cómo y cuánto utiliza las palabras con significado gramatical: preposiciones, determinantes, etc.

El siguiente ejemplo crea un corpus formado solo por las preposiciones ("ADP"), conjunciones ("CONJ"), determinantes ("DET") o pronombres ("PRON"):

In [None]:
corpus_soloParticulas = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar los lemas.
categorias = ("ADP", "CONJ", "CCONJ", "SCONJ", "DET", "PRON") #Ponemos en esta variable las categorías gramaticales que queremos incluir en el corpus final.

for token in analisis: #inicio de bucle
  if token.pos_ in categorias: #Condicional: comprueba que la categoría del *tokens* está en la lista de categorías de la variable "categorías".
    lema = str(token.lemma_) #Extrae el lema y lo pasa a cadena de texto
    corpus_soloParticulas += lema+" " #Introduce en la variable corpus_soloParticulas el lema de cada palabra y los separa con un espacio en blanco.
print(corpus_soloParticulas[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.

salida = open('analisis_soloParticulas.txt', 'w')
salida.write(corpus_soloParticulas)
salida.close()

files.download('analisis_soloParticulas.txt')

Se me que de el de que alguno sobrar mi por qué me lo de lo a lo de nuestro Al de mi a lo de lo que de su propio quien su los por el si se del mismo de Yo en este mi con y de mi a quien por poco de ni


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Si, por el contrario, quisiéramos extraer solo los nombres, verbos y adjetivos:

In [None]:
corpus_soloNVA = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar los lemas.
categorias = ("NOUN", "VERB", "ADJ") #Ponemos en esta variable las categorías gramaticales que queremos incluir en el corpus final.

for token in analisis: #inicio de bucle
  if token.pos_ in categorias: #Condicional: comprueba que la categoría del *tokens* está en la lista de categorías de la variable "categorías".
    lema = str(token.lemma_) #Extrae el lema de cada token y lo pasa a cadena de texto
    corpus_soloNVA += lema+" " #Introduce en la variable corpus_soloNVA el lema de cada palabra y los separa con un espacio en blanco.
print(corpus_soloNVA[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.

salida = open('analisis_soloNVA.txt', 'w')
salida.write(corpus_soloNVA)
salida.close()

files.download('analisis_soloNVA.txt')

permitir referir gran suceso testigo decir palabra infancia explicar extraño manera llevar azarar vida presenciar terrible catástrofe marino hablar nacimiento imitar mayor partir contar hecho vida nom


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Extracción de grupos sintácticos.

SpaCy también realiza análisis sintáticos (basado en dependencias). Extraer el árbol de dependencias necesita un poco más de código que no vamos a tratar aquí (si a alguien le interesa, está muy bien documentado en su web <https://spacy.io/usage/spacy-101#annotations-pos-deps>).

En vez del árbol sintáctico entero, vamos a extraer los grupos nominales o *chunks*: grupos de palabras que forman una unidad sintática alrededor de un nombre. No siempre responden al sintagma nominal en sentido estricto, pero sí a menudo.

Si en la variable "analisis" tenemos todo el análisis del corpus, se puede acceder a los grupos nominales con la opción "noun_chunks". Así: 

In [None]:
corpus_gruposNominales = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar los grupos nominales.

for item in analisis.noun_chunks: #inicio de bucle sobre los grupos nominales
  grupo_nominal = str(item) #Lo pasamos a cadena de texto para poder guardarlo
  corpus_gruposNominales += grupo_nominal+"\n" #Introduce en la variable textual el grupo nominal y los separa con un cambio de línea (\n).
print(corpus_gruposNominales[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.

salida = open('analisis_gruposNominales.txt', 'w')
salida.write(corpus_gruposNominales)
salida.close()

files.download('analisis_gruposNominales.txt')

## Extracción de entidades

SpaCy también extrae las entidades del textos: aquellos nombres que hacen referencia personas, lugares, organizaciones, etc.

La lista completa de entidades que SpaCy es capaz de detectar y clasificar está aquí: <https://spacy.io/api/annotation#named-entities>.

Las entidades están ya analizadas. El proceso para extraerlas de la variable donde está analizado el texto es similar a la extracción de *chunk*, pero en vez de ".noun_chunks" utilizaremos ".ents" de la siguiente manera:

In [None]:
corpus_entidades = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar las entidades.

for ent in analisis.ents: #inicio de bucle sobre las entidades
  entidad = ent.text #el token de la entidad (en formato cadena de texto).
  tipo = ent.label_ #el tipo de entidad (en formato cadena de texto).
  corpus_entidades += entidad+" "+tipo+"\n" #Introduce en la variable corpus_entidades la entidad y su tipo, y los separa con un cambio de línea (\n).

print(corpus_entidades[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.
  
salida = open('analisis_entidades.txt', 'w')
salida.write(corpus_entidades)
salida.close()

files.download('analisis_entidades.txt')


O podríamos extraer solo las entidades persona de la siguiente manera:

In [None]:
corpus_personas = '' #Variable vacía con formato "cadena" (es decir, texto sencillo) para guardar las entidades persona.

for ent in analisis.ents: #inicio de bucle sobre los grupos nominales
  if ent.label_ == "PER": #Condicional para seleccionar solo las entidades cuya categoría sea "persona".
    entidad = ent.text #El token de la entidad en formato cadena de texto.
    corpus_personas += entidad+"\n" #Introduce cada entidad persona y las separa con un cambio de línea (\n).
print(corpus_personas[:200]) #Muestra en pantalla los 200 primeros caracteres analizados para comprobar que está todo bien.

salida = open('analisis_entidadesPersona.txt', 'w')
salida.write(corpus_personas)
salida.close()

files.download('analisis_entidadesPersona.txt')

Benito Pérez Galdós
Administración
Emperador de Trapisonda.
Pablos
Dios
Aquello
Según
Sólo
Andalucía
Alonso Gutiérrez de Cisniega
Enseñáronme
Sr. Don Alonso
Lázaro
«Gabriel
Doña Francisca
Ay
Alonsito



<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Como vemos, en este caso, al ser una novela, está extrayendo personajes.