## NLP y una librería especializada: [spaCy](https://spacy.io/usage)

Esta librería permite hacer diversas tareas de NLP: POS tags, lematización, detección de oraciones, análisis sintácticos, ... Un aspecto fundamental de estas herramientas es que nos permiten extraer información de oraciones, conjuntos de oraciones o textos. Surgen con esto infinitas preguntas:

- ¿Es posible encontrar los **sustantivos** o **verbos** más frecuentes?
- ¿Qué diferencias en cuanto a información nos entregan los **sustantivos** o **verbos** más frecuentes?
- ¿Cómo cambian las frecuencias de palabras con la lematización?
- ¿Cómo podríamos acercarnos a los temas más importantes de un corpus de textos?
- ¿Cómo podemos extraer palabras clave?
- ¿Qué nos dicen las formas verbales sobre la información de los textos?

### archivo!

In [1]:
## texto elegido
archivo = open('funes el memorioso-borges.txt', 'r', encoding='utf-8')

In [2]:
## leemos el archivo!
archivo = archivo.read()

In [3]:
## visualizamos los primeros 100 caracteres
archivo[:1000]

'Lo recuerdo (yo no tengo derecho a pronunciar ese verbo sagrado, solo un hombre en la tierra tuvo derecho y ese hombre ha muerto) con una oscura pasionaria en la mano, viéndola como nadie la ha visto, aunque la mirara desde el crepúsculo del día hasta el de la noche, toda una vida entera. Lo recuerdo, la cara taciturna y aindiada y singularmente remota, detrás del cigarrillo. Recuerdo (creo) sus manos afiladas de trenzador. Recuerdo cerca de esas manos un mate, con las armas de la Banda Oriental; recuerdo en la ventana de la casa una estera amarilla, con un vago paisaje lacustre. Recuerdo claramente su voz; la voz pausada, resentida y nasal del orillero antiguo, sin los silbidos italianos de ahora. Más de tres veces no lo vi; la última, en 1887… Me parece muy feliz el proyecto de que todos aquellos que lo trataron escriban sobre él; mi testimonio será acaso el más breve y sin duda el más pobre, pero no el menos imparcial del volumen que editarán ustedes. Mi deplorable condición de arg

### instalamos spaCy!

In [4]:
## https://spacy.io/usage
!pip install --upgrade pip
!pip install -U pip setuptools wheel
!pip install -U spacy
!python -m spacy download es_dep_news_trf

Collecting setuptools
  Downloading setuptools-67.6.0-py3-none-any.whl (1.1 MB)
     ---------------------------------------- 1.1/1.1 MB 7.7 MB/s eta 0:00:00
Installing collected packages: setuptools
  Attempting uninstall: setuptools
    Found existing installation: setuptools 67.5.1
    Uninstalling setuptools-67.5.1:
      Successfully uninstalled setuptools-67.5.1
Successfully installed setuptools-67.6.0


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
spyder 4.2.5 requires pyqt5<5.13, which is not installed.
spyder 4.2.5 requires pyqtwebengine<5.13, which is not installed.
sphinx 4.0.1 requires Jinja2<3.0,>=2.3, but you have jinja2 3.1.2 which is incompatible.
sphinx 4.0.1 requires MarkupSafe<2.0, but you have markupsafe 2.0.1 which is incompatible.
es-core-news-sm 3.1.0 requires spacy<3.2.0,>=3.1.0, but you have spacy 3.5.0 which is incompatible.
en-core-web-sm 3.2.0 requires spacy<3.3.0,>=3.2.0, but you have spacy 3.5.0 which is incompatible.
en-core-web-md 3.2.0 requires spacy<3.3.0,>=3.2.0, but you have spacy 3.5.0 which is incompatible.


Collecting es-dep-news-trf==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_dep_news_trf-3.5.0/es_dep_news_trf-3.5.0-py3-none-any.whl (410.2 MB)
     -------------------------------------- 410.2/410.2 MB 3.4 MB/s eta 0:00:00
[+] Download and installation successful
You can now load the package via spacy.load('es_dep_news_trf')


In [5]:
## importamos la librería
import spacy

## importamos el modelo
nlp = spacy.load("es_dep_news_trf")

In [6]:
## un ejemplo!

## usamos nlp
doc = nlp("Mi testimonio será acaso el más breve y sin duda el más pobre, pero no el menos imparcial del volumen que editarán ustedes.") # Run the pipeline on the input text



In [7]:
doc

Mi testimonio será acaso el más breve y sin duda el más pobre, pero no el menos imparcial del volumen que editarán ustedes.

In [8]:
## veamos qué hay en doc
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.is_stop)

Mi mi DET DET True
testimonio testimonio NOUN NOUN False
será ser AUX AUX True
acaso acaso ADV ADV False
el el DET DET True
más más ADV ADV True
breve breve ADJ ADJ True
y y CCONJ CCONJ True
sin sin ADP ADP True
duda duda NOUN NOUN False
el el DET DET True
más más ADV ADV True
pobre pobre ADJ ADJ False
, , PUNCT PUNCT False
pero pero CCONJ CCONJ True
no no ADV ADV True
el el DET DET True
menos menos ADV ADV True
imparcial imparcial ADJ ADJ False
del del ADP ADP True
volumen volumen NOUN NOUN False
que que PRON PRON True
editarán editar VERB VERB False
ustedes tú PRON PRON True
. . PUNCT PUNCT False


In [9]:
## ¿Cómo podríamos filtrar los sustantivos o verbos?
## ¿Cómo eliminamos la puntuación?

In [10]:
## ¿Qué pasa si tenemos más de una oración?

## instalamos nltk
!pip install --user -U nltk



In [11]:
## importamos otra librería
import nltk

## descargamos los datos
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [12]:
## función que divide en oraciones
from nltk import sent_tokenize

## oraciones
oraciones = []
text = "Lo recuerdo (yo no tengo derecho a pronunciar ese verbo sagrado, solo un hombre en la tierra tuvo derecho y ese hombre ha muerto) con una oscura pasionaria en la mano, viéndola como nadie la ha visto, aunque la mirara desde el crepúsculo del día hasta el de la noche, toda una vida entera. Lo recuerdo, la cara taciturna y aindiada y singularmente remota, detrás del cigarrillo."
for sent in sent_tokenize(text):
    oraciones = oraciones + [sent]

In [13]:
len(oraciones)

2