# NLP avanzado

En este notebook veremos aspectos más avanzados sobre NLP y Python.

[Spacy](https://spacy.io/models/es) proporciona modelos para diferentes idiomas preentrenados para poder realizar diferentes tareas como por ejemplo identificar el "part of speech" de cada término.

In [1]:
import es_core_news_sm
nlp = es_core_news_sm.load()
doc = nlp("Gustavo Candela juega al fútbol todas las tardes que no tiene clase.")
print([(w.text, w.pos_) for w in doc])

[('Gustavo', 'PROPN'), ('Candela', 'PROPN'), ('juega', 'VERB'), ('al', 'ADP'), ('fútbol', 'NOUN'), ('todas', 'DET'), ('las', 'DET'), ('tardes', 'NOUN'), ('que', 'PRON'), ('no', 'ADV'), ('tiene', 'VERB'), ('clase', 'NOUN'), ('.', 'PUNCT')]


Para crear corpus de texto podemos extraer el texto de páginas. Para ello podemos utilizar librerías como [Beautiful Soap](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

El siguiente ejemplo recupera el texto de una página de la [Biblioteca Virtual Miguel de Cervantes](http://www.cervantesvirtual.com).

In [2]:
from bs4 import BeautifulSoup

import urllib.request

response = urllib.request.urlopen('http://www.cervantesvirtual.com/obra-visor/el-ingenioso-hidalgo-don-quijote-de-la-mancha-6/html/05f86699-4b53-4d9b-8ab8-b40ab63fb0b3_2.html#I_1_')

html = response.read()

soup = BeautifulSoup(html, "lxml")

texts = soup.findAll('p')

for x in texts:
    print (x.text)



Siguiente
Miguel de Cervantes Saavedra
Marqués de Gibraleón,
conde de Benalcázar y Bañares, vizconde de
La Puebla de Alcocer, señor de las villas de Capilla,
Curiel y Burguillos
En fe del buen acogimiento y honra que
hace Vuestra Excelencia a toda suerte de libros, como príncipe
tan inclinado a favorecer las buenas artes, mayormente las
que por su nobleza no se abaten al servicio y granjerías
del vulgo, he determinado de sacar a luz El ingenioso hidalgo
don Quijote de la Mancha, al abrigo del clarísimo
nombre de Vuestra Excelencia, a quien, con el acatamiento
que debo a tanta grandeza, suplico le reciba agradablemente
en su protección, para que a su sombra, aunque desnudo
de aquel precioso ornamento de elegancia y erudición
de que suelen andar vestidas las obras que se componen en
las casas de los hombres que saben, ose parecer seguramente
en el juicio de algunos que, conteniéndose en los
límites de su ignorancia, suelen condenar con más
rigor y menos justicia los trabajos ajenos; que,

Para tokenizar el texto por frases podemos pasar el idioma como parámetro.

In [7]:
from nltk.tokenize import sent_tokenize

mitexto = "Hola me llamo Gustavo. Soy profesor en la Universidad de Alicante"

print(sent_tokenize(mitexto,"spanish"))

['Hola me llamo Gustavo.', 'Soy profesor en la Universidad de Alicante']


In [8]:
import spacy
from spacy import displacy
from collections import Counter
import en_core_web_sm
nlp = en_core_web_sm.load()

txt = 'Google is an American multinational technology company that specializes in Internet-related services and products, which include online advertising technologies, a search engine, cloud computing, software, and hardware. It is considered one of the Big Four technology companies in the U.S. information technology industry, alongside Amazon, Apple, and Microsoft.'

doc = nlp(txt)
print([(X.text, X.label_) for X in doc.ents])

[('American', 'NORP'), ('Four', 'CARDINAL'), ('U.S.', 'GPE'), ('Amazon', 'ORG'), ('Apple', 'ORG'), ('Microsoft', 'ORG')]


In [9]:
txt = 'Google was founded in September 1998 by Larry Page and Sergey Brin while they were Ph.D. students at Stanford University in California'

doc = nlp(txt)
print([(X.text, X.label_) for X in doc.ents])

[('September 1998', 'DATE'), ('Larry Page', 'PERSON'), ('Sergey Brin', 'PERSON'), ('Ph.D.', 'WORK_OF_ART'), ('Stanford University', 'ORG'), ('California', 'GPE')]


In [10]:
labels = [x.label_ for x in doc.ents]
Counter(labels)

Counter({'DATE': 1, 'PERSON': 2, 'WORK_OF_ART': 1, 'ORG': 1, 'GPE': 1})

In [11]:
Counter(labels).most_common(3)

[('PERSON', 2), ('DATE', 1), ('WORK_OF_ART', 1)]