# 12.- Procesamiento de Lenguaje Natural

### 12.0.1.- Instalando TextBlob

Lo primero será instalar TextBlob desde el prompt de anaconda

conda install -c confa-forge textblob

Una vez ejecutado, corre el siguiente comando

ipython -m textblob.download_corpora

## 12.2.- TextBlob

### 12.2.2.- Crear un TextBlob

Vamos a crear un textblob con el texto 'Y cuando despertó. Todo a su alrededor era luminoso'

In [1]:
from textblob import TextBlob

In [2]:
texto = 'Y cuando despertó. Todo a su alrededor era luminoso'

In [3]:
blob = TextBlob(texto)
blob

TextBlob("Y cuando despertó. Todo a su alrededor era luminoso")

### 12.2.3.- Tokenizar

Ahora vamos a obtener una lista de oraciones

In [4]:
blob.sentences

[Sentence("Y cuando despertó."), Sentence("Todo a su alrededor era luminoso")]

Y una lista de palabras

In [5]:
blob.words

WordList(['Y', 'cuando', 'despertó', 'Todo', 'a', 'su', 'alrededor', 'era', 'luminoso'])

Repetimos para 'I have good discipline to study. In the future I will be a great engineer'

In [7]:
blob2 = TextBlob('I have good discipline to study. In the future I will be a great engineer')

In [8]:
blob2.sentences

[Sentence("I have good discipline to study."),
 Sentence("In the future I will be a great engineer")]

In [9]:
blob2.words

WordList(['I', 'have', 'good', 'discipline', 'to', 'study', 'In', 'the', 'future', 'I', 'will', 'be', 'a', 'great', 'engineer'])

### 12.2.4.- Parte del habla

Ahora vamos a etiquetar cada parte de la oración en su categoría de sustantivo, pronotmbre, verbo, etc

In [10]:
blob2.tags

[('I', 'PRP'),
 ('have', 'VBP'),
 ('good', 'JJ'),
 ('discipline', 'NN'),
 ('to', 'TO'),
 ('study', 'VB'),
 ('In', 'IN'),
 ('the', 'DT'),
 ('future', 'NN'),
 ('I', 'PRP'),
 ('will', 'MD'),
 ('be', 'VB'),
 ('a', 'DT'),
 ('great', 'JJ'),
 ('engineer', 'NN')]

### 12.2.5.- Frases de sustantivos

Le podemos pedir noun phrases a nuestro textblob

In [11]:
blob2.noun_phrases

WordList(['good discipline', 'great engineer'])

### 12.2.6.- Analisis de sentimientos

También podemos analizar el sentimento de una oración. Vamos dandole con l oración que traiamos

Ahora otro ejemplo = 'I am a bad student. I will not be able to finish my studies'

In [20]:
t='I am a bad student. I will not be able to finish my studies. but i am happy anyway'

In [13]:
blob3 = TextBlob(t)

In [14]:
blob3.sentiment

Sentiment(polarity=0.20000000000000007, subjectivity=0.7638888888888888)

Y lo repetimos para el mismo ejemplo pero frase por frase

In [15]:
for s in blob3.sentences:
    print(s.sentiment)

Sentiment(polarity=-0.6999999999999998, subjectivity=0.6666666666666666)
Sentiment(polarity=0.5, subjectivity=0.625)
Sentiment(polarity=0.8, subjectivity=1.0)


Se puede hacer lo mismo mediante NaiveBayes (en vez de el default pattern)

## 12.3.- Detección de lenguaje y traducción

Escribe Bonjour y determina el lenguaje usando textblob

In [18]:
from textblob.sentiments import NaiveBayesAnalyzer as nb

In [22]:
blob3 = TextBlob(t,analyzer = nb())

In [23]:
blob3.sentiment

Sentiment(classification='pos', p_pos=0.8821122798179678, p_neg=0.11788772018203258)

Ahora usa textblob para traducir "I have good discipline to study. In the future I will be a great engineer'

In [26]:
blob = TextBlob('bonjour')

In [28]:
#blob.detect_language()

In [30]:
# blob = TextBlob('I have good discipline to study. In the future I will be a great engineer')
# frase = blob.translate(to='es')

### 12.3.1.- Inflección - pluralización y singularización

Textblob también entiende de singulares y plurales, obten el plural de party y el singular de lives

In [32]:
from textblob import Word

Pluraliza Potato, Tomato, Carrot

In [33]:
v = Word('potato')
v.pluralize()

'potatoes'

In [39]:
v = Word('carrot')
v.pluralize()

'carrots'

### 12.3.2.- Spell Check

Python tambien puede revisar ortografia, revisa que opina de la palabra whife

In [40]:
p = Word('whife')
p.spellcheck()

[('while', 0.5137123745819397),
 ('wife', 0.2454849498327759),
 ('white', 0.23612040133779263),
 ('whiff', 0.0033444816053511705),
 ('whine', 0.0013377926421404682)]

También puedes revisar ortografía de una oración completa como 'Yestarday was a bab dai'

In [42]:
e = TextBlob('Yestarday was a bab dai')
e.correct()

TextBlob("Yesterday was a bad day")

### 12.3.3.- Normalización

Se puede obtener  el stem y lemma de una palabra plural como dormitories

### 12.3.4.- Frecuencias de Palabras

Que pasa si quieres conocer la frecuencia de una palabra?

Importa el texto de dracula.txt y cuenta las veces que aparece la palabra crucifix, dracula, blood

In [43]:
from pathlib import Path

In [45]:
t = open('dracula.txt',encoding='utf-8')
drac = TextBlob(t.read())
drac.words.count('crucifix')

19

In [46]:
drac.words.count('blood')

110

O puedes contar las frases especificas mediante el metodo count en un archivo ya tokenizado, intentalo con la frase "lady capulet"

### 12.3.5.- Definiciones, sinonimos y antonimos

Puedes buscar definiciones desde textblob

Prueba con la definición de "worker"

In [50]:
# p = Word('worker')
# p.definitions

In [52]:
# p.synsets sinonimos

O sinonimos también, con synsets

### 12.3.6.- Stop Words

Las stop words son palabras que generalmente no aportan información útil para un analisis de machine learning. 

Hay que traerlas desde ntlk

In [54]:
import nltk

In [55]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/lenin/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [56]:
from nltk.corpus import stopwords

In [57]:
stops = stopwords.words('english')

In [58]:
print(stops)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Vamos a crear un texto como I have a beautiful day

In [59]:
blob = TextBlob('I have a beautiful day')

Y eliminar su stop words

In [61]:
[word for word in blob.words if word not in stops]

['I', 'beautiful', 'day']

## 12.4.- Visualizando frecuencias de palabras

Vamos a armar un word cloud de dracula, comencemos volviendo a cargar dracula

Ahora vamos cargando las stop words de inglés

Vamos a obtener las frecuencias de palabras

Ahor avamos a eliminar las stop words

Ordenamos las palabras restantes por frecuencia

Conseguimos las top 20 palabras

Luego convertimos el top 20 a un dataframe

Y visualizamos el dataframe en una grafica de barras sencillita

### 12.4.1.- Word Cloud

Ahora necesitamos instalar el módulo WordCloud

Cargamos las librerias que nos importan

Vamos a cargar el texto de tracua y las palabras stop

Vamos a crear una mascara para la nube usando la funcion impread

OK, ahora ponemos algunas caracteristicas especifcas de la nube a crear

Luego se aplica el metodo de generar wordcloud

Y la guardas como imagen

## 12.4.- Reconocimiento de Entidades Nombradas con spaCy

Instala Spacy desde Prompt

Carga el modelo de lenguaje

In [64]:
import spacy
nlp = spacy.load('en_core_web_sm')

OSError: [E050] Can't find model 'en_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

Crea un documento de spacy con el texto airbnb is an American company that operates an online marketplace for lodging, primarily homestays for vacation rentals, and tourism activities. Based in San Francisco, California, the platform is accessible via website and mobile app. Airbnb does not own any of the listed properties; instead, it profits by receiving commission from each booking. The company was founded in 2008 by Brian Chesky, Nathan Blecharczyk and Joe Gebbia. Airbnb is a shortened version of its original name, AirBedandBreakfast.com

Obten las entidades nombradas

In [None]:
# documento = nlp('airbnb is an American company that operates an online marketplace for lodging, primarily homestays for vacation rentals, and tourism activities. Based in San Francisco, California, the platform is accessible via website and mobile app. Airbnb does not own any of the listed properties; instead, it profits by receiving commission from each booking. The company was founded in 2008 by Brian Chesky, Nathan Blecharczyk and Joe Gebbia. Airbnb is a shortened version of its original name, AirBedandBreakfast.com')
# for ent in documento.ents:
#     print(ent.text,ent.label_)