<a href="https://colab.research.google.com/github/sasl09/A2Course/blob/main/Proceso_de_Lenguaje_Natural.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 12.- Procesamiento de Lenguaje Natural

### 12.0.1.- Instalando TextBlob

Lo primero será instalar TextBlob desde el prompt de anaconda

conda install -c confa-forge textblob

Una vez ejecutado, corre el siguiente comando

ipython -m textblob.download_corpora

In [2]:
!pip install textblob

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [59]:
#Corpora will add different tools to work with language
!ipython -m textblob.download_corpora
import nltk
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

## 12.2.- TextBlob

### 12.2.2.- Crear un TextBlob

Vamos a crear un textblob con el texto 'Y cuando despertó. Todo a su alrededor era luminoso'

In [60]:
from textblob import TextBlob 

In [61]:
texto = "Y cuando despertó. Todo a su alrededor era luminoso"

In [62]:
blob = TextBlob(texto)

In [63]:
blob

TextBlob("Y cuando despertó. Todo a su alrededor era luminoso")

### 12.2.3.- Tokenizar

Ahora vamos a obtener una lista de oraciones

In [64]:
blob.sentences

[Sentence("Y cuando despertó."), Sentence("Todo a su alrededor era luminoso")]

Y una lista de palabras

In [65]:
blob.words

WordList(['Y', 'cuando', 'despertó', 'Todo', 'a', 'su', 'alrededor', 'era', 'luminoso'])

Repetimos para 'I have good discipline to study. In the future I will be a great engineer'

In [66]:
texto = "I have good discipline to study. In the future I will be a great engineer"

In [67]:
blob = TextBlob(texto)

In [68]:
blob.sentences

[Sentence("I have good discipline to study."),
 Sentence("In the future I will be a great engineer")]

In [69]:
blob.words

WordList(['I', 'have', 'good', 'discipline', 'to', 'study', 'In', 'the', 'future', 'I', 'will', 'be', 'a', 'great', 'engineer'])

### 12.2.4.- Parte del habla

Ahora vamos a etiquetar cada parte de la oración en su categoría de sustantivo, pronotmbre, verbo, etc

In [70]:
blob.tags #tags gets you whether words are nouns, verbs, etc...

[('I', 'PRP'),
 ('have', 'VBP'),
 ('good', 'JJ'),
 ('discipline', 'NN'),
 ('to', 'TO'),
 ('study', 'VB'),
 ('In', 'IN'),
 ('the', 'DT'),
 ('future', 'NN'),
 ('I', 'PRP'),
 ('will', 'MD'),
 ('be', 'VB'),
 ('a', 'DT'),
 ('great', 'JJ'),
 ('engineer', 'NN')]

### 12.2.5.- Frases de sustantivos

Le podemos pedir noun phrases a nuestro textblob

In [71]:
#A noun phrase is either a pronoun or any group of words that can be replaced by a pronoun. For example, 'they', 'cars', and 'the cars' are noun phrases.
blob.noun_phrases

WordList(['good discipline', 'great engineer'])

### 12.2.6.- Analisis de sentimientos

También podemos analizar el sentimento de una oración. Vamos dandole con l oración que traiamos

Ahora otro ejemplo = 'I am a bad student. I will not be able to finish my studies'

In [72]:
texto = 'I am a bad student. I will not be able to finish my studies'

In [73]:
blob = TextBlob(texto)

In [74]:
blob.sentiment

Sentiment(polarity=-0.09999999999999992, subjectivity=0.6458333333333333)

Y lo repetimos para el mismo ejemplo pero frase por frase

In [75]:
for sentence in blob.sentences:
  print(sentence.sentiment)

Sentiment(polarity=-0.6999999999999998, subjectivity=0.6666666666666666)
Sentiment(polarity=0.5, subjectivity=0.625)


Se puede hacer lo mismo mediante NaiveBayes (en vez de el default pattern)

In [76]:
from textblob.sentiments import NaiveBayesAnalyzer

In [77]:
blob = TextBlob(texto, analyzer = NaiveBayesAnalyzer())

In [78]:
blob

TextBlob("I am a bad student. I will not be able to finish my studies")

In [79]:
blob.sentiment

Sentiment(classification='pos', p_pos=0.9111144935259595, p_neg=0.08888550647403913)

## 12.3.- Detección de lenguaje y traducción

Determina el lenguaje usando langdetect

In [80]:
#textblob.detect_language() is no longer working
!pip install langdetect
from langdetect import detect

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [81]:
text = "hello sons of bitches"

In [82]:
text = "hola hijos de perra"

In [83]:
detect(text)

'es'

In [84]:
from langdetect.detector_factory import detect_langs
detect_langs(text)

[es:0.999993602738058]

Ahora usa goslate para traducir "I have good discipline to study. In the future I will be a great engineer'

In [88]:
!pip install goslate

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [89]:
import goslate

In [90]:
texto = "Hello World"

In [91]:
gs = goslate.Goslate()

In [92]:
translatedText = gs.translate(texto, "es")
translatedText

'Hola Mundo'

### 12.3.1.- Inflección - pluralización y singularización

Textblob también entiende de singulares y plurales, obten el plural de party y el singular de lives

In [96]:
from textblob import Word

In [97]:
vegetal = Word("Tomato")

In [98]:
vegetal.pluralize()

'Tomatoes'

In [99]:
vegetal = Word("Tomatoes")

In [100]:
vegetal.singularize()

'Tomato'

### 12.3.2.- Spell Check

Python tambien puede revisar ortografia, revisa que opina de la palabra whife

In [101]:
palabra = Word("whife")

In [102]:
palabra.spellcheck()

[('while', 0.5137123745819397),
 ('wife', 0.2454849498327759),
 ('white', 0.23612040133779263),
 ('whiff', 0.0033444816053511705),
 ('whine', 0.0013377926421404682)]

También puedes revisar ortografía de una oración completa como 'Yestarday was a bab dai'

In [103]:
enunciado = TextBlob('Yestarday was a bab dai')

In [104]:
enunciado.correct()

TextBlob("Yesterday was a bad day")

### 12.3.3.- Normalización

Se puede obtener  el stem y lemma de una palabra plural como dormitories

### 12.3.4.- Frecuencias de Palabras

Que pasa si quieres conocer la frecuencia de una palabra?

Importa el texto de dracula.txt y cuenta las veces que aparece la palabra crucifix, dracula, blood

In [105]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [106]:
from pathlib import Path

text = open("/content/drive/MyDrive/Colab Notebooks/A2Course/A2CursosFilesNStuff/dracula.txt", encoding = "utf-8")

In [107]:
libro_drac = TextBlob(text.read())

In [108]:
libro_drac.words.count("crucifix")

19

In [109]:
libro_drac.words.count("blood")

110

In [110]:
libro_drac.words.count("goku")

0

O puedes contar las frases especificas mediante el metodo count en un archivo ya tokenizado, intentalo con la frase "lady capulet"

### 12.3.5.- Definiciones, sinonimos y antonimos

Puedes buscar definiciones desde textblob

Prueba con la definición de "worker"

In [111]:
prueba = Word("worker")

In [112]:
prueba.definitions

['a person who works at a specific occupation',
 'a member of the working class (not necessarily employed)',
 'sterile member of a colony of social insects that forages for food and cares for the larvae',
 'a person who acts and gets things done']

O sinonimos también, con synsets

In [113]:
prueba.synsets #Gets synonyms

[Synset('worker.n.01'),
 Synset('proletarian.n.01'),
 Synset('worker.n.03'),
 Synset('actor.n.02')]

### 12.3.6.- Stop Words

Las stop words son palabras que generalmente no aportan información útil para un analisis de machine learning. 

Hay que traerlas desde ntlk

In [114]:
import nltk
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [115]:
from nltk.corpus import stopwords

In [116]:
stops = stopwords.words("english")

In [121]:
print(stops) #print'll print it horizontally
# stops

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Vamos a crear un texto como I have a beautiful day

In [118]:
blob = TextBlob("I have a beautiful day")

Y eliminar su stop words

In [119]:
[word for word in blob.words if word not in stops]

['I', 'beautiful', 'day']

## 12.4.- Visualizando frecuencias de palabras

Vamos a armar un word cloud de dracula, comencemos volviendo a cargar dracula

Ahora vamos cargando las stop words de inglés

Vamos a obtener las frecuencias de palabras

Ahor avamos a eliminar las stop words

Ordenamos las palabras restantes por frecuencia

Conseguimos las top 20 palabras

Luego convertimos el top 20 a un dataframe

Y visualizamos el dataframe en una grafica de barras sencillita

### 12.4.1.- Word Cloud

Ahora necesitamos instalar el módulo WordCloud

Cargamos las librerias que nos importan

Vamos a cargar el texto de tracua y las palabras stop

Vamos a crear una mascara para la nube usando la funcion impread

OK, ahora ponemos algunas caracteristicas especifcas de la nube a crear

Luego se aplica el metodo de generar wordcloud

Y la guardas como imagen

## 12.4.- Reconocimiento de Entidades Nombradas con spaCy

Instala Spacy desde Prompt

Carga el modelo de lenguaje

In [122]:
import spacy



In [124]:
nlp = spacy. load("en_core_web_sm")

Crea un documento de spacy con el texto airbnb is an American company that operates an online marketplace for lodging, primarily homestays for vacation rentals, and tourism activities. Based in San Francisco, California, the platform is accessible via website and mobile app. Airbnb does not own any of the listed properties; instead, it profits by receiving commission from each booking. The company was founded in 2008 by Brian Chesky, Nathan Blecharczyk and Joe Gebbia. Airbnb is a shortened version of its original name, AirBedandBreakfast.com

Obten las entidades nombradas

In [125]:
documento =  nlp("airbnb is an American company that operates an online marketplace for lodging, primarily homestays for vacation rentals, and tourism activities. Based in San Francisco, California, the platform is accessible via website and mobile app. Airbnb does not own any of the listed properties; instead, it profits by receiving commission from each booking. The company was founded in 2008 by Brian Chesky, Nathan Blecharczyk and Joe Gebbia. Airbnb is a shortened version of its original name, AirBedandBreakfast.com")

In [127]:
for entity in documento.ents:
  print(f'{entity.text}:{entity.label_}')

American:NORP
San Francisco:GPE
California:GPE
2008:DATE
Brian Chesky:PERSON
Nathan Blecharczyk:PERSON
Joe Gebbia:PERSON
