# 12.- Procesamiento de Lenguaje Natural

### 12.0.1.- Instalando TextBlob

Lo primero será instalar TextBlob desde el prompt de anaconda

conda install -c confa-forge textblob

Una vez ejecutado, corre el siguiente comando

ipython -m textblob.download_corpora

## 12.2.- TextBlob

### 12.2.2.- Crear un TextBlob

Vamos a crear un textblob con el texto 'Y cuando despertó. Todo a su alrededor era luminoso'

In [1]:
from textblob import TextBlob

In [2]:
text = 'Y cuando despertó. Todo a su alrededor era luminoso'

In [3]:
blob = TextBlob(text)

In [5]:
blob

TextBlob("Y cuando despertó. Todo a su alrededor era luminoso")

### 12.2.3.- Tokenizar

Ahora vamos a obtener una lista de oraciones

In [6]:
blob.sentences

[Sentence("Y cuando despertó."), Sentence("Todo a su alrededor era luminoso")]

Y una lista de palabras

In [7]:
blob.words

WordList(['Y', 'cuando', 'despertó', 'Todo', 'a', 'su', 'alrededor', 'era', 'luminoso'])

Repetimos para 'I have good discipline to study. In the future I will be a great engineer'

In [8]:
second_text = 'I have good discipline to study. In the future I will be a great engineer'

In [9]:
blob = TextBlob(second_text)

In [10]:
blob.sentences

[Sentence("I have good discipline to study."),
 Sentence("In the future I will be a great engineer")]

In [11]:
blob.words

WordList(['I', 'have', 'good', 'discipline', 'to', 'study', 'In', 'the', 'future', 'I', 'will', 'be', 'a', 'great', 'engineer'])

### 12.2.4.- Parte del habla

Ahora vamos a etiquetar cada parte de la oración en su categoría de sustantivo, pronotmbre, verbo, etc

In [12]:
blob.tags

[('I', 'PRP'),
 ('have', 'VBP'),
 ('good', 'JJ'),
 ('discipline', 'NN'),
 ('to', 'TO'),
 ('study', 'VB'),
 ('In', 'IN'),
 ('the', 'DT'),
 ('future', 'NN'),
 ('I', 'PRP'),
 ('will', 'MD'),
 ('be', 'VB'),
 ('a', 'DT'),
 ('great', 'JJ'),
 ('engineer', 'NN')]

### 12.2.5.- Frases de sustantivos

Le podemos pedir noun phrases a nuestro textblob

In [13]:
blob.noun_phrases

WordList(['good discipline', 'great engineer'])

### 12.2.6.- Analisis de sentimientos

También podemos analizar el sentimento de una oración. Vamos dandole con l oración que traiamos

Ahora otro ejemplo = 'I am a bad student. I will not be able to finish my studies'

In [17]:
text_tres = "I'm a bad student. I will not be able to finish my studies"

In [18]:
blob_tres = TextBlob(text_tres)

Y lo repetimos para el mismo ejemplo pero frase por frase

In [19]:
blob_tres.sentiment
#polarity is negative, I'm feeling bad
#else is positice

Sentiment(polarity=-0.09999999999999992, subjectivity=0.6458333333333333)

Se puede hacer lo mismo mediante NaiveBayes (en vez de el default pattern)

In [20]:
for sentence in blob_tres.sentences:
    print(sentence.sentiment)

Sentiment(polarity=-0.6999999999999998, subjectivity=0.6666666666666666)
Sentiment(polarity=0.5, subjectivity=0.625)


In [21]:
from textblob.sentiments import NaiveBayesAnalyzer

In [22]:
blob_tres = TextBlob(text_tres,analyzer=NaiveBayesAnalyzer())

In [23]:
blob_tres.sentiment

Sentiment(classification='pos', p_pos=0.9111144935259595, p_neg=0.08888550647403913)

## 12.3.- Detección de lenguaje y traducción

Escribe Bonjour y determina el lenguaje usando textblob

In [24]:
tex_france = 'bonjour'

In [25]:
blob_france = TextBlob(tex_france)

In [38]:
blob_france.detect_language()

HTTPError: HTTP Error 400: Bad Request

In [40]:
import googletrans
print(googletrans.LANGUAGES)



{'af': 'afrikaans', 'sq': 'albanian', 'am': 'amharic', 'ar': 'arabic', 'hy': 'armenian', 'az': 'azerbaijani', 'eu': 'basque', 'be': 'belarusian', 'bn': 'bengali', 'bs': 'bosnian', 'bg': 'bulgarian', 'ca': 'catalan', 'ceb': 'cebuano', 'ny': 'chichewa', 'zh-cn': 'chinese (simplified)', 'zh-tw': 'chinese (traditional)', 'co': 'corsican', 'hr': 'croatian', 'cs': 'czech', 'da': 'danish', 'nl': 'dutch', 'en': 'english', 'eo': 'esperanto', 'et': 'estonian', 'tl': 'filipino', 'fi': 'finnish', 'fr': 'french', 'fy': 'frisian', 'gl': 'galician', 'ka': 'georgian', 'de': 'german', 'el': 'greek', 'gu': 'gujarati', 'ht': 'haitian creole', 'ha': 'hausa', 'haw': 'hawaiian', 'iw': 'hebrew', 'he': 'hebrew', 'hi': 'hindi', 'hmn': 'hmong', 'hu': 'hungarian', 'is': 'icelandic', 'ig': 'igbo', 'id': 'indonesian', 'ga': 'irish', 'it': 'italian', 'ja': 'japanese', 'jw': 'javanese', 'kn': 'kannada', 'kk': 'kazakh', 'km': 'khmer', 'ko': 'korean', 'ku': 'kurdish (kurmanji)', 'ky': 'kyrgyz', 'lo': 'lao', 'la': 'lat

AttributeError: 'NoneType' object has no attribute 'group'

Ahora usa textblob para traducir "I have good discipline to study. In the future I will be a great engineer'

In [41]:
texto = "I have good discipline to study. In the future I will be a great engineer"

In [42]:
blob_translated = TextBlob(texto)

In [44]:
my_translated_text = blob_translated.translate(to='es')

AttributeError: 'list' object has no attribute 'strip'

In [105]:
import os

from google.cloud import translate_v2

# Set the path to your downloaded JSON key file

# Create a Translate client object
translate_client = translate_v2.Client()


DefaultCredentialsError: File Desktop\cursoPython was not found.

In [53]:
googletrans.LANGUAGES

{'af': 'afrikaans',
 'sq': 'albanian',
 'am': 'amharic',
 'ar': 'arabic',
 'hy': 'armenian',
 'az': 'azerbaijani',
 'eu': 'basque',
 'be': 'belarusian',
 'bn': 'bengali',
 'bs': 'bosnian',
 'bg': 'bulgarian',
 'ca': 'catalan',
 'ceb': 'cebuano',
 'ny': 'chichewa',
 'zh-cn': 'chinese (simplified)',
 'zh-tw': 'chinese (traditional)',
 'co': 'corsican',
 'hr': 'croatian',
 'cs': 'czech',
 'da': 'danish',
 'nl': 'dutch',
 'en': 'english',
 'eo': 'esperanto',
 'et': 'estonian',
 'tl': 'filipino',
 'fi': 'finnish',
 'fr': 'french',
 'fy': 'frisian',
 'gl': 'galician',
 'ka': 'georgian',
 'de': 'german',
 'el': 'greek',
 'gu': 'gujarati',
 'ht': 'haitian creole',
 'ha': 'hausa',
 'haw': 'hawaiian',
 'iw': 'hebrew',
 'he': 'hebrew',
 'hi': 'hindi',
 'hmn': 'hmong',
 'hu': 'hungarian',
 'is': 'icelandic',
 'ig': 'igbo',
 'id': 'indonesian',
 'ga': 'irish',
 'it': 'italian',
 'ja': 'japanese',
 'jw': 'javanese',
 'kn': 'kannada',
 'kk': 'kazakh',
 'km': 'khmer',
 'ko': 'korean',
 'ku': 'kurdish 

### 12.3.1.- Inflección - pluralización y singularización

Textblob también entiende de singulares y plurales, obten el plural de party y el singular de lives

In [58]:
from textblob import Word

Pluraliza Potato, Tomato, Carrot

In [65]:
vegetal1 = Word('rate')

In [66]:
vegetal1.pluralize()

'rates'

### 12.3.2.- Spell Check

Python tambien puede revisar ortografia, revisa que opina de la palabra whife

También puedes revisar ortografía de una oración completa como 'Yestarday was a bab dai'

### 12.3.3.- Normalización

Se puede obtener  el stem y lemma de una palabra plural como dormitories

### 12.3.4.- Frecuencias de Palabras

Que pasa si quieres conocer la frecuencia de una palabra?

Importa el texto de dracula.txt y cuenta las veces que aparece la palabra crucifix, dracula, blood

O puedes contar las frases especificas mediante el metodo count en un archivo ya tokenizado, intentalo con la frase "lady capulet"

### 12.3.5.- Definiciones, sinonimos y antonimos

Puedes buscar definiciones desde textblob

Prueba con la definición de "worker"

O sinonimos también, con synsets

### 12.3.6.- Stop Words

Las stop words son palabras que generalmente no aportan información útil para un analisis de machine learning. 

Hay que traerlas desde ntlk

Vamos a crear un texto como I have a beautiful day

Y eliminar su stop words

## 12.4.- Visualizando frecuencias de palabras

Vamos a armar un word cloud de dracula, comencemos volviendo a cargar dracula

Ahora vamos cargando las stop words de inglés

Vamos a obtener las frecuencias de palabras

Ahor avamos a eliminar las stop words

Ordenamos las palabras restantes por frecuencia

Conseguimos las top 20 palabras

Luego convertimos el top 20 a un dataframe

Y visualizamos el dataframe en una grafica de barras sencillita

### 12.4.1.- Word Cloud

Ahora necesitamos instalar el módulo WordCloud

Cargamos las librerias que nos importan

Vamos a cargar el texto de tracua y las palabras stop

Vamos a crear una mascara para la nube usando la funcion impread

OK, ahora ponemos algunas caracteristicas especifcas de la nube a crear

Luego se aplica el metodo de generar wordcloud

Y la guardas como imagen

## 12.4.- Reconocimiento de Entidades Nombradas con spaCy

Instala Spacy desde Prompt

Carga el modelo de lenguaje

Crea un documento de spacy con el texto airbnb is an American company that operates an online marketplace for lodging, primarily homestays for vacation rentals, and tourism activities. Based in San Francisco, California, the platform is accessible via website and mobile app. Airbnb does not own any of the listed properties; instead, it profits by receiving commission from each booking. The company was founded in 2008 by Brian Chesky, Nathan Blecharczyk and Joe Gebbia. Airbnb is a shortened version of its original name, AirBedandBreakfast.com

Obten las entidades nombradas