# Natural Language Processing


<img src="nlp_b.jpg" height="600" width="600">

El procesamiento del lenguaje natural es la disciplina que existe en la intersección de la lingüística y la ciencia de datos, que también se correlaciona con una serie de otros campos.

El procesamiento del lenguaje natural se puede definir como un subcampo dela inteligencia artificial que aprovecha las herramientas, técnicas y algoritmos de IA y ML para comprender los datos no estructurados del lenguaje natural y derivar significado de ellos.

## Steps NLP

### Segmentation

El primer paso en el procesamiento del lenguaje natural es dividir las oraciones en objetos separados. Esta etapa es bastante fácil. Un algoritmo inteligente de IA filtra los conjuntos de datos y define los signos de puntuación. Cada vez que nota un punto, considera la oración terminada y la separa de todo el texto. Esta etapa es importante ya que permite que el modelo de PNL derive el significado de la oración y luego pase al análisis de todo el párrafo.

### Tokenization

Al tokenizar, puede dividir convenientemente el texto por palabra o por oración. Esto le permitirá trabajar con fragmentos de texto más pequeños que siguen siendo relativamente coherentes y significativos, incluso fuera del contexto del resto del texto. Es su primer paso para convertir datos no estructurados en datos estructurados, que son más fáciles de analizar.

### Stemming

es una tarea de procesamiento de texto en la que se reducen las palabras a suraíz, que es la parte central de una 
palabra. Por ejemplo, las palabras "ayuda" y "ayudante" comparten la raíz "ayuda". 
Stemming le permite concentrarse en el significado básico de una palabra en lugar 
de todos los detalles de cómo se está utilizando

### Lemmatization

La mayoría de los textos y oraciones contienen palabras raíz, así como palabras con diferentes formas gramaticales. El procesamiento del lenguaje natural se utiliza aquí para ayudar a la máquina a identificar el significado y categorizar estas palabras. Por ejemplo, es posible que vea las palabras "población" y "poblada" en el mismo texto. Aunque pertenecen a diferentes partes del habla, el significado de estas palabras es bastante similar.

Los modelos de PNL se aplican aquí para averiguar el "lema" de cada token, que es la forma básica de cada palabra. Este paso ayuda a un sistema de IA a comprender el concepto central del texto.

### Stop Words

El siguiente paso esencial en el procesamiento del lenguaje natural es identificar las palabras vacías y filtrarlas antes de decodificar el significado central del texto. Cada idioma tiene una serie de enlazadores y palabras de "relleno" que no agregan ningún significado adicional al texto, pero aparecen con frecuencia en el habla o en un texto escrito casualmente.

Tales objetos pueden producir un tipo de ruido que impedirá que un sistema NLP obtenga información de los datos. Por lo tanto, las canalizaciones de NLP generalmente marcan estos tokens como "palabras de parada" y los omiten al analizar su texto o cualquier otro dato.

## NLTK (Natural Language Toolkit)
<br>
<br>
<img src="NLP.jpg" height="700" width="700">
<br>
<br>
Este Toolkit es ampliamente utilizado para el NLP con Python, es una de las librerías mas comunes pára este tipo de aplicaciones, se puede aplicar para procesamiento de texto para clasificación, tokenización, derivación, etiquetado y análisis de sentimientos.

- Documentación: https://www.nltk.org/

### Packages

In [19]:
# pip install nltk
from nltk import download
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, WordNetLemmatizer

### Download corpus

In [2]:
download("stopwords")
download("wordnet")

[nltk_data] Error loading stopwords: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>
[nltk_data] Error loading wordnet: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>


False

### Tokenization

In [4]:
example_string = """Juan aprendió rápidamente porque su primer entrenamiento fue en cómo aprender.
Y la primera lección de todas fue la confianza básica que podía aprender.
Es impactante encontrar cuántas personas no creen que pueden aprender,
y cuantos más creen que aprender es difícil"""

example_string

'Juan aprendió rápidamente porque su primer entrenamiento fue en cómo aprender.\nY la primera lección de todas fue la confianza básica que podía aprender.\nEs impactante encontrar cuántas personas no creen que pueden aprender,\ny cuantos más creen que aprender es difícil'

In [6]:
sent_tokenize(example_string)

['Juan aprendió rápidamente porque su primer entrenamiento fue en cómo aprender.',
 'Y la primera lección de todas fue la confianza básica que podía aprender.',
 'Es impactante encontrar cuántas personas no creen que pueden aprender,\ny cuantos más creen que aprender es difícil']

In [8]:
print(word_tokenize(example_string))

['Juan', 'aprendió', 'rápidamente', 'porque', 'su', 'primer', 'entrenamiento', 'fue', 'en', 'cómo', 'aprender', '.', 'Y', 'la', 'primera', 'lección', 'de', 'todas', 'fue', 'la', 'confianza', 'básica', 'que', 'podía', 'aprender', '.', 'Es', 'impactante', 'encontrar', 'cuántas', 'personas', 'no', 'creen', 'que', 'pueden', 'aprender', ',', 'y', 'cuantos', 'más', 'creen', 'que', 'aprender', 'es', 'difícil']


### Stop Words

In [13]:
def clean_words(string, word_token = True, leng = "spanish"):
    
    stop_words = stopwords.words(leng)
    stop_words.extend(["-", ".", ",", ";", "(", ")"])
    
    if word_token == True:
        words = word_tokenize(string)
    else:
        words = sent_tokenize(string)
        
    return [word.lower() for word in words if not word in stop_words and len(word) >= 3]

In [14]:
example_string = """Juan aprendió rápidamente porque su primer entrenamiento fue en cómo aprender.
Y la primera lección de todas fue la confianza básica que podía aprender.
Es impactante encontrar cuántas personas no creen que pueden aprender,
y cuantos más creen que aprender es difícil"""

clean_words(example_string)

['juan',
 'aprendió',
 'rápidamente',
 'primer',
 'entrenamiento',
 'cómo',
 'aprender',
 'primera',
 'lección',
 'todas',
 'confianza',
 'básica',
 'podía',
 'aprender',
 'impactante',
 'encontrar',
 'cuántas',
 'personas',
 'creen',
 'pueden',
 'aprender',
 'cuantos',
 'creen',
 'aprender',
 'difícil']

### Stemmer

In [6]:
words = """La tripulación del USS Discovery descubrió muchos descubrimientos.
Descubrir es lo que hacen los exploradores."""

words = clean_words(string = words, word_token = True)
words

['tripulación',
 'uss',
 'discovery',
 'descubrió',
 'descubrimientos',
 'descubrir',
 'hacen',
 'exploradores']

In [10]:
stemmer = PorterStemmer()
stem_words = [stemmer.stem(word) for word in words]
stem_words

['tripulación',
 'uss',
 'discoveri',
 'descubrió',
 'descubrimiento',
 'descubrir',
 'hacen',
 'explorador']

In [12]:
stemmer_sp = SnowballStemmer("spanish")
stem_words = [stemmer_sp.stem(word) for word in words]
stem_words

['tripul',
 'uss',
 'discovery',
 'descubr',
 'descubr',
 'descubr',
 'hac',
 'explor']

### Lemmatizer

In [14]:
words = """La tripulación del USS Discovery descubrió muchos descubrimientos.
Descubrir es lo que hacen los exploradores."""
words = clean_words(string = words, word_token = True)
words

['tripulación',
 'uss',
 'discovery',
 'descubrió',
 'descubrimientos',
 'descubrir',
 'hacen',
 'exploradores']

In [None]:
def lemma(item):
    
    lemmatizer = WordNetLemmatizer()
    lemma_words = [lemmatizer.lemmatize(word) for word in words]
    
    return lemma_words

In [15]:
lemmatizer = WordNetLemmatizer()
lemma_words = [lemmatizer.lemmatize(word) for word in words]
lemma_words

['tripulación',
 'us',
 'discovery',
 'descubrió',
 'descubrimientos',
 'descubrir',
 'hacen',
 'exploradores']

## Sentiment Analysis

El análisis de sentimientos es ampliamente utilizado dentro del NLP para detectar la intención de un texto con base a lso sentimientos que en general se reducen a estos tres: 

- Intención negativa
- Intención Positiva
- Intención Neutra

### NLTK With VADER
<br>
<br>
<img src="nlp_s.jpg" height="700" width="700">
<br>
<br>
NLTK dispone de un corpus llamado Vader, el cual permite analizar sentimientos de oraciones y frases cortas, 
especialmente reviews y comentarios de redes sociales, Vader es un modelo preentrenadoq ue se puede utilizar para lograr un acercamiento a la hora de analizar sentimientos de un texto.

- **Nota:** Vader no es un modelo realmente bueno si lo que se desea es analizar sentimientos de parrafos de texto u oraciones demasiado largas

#### Packages

In [3]:
import pandas as pd
from nltk.sentiment import SentimentIntensityAnalyzer
from tqdm.notebook import tqdm

from nltk import download
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, WordNetLemmatizer

#### Download Corpus

NLTK dispone de diferentes coprus que han sido recopílados y que son bastante útiles para diferentes anlisis:

- **names:** Una lista de nombres comunes en inglés compilada por Mark Kantrowitz
- **stopwords:** Una lista de palabras realmente comunes, como artículos, pronombres, preposiciones y conjunciones
- **state_union:** Una muestra de discursos transcritos sobre el Estado de la Unión por diferentes presidentes de los Estados Unidos, compilados por Kathleen Ahrens
- **twitter_samples:** Una lista de frases de redes sociales publicadas en Twitter
- **movie_reviews:** Dos mil reseñas de películas categorizadas por Bo Pang y Lillian Lee
- **averaged_perceptron_tagger:** Un modelo de datos que NLTK utiliza para categorizar las palabras en su parte del habla
- **vader_lexicon:** Una lista puntuada de palabras y jerga a la que NLTK hace referencia al realizar análisis de sentimiento, creada por C.J. Hutto y Eric Gilbert
- **punkt:** Un modelo de datos creado por Jan Strunk que NLTK utiliza para dividir textos completos en listas de palabras

In [4]:
download(["names", "stopwords", "vader_lexicon"])

[nltk_data] Downloading package names to
[nltk_data]     C:\Users\usuario1\AppData\Roaming\nltk_data...
[nltk_data]   Package names is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\usuario1\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\usuario1\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


True

In [5]:
sia = SentimentIntensityAnalyzer()
print(sia.polarity_scores("Wow, Que buen curso!"))
print(sia.polarity_scores("34tqw342345123!"))

{'neg': 0.0, 'neu': 0.423, 'pos': 0.577, 'compound': 0.6239}
{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}


In [6]:
df_amazon = pd.read_csv("./datasets/Reviews.csv")
print(df_amazon.shape)
df_amazon.head(3)

(568454, 10)


Unnamed: 0,Id,ProductId,UserId,ProfileName,HelpfulnessNumerator,HelpfulnessDenominator,Score,Time,Summary,Text
0,1,B001E4KFG0,A3SGXH7AUHU8GW,delmartian,1,1,5,1303862400,Good Quality Dog Food,I have bought several of the Vitality canned d...
1,2,B00813GRG4,A1D87F6ZCVE5NK,dll pa,0,0,1,1346976000,Not as Advertised,Product arrived labeled as Jumbo Salted Peanut...
2,3,B000LQOCH0,ABXLMWJIXXAIN,"Natalia Corres ""Natalia Corres""",1,1,4,1219017600,"""Delight"" says it all",This is a confection that has been around a fe...


In [32]:
result = {}
for i, row in tqdm(df_amazon.iterrows(), total = len(df_amazon)):
    result[row["Id"]] = sia.polarity_scores(row["Text"])
    
vader_result = pd.DataFrame(result).T
vader_result = vader_result.reset_index().rename(columns = {"index": "Id"})
df_result_end = pd.concat([df_amazon, vader_result], axis = 1).dropna()
df_result_end.shape

In [36]:
vader_result = pd.DataFrame(result).T
vader_result = vader_result.reset_index().rename(columns = {"index": "Id"})
vader_result.head()

Unnamed: 0,Id,neg,neu,pos,compound
0,1,0.0,0.695,0.305,0.9441
1,2,0.138,0.862,0.0,-0.5664
2,3,0.091,0.754,0.155,0.8265
3,4,0.0,1.0,0.0,0.0
4,5,0.0,0.552,0.448,0.9468


In [37]:
vader_result.shape

(63140, 5)

In [38]:
df_result_end = pd.concat([df_amazon, vader_result], axis = 1).dropna()
df_result_end.shape

(63135, 15)

In [39]:
df_result_end.head()

Unnamed: 0,Id,ProductId,UserId,ProfileName,HelpfulnessNumerator,HelpfulnessDenominator,Score,Time,Summary,Text,Id.1,neg,neu,pos,compound
0,1,B001E4KFG0,A3SGXH7AUHU8GW,delmartian,1,1,5,1303862400,Good Quality Dog Food,I have bought several of the Vitality canned d...,1.0,0.0,0.695,0.305,0.9441
1,2,B00813GRG4,A1D87F6ZCVE5NK,dll pa,0,0,1,1346976000,Not as Advertised,Product arrived labeled as Jumbo Salted Peanut...,2.0,0.138,0.862,0.0,-0.5664
2,3,B000LQOCH0,ABXLMWJIXXAIN,"Natalia Corres ""Natalia Corres""",1,1,4,1219017600,"""Delight"" says it all",This is a confection that has been around a fe...,3.0,0.091,0.754,0.155,0.8265
3,4,B000UA0QIQ,A395BORC6FGVXV,Karl,3,3,2,1307923200,Cough Medicine,If you are looking for the secret ingredient i...,4.0,0.0,1.0,0.0,0.0
4,5,B006K2ZZ7K,A1UQRSCLF8GW1T,"Michael D. Bigham ""M. Wassir""",0,0,5,1350777600,Great taffy,Great taffy at a great price. There was a wid...,5.0,0.0,0.552,0.448,0.9468


## Ejercicio

In [40]:
df_amazon = pd.read_csv("./datasets/Reviews.csv")
print(df_amazon.shape)
df_amazon.head(3)

(568454, 10)


Unnamed: 0,Id,ProductId,UserId,ProfileName,HelpfulnessNumerator,HelpfulnessDenominator,Score,Time,Summary,Text
0,1,B001E4KFG0,A3SGXH7AUHU8GW,delmartian,1,1,5,1303862400,Good Quality Dog Food,I have bought several of the Vitality canned d...
1,2,B00813GRG4,A1D87F6ZCVE5NK,dll pa,0,0,1,1346976000,Not as Advertised,Product arrived labeled as Jumbo Salted Peanut...
2,3,B000LQOCH0,ABXLMWJIXXAIN,"Natalia Corres ""Natalia Corres""",1,1,4,1219017600,"""Delight"" says it all",This is a confection that has been around a fe...


In [41]:
def stop_words_clean(string, word_token = True, leng = "spanish"):
    
    stop_words = stopwords.words(leng)
    stop_words.extend(["-", ".", ",", ";", "(", ")"])
    
    if word_token == True:
        words = word_tokenize(string)
    else:
        words = sent_tokenize(string)
        
    result = [word.lower() for word in words if not word in stop_words and len(word) >= 3] 
    
    result_end = " ".join(result)
    
    return result_end

In [31]:
download(["names", "stopwords", "vader_lexicon"])

[nltk_data] Downloading package names to
[nltk_data]     C:\Users\usuario1\AppData\Roaming\nltk_data...
[nltk_data]   Package names is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\usuario1\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\usuario1\AppData\Roaming\nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


True

In [42]:
df_amazon_new = df_amazon.iloc[0:10000, :]
df_amazon_new.shape

(10000, 10)

In [43]:
df_amazon_new["Text"] = df_amazon_new["Text"].apply(lambda x: stop_words_clean(string = x, 
                                                                               word_token = True, 
                                                                               leng = "english"))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_amazon_new["Text"] = df_amazon_new["Text"].apply(lambda x: stop_words_clean(string = x,


In [44]:
df_amazon_new

Unnamed: 0,Id,ProductId,UserId,ProfileName,HelpfulnessNumerator,HelpfulnessDenominator,Score,Time,Summary,Text
0,1,B001E4KFG0,A3SGXH7AUHU8GW,delmartian,1,1,5,1303862400,Good Quality Dog Food,have bought several the vitality canned dog fo...
1,2,B00813GRG4,A1D87F6ZCVE5NK,dll pa,0,0,1,1346976000,Not as Advertised,product arrived labeled jumbo salted peanuts ....
2,3,B000LQOCH0,ABXLMWJIXXAIN,"Natalia Corres ""Natalia Corres""",1,1,4,1219017600,"""Delight"" says it all",this confection that been around few centuries...
3,4,B000UA0QIQ,A395BORC6FGVXV,Karl,3,3,2,1307923200,Cough Medicine,you are looking for the secret ingredient robi...
4,5,B006K2ZZ7K,A1UQRSCLF8GW1T,"Michael D. Bigham ""M. Wassir""",0,0,5,1350777600,Great taffy,great taffy great price there was wide assortm...
...,...,...,...,...,...,...,...,...,...,...
9995,9996,B000P41A28,A3A63RACXR1XIL,"A. Boodhoo ""deaddodo""",10,15,1,1204502400,constipation,switched from the advance similac the organic ...
9996,9997,B000P41A28,A5VVRGL8JA7R,Adam,2,3,5,1306368000,Constipation Not A Problem if...,like the bad reviews say the organic formula c...
9997,9998,B000P41A28,A2TGDTJ8YCU6PD,geena77,0,0,5,1347494400,Love this formula!,wanted solely breastfeed but was unable keep a...
9998,9999,B000P41A28,AUV4GIZZE693O,"Susan Coe ""sueysis""",1,2,5,1203638400,very convenient,love the fact that can get this delieved house...


In [35]:
result = {}
for i, row in tqdm(df_amazon_new.iterrows(), total = len(df_amazon_new)):
    result[row["Id"]] = sia.polarity_scores(row["Text"])
    
vader_result = pd.DataFrame(result).T
vader_result = vader_result.reset_index().rename(columns = {"index": "Id"})
df_result_end = pd.concat([df_amazon_new, vader_result], axis = 1).dropna()
df_result_end.shape

  0%|          | 0/10000 [00:00<?, ?it/s]

(10000, 15)

In [45]:
df_result_end

Unnamed: 0,Id,ProductId,UserId,ProfileName,HelpfulnessNumerator,HelpfulnessDenominator,Score,Time,Summary,Text,Id.1,neg,neu,pos,compound
0,1,B001E4KFG0,A3SGXH7AUHU8GW,delmartian,1,1,5,1303862400,Good Quality Dog Food,I have bought several of the Vitality canned d...,1,0.000,0.695,0.305,0.9441
1,2,B00813GRG4,A1D87F6ZCVE5NK,dll pa,0,0,1,1346976000,Not as Advertised,Product arrived labeled as Jumbo Salted Peanut...,2,0.138,0.862,0.000,-0.5664
2,3,B000LQOCH0,ABXLMWJIXXAIN,"Natalia Corres ""Natalia Corres""",1,1,4,1219017600,"""Delight"" says it all",This is a confection that has been around a fe...,3,0.091,0.754,0.155,0.8265
3,4,B000UA0QIQ,A395BORC6FGVXV,Karl,3,3,2,1307923200,Cough Medicine,If you are looking for the secret ingredient i...,4,0.000,1.000,0.000,0.0000
4,5,B006K2ZZ7K,A1UQRSCLF8GW1T,"Michael D. Bigham ""M. Wassir""",0,0,5,1350777600,Great taffy,Great taffy at a great price. There was a wid...,5,0.000,0.552,0.448,0.9468
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,B000P41A28,A3A63RACXR1XIL,"A. Boodhoo ""deaddodo""",10,15,1,1204502400,constipation,we switched from the advance similac to the or...,9996,0.089,0.852,0.059,-0.5267
9996,9997,B000P41A28,A5VVRGL8JA7R,Adam,2,3,5,1306368000,Constipation Not A Problem if...,"Like the bad reviews say, the organic formula ...",9997,0.091,0.747,0.162,0.6808
9997,9998,B000P41A28,A2TGDTJ8YCU6PD,geena77,0,0,5,1347494400,Love this formula!,I wanted to solely breastfeed but was unable t...,9998,0.063,0.811,0.126,0.9305
9998,9999,B000P41A28,AUV4GIZZE693O,"Susan Coe ""sueysis""",1,2,5,1203638400,very convenient,i love the fact that i can get this delieved t...,9999,0.149,0.697,0.154,0.2809
