<a href="https://colab.research.google.com/github/dncontin/Tutorials/blob/master/NLP_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduccion a NLP

Spacy es una libreria python de código libre que se utiliza para el procesamiento del lenguaje.

In [None]:
!pip3 install -U spacy
!python3 -m spacy download es_core_news_md

In [None]:
import spacy
nlp = spacy.load('es_core_news_md')

## Pre-procesamiento de texto


Tokenización: dividir el texto en palabras, signos de puntuación, números, etc . Los tokens que son cada una de las partes individuales de una oración que tienen algun valor semántico. 

In [None]:
texto='Juan jugaba alegremente en el parque. Su hermana mayor cantaba canciones alegres con su madre.'

In [None]:
doc=nlp(texto)

In [None]:
for token in doc:
  print(token, "     ", token.pos_)

Juan       PROPN
jugaba       AUX
alegremente       ADV
en       ADP
el       DET
parque       NOUN
.       PUNCT
Su       DET
hermana       NOUN
mayor       ADJ
cantaba       AUX
canciones       NOUN
alegres       ADJ
con       ADP
su       DET
madre       NOUN
.       PUNCT


Stopword: Son palabras de uso frecuente y que podemos programar para ignorar ya que no aportan demasiado al significado del texto. Esto incluye:  artículos, pronombres, preposiciones

In [None]:
for token in doc:
  print(token, "   ", token.is_stop)

Juan     False
jugaba     False
alegremente     False
en     True
el     True
parque     False
.     False
Su     True
hermana     False
mayor     True
cantaba     False
canciones     False
alegres     False
con     True
su     True
madre     False
.     False


In [None]:
doc_filtrado=[token for token in doc if not token.is_stop | token.is_punct ]


In [None]:
doc_filtrado

Lematización: transforma cada palabra en su forma canónica o lema. Por ejemplo: caminaba, caminabamos y caminaré son derivadas de caminar.

In [None]:
for token in doc_filtrado:
  print(token, "   ", token.lemma_)

In [None]:
doc_filtrado=[token.lemma_ for token in doc_filtrado ]
doc_filtrado

Stemming: Obtiene la raiz de cada palabra. La raíz es la parte de la palabra que no cambia y de esta forma podemos encontrar palabras que están relacionadas por su significado

In [None]:
import nltk
from nltk import SnowballStemmer
stemmer=SnowballStemmer('spanish')


In [None]:
print(stemmer.stem('vendedor'))
print(stemmer.stem('venta'))
print(stemmer.stem('vender'))
print(stemmer.stem('vendió'))
print(stemmer.stem('vendido'))

In [None]:
[stemmer.stem(tok) for tok in doc_filtrado]

## Airbnb reseñas

In [None]:
import pandas as pd

import matplotlib.pyplot as plt

In [None]:
#https://public.opendatasoft.com/explore/dataset/airbnb-reviews/table/
data=pd.read_excel('airbnb_es.xls')

In [None]:
data.head()

In [None]:
len(data)

In [None]:
from wordcloud import WordCloud 


plt.figure(figsize = (14,14)) 
wc = WordCloud(max_words = 50, width = 1600 , height = 800 ).generate(" ".join(data['Comentario']))
plt.imshow(wc)

In [None]:
def spacy_lematizar(lista_opinion):
    opiniones_filtradas = []
    for item in lista_opinion:
        doc = nlp(item)
        lemmas = [tok.lemma_.lower() for tok in doc if not tok.is_stop | tok.is_punct ]
        review = ' '.join(lemmas)
        opiniones_filtradas.append(review)
    return opiniones_filtradas

In [None]:
com_neg=data[data['Opinion']=='Negativa']
com_pos=data[data['Opinion']=='Positiva']

In [None]:
com_procesado_neg=spacy_lematizar(com_neg['Comentario'])

com_procesado_pos=spacy_lematizar(com_pos['Comentario'])


In [None]:
plt.figure(figsize = (14,14)) 
wc = WordCloud( max_words = 50 , width = 1600 , height = 800).generate(" ".join(com_procesado_pos))
plt.imshow(wc)

In [None]:
plt.figure(figsize = (14,14)) 
wc = WordCloud(  max_words = 50 , width = 1600 , height = 800).generate(" ".join(com_procesado_neg))
plt.imshow(wc)