## Análisis de texto

En este caso práctico haremos una revisión general de cómo podemos analizar y procesar textos desde una perspectiva descriptiva. 

El caso está estructurado así:

1. Carga y exploración de texto
2. Procesos de limpieza y transformación en texto
3. Representaciones de conteos

**Contexto:** Muchas empresas y entidades estan monitoreando constantemente los comentarios que hay en redes sociales sobre sus productos y servicios para identificar rápidamente molestias e inquietudes de sus clientes. Así poder tomar decisiones y medidas eficientemente evitando que su imagen se vea damnificada

**Pregunta de negocio:** En este caso analizaremos una muestra de tweets relacionados con el banco Davivienda. El objetivo es analizar cuáles pueden ser los temas tendencia en estos tweets y qué hallazgos se encuentran en ellos

In [1]:
import nltk # imports the natural language toolkit
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
import pandas as pd
import re
import string
from nltk.util import ngrams
from sklearn.feature_extraction.text import CountVectorizer

ModuleNotFoundError: No module named 'nltk'

In [None]:
tx = pd.read_csv('tweets.csv',encoding='latin-1')

In [None]:
tx.head()

## Manejo de textos

**Tokenizar oraciones**

In [None]:
tw = tx['texto']
tw.head()
tw[0]

In [None]:
oraciones = nltk.sent_tokenize(tw[0])
for oracion in oraciones:
    print(oracion)
    print()

**Tokenizar palabras**

In [None]:
oraciones = nltk.sent_tokenize(tx['texto'][1])
for oracion in oraciones:
    palabras = nltk.word_tokenize(oracion)
    print(oracion)
    print(palabras)
    print()

**Tamaño de los tweets**

In [None]:
tx['largo'] = tx['texto'].apply(len)
tx.head()

In [None]:
tx['largo'].mean()

In [None]:
print(tx['largo'].min())
print(tx['largo'].max())

In [None]:
tx['largo'].hist()

**Wordclouds**

In [None]:
texto_c = ''.join(tx.texto)
wordcloud = WordCloud(max_font_size=100, max_words=100, background_color="white",\
                          scale = 10,width=800, height=400).generate(texto_c)
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

## Palabras o tokens más frecuentes

In [None]:
tokenized_words = nltk.word_tokenize(texto_c)
word_freq = Counter(tokenized_words)
word_freq.most_common(20)

Al sacar los tokens más comunes en esta muestra de tweets observamos como algunos signos de puntuación resultan ser los más comunes. Esto indica que debemos hacer un proceso de limpieza de los textos

## Limpieza y pre-procesamiento

In [None]:
texto_c = ''.join(tx.texto)
texto_c[:400]

**Llevar todas las palabras a minúsculas**

In [None]:
texto_c = texto_c.lower()

In [None]:
texto_c[:400]

**Remover @, # con expresiones regulares**

In [None]:
texto_c = re.sub(r'\@\w+|\#','', texto_c)
texto_c[:400]

**Remover signos de puntuación**

In [None]:
texto_c = texto_c.translate(str.maketrans('', '', string.punctuation))
texto_c[0:400]

Luego de hacer esta limpieza inicial cómo varían las palabras/tokens más frecuentes

In [None]:
tokenized_words = nltk.word_tokenize(texto_c)
word_freq = Counter(tokenized_words)
word_freq.most_common(20)

**¿Qué tipo de palabras encontramos en la lista de las más frecuentes?**

Naturalmente las palabras más comunes suelen ser "palabras vacías" que no añaden mucho significado al texto como artículos, pronombres y preposiciones. Lo más aconsejable es no considerarlas en el análisis ya que traen mucho ruido y no permiten identificar aquellas palabras que si son relevantes para el análisis

**Stopwords**

In [2]:
print(stopwords.words("spanish"))

NameError: name 'stopwords' is not defined

Removamos de nuestro texto las stopwords

In [None]:
stop_words = set(stopwords.words("spanish"))
tweet_tokens = nltk.word_tokenize(texto_c)
texto_f = [w for w in tweet_tokens if not w in stop_words]

In [None]:
print(len(texto_c))
print(len(texto_f))

Las stopwords en este caso representaban casi un 90% del total de las palabras

## Conteos de frecuencias

Una vez hecha la limpieza ya podemos entonces verificar cuáles son las palabras más frecuentes en esta muestra de tweets

In [None]:
word_freq = Counter(texto_f)
word_freq.most_common(20)

**n-gramas**

In [None]:
list(ngrams(texto_f, 2)) #ngrams(word_tokens,n) gives the n-grams.

In [None]:
def top_k_ngrams(word_tokens,n,k):
    
    ## lista de n-gramas
    n_gram_list = list(ngrams(word_tokens, n))

    ### Tomar cada ngrama como un string separado
    n_gram_strings = [' '.join(each) for each in n_gram_list]
    
    n_gram_counter = Counter(n_gram_strings)
    most_common_k = n_gram_counter.most_common(k)
    print(most_common_k)

In [None]:
bigram = top_k_ngrams(texto_f,2,20)
bigram

**Trigrams**

In [None]:
top_k_ngrams(texto_f,3,10)

## Llevar texto a vectores

In [None]:
# The following code creates a word-document matrix.
from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer()
X = vec.fit_transform(texto_f)
df = pd.DataFrame(X.toarray(), columns=vec.get_feature_names())
df.head()

## Otras transformaciones de texto

**lematizacion**

In [None]:
from nltk.stem import PorterStemmer, WordNetLemmatizer, LancasterStemmer

nltk.download('wordnet')

from nltk.corpus import wordnet

porter = PorterStemmer()
lancaster = LancasterStemmer()
lemmatizer = WordNetLemmatizer()

In [None]:
print("Lancaster Stemmer")
print(lancaster.stem("trouble"))
print(lancaster.stem("troubling"))
print(lancaster.stem("troubled"))

# Provide a word to be lemmatized
print("WordNet Lemmatizer")
print(lemmatizer.lemmatize("trouble", wordnet.NOUN))
print(lemmatizer.lemmatize("troubling", wordnet.VERB))
print(lemmatizer.lemmatize("troubled", wordnet.VERB))

**POS**

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')

text_word_token = nltk.word_tokenize("Juliana is having a nice day")

nltk.pos_tag(text_word_token)


In [3]:
text_word_token = nltk.word_tokenize("Juliana tiene un buen día")

nltk.pos_tag(text_word_token)


NameError: name 'nltk' is not defined

## Conclusiones

- Analizar texto requiere de una gran tarea de limpieza y transformación
- La descripción inicial de los tweets ya nos puede dar ideas de cuáles podrían ser temas o palabras en tendencia
- Algunas de las herramientas implementadas no funcionan tan bien en español 