# Limpieza de texto en Python - Proyecto integrador


## Introducción:

El análisis de texto e imagenes es un campo creciente. Las ingentes cantidades de texto, imagenes y video representan una oportunidad para las organizaciones que desean encontrar patrones, conocer las opiniones de sus consumidores, analizar posibles coocurrencias, e inclusive, generar predicciones sobre las palabras que el usuario digitará, o traducir en tiempo real un texto entre distintos idiomas.

En el notebook se busca utilizar las funciones disponibles para obtener información líquida suceptible de analizar basados en el cálculo de frecuencua de palabras, concurrencia entre frases y datos gráficos exploratorios.


Diccionario a utilizar: download es_core_news_sm
-

Para más información sobre spacy: https://spacy.io/

### Panorama genral de la Analitica de Texto

#### Introducción

In [1]:
import codecs
import spacy

nlp=spacy.load('es_core_news_md')

#### Input del tweet

In [4]:
text = 'Información que se va a cargar de cada uno de los tweets'
print(text[0:10*100])

Información que se va a cargar de cada uno de los tweets


#### El Asunto del Orden del texto

El orden de las palabras es importante. Las reglas que rigen el orden de las palabras en una secuencia de palabras (como una oración) se llaman gramática de un idioma. Si solo desea codificar el sentido general y el sentimiento de una oración corta, el orden de las palabras no es muy importante

In [20]:
from itertools import permutations

[" ".join(combo) for combo in permutations(text.split(), 3)]


['Información que se',
 'Información que va',
 'Información que a',
 'Información que cargar',
 'Información que de',
 'Información que cada',
 'Información que uno',
 'Información que de',
 'Información que los',
 'Información que tweets',
 'Información se que',
 'Información se va',
 'Información se a',
 'Información se cargar',
 'Información se de',
 'Información se cada',
 'Información se uno',
 'Información se de',
 'Información se los',
 'Información se tweets',
 'Información va que',
 'Información va se',
 'Información va a',
 'Información va cargar',
 'Información va de',
 'Información va cada',
 'Información va uno',
 'Información va de',
 'Información va los',
 'Información va tweets',
 'Información a que',
 'Información a se',
 'Información a va',
 'Información a cargar',
 'Información a de',
 'Información a cada',
 'Información a uno',
 'Información a de',
 'Información a los',
 'Información a tweets',
 'Información cargar que',
 'Información cargar se',
 'Información carga

In [21]:
s = text

len(set(s.split()))

import numpy as np

np.arange(1, 12 + 1).prod() # factorial(12) = arange(1, 13).prod()

479001600

## Prooceso General

## Normalizacion de Textos

### Dividir por espacios en blanco

In [22]:
text[0:100].split()

['Información',
 'que',
 'se',
 'va',
 'a',
 'cargar',
 'de',
 'cada',
 'uno',
 'de',
 'los',
 'tweets']

#### Remover Caracteres especiales

In [7]:
import string

print(string.punctuation)


!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [8]:
tabla = str.maketrans('', '', string.punctuation)
tabla

{33: None,
 34: None,
 35: None,
 36: None,
 37: None,
 38: None,
 39: None,
 40: None,
 41: None,
 42: None,
 43: None,
 44: None,
 45: None,
 46: None,
 47: None,
 58: None,
 59: None,
 60: None,
 61: None,
 62: None,
 63: None,
 64: None,
 91: None,
 92: None,
 93: None,
 94: None,
 95: None,
 96: None,
 123: None,
 124: None,
 125: None,
 126: None}

In [9]:
depurado = [w.translate(tabla) for w in text.split()]
print(depurado[:100])

NameError: name 'text' is not defined

### Pasar a minuscula

In [None]:
words = [word.lower() for word in text.split()]
print(words[:100])


**Tokens:** Una base de datos de texto (o *corpus*) es una agrupación de bytes. El texto en su forma más pura, es una colección de bytes (o caracteres). La mayoria de veces es útil agrupar estos caracteres en unidades continuas llamadas tokens. En español, al igual que en la mayoria de los idiomas occidentales, un token corresponde a palabras y sequencias numericas separadas por espacios en blanco o signos de puntuación.  El proceso de reducir un texto a tokens se conoce como **tokenización**.

In [23]:
parsed_text=nlp(text)
tokens=[]
for token in parsed_text:
    tokens.append(token)
    
print(tokens[0:10])    

[Información, que, se, va, a, cargar, de, cada, uno, de]


### n-gramas

**Unigramas, bigramas, trigramas,...,N-gramas**: Corresponden a una colección de tokens secuenciales que ocurren en un texto. En este caso, un bigrama corresponde a dos tokens que occuren en forma consecutiva. Un trigrama es una colección de tres tokens, etc. 

Es bastante sencillo crear N-gramas

In [None]:
def n_grams(texto,n):
  '''
  toma tokes o texto y retorna una lista de n-gramas
  '''
  return [texto[i:i+n] for i in range(len(text)-n+1)]

bigrama = n_grams(parsed_text,2)

print(bigrama[0:100])

### Colocación (collocations)

In [None]:
 import nltk
 from nltk.collocations import *
 bigram_measures = nltk.collocations.BigramAssocMeasures()
 trigram_measures = nltk.collocations.TrigramAssocMeasures()
 finder = BigramCollocationFinder.from_words(tokens)
 finder.nbest(bigram_measures.pmi, 10)  

In [None]:
 finder = TrigramCollocationFinder.from_words(tokens)
 finder.nbest(trigram_measures.pmi, 10) 

### Extración de Oraciones

In [None]:
idx = 0
sentencias = []
for sentence in parsed_text.sents:
    sentencias.append(sentence)
    print('Numero de sentencia', idx, ':', sentence)
    idx += 1
    
    if idx == 10:  break

### Lemmas

**Lemmas**: Lemas corresponde a la raíz de una palabra. Considere por ejemplo la palabra *correr*. Esta puede tener distintas formas como *corriendo, corrí, correré,* entre otras. En este caso, resulta útil reducir la palabra a su raíz o lemma. En este caso, este proceso se conoce como *lematization*. Obtener los lemas es bastante sencillo una vez se ha procesado el texto con la funcion nlp de Spacy, y se logra a través de la función .lemma_

In [None]:
for token in tokens[0:20]:
    print('{} --> {}'.format(token, token.lemma_))

### Stop word

In [None]:
#Stop words
#Importar stop wrd en espanol.
import spacy
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS

#Mostrarelnumero total de stop words:
print('Numero de stop words: %d' % len(spacy_stopwords))

#Mostrar un top de stop words:
print('El top de las stop word: %s' % list(spacy_stopwords)[:20])

In [None]:
print(parsed_text[0:5])

In [None]:
from spacy.lang.es.stop_words import STOP_WORDS

#Implementation of stop words:
text_filtrado=[]

# filtering stop words
for word in parsed_text:
    if word.is_stop==False:
        text_filtrado.append(word)
print("Texto_Filtrado:",text_filtrado[0:60])


In [None]:
text_stop=[]

# filtering stop words
for word in parsed_text:
    if word.is_stop==True:
        text_stop.append(word)
print("Texto_Filtrado:",text_stop[0:100])

### Inclusión de stop word propias

In [None]:
mis_stopwords=['a','y', 'para']

for word in mis_stopwords:
    nlp.vocab[word].is_stop=True

**Categorización de oraciones y documentos**: Una de las primeras aplicaciones de NLP corresponde a la categorización de grandes porciones de texto de un documento. 

### POS tagging

Uno de las categorizaciones más comunes corresponde a *Part of Speech tagging*, que es simplemente conocer si una determinada palabra corresponde a un verbo, adjetivo, sujeto u otra estructura de una oración:

In [24]:
for token in tokens[0:20]:
    print('{} - {}'.format(token, token.pos_))

Información - NOUN
que - PRON
se - PRON
va - AUX
a - ADP
cargar - VERB
de - ADP
cada - DET
uno - PRON
de - ADP
los - DET
tweets - NOUN


*Labels:* Spacy nos deja identificar si una palabra corresponde a un lugar, persona u organización en particular. Esto se logra usando la función .ents() e imprimiento los labels. Claro, como todo modelo, esto no es perfecto, pero es una ayuda!

In [None]:
from tabulate import tabulate 

table = [["Text", "Lemma", "POS", "Tag", "Dep", "Alpha", "Stop"]]
for token in tokens[:20]:
    table.append([
        token.text, token.lemma_, token.pos_, token.tag_, 
        token.dep_, token.is_alpha, token.is_stop
    ])
print(tabulate(table, tablefmt="simple", headers="firstrow"))

## Analísis de Dependencias

![parsing2](img/parsing2.png)

In [None]:
from spacy import displacy


doc = nlp(text)

### Llevar los resultados a un Pandas

In [None]:
# Para termonis de flexibilidad llevesmo algunos datos a un dataframe 
# de pandas que nos permita interactuar con otros metodos

import pandas as pd

df = pd.DataFrame()

for i, token in enumerate(parsed_text):
    df.loc[i, 'text'] = token.text
    df.loc[i, 'lemma'] = token.lemma_
    df.loc[i, 'pos'] = token.pos_
    df.loc[i, 'dep'] = token.dep_


In [None]:
df.head()

### Expresiones Regulares Usando taggers

In [None]:
import nltk
from nltk.tag.sequential import RegexpTagger
regexp_tagger = RegexpTagger(
[( r'^-?[0-9]+(.[0-9]+)?$', 'CD'), # úmeros cardinales
( r'(The|the|A|a|An|an)$', 'AT'), # articulos
( r'.*able$', 'JJ'), # adjetivos
( r'.*ness$', 'NN'), # sustantivosformados por adjetivos
( r'.*ly$', 'RB'), # advervios
( r'.*s$', 'NNS'), # sustantivos plurales
( r'.*ing$', 'VBG'), # gerundios
(r'.*ed$', 'VBD'), # vervos en pasado
(r'.*', 'NN') # sustantivos
])


In [None]:

regexp_tagger = RegexpTagger(
[
(r'.*ed$', 'VBD'), # verbos en pasado

])

regexp_tagger.tag(nltk.word_tokenize(text[0:150]))

In [None]:
idx = 0
sentencias = []
for sentence in parsed_text.sents:
    sentencias.append(sentence)
    print('Numero de sentencia', idx, ':', sentence)
    idx += 1
    
    if idx == 10:  break

In [None]:
    from collections import Counter

    histogram_with_some_filtering = Counter()

    for token in parsed_text:
        lemma = token.lemma_.lower()
        if not (nlp.vocab[lemma].is_stop or token.pos_ == 'PUNCT' or token.pos_ == 'SPACE'):
            histogram_with_some_filtering[lemma] += 1

    from operator import itemgetter
    sorted_lemma_count_pairs = sorted(histogram_with_some_filtering.items(),
                                      reverse=True,
                                      key=itemgetter(1))
    for lemma, count in sorted_lemma_count_pairs[0:15]:
        print(lemma, ":", count)

*a* y *y* son de hecho stop words. se incluyen estas palabras al listado de stopwords de spacy. 

In [None]:
mis_stopwords=['a','y', 'para']

for word in mis_stopwords:
    nlp.vocab[word].is_stop=True
    
histogram_with_some_filtering = Counter()

for token in parsed_text:
    lemma = token.lemma_.lower()
    if not (nlp.vocab[token.orth_.lower()].is_stop or token.pos_ == 'PUNCT' or token.pos_ == 'SPACE'):
        histogram_with_some_filtering[lemma] += 1
    
from operator import itemgetter
sorted_lemma_count_pairs = sorted(histogram_with_some_filtering.items(),
                                  reverse=True,
                                  key=itemgetter(1))
for lemma, count in sorted_lemma_count_pairs[0:15]:
    print(lemma, ":", count)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('seaborn')  # prettier plots (for example, use 'ggplot' instead of 'seaborn' for plots like in R)
%config InlineBackend.figure_format = 'retina'  # if you use a Mac with Retina display

num_top_lemmas_to_plot = 20
top_lemmas = [lemma for lemma, count in sorted_lemma_count_pairs[:num_top_lemmas_to_plot]]
top_counts = [count for lemma, count in sorted_lemma_count_pairs[:num_top_lemmas_to_plot]]
plt.bar(range(num_top_lemmas_to_plot), top_counts)
plt.xticks(range(num_top_lemmas_to_plot), top_lemmas, rotation=45)
plt.xlabel('Lemma')
plt.ylabel('Raw count')

## Transformacion de texto (text embedding):

La transformacion de texto a números es una condición necesaria para que el texto, o cualquier archivo multimedia, sea procesado por el computador. Para tal fin, es necesario preservar el significado semantico del texto durante tal transformación. A esto se le conoce como embedding. Por ejemplo, *"ancla"* y *"bote"* tienen un embedding cercano, mientras que *"ancla"* y *"perro"* no...

Algunos embeddings populares son:

    - Word2Vec: Desarrollado por Google en 2013, se ha convertido en el text embedding por default de la industria. Es una red neuronal que es capaz de generar analogias del tipo: rey es a hombre como reina a mujer. 
    
    -GlobVe: Mejorado a partir del Word2Vec para el aprendizaje de vocabulario, siendo mas eficiente en el aprendizaje de nuevo vocabulario.

## PMI y Análisis de Coocurrencias:

PMI (Pointwise Mutual Index) es una medida de asociación entre dos palabras en particular *x* y *y*. Es decir, el PMI de dos palabras cuantifica la discrepancia entre la coincidencia de dos Variables Aleatorias discretas dada la distribución conjunta de probabilidad y las distribuciones individuales, asumiendo independencia. Formalmente:

\begin{equation}
\operatorname {pmi} (x;y)\equiv \log {\frac {p(x,y)}{p(x)p(y)}}=\log {\frac {p(x|y)}{p(x)}}=\log {\frac {p(y|x)}{p(y)}}.
\end{equation}

Este tipo de análisis son útiles para poder entender si dos palabras sueles estar asociadas y ocurren con frecuencia. Para ilustrarlo, suponga que existe la siguiente tabla de coocurrencia para las siguientes entidades:

| <i></i>         | Apple | Facebook | Tesla |
| --------------- |:-----:|:--------:|:-----:|
| Elon Musk       | 10    | 15       | 300   |
| Mark Zuckerberg | 500   | 10000    | 500   |
| Tim Cook        | 200   | 30       | 10    |

En este caso, Elon Musk y Apple co-ocurren en 10 articulos. Facebook y Elon Musk ocurren 15 veces... y así para cada caso.

Para la práctica, usaremos un corpus de Reuters en inglés, por lo que debemos descargar el diccionario de SpaCy en dicho idioma, y realizar su cargue. A continuación, realizaremos algunos análisis sobre las entidades que aparecen en los documentos, y realizaremos un análisis de coocurrencia para conocer que suele estar asociado con nuestro país

In [26]:
####Ejemplo tomado de Curso de texto dictado en Bancolobia

In [5]:
from collections import Counter
from nltk.corpus import reuters
import re
import spacy

nlp = spacy.load('es_core_news_md')

In [2]:
nltk.download()

NameError: name 'nltk' is not defined

In [None]:
reuters_archivos= reuters.fileids()
reuters_nlp = [nlp(re.sub('\s+',' ', reuters.raw(i)).strip()) for i in reuters_archivos]

In [None]:
contador_palabra=Counter()
contador_articulo=Counter()
for i in reuters_nlp:
    for entity in i.ents:
        if entity.label_=='NORP':
            entity_name=entity.text.strip()
            contador_palabra[entity_name]+=1
    for item in contador_palabra.keys():
        if contador_palabra[item]>0:
            contador_articulo[item]+=1
            contador_palabra[item]=0

contador_articulo.most_common(10)   

In [None]:
contador_palabra=Counter()
contador_articulo=Counter()
for i in reuters_nlp:
    for entity in i.ents:
        if entity.label_=='GPE':
            entity_name=entity.text.strip()
            contador_palabra[entity_name]+=1
    for item in contador_palabra.keys():
        if contador_palabra[item]>0:
            contador_articulo[item]+=1
            contador_palabra[item]=0

contador_articulo.most_common(10)  

Ahora procedemos a encontrar el PMI para el pais "GPE" de Colombia y encontrar las personas con mayor PMI asociado a este país. En este caso, $P('colombia') = \frac{número \ \ de \ \ documentos \ \ que \ \ contienen \ \ 'colombia'}{número \ \ de \ \ documentos}$.  

In [None]:
import numpy as np
total_art=0
num_col=0
is_col=False
articulos_palabras_joint=Counter()
articulos_palabras_joint_final=Counter()
prob_joint=Counter()
for i in reuters_nlp:
    total_art+=1
    for entity in i.ents:
        if entity.text.lower().strip()=='colombia':
            is_col=True
    if is_col==True:
        num_col+=1
        is_col=False
                
prob_col=num_col/total_art

####### Prob for each word of GPE:
num_persona_palabra=Counter()
num_persona_articulo=Counter()
for i in reuters_nlp:
    for entity in i.ents:
        if entity.label_=='PERSON':
            entity_name=entity.text.lower().strip()
            num_persona_palabra[entity_name]+=1
    for item in num_persona_palabra.keys():
        if num_persona_palabra[item]>0:
            num_persona_articulo[item]+=1
            num_persona_palabra[item]=0

probabilidad_persona=Counter()
for k in num_persona_articulo.keys():
    probabilidad_persona[k]=num_persona_articulo[k]/total_art

#### Joint Prob
num_joint_texto=Counter()
num_final=Counter()
for i in reuters_nlp:
    is_col=False
    for entity in i.ents:
        if entity.text.lower().strip()=='colombia':
            is_col=True
    if is_col==True:
        for item in i.ents:
            if item.label_=='PERSON':
                entity_name=item.text.lower().strip()
                num_joint_texto[entity_name]+=1
        for alpha in num_joint_texto.keys():
            if num_joint_texto[alpha]>0:
                num_final[alpha]+=1
                num_joint_texto[alpha]=0
        

probabilidad_joint=Counter()
for i in num_final.keys():
    probabilidad_joint[i]=num_final[i]/num_col
####Computing the PMI:

PMI_final=Counter()
for i in probabilidad_joint.keys():
    PMI_final[i]=np.log(probabilidad_joint[i]/(probabilidad_persona[i]*prob_col))

PMI_final.most_common(50)    

## Reducción de dimensionalidad en textos: PCA, Isomaps y t-SNE
 

In [None]:
import glob
import os
import codecs

file_list_business = glob.glob(os.path.join(os.getcwd(), "bbc/business", "*.txt"))

corpus_business = []

for file_path in file_list_business:
    with open(file_path) as f_input:
        corpus_business.append(f_input.read())

corpus_business=[x.encode('utf-8') for x in corpus_business]

file_list_entertainment = glob.glob(os.path.join(os.getcwd(), "bbc/entertainment", "*.txt"))

corpus_entertainment = []

for file_path in file_list_entertainment:
    with open(file_path) as f_input:
        corpus_entertainment.append(f_input.read())
corpus_entertainment=[x.encode('utf-8') for x in corpus_entertainment]


file_list_politics = glob.glob(os.path.join(os.getcwd(), "bbc/politics", "*.txt"))

corpus_politics = []

for file_path in file_list_politics:
    with open(file_path) as f_input:
        corpus_politics.append(f_input.read())
corpus_politics=[x.encode('utf-8') for x in corpus_politics]


file_list_sport = glob.glob(os.path.join(os.getcwd(), "bbc/sport", "*.txt"))

corpus_sport = []

for file_path in file_list_sport:
    with open(file_path) as f_input:
        corpus_sport.append(f_input.read())
corpus_sport=[x.encode('utf-8') for x in corpus_sport]

file_list_tech = glob.glob(os.path.join(os.getcwd(), "bbc/tech", "*.txt"))
corpus_tech = []

for file_path in file_list_tech:
    with open(file_path) as f_input:
        corpus_tech.append(f_input.read())
corpus_tech=[x.encode('utf-8') for x in corpus_tech]

corpus=[]

for i in corpus_business:
    corpus.append(i)
    
for i in corpus_entertainment:
    corpus.append(i)
    
for i in corpus_sport:
    corpus.append(i)

for i in corpus_tech:
    corpus.append(i)

for i in corpus_politics:
    corpus.append(i)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer=TfidfVectorizer(min_df=50, stop_words="english", max_df=0.8)
X=vectorizer.fit_transform(corpus)
X=X.todense()
vocabulary=vectorizer.vocabulary_
print("En número de palabras únicas es: ", len(vocabulary))

### Análisis de Componentes Principales:

In [None]:
from sklearn.decomposition import PCA

reduccion_pca = PCA(n_components=2)  #Cargamos el modelo, especificando el número de dimensiones.
reduccion_texto = reduccion_pca.fit_transform(X) #

In [None]:
import numpy as np
import matplotlib.pyplot as plt

plt.scatter(reduccion_texto[:,0], reduccion_texto[:,1], alpha=0.5)