# Procesamiento de lenguaje natural

*Carlos Isaac Zainea Maya* 

**Clase 2**



## Funciones elementales

Python es un lenguaje de programación que ha permeado muchas ramas del conocimiento, la industria y la empresa. En el caso del procesamientro de textos es uno de los más fáciles y flexibles de trabajar. Empecemos con un texto simple y veamos algunas funciones elementales:

In [None]:
Texto1="\r Donald Knuth:\n \n  \r Se    le conoce principalmente por ser el autor de la obra The Art of Computer Programming (El arte de programar computadoras), una de las más respetadas referencias en el campo de las ciencias de la computación. Sentó las bases y dio nombre al análisis de algoritmos, y ha realizado numerosos aportes a varias ramas teóricas de la informática. Es el creador de TEX, del sistema de diseño de tipos METAFONT y del estilo de programación conocido como programación literaria (Literate programming). Knuth es conocido como el 'padre del análisis de algoritmos'.\n "

In [None]:
print(Texto1)

**split**

`split()` es un comando que  corta textos con un delimitador dado, usualmente se usa como delimitador el espació: `" "` para obtener una lista de palabras:

In [None]:
Texto1.split()


**strip**

El anterior texto tiene caracteres de generación de espacios en blanco, tales como \n y \r.

El comando `strip()` permite borrar esos comando auxiliares del texto al final e inicio del texto. 

In [None]:
Texto1.strip()

**Upper y lower**


En ocasiones tenemos un montón de palabras que significan lo mismo pero para la máquina son iguales por el uso de mayúsculas y minúsculas propias de cada uno de los lenguajes.

`upper()` y  `lower()` resuelven este problema dejando todas las letras del texto en Mayúscula o minúsculas respectivamente:

In [None]:
Texto1.upper()

In [None]:
Texto1.lower()

In [None]:
Texto1

**Replace**

El comando `replace` remplaza en el texto caracteres por otros:

In [None]:
Texto1.replace("o","a") #Aquí cambiamos o's por a's

In [None]:
Texto1.replace("o","",10) #el valor despues de los caracteres a remplazar indica la cantidad de remplazos que se quieren hacer.

In [None]:
Texto1.replace(":","").replace(",","").replace("(","").replace(")","").replace(".","").replace("'","").split()

## Expresiones regulares

Las expresiones regulares son secuencias de carcateres que permiten establecer patrones de búsqueda. Se utilizan en el procesamiento de texto para la identificación de palabras similares y en Python se utilizan llamando el paquete re.

In [None]:
import re

In [None]:
help(re)

## Diccionarios

Un diccionario es una estructura de datos indexada por claves o metadatos que pueden ser de cualquier tipo. Se usan con distintos lenguajes y se caracterizan por la facilidad en la implementación de procesos que evitan en los programadores la preocupación de estructurar datos. 

Usando el texto definido arriba crearemos un diccionario que guarde la cantidad de palabras que aparecieron en el texto:

In [None]:
frecuencias={}
for palabra in Texto1.split():
    if palabra in frecuencias:
        frecuencias[palabra]+=1
    else:
        frecuencias[palabra]=1
print(frecuencias)        

In [None]:
Texto1paradic=re.sub( "[^A-Za-z0-9óáéíúñ]+",' ',Texto1)

In [None]:
frecuencias={}
for palabra in Texto1paradic.lower().split():
    if palabra in frecuencias:
        frecuencias[palabra]+=1
    else:
        frecuencias[palabra]=1
print(frecuencias) 

## Algo de gráficos

Veamos a continuación algunas gráficas sencillas para vsualizar la frecuencia textual en este pequeño parrafo, necesitaremos instalar dos paquetes:

`wordcloud` y `stop-words`

In [None]:
!pip install wordcloud
!pip install stop-words

In [None]:
import numpy as np
from PIL import Image
from urllib.request import urlopen
from wordcloud import WordCloud, ImageColorGenerator
from stop_words import get_stop_words
import matplotlib.pyplot as plt
%matplotlib inline

### Diagramas de barras

Iniciemos creando un diagrama de barras, observe que se transforma el diccionario en una lista para poder hacer el gráfico,

In [None]:
plt.figure(figsize=(15,10))
plt.bar(range(len(frecuencias)), list(frecuencias.values()), align='center')
plt.xticks(range(len(frecuencias)), list(frecuencias.keys()),rotation=90)
plt.xlabel("Palabra")
plt.ylabel("Cantidad de palabras")
plt.show()

Ahora hacemos el mismo ejercicio pero organizando los valores:

In [None]:
import operator
frecuencias_ordenadas=sorted(frecuencias.items(),key=operator.itemgetter(1),reverse=True)
dictfrecord=dict((key,value) for key,value in frecuencias_ordenadas)

In [None]:
plt.figure(figsize=(15,10))
plt.bar(range(len(dictfrecord)), list(dictfrecord.values()), align='center')
plt.xticks(range(len(dictfrecord)), list(dictfrecord.keys()),rotation=90)
plt.xlabel("Palabra")
plt.ylabel("Cantidad de palabras")
plt.show()

### Word Cloud

Word cloud es un tipo de gráfico bien interesante que dibuja las palabras de acuerdo a su frecuencia, cuando aparece muchas veces una palabra la dibuja más grande. 

In [None]:
wordcloud = WordCloud(max_font_size=50, max_words=100, background_color="white").generate(Texto1paradic.upper())
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

In [None]:
stop_words=get_stop_words("es")
stop_words.extend(get_stop_words("en"))
stop_words

In [None]:
wordcloud = WordCloud(stopwords=stop_words, max_font_size=50, max_words=100, background_color="white").generate(Texto1paradic)
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

In [None]:
frecuencias={}
for palabra in Texto1paradic.lower().split():
    if palabra not in stop_words:
        if palabra in frecuencias:
            frecuencias[palabra]+=1
        else:
            frecuencias[palabra]=1
print(frecuencias)

In [None]:
import operator
frecuencias_ordenadas=sorted(frecuencias.items(),key=operator.itemgetter(1),reverse=True)
dictfrecord=dict((key,value) for key,value in frecuencias_ordenadas)

In [None]:
plt.figure(figsize=(15,10))
plt.bar(range(len(dictfrecord)), list(dictfrecord.values()), align='center')
plt.xticks(range(len(dictfrecord)), list(dictfrecord.keys()),rotation=90)
plt.xlabel("Palabra")
plt.ylabel("Cantidad de palabras")
plt.show()

In [None]:
foto=urlopen("https://www.ucentral.edu.co/sites/default/files/inline-images/maest-analitica-datos_0.jpg")
fondo=np.array(Image.open(foto))

In [None]:
wordcloud = WordCloud(stopwords=stop_words, max_font_size=80, max_words=100, background_color="white",mask=fondo).generate(Texto1paradic)
image_colors = ImageColorGenerator(fondo)
plt.figure(figsize=[7,7])
plt.imshow(wordcloud.recolor(color_func=image_colors), interpolation="bilinear")
plt.axis("off")
plt.show()

## Lectura de páginas web usando BeautifulSoup y NLTK

[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) es una biblioteca de Python para extraer datos de archivos HTML y XML. Funciona con su analizador favorito para proporcionar formas idiomáticas de navegar, buscar y modificar el árbol de análisis. Comúnmente ahorra a los programadores horas o días de trabajo.

[NLTK - Natural Language ToolKit -](https://www.nltk.org/) es una libreia imprescindible en el lenguaje natural para Python. Cuenta con más de 50 corpus y recursos léxicos como WordNet, junto con un conjunto de bibliotecas de procesamiento de texto para clasificación, tokenización, derivación, etiquetado, análisis y razonamiento semántico, envoltorios para bibliotecas de PNL de potencia industrial y un foro de discusión activo.


In [None]:
pagina=urlopen("https://www.ucentral.edu.co/programa-academico/maestria-analitica-datos")
CodHTML=pagina.read().decode("utf-8")

In [None]:
CodHTML

Limpieza simple usando expresiones regulares:

In [None]:
 CodHTMLclean1=re.split('\W+',CodHTML)

In [None]:
 CodHTMLclean1

Limpieza usando BeautifulSoup:

In [None]:
import nltk
nltk.download('punkt')

In [None]:
from bs4 import BeautifulSoup

CodHTMLclean=BeautifulSoup(CodHTML).get_text()
tokens = nltk.word_tokenize(CodHTMLclean)

In [None]:
tokens

In [None]:
tokens.index("Maestría")

In [None]:
tokens.pop(334)

In [None]:
tokens.index("Maestría")

In [None]:
tokens.pop(1625)

In [None]:
tokens.index("Maestría")

In [None]:
tokens[2092:3000]

In [None]:
import nltk
Freq_dist_nltk=nltk.FreqDist(tokens[2091:4511])

In [None]:
Freq_dist_nltk

In [None]:
Freq_dist_nltk.plot(20)

In [None]:
stop_words=get_stop_words("es")
tokensclean=[pal for pal in tokens[2091:4511] if len(pal.lower())>1 and (pal.lower() not in stop_words)]

In [None]:
tokensclean

In [None]:
Freq_dist=nltk.FreqDist(tokensclean)

In [None]:
Freq_dist.plot(20)

In [None]:
minuscularizar= lambda x: x.lower()
Freq_dist2=nltk.FreqDist(list(map(minuscularizar,tokensclean)))

In [None]:
Freq_dist2.plot(20)

In [None]:
wordcloud = WordCloud(max_font_size=50, max_words=100, background_color="white").generate(" ".join(tokensclean))
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

## Tag Text

In [None]:
text2="Python can be easy to pick up whether you're a first time programmer or you're experienced with other languages. The following pages are a useful first step to get on your way writing programs with Python!"

In [None]:
nltk.download('averaged_perceptron_tagger')
tokens = nltk.word_tokenize(text2)
tagged=nltk.pos_tag(tokens,lang="eng")

In [None]:
help(nltk.pos_tag)

In [None]:
tagged

In [None]:
entities=nltk.chunk.ne_chunk(tagged)

In [None]:
entities.draw()

In [None]:
entities

## Wordnet

In [None]:
nltk.download("omw")
nltk.download('wordnet')

In [None]:
from nltk.corpus import wordnet as wn
poses={'n':'sustantivo','v':'verbo','s':'adj(s)','a':'adjetivo','r':'adverbio'}
for synset in wn.synsets("amigo",lang="spa"):
    print("{}:{}".format(poses[synset.pos()],", ".join([l.name() for l in synset.lemmas("spa")])))

In [None]:
from nltk.corpus import wordnet as wn
poses={'n':'sustantivo','v':'verbo','s':'adj(s)','a':'adjetivo','r':'adverbio'}
for synset in wn.synsets("friend"):
    print("{}:{}".format(poses[synset.pos()],", ".join([l.name() for l in synset.lemmas()])))

In [None]:
from nltk.corpus import wordnet as wn
from googletrans import Translator
translator = Translator()
poses={'n':'sustantivo','v':'verbo','s':'adj(s)','a':'adjetivo','r':'adverbio'}
for synset in wn.synsets("amigo",lang="spa"):
    print("{}:{}".format(poses[synset.pos()],", ".join([translator.translate(l.name(),dest='es').text for l in synset.lemmas()])))
    print(synset.lemmas())

In [None]:
print(translator.translate('fan',dest='es'))

In [None]:
from nltk.corpus import wordnet as wn
poses={'n':'sustantivo','v':'verbo','s':'adj(s)','a':'adjetivo','r':'adverbio'}
for synset in wn.synsets("perfecto",lang="spa"):
    print("{}:{}".format(poses[synset.pos()],", ".join([l.name() for l in synset.lemmas("spa")])))

In [None]:
from nltk.corpus import wordnet as wn
panda=wn.synset("dog.n.01")
hyper= lambda s:s.hypernyms()
list(panda.closure(hyper))