# NLTK

Objetivo: Crear una función que, dada una entrada de texto, devuelva una tabla con la frecuencia y densidad de cada palabra en el texto.

La función tendrá los siguientes argumentos:
* Text: El texto a analizar.
* Lemmatize: Un valor booleano que indica si se debe aplicar lematización al texto antes del análisis.

La función devolverá una tabla con las siguientes columnas:
* Token: La palabra buscada
* Conteo: El número de apariciones que tiene esta palabra en el texto
* Densidad: El % que representa esa palabra en el texto

### Importación de librerías

In [1]:
# NLTK
import nltk

# NLTK Word Tokenize
from nltk.tokenize import word_tokenize

# NLTK StopWords
from nltk.corpus import stopwords

# Spacy
import spacy
nlp = spacy.load('es_core_news_sm')

# Pandas
import pandas as pd

### Creación de la función

In [14]:
def text_density(content, clean):
    
    # Tokenizar    
    tokens = [word.lower() for word in word_tokenize(content, "spanish") if word.isalpha()]
    
    # Eliminar stopwords
    clean_tokens = tokens[:]
    for token in tokens: 
        if token in stopwords.words('spanish'): 
            clean_tokens.remove(token)
    
    # Utilizar lematización o utilizar las palabras según se introducen
    cleaned_tokens =[]
    
    if clean:
        # Realizar lematización si 'clean' es True
        separator = ' '
        for token in nlp(separator.join(clean_tokens)):
            cleaned_tokens.append(token.lemma_)
    else:
        # Sin lematización si 'clean' es False
        cleaned_tokens = clean_tokens
        
    # Generar la tabla para representar los datos
    conteo= pd.DataFrame(columns = ['Palabra', 'Recuento', 'Densidad'])
    
    # La siguiente función indica la frecuencia de los tokens ('cleaned_tokens' contendrá los tokens lematizados o sin lematizar)
    freq_clean = nltk.FreqDist(cleaned_tokens)

    for key,val in freq_clean.items():
        # Inserción en las columnas
        dens = "{:.2%}".format(val/len(cleaned_tokens))
        fila = pd.Series([key, "{:.0f}".format(val), dens], index=conteo.columns)
        conteo = conteo._append(fila, ignore_index=True)
    
    
    # Result contendrá la tabla ordenada por la densidad
    result = conteo.sort_values('Densidad',ascending=False)
    
    return result

### Probar la función

In [15]:
text = 'Me he comprado un coche rojo. Ahora tenemos que encontrar un seguro de coches a todo riesgo'

text_density(text, True)

Unnamed: 0,Palabra,Recuento,Densidad
1,coche,2,25.00%
0,comprado,1,12.50%
2,rojo,1,12.50%
3,ahora,1,12.50%
4,encontrar,1,12.50%
5,seguro,1,12.50%
6,riesgo,1,12.50%


## URL
También es posible hacer uso de la función text_density con el fín de analizar el contenido de una página web

In [16]:
from bs4 import BeautifulSoup
import urllib.request

In [20]:
# Realizar la petición a la URL y obtener su HTML
request = urllib.request.urlopen('https://es.wikipedia.org/wiki/Macrodatos')
html = request.read()

# Efectuar una primera limpieza del HTML y conservar únicamente los párrafos 
# (en HTMLM un párrafo se identifica con la etiqueta 'p')
soup = BeautifulSoup(html, "html.parser")
paragraphs = soup.find_all('p')

# Recorrer los párrafos obtenidos y extraer el texto únicamente
web = ''
for paragraph in paragraphs:
    web = web + paragraph.get_text()

print(web)

Los macrodatos,[1]​[2]​ también llamados datos  masivos, inteligencia de datos, datos a gran escala (del inglés big data) es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente. Los datos son la reproducción simbólica de un atributo o variable cuantitativa o cualitativa; según la RAE «Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho».[3]​ Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren un software especializado. En textos científicos en español, con frecuencia se usa directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger La revolución de los datos masivos.[4]​[5]​
El uso moderno del término macrodatos tiende a referirse al análisis del comportamiento del u

In [19]:
text_density(web, True)

Unnamed: 0,Palabra,Recuento,Densidad
2,dato,173,4.24%
0,macrodato,91,2.23%
146,poder,38,0.93%
15,grande,37,0.91%
32,información,35,0.86%
...,...,...,...
983,music,1,0.02%
984,emotion,1,0.02%
985,recognition,1,0.02%
986,mer,1,0.02%
