# Solución a la práctica de NLTK

En esta práctica vamos a crear una función donde pasándole un texto nos devuelva una tabla con la cantidad de veces que se repite una palabra y la densidad que tenemos en el texto.

Para resolver la práctica debes generar una función que represente una tabla con 3 columnas donde tengamos:
* Token: La palabra buscada
* Conteo: El número de apariciones que tiene esta palabra en el texto
* Densidad: El % que representa esa palabra en el texto

La función tendrá 2 argumentos, uno donde le pasaremos el texto y otro argumento para activar o desactivar la lematización del texto, de esta manera podremos comparar los resultados.

## Importación de librerías

In [1]:
# NLTK
import nltk

# NLTK Word Tokenize
from nltk.tokenize import word_tokenize

# NLTK StopWords
from nltk.corpus import stopwords

# Spacy
import spacy
nlp = spacy.load('es_core_news_sm')

# Pandas
import pandas as pd

In [2]:
def text_density(content, clean):
      
    #Tokenizar    
    tokens = [word.lower() for word in word_tokenize(content, "spanish") if word.isalpha()]
    
    #Eliminar stopwords
    clean_tokens = tokens[:]
    for token in tokens: 
        if token in stopwords.words('spanish'): 
            clean_tokens.remove(token)
    
    # Utilizar lematización o utilizar las palabras según se introducen
    cleaned_tokens =[]
    
    if clean:
        #Realizar lematización si 'clean' es True
        separator = ' '
        for token in nlp(separator.join(clean_tokens)):
            cleaned_tokens.append(token.lemma_)
    else:
        #Sin lematización si 'clean' es False
        cleaned_tokens = clean_tokens
        
    #Generamos la tabla para representar los datos
    conteo= pd.DataFrame(columns = ['Palabra', 'Recuento', 'Densidad'])
    
    #Esta Función nos dice la frecuencia de los tokens 'cleaned_tokens' contendrá los tokens lematizados o sin lematizar
    freq_clean = nltk.FreqDist(cleaned_tokens)

    for key,val in freq_clean.items():
        #En este blucle for deberemos insertar las columnas
        dens = "{:.2%}".format(val/len(cleaned_tokens))
        fila = pd.Series([key, "{:.0f}".format(val), dens], index=conteo.columns)
        conteo = conteo.append(fila, ignore_index=True)
    
    
    #La variable result contendrá la tabla ordenada por la densidad
    result = conteo.sort_values('Densidad',ascending=False)
    
    return result

## Probar la función

Cuando la función esté creada, probaremos con una frase de ejemplo

In [3]:
text = 'Me he comprado un coche rojo. Ahora tenemos que encontrar un seguro de coches a todo riesgo'

text_density(text, True)

  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


Unnamed: 0,Palabra,Recuento,Densidad
1,coche,2,25.00%
0,comprado,1,12.50%
2,rojo,1,12.50%
3,ahora,1,12.50%
4,encontrar,1,12.50%
5,seguro,1,12.50%
6,riesgo,1,12.50%


### Extra: Analizar una web con BeautifulSoup y urllib

*Estas librerías **no son necesarias para trabajar con NLTK** pero haremos uso de ella para obtener los datos para el ejercicio.*

Si quisiesemos analizar una página web para ver su temática, podemos utilizar la función que hemos creado justo arriba, por lo que vamos a emplearla para analizar, por ejemplo un artículo del blog de IMF:

https://blogs.imf-formacion.com/blog/tecnologia/big-data-cuarta-revolucion-industrial-202106/

La librería Beautifulsoup nos va a permitir descargar el contenido de una web, darle formato y poder utilizarlo en el ejercicio.

Para instalarla deberemos abrir una ventana de comandos de "Anaconda Promt" y ejecutar "conda install BeautifulSoup4". La instalación puede tardar algunos minutos, no te preocupes si ves que no pasa nada tras ejecutar el comando

In [4]:
from bs4 import BeautifulSoup
import urllib.request

In [5]:
# Realizamos la petición a la URL y obtenemos su HTML
request = urllib.request.urlopen('https://blogs.imf-formacion.com/blog/tecnologia/big-data-cuarta-revolucion-industrial-202106/')

html = request.read()

# Hacemos una primera limpieza del HTML y nos quedamos únicamente con los párrafos 
# (en HTMLM un párrafo se identifica con la etiqueta 'p')

soup = BeautifulSoup(html, "html.parser")
paragraphs = soup.find_all('p')

# Recorremos los párrafos obtenidos y extraemos el texto únicamente
web = ''
for paragraph in paragraphs:
    web = web + paragraph.get_text()


print(web)

Según la empresa Statistics, para el año 2022 se espera que los ingresos anuales del mercado global del Big Data y análisis de negocios lleguen a los 274,3 mil millones de dólares y el volumen de datos creados por las conexiones globales del internet de las cosas o sus siglas en inglés (IoT) supere los 79 zettabytes (ZB) para el 2025. Algunos de los principales proveedores de software y análisis son Microsoft, Oracle e IBM.Índice de ContenidosNo existe una sola definición de Big Data, pero si se puede apreciar un consenso en ciertos aspectos fundamentales al momento de definirlo. Se comparte la visión sobre el potencial disruptivo del Big Data, el cual supone un crecimiento exponencial en la necesidad de capturar, almacenar y analizar datos para lograr beneficios para las empresas e institucionesLa primera que citaremos será dada por la empresa multinacional Deloitte que define como “El término que se aplica a conjuntos de datos cuyo volumen superan la capacidad de las herramientas inf

### Probamos la función

Ahora vamos a analizar el texto extraido con la función que hemos creado anteriormente

In [6]:
text_density(web, True)

  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)
  conteo = conteo.append(fila, ignore_index=True)


Unnamed: 0,Palabra,Recuento,Densidad
18,dato,14,2.89%
10,datar,11,2.27%
9,big,10,2.06%
234,proyecto,8,1.65%
269,imf,7,1.44%
...,...,...,...
159,nuevo,1,0.21%
160,oportunidad,1,0.21%
161,obtener,1,0.21%
162,masividad,1,0.21%
