# Cuaderno de prácticas 2 - Preparación del conjunto de datos

En este ejercicio se usará la librería nltk con el fin de explorar el texto y prepararlo de aucerdo con las transformaciones que se describen en las diferentes preguntas.

El texto con el que vamos a trabajar es el texto de la novela Niebla de Miguel de Unamuno que se puede descargar desde la siguiente URL: https://www.gutenberg.org/files/49836

## Pregunta 1
### Carga los datos en una variable e imprime el texto por pantalla (1 punto)

Para poder resolver este cuaderno de prácticas, debes comenzar por cargar el fichero .txt que te has descargado desde el proyecto Gutenberg con el texto de _Niebla_.


*Debes utilizar el siguiente encoding = "utf-8-sig".*

In [1]:
import nltk
import re #expresiones regulares
import string
import pandas as pd
import numpy as np

with open("49836-0.txt", encoding="utf-8-sig") as f:
    text = f.read()

text
    #Cargamos e imprimimos el texto completo.


'The Project Gutenberg EBook of Niebla, by Miguel de Unamuno\n\nThis eBook is for the use of anyone anywhere in the United States and most\nother parts of the world at no cost and with almost no restrictions\nwhatsoever.  You may copy it, give it away or re-use it under the terms of\nthe Project Gutenberg License included with this eBook or online at\nwww.gutenberg.org.  If you are not located in the United States, you\'ll have\nto check the laws of the country where you are located before using this ebook.\n\n\n\nTitle: Niebla\n       (Nivola)\n\nAuthor: Miguel de Unamuno\n\nRelease Date: August 31, 2015 [EBook #49836]\n\nLanguage: Spanish\n\nCharacter set encoding: UTF-8\n\n*** START OF THIS PROJECT GUTENBERG EBOOK NIEBLA ***\n\n\n\n\nProduced by Roberto Marabini, Ramon Pajares Box and the\nOnline Distributed Proofreading Team at http://www.pgdp.net\n(This file was produced from images generously made\navailable by The Internet Archive/Canadian Libraries)\n\n\n\n\n\n\nNOTA DE TRANSCR

## Pregunta 2

### ¿Cuántos *tokens* hay en el texto que has cargado? (1 punto)

*Para completar la pregunta, debes mostrar por pantalla el total de tokens del texto*


In [2]:
from nltk.tokenize import word_tokenize
def pregunta_2(text):
    tokens=word_tokenize(text)
    tokensnum=len(tokens)
    return (tokens, tokensnum) 

tokens=pregunta_2(text)[0]
tokensnum=pregunta_2(text)[1]
print(tokensnum)

    #Creamos los tokens, guardamos su numero, y creamos una variable de salida con los tokens. 

72453


## Pregunta 3

### Y, ¿cuántos *tokens* únicos tiene el texto? (1 punto)

In [3]:
def pregunta_3(tokens):
    tokens2=set(tokens)
    tokens2num=len(tokens2)
    return (tokens2,tokens2num) 

tokens2=pregunta_3(tokens)[0]
tokens2num=pregunta_3(tokens)[1]
print(tokens2num)

    #A partir de los tokens del ejercicio anterior, creamos un set para ver los valores unicos.
    #Creamos una variable para esos valores unicos y otra para contarlos. 

9965


## Pregunta 4

### Si lematizamos los verbos, ¿cuántos tokens únicos tiene el texto? (1 punto)

*En primer lugar debes lematizar los verbos del texto y hacer uso de la función de la pregunta 3*

In [4]:
from nltk.stem import WordNetLemmatizer
import spacy 

def pregunta_4(tokens):
    taggedtokens = nltk.pos_tag(tokens)
    verbos=[]
    for par in taggedtokens:
        if par[1] == "VB":
            verbos.append(par[0])
    WNlemma=nltk.WordNetLemmatizer()
    verboslemas=[WNlemma.lemmatize(t) for t in verbos]
    verboslemasunicos=pregunta_3(verboslemas)[0]
    verboslemasunicosnum=len(verboslemasunicos)
    return (verboslemasunicosnum) 

pregunta_4(tokens)

    #Seguimos el orden del enunciado, que es importante. Primero taggeamos los tokens creados al inicio, y todos los verbos
    #los anadimos a un array. Cargamos el lematizador, extraemos los lemas, y ya ahi usamos la pregunta 3 para conseguir los
    #valores unicos de los lemas de los verbos. 

487

## Pregunta 5

### A continuación, debes indicar la diversidad del léxico del texto. (1 punto)

*La diversidad de un léxico se calcula como la proporción de tokens únicos con respecto al número total de tokens.*

In [5]:
def pregunta_5(tokens):
    diversidad=tokens2num/tokensnum
    return (diversidad) 

pregunta_5(tokens)
    #En mi caso, he ido guardando informacion en las variables de salida, por lo que estaban disponibles facilmente. 

0.1375374380632962

## Pregunta 6


### ¿Cuáles son los 20 tokens que aparecen con mayor frecuencia en el texto? ¿Cuál es su frecuencia? (1 punto)

*La función debe devolver una lista de la forma `(token, frequency)`. La lista debe estar ordenada de forma descendente en base a la frecuencia de aparición.*

In [6]:
from collections import Counter
def pregunta_6(tokens):
    cuenta=Counter(tokens)
    cuenta2=cuenta.most_common(20)
    return (cuenta, cuenta2) 

cuenta=pregunta_6(tokens)[0]
cuenta2=pregunta_6(tokens)[1]
cuenta2
    #En mi caso, he contado los 20 tokens con mas frecuencia acudiendo a Counter, pero me he percatado que tambien podria 
    #haberse utilizado perfectamente FreqDist. Lo dejo asi como esta, porque el dato de salida es una lista tambien. 

[(',', 5529),
 ('.', 2480),
 ('de', 2445),
 ('que', 2430),
 ('la', 1452),
 ('y', 1451),
 ('a', 1447),
 ('no', 1181),
 ('!', 1017),
 ('...', 958),
 ('?', 928),
 ('en', 891),
 ('el', 875),
 ('se', 781),
 ('es', 738),
 ('lo', 637),
 ('me', 554),
 ('un', 532),
 ('le', 480),
 ('Y', 471)]

## Pregunta 7

### Enumera los tokens que tienen una longitud mayor que 5 caracteres y una frecuencia de aparición en el texto mayor que 150. (1 punto)

*Esta función debe devolver una lista ordenada de los tokens que cumplan las condiciones especificadas. Para ordenar la lista, puedes usar `sorted ()`*

In [7]:

def pregunta_7(tokens):
    tokensdistrib=pregunta_6(tokens)[0]
    tokensfiltrados=[]
    for key in tokensdistrib:
        if (len(key)>5 and tokensdistrib[key]>150):
            tokensfiltrados.append((key,tokensdistrib[key]))
    return (tokensfiltrados) 

pregunta_7(tokens)

    #En este caso, trabajamos con el dictionary completo con el que reutilizamos la pregunta 6. Iteramos el diccionario de tal
    #forma que cumplamos con los requisitos necesarios, y anadimos a una lista vacia los tokens con mas de 5 caracteres y que
    #hayan aparecido mas de 150 veces. No son muchos. 

[('Augusto', 340), ('Eugenia', 202)]

## Pregunta 8

### Indica el número medio de *tokens* por frase del texto. (1 punto)

*Para la resolución de la pregunta puedes usar la función nltk.sent_tokenize()*

In [8]:
from nltk.tokenize import sent_tokenize
def pregunta_8(text):
    frases=sent_tokenize(text)
    promedio=len(tokens)/len(frases)
    return (promedio) 

pregunta_8(text)

    #Definimos la media de tokens como el sumatorio de tokens totales entre el numero total de frases.

17.697361993160722

## Pregunta 9

### Crea una función que elimine los signos de puntuación, espacios duplicados y convierta el texto a minúsculas. (1 punto)
*La función debe devolver por pantalla el nuevo texto después de aplicar las correcciones*

In [9]:

def pregunta_9(text):
    
    textosinpuntuacion = text.translate(str.maketrans('', '', string.punctuation))
    textosinespaciosdupl=textosinpuntuacion.replace("  "," ")
    textofinal=textosinespaciosdupl.lower()
    return (textofinal) 

textomejorado=pregunta_9(text)
print(textomejorado)

    #Primero eliminamos los signos de puntuación, despues los espacios duplicados, y finalmente convertimos
    #el texto a minusculas. Printeamos el texto. 

the project gutenberg ebook of niebla by miguel de unamuno

this ebook is for the use of anyone anywhere in the united states and most
other parts of the world at no cost and with almost no restrictions
whatsoever you may copy it give it away or reuse it under the terms of
the project gutenberg license included with this ebook or online at
wwwgutenbergorg if you are not located in the united states youll have
to check the laws of the country where you are located before using this ebook



title niebla
    nivola

author miguel de unamuno

release date august 31 2015 ebook 49836

language spanish

character set encoding utf8

 start of this project gutenberg ebook niebla 




produced by roberto marabini ramon pajares box and the
online distributed proofreading team at httpwwwpgdpnet
this file was produced from images generously made
available by the internet archivecanadian libraries






nota de transcripción

  en el texto las cursivas se muestran entre subrayados y las
  versalita

## Pregunta 10

### Y ahora, ¿cuáles son los 20 *tokens* que aparecen con mayor frecuencia en el texto? ¿Cuál es su frecuencia? (1 punto)

In [10]:
from collections import Counter
def pregunta_10(text):
    tokens=word_tokenize(text)
    cuenta=Counter(tokens)
    cuenta2=cuenta.most_common(20)
    return(cuenta2)

pregunta_10(textomejorado)

    #Repeticion de las preguntas 2 y 6. 
    #el texto a minusculas. Printeamos el texto. 

[('de', 2467),
 ('que', 2432),
 ('y', 1922),
 ('la', 1519),
 ('a', 1474),
 ('no', 1262),
 ('el', 942),
 ('en', 917),
 ('se', 810),
 ('es', 780),
 ('lo', 661),
 ('me', 579),
 ('un', 544),
 ('le', 499),
 ('su', 443),
 ('con', 419),
 ('una', 415),
 ('los', 408),
 ('más', 390),
 ('por', 384)]

Y aqui ya se termina el ejercicio. He tenido problemas al principio en la instalación de algunos paquetes, pero al final ha ido todo perfecto. He practicado bastante con Python, por lo que estoy muy contento. 