# Vocabulary Challenge

* Get the book “Los Miserables” by Victor Hugo, from Carlos Slim Foundation: https://aprende.org/pruebat?sectionId=6
* Convert the book into text (csv)
* Clean the csv file
  * Standardize (no upper chars, no whitespace, no punctuation, accents, if possible)
  * Create a vocabulary with the words in the book, following the ideas when we discussed how to create a vocabulary in the slides (7..14) of this presentation.
  * Store the vocabulary on disk in parquet format
  * Do statistics, including
   * How many words in original text (book)
   * How many different words in vocabulary
   * Print the 100 most frequent words in vocabulary
   * Print the 100 least frequent words in vocabulary
* Produce a 2 page report to describe your experience, methods, etc.
* Write code in the language of your choice from this set (Go, Julia, Python)
* Assigned: 03/08/2025
* Deadline: 03/14/2025 @ 04:00 PM CDMX Time, using the Github page :
* https://github.com/camachojua/diplomado-ia/tree/main/python/src/student_submissions/Vocabulary 


In [1]:
import numpy as np  
import re  #libreria para generar expresiones regulares
import operator #libreria para ordenar listas
import pandas as pd

In [None]:
# Abrir el archivo con el contenido del libro los miserable, 
# previamente el pdf se convirtio a texto mediante una herramienta externa
f = open("./data/Los-miserables.csv", "r")
texto = f.read()
f.close()

In [5]:
# Función para limpiar el texto
def limpiar_texto(texto):
    # Convertir a minúsculas
    texto = texto.lower()
    
    # Eliminar acentos
    texto = re.sub(r'[áàäâ]', 'a', texto)
    texto = re.sub(r'[éèëê]', 'e', texto)
    texto = re.sub(r'[íìïî]', 'i', texto)
    texto = re.sub(r'[óòöô]', 'o', texto)
    texto = re.sub(r'[úùüû]', 'u', texto)
    texto = re.sub(r'[ý]', 'y', texto)
    texto = re.sub(r'[ñ]', 'n', texto)
    
    # Eliminar caracteres especiales y números, dejando solo letras y espacios
    texto = re.sub(r'[^a-z\s]', '', texto)
    
    return texto


In [6]:
# Crear un diccionario para almacenar las palabras y sus frecuencias

#Aplicar la limpieza al texto completo y separa en palabras
palabras = limpiar_texto(texto).split()

#Definir arreglo de vocabulario
vocabulario = {}

# Analiza cada palabra para igresarla al vocabulario y si ya existe aumenta el contador para conocer su frecuencia
for palabra in palabras:
    if palabra in vocabulario:
        vocabulario[palabra] += 1
    else:
        vocabulario[palabra] = 1

# Mostrar el diccionario resultante
print("Total de palabras:" + str(len(palabras)))
print("Total de palabras no repetidas:" + str(len(set(vocabulario))))

Total de palabras:109261
Total de palabras no repetidas:13105


In [7]:
# Ordena por frecuencia
valores_ord = sorted(vocabulario.items(), key=operator.itemgetter(1), reverse=True)



In [8]:
#imprimir la 100 palabras con mayor número de repeticiones
print(valores_ord[0:100])


[('de', 5325), ('la', 3918), ('que', 3818), ('el', 3394), ('y', 3123), ('en', 2836), ('a', 2489), ('se', 1681), ('un', 1601), ('no', 1498), ('los', 1353), ('una', 1319), ('su', 1245), ('por', 936), ('las', 935), ('con', 924), ('habia', 858), ('del', 813), ('al', 756), ('es', 749), ('lo', 719), ('le', 667), ('era', 650), ('como', 572), ('mas', 513), ('para', 504), ('senor', 447), ('esta', 414), ('pero', 372), ('hombre', 363), ('si', 358), ('sus', 344), ('todo', 327), ('me', 326), ('sin', 311), ('obispo', 286), ('dijo', 281), ('cuando', 274), ('estaba', 273), ('sobre', 269), ('dos', 264), ('este', 261), ('aquel', 253), ('mi', 244), ('ya', 229), ('hacia', 219), ('yo', 218), ('esto', 218), ('madeleine', 214), ('tenia', 212), ('jean', 200), ('ha', 199), ('fantine', 194), ('valjean', 192), ('aquella', 190), ('hay', 186), ('he', 182), ('ser', 181), ('muy', 178), ('javert', 175), ('nada', 174), ('mismo', 173), ('o', 164), ('os', 163), ('poco', 158), ('tan', 158), ('bien', 157), ('ni', 156), ('

In [9]:
#imprimir la 100 palabras con menor número de repeticiones
print(valores_ord[-100:])

[('reprobo', 1), ('emocionantes', 1), ('florecer', 1), ('palidos', 1), ('fulgor', 1), ('sepultura', 1), ('recluyo', 1), ('lugares', 1), ('conversaciones', 1), ('bejean', 1), ('bojean', 1), ('boujean', 1), ('almibarado', 1), ('rehusado', 1), ('perillanes', 1), ('sucia', 1), ('abundaron', 1), ('abonada', 1), ('drapeau', 1), ('blanc', 1), ('ensenara', 1), ('partidarios', 1), ('despavorida', 1), ('reflexionando', 1), ('puestos', 1), ('velaban', 1), ('colgo', 1), ('esperara', 1), ('inconscientemente', 1), ('ensimismamiento', 1), ('candela', 1), ('boquiabierta', 1), ('retenido', 1), ('embargada', 1), ('barrote', 1), ('guardaria', 1), ('maestra', 1), ('lateral', 1), ('registrado', 1), ('conducian', 1), ('peldanos', 1), ('deshecha', 1), ('huella', 1), ('penultima', 1), ('obtuvo', 1), ('envolvio', 1), ('embalaba', 1), ('mordiendo', 1), ('comprobado', 1), ('migas', 1), ('encontradas', 1), ('pesquisas', 1), ('enrojecidos', 1), ('violencias', 1), ('integros', 1), ('entranas', 1), ('obligan', 1), (

In [12]:

#Guardar el vocabulario en un archivo parquet
ds_words = pd.DataFrame(valores_ord, columns=['word', 'count'])
ds_words.to_parquet('MiserableVocabulary.parquet')