In [1]:
import os
import pandas as pd

In [2]:
def crear_tabla(carpeta):
    tabla = []
    
    ruta_archivo = os.path.join(carpeta, "corpusTaller3.txt")
    
    with open(ruta_archivo, "r", encoding="utf-8") as file:
        contenido = file.read().lower()
        
        # Dividir el contenido en palabras y eliminar caracteres no deseados
        eliminar = str.maketrans('', '', '.¡!¿?\'“”,:;_"—[]{}‘’()«»')
        fila_palabras_temporal = [palabra.translate(eliminar) for palabra in contenido.split()]
        
    # Contar la frecuencia de cada palabra usando un diccionario
    conteo_palabras = {}
        
    for palabra in fila_palabras_temporal:
        if palabra in conteo_palabras:
            conteo_palabras[palabra] += 1
        else:
            conteo_palabras[palabra] = 1
        
    # Convertir el diccionario en una lista de listas
    for palabra, conteo in conteo_palabras.items():
        tabla.append([palabra, conteo])
    
    return tabla

In [3]:
def exportar_a_excel(tabla, ruta_archivo_excel):
    # Crear un DataFrame de pandas a partir de la tabla
    df = pd.DataFrame(tabla, columns=["Palabra", "Frecuencia", "Rango"])
    
    # Exportar el DataFrame a un archivo Excel
    df.to_excel(ruta_archivo_excel, index=False)

In [4]:
# Carpeta donde se encuentran los archivos txt
carpeta_data = "corpus"

In [5]:
tabla = crear_tabla(carpeta_data)

In [6]:
for fila in tabla:
    print(fila)

['impresión', 1]
['domingraf', 1]
['sl', 1]
['impressors', 1]
['pol', 1]
['ind', 1]
['can', 1]
['magarola', 1]
['pasaje', 1]
['autopista', 1]
['nave', 1]
['12', 1]
['08100', 1]
['mollet', 1]
['del', 9]
['vallés', 1]
['para', 12]
['jessica', 1]
['a', 35]
['quien', 2]
['le', 13]
['gustan', 1]
['las', 16]
['historias', 1]
['anne', 1]
['también', 4]
['gustaban', 1]
['y', 47]
['di', 1]
['que', 71]
['oyó', 1]
['ésta', 1]
['primero', 2]
['1', 1]
['el', 53]
['niño', 6]
['vivió', 1]
['señor', 24]
['la', 64]
['señora', 13]
['dursley', 36]
['vivían', 1]
['en', 34]
['número', 3]
['4', 3]
['de', 75]
['privet', 3]
['drive', 3]
['estaban', 3]
['orgullosos', 1]
['decir', 1]
['eran', 4]
['muy', 6]
['normales', 1]
['afortunadamente', 1]
['últimas', 1]
['personas', 4]
['se', 39]
['esperaría', 1]
['encontrar', 1]
['relacionadas', 1]
['con', 19]
['algo', 8]
['extraño', 1]
['o', 2]
['misterioso', 2]
['porque', 5]
['no', 36]
['tales', 1]
['tonterías', 1]
['era', 12]
['director', 1]
['una', 23]
['empresa', 1]

In [7]:
# Ordenar la tabla alfabéticamente
tabla_ordenada_alfabeticamente = sorted(tabla)

In [8]:
tabla_ordenada_alfabeticamente

[['08100', 1],
 ['1', 1],
 ['12', 1],
 ['4', 3],
 ['a', 35],
 ['abierta', 1],
 ['abrazado', 1],
 ['abrazó', 1],
 ['acera', 2],
 ['aclaró', 1],
 ['acontecimientos', 1],
 ['acostaron', 1],
 ['actitud', 1],
 ['advertir', 1],
 ['afortunadamente', 1],
 ['afueras', 1],
 ['agitación', 1],
 ['ah', 1],
 ['ahora', 1],
 ['al', 16],
 ['alcanzó', 1],
 ['alegrarse', 1],
 ['alegremente', 1],
 ['alejados', 1],
 ['alejó', 3],
 ['algo', 8],
 ['alguna', 1],
 ['alrededor', 1],
 ['alta', 2],
 ['amenazaban', 1],
 ['amplia', 1],
 ['anciano', 1],
 ['anne', 1],
 ['ante', 1],
 ['antes', 2],
 ['aparato', 1],
 ['aparcamiento', 1],
 ['apareciesen', 1],
 ['apartados', 1],
 ['apartó', 1],
 ['apellido', 1],
 ['aprendido', 1],
 ['apresuró', 2],
 ['aprobaba', 1],
 ['aquel', 7],
 ['aquella', 4],
 ['aquellas', 1],
 ['aquello', 1],
 ['aquél', 1],
 ['aquélla', 1],
 ['arrojando', 1],
 ['así', 3],
 ['atención', 1],
 ['atigrado', 2],
 ['atusó', 1],
 ['aunque', 3],
 ['autopista', 1],
 ['avanzó', 1],
 ['aves', 2],
 ['avisos', 1

In [9]:
# Ordenar la tabla por frecuencia en orden descendente
tabla_ordenada = sorted(tabla_ordenada_alfabeticamente, key=lambda x: x[1], reverse=True)

In [10]:
tabla_ordenada

[['de', 75],
 ['que', 71],
 ['la', 64],
 ['el', 53],
 ['y', 47],
 ['se', 39],
 ['dursley', 36],
 ['no', 36],
 ['a', 35],
 ['los', 35],
 ['en', 34],
 ['un', 27],
 ['su', 25],
 ['señor', 24],
 ['una', 23],
 ['con', 19],
 ['había', 17],
 ['al', 16],
 ['las', 16],
 ['lo', 16],
 ['estaba', 13],
 ['le', 13],
 ['pero', 13],
 ['señora', 13],
 ['era', 12],
 ['para', 12],
 ['por', 12],
 ['mientras', 11],
 ['del', 9],
 ['potter', 9],
 ['algo', 8],
 ['gato', 8],
 ['lechuzas', 8],
 ['aquel', 7],
 ['tenía', 7],
 ['como', 6],
 ['cuando', 6],
 ['dudley', 6],
 ['día', 6],
 ['eso', 6],
 ['gente', 6],
 ['han', 6],
 ['hermana', 6],
 ['muy', 6],
 ['niño', 6],
 ['noche', 6],
 ['si', 6],
 ['taladros', 6],
 ['capa', 5],
 ['más', 5],
 ['porque', 5],
 ['sí', 5],
 ['tenían', 5],
 ['aquella', 4],
 ['casa', 4],
 ['casi', 4],
 ['cuenta', 4],
 ['dijo', 4],
 ['eran', 4],
 ['es', 4],
 ['hasta', 4],
 ['hijo', 4],
 ['ni', 4],
 ['personas', 4],
 ['qué', 4],
 ['ser', 4],
 ['sin', 4],
 ['sobre', 4],
 ['también', 4],
 ['tan

In [11]:
# Asignar un rango a cada palabra
for i, palabra_frecuencia in enumerate(tabla_ordenada):
    palabra_frecuencia.append(i + 1)  # El rango comienza desde 1

In [12]:
# Agregar la información del rango como una nueva columna
tabla_con_rango = [[palabra, frecuencia, rango] for palabra, frecuencia, rango in tabla_ordenada]

In [13]:
tabla_con_rango

[['de', 75, 1],
 ['que', 71, 2],
 ['la', 64, 3],
 ['el', 53, 4],
 ['y', 47, 5],
 ['se', 39, 6],
 ['dursley', 36, 7],
 ['no', 36, 8],
 ['a', 35, 9],
 ['los', 35, 10],
 ['en', 34, 11],
 ['un', 27, 12],
 ['su', 25, 13],
 ['señor', 24, 14],
 ['una', 23, 15],
 ['con', 19, 16],
 ['había', 17, 17],
 ['al', 16, 18],
 ['las', 16, 19],
 ['lo', 16, 20],
 ['estaba', 13, 21],
 ['le', 13, 22],
 ['pero', 13, 23],
 ['señora', 13, 24],
 ['era', 12, 25],
 ['para', 12, 26],
 ['por', 12, 27],
 ['mientras', 11, 28],
 ['del', 9, 29],
 ['potter', 9, 30],
 ['algo', 8, 31],
 ['gato', 8, 32],
 ['lechuzas', 8, 33],
 ['aquel', 7, 34],
 ['tenía', 7, 35],
 ['como', 6, 36],
 ['cuando', 6, 37],
 ['dudley', 6, 38],
 ['día', 6, 39],
 ['eso', 6, 40],
 ['gente', 6, 41],
 ['han', 6, 42],
 ['hermana', 6, 43],
 ['muy', 6, 44],
 ['niño', 6, 45],
 ['noche', 6, 46],
 ['si', 6, 47],
 ['taladros', 6, 48],
 ['capa', 5, 49],
 ['más', 5, 50],
 ['porque', 5, 51],
 ['sí', 5, 52],
 ['tenían', 5, 53],
 ['aquella', 4, 54],
 ['casa', 4, 

In [14]:
# Ruta del archivo Excel a crear
ruta_archivo_excel = os.path.join(".", "Taller03.xlsx")

In [15]:
# Exportar la tabla a Excel
exportar_a_excel(tabla, ruta_archivo_excel)

print(f"Tabla exportada a {ruta_archivo_excel}")

Tabla exportada a .\Taller03.xlsx
