Pregunta 1
Cuantos terminos hay en el corpus?
No repetidos

In [None]:
import math
import os

def contar_terminos(archivo):
    """
    Cuenta la cantidad de términos únicos en un archivo de texto.

    Args:
        archivo (str): La ruta al archivo de texto.

    Returns:
        int: La cantidad de términos únicos en el archivo.
    """
    try:
        with open(archivo, 'r', encoding='utf-8') as f:
            texto = f.read()
            texto = texto.lower()
            texto = texto.replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u')
            for char in ['.', ',', ';', ':', '!', '?', '-', '_', '(', ')', '[', ']', '{', '}', "'", '"', '\n']:
                texto = texto.replace(char, '')
            palabras = texto.split()
            terminos_unicos = set(palabras)
            return len(terminos_unicos)
    except FileNotFoundError:
        print(f"Error: El archivo '{archivo}' no fue encontrado.")
        return 0
    except Exception as e:
        print(f"Ocurrió un error al procesar el archivo '{archivo}': {e}")
        return 0

def calcular_tabla_frecuencias(archivo):

    tabla_frecuencias = {}
    try:
        with open(archivo, 'r', encoding='utf-8') as f:
            lineas = f.readlines()
    except FileNotFoundError:
        print(f"Error: El archivo '{archivo}' no fue encontrado.")
        return {}, []
    except Exception as e:
        print(f"Ocurrió un error al leer el archivo '{archivo}': {e}")
        return {}, []

    for i, linea in enumerate(lineas):
        texto = linea.strip().lower()
        texto = texto.replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u')
        for signo in ['.', ',', ';', ':', '!', '?', '-', '_', '(', ')', '[', ']', '{', '}', "'", '"', '\n']:
            texto = texto.replace(signo, '')
        palabras = texto.split()
        frecuencia_local = {}
        for palabra in palabras:
            frecuencia_local[palabra] = frecuencia_local.get(palabra, 0) + 1

        for palabra in frecuencia_local:
            if palabra not in tabla_frecuencias:
                tabla_frecuencias[palabra] = [0] * len(lineas)
            tabla_frecuencias[palabra][i] = frecuencia_local[palabra]
    
    return tabla_frecuencias, lineas

def calcular_idf(archivo):

    documentos_por_termino = {}
    idf = {}
    
    try:
        with open(archivo, 'r', encoding='utf-8') as f:
            lineas = f.readlines()
    except FileNotFoundError:
        print(f"Error: El archivo '{archivo}' no fue encontrado.")
        return {}
    except Exception as e:
        print(f"Ocurrió un error al leer el archivo '{archivo}': {e}")
        return {}

    N = len(lineas)

    for linea in lineas:
        texto = linea.strip().lower()
        texto = texto.replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u')
        for signo in ['.', ',', ';', ':', '!', '?', '-', '_', '(', ')', '[', ']', '{', '}', "'", '"', '\n']:
            texto = texto.replace(signo, '')
        palabras = set(texto.split())
        for palabra in palabras:
            documentos_por_termino[palabra] = documentos_por_termino.get(palabra, 0) + 1

    for termino, df in documentos_por_termino.items():
        idf[termino] = math.log10(N / df)

    return idf

if __name__ == '__main__':
    archivo_turismo = r'D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea02\01_corpus_turismo.txt'
    archivo_turismo_500 = r'D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea02\01_corpus_turismo_500.txt'  # Assuming you still want to process this

    archivos = [archivo_turismo, archivo_turismo_500]

    print("Cantidad de terminos en el corpus:")
    for archivo in archivos:
        cantidad_terminos = contar_terminos(archivo)
        if cantidad_terminos != 0:
            print(f"{archivo}: {cantidad_terminos} terminos")

    print(f"\nTabla de Frecuencias para {archivo_turismo}:\n")
    tabla_frecuencias, lineas = calcular_tabla_frecuencias(archivo_turismo)
    if tabla_frecuencias:
        documentos = [f'Doc{i+1}' for i in range(len(lineas))]
        print("Término\t\t" + "\t".join(documentos))
        print("-" * (10 + 8 * len(documentos)))
        for palabra, frecuencias in sorted(tabla_frecuencias.items()):
            frecuencias_str = "\t".join(str(f) for f in frecuencias)
            print(f"{palabra}\t\t{frecuencias_str}")

    print(f"\nIDF para {archivo_turismo}:\n")
    idf = calcular_idf(archivo_turismo)
    if idf:
        print("Término\t\tIDF")
        print("-------------------------")
        for termino, valor in sorted(idf.items()):
            print(f"{termino}\t\t{valor:.4f}")

Cantidad de terminos en el corpus:
D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea02\01_corpus_turismo.txt: 140 terminos
D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea02\01_corpus_turismo_500.txt: 276 terminos

Tabla de Frecuencias para D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea02\01_corpus_turismo.txt:

Término		Doc1	Doc2	Doc3	Doc4	Doc5	Doc6	Doc7	Doc8	Doc9	Doc10	Doc11	Doc12	Doc13	Doc14	Doc15	Doc16
------------------------------------------------------------------------------------------------------------------------------------------
2000		0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0
a		0	0	0	0	0	0	1	1	0	1	0	0	3	0	0	0
agua		0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0
alrededor		0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0
altitud		0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0
amazonia		0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0
andes		0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0
arquitectura		0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0
artesanal		0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0
ascensiones		0	0	0	0	0