Nombre:  Wilson Inga

# Ejercicio 2
### ¿Cuántos términos exiten en el siguiente corpus?

In [1]:
def contar_terminos(documento):
    total_terminos = 0
    with open(documento, 'r', encoding='utf-8') as file:
        for linea in file:
            terminos = linea.split()
            total_terminos += len(terminos)

    print(f"\nTotal de términos en el documento: {total_terminos}")

In [2]:
direccion = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
contar_terminos(direccion)


Total de términos en el documento: 240


### Normalización de Términos

In [3]:
import unicodedata, string, re
from collections import Counter

def normalizar(texto):
    texto = unicodedata.normalize('NFD', texto)
    texto = ''.join(c for c in texto if unicodedata.category(c) != 'Mn')
    texto = texto.translate(str.maketrans('', '', string.punctuation))
    return texto.lower()

def contar_terminos(ruta):
    with open(ruta, 'r', encoding='utf-8') as f:
        palabras = re.findall(r'\b\w+\b', normalizar(f.read()))
    frec = Counter(palabras)
    print(f"\nTotal de términos únicos: {len(frec)}")
    for t in sorted(frec): print(f"{t}: {frec[t]}")

# Ruta del archivo
contar_terminos('c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt')




Total de términos únicos: 145
2000: 1
a: 6
agua: 1
alrededor: 1
altitud: 1
amazonia: 1
andes: 1
arquitectura: 1
artesanal: 1
ascensiones: 1
atrae: 1
atraen: 1
aventura: 1
aves: 1
avistamiento: 1
banos: 1
bienestar: 1
biodiversidad: 1
bosques: 1
cada: 1
cajas: 1
caminatas: 1
canopy: 1
cascadas: 1
centro: 1
cercania: 1
ciudad: 1
colonial: 1
color: 1
como: 3
comunidades: 1
con: 5
conecta: 1
conocer: 1
conocido: 1
cotopaxi: 1
crater: 1
cuenca: 1
cuenta: 1
cultura: 1
de: 16
declarado: 1
del: 3
deportes: 1
deslumbra: 1
disfrutan: 2
durante: 1
ecologico: 1
ecuador: 1
ecuatorianos: 1
el: 9
en: 4
entre: 1
es: 3
excursionistas: 1
exploracion: 1
famosas: 1
famoso: 1
feriado: 2
feriados: 1
fiestas: 1
galapagos: 1
gastronomia: 2
gran: 1
guayaquil: 1
historico: 1
humanidad: 1
ideales: 1
impacta: 1
impresionantes: 1
indigena: 1
indigenas: 1
interesados: 1
invita: 1
islas: 1
jovenes: 1
la: 10
laguna: 1
lagunas: 1
las: 4
llena: 1
locales: 1
longevidad: 1
lopez: 1
los: 7
malecon: 1
mas: 1
megadiverso: 

### Cálculo IDF

In [None]:
import math
import pandas as pd


def matriz_idf(documento):
    # Abrir el archivo y leer las líneas
    with open(documento, 'r', encoding='utf-8') as f:
        corpus = [set(normalizar(p) for p in linea.split() if normalizar(p)) for linea in f]

    # Crear el diccionario (conjunto de todos los términos únicos del corpus)
    diccionario = sorted(set.union(*corpus))
    total_docs = len(corpus)

    # Construir matriz para cada término en cada documento
    matriz = []
    for termino in diccionario:
        fila = []
        df = 0
        for doc in corpus:
            if termino in doc:
                fila.append(1)
                df += 1
            else:
                fila.append(0)
        idf = round(math.log10(total_docs / df), 4) if df else 0
        fila.extend([df, idf])
        matriz.append(fila)

    # Crear las columnas para la matriz (nombre de los documentos y las columnas DF, IDF)
    columnas = [f'doc{i+1}' for i in range(total_docs)] + ['DF', 'IDF']

    # Crear DataFrame con la matriz
    df_matriz = pd.DataFrame(matriz, index=diccionario, columns=columnas).rename_axis("Término")

    # Opcional: Para mostrar todas las filas y columnas
    pd.set_option('display.max_rows', None)  # Muestra todas las filas
    # Imprimir la matriz IDF completa
    print(df_matriz)

    return df_matriz

# Ruta del archivo que deseas procesar
ruta = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'

# Ejecutar la función para obtener la matriz IDF
df_idf = matriz_idf(ruta)

                doc1  doc2  doc3  doc4  doc5  doc6  doc7  doc8  doc9  doc10  \
Término                                                                       
2000               0     0     0     0     0     0     0     0     0      1   
a                  0     0     0     0     0     0     1     1     0      1   
agua               0     0     0     1     0     0     0     0     0      0   
alrededor          0     0     0     0     0     0     0     0     0      0   
altitud            0     0     0     0     0     0     0     0     0      0   
amazonia           0     0     0     0     0     0     0     0     0      0   
andes              0     0     0     0     0     0     0     1     0      0   
arquitectura       0     0     0     0     0     0     1     0     0      0   
artesanal          0     0     0     0     0     1     0     0     0      0   
ascensiones        0     0     0     0     0     0     0     1     0      0   
atrae              0     0     0     0     0     0  