Nombre:  Wilson Inga

# Ejercicio 2
### ¿Cuántos términos exiten en el siguiente corpus?

In [12]:
def contar_terminos(documento):
    total_terminos = 0
    with open(documento, 'r', encoding='utf-8') as file:
        for linea in file:
            terminos = linea.split()
            total_terminos += len(terminos)

    print(f"\nTotal de términos en el documento: {total_terminos}")

In [13]:
direccion = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
contar_terminos(direccion)


Total de términos en el documento: 240


### Normalización de Términos

In [21]:
import unicodedata
import string

def normalizar(palabra):
    # Elimina tildes usando la forma NFD
    palabra = unicodedata.normalize('NFD', palabra)
    palabra = ''.join(c for c in palabra if unicodedata.category(c) != 'Mn')

    # Elimina signos de puntuación
    palabra = palabra.translate(str.maketrans('', '', string.punctuation))

    # Elimina espacios al inicio y al final
    palabra = palabra.strip()

    # Convierte a minúsculas
    palabra = palabra.lower()

    return palabra

def contar_terminos(documento):
    terminos = set()

    with open(documento, 'r', encoding='utf-8') as f:
        for linea in f:
            palabras = linea.strip().split()
            for palabra in palabras:
                palabra_normalizada = normalizar(palabra)
                if palabra_normalizada:  # Evita agregar vacíos
                    terminos.add(palabra_normalizada)

    # Ordena los términos alfabéticamente
    terminos_ordenados = sorted(terminos)

    # Imprime los resultados
    print(f"\nTotal de términos únicos: {len(terminos_ordenados)}\n")
    print("\n".join(terminos_ordenados))

# Dirección del archivo de texto
direccion = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'

# Ejecutar la función
contar_terminos(direccion)






Total de términos únicos: 145

2000
a
agua
alrededor
altitud
amazonia
andes
arquitectura
artesanal
ascensiones
atrae
atraen
aventura
aves
avistamiento
banos
bienestar
biodiversidad
bosques
cada
cajas
caminatas
canopy
cascadas
centro
cercania
ciudad
colonial
color
como
comunidades
con
conecta
conocer
conocido
cotopaxi
crater
cuenca
cuenta
cultura
de
declarado
del
deportes
deslumbra
disfrutan
durante
ecologico
ecuador
ecuatorianos
el
en
entre
es
excursionistas
exploracion
famosas
famoso
feriado
feriados
fiestas
galapagos
gastronomia
gran
guayaquil
historico
humanidad
ideales
impacta
impresionantes
indigena
indigenas
interesados
invita
islas
jovenes
la
laguna
lagunas
las
llena
locales
longevidad
lopez
los
malecon
mas
megadiverso
mercado
mindo
montanas
montanita
muchos
mundo
nacional
nacionales
naturaleza
nocturna
nublados
ofrece
otavalo
pacifico
pais
para
paraiso
paramos
parque
patrimonio
playas
por
puerto
quilotoa
quito
rafting
region
ruta
salinas
santa
se
selvas
senderos
sorprende
spon

### Cálculo de IDF (Inverse Document Frequency)

In [22]:
import math, pandas as pd

def matriz_idf(documento):
    with open(documento, 'r', encoding='utf-8') as f:
        corpus = [set(normalizar(p) for p in linea.split() if normalizar(p)) for linea in f]

    # Creamos el diccionario de todos los términos únicos
    diccionario = sorted(set.union(*corpus))
    total_docs = len(corpus)

    # Matriz para cada término en cada documento
    matriz = []
    for termino in diccionario:
        fila = []
        df = 0
        for doc in corpus:
            if termino in doc:
                fila.append(1)
                df += 1
            else:
                fila.append(0)
        idf = round(math.log10(total_docs / df), 4) if df else 0
        fila.extend([df, idf])
        matriz.append(fila)

    columnas = [f'doc{i+1}' for i in range(total_docs)] + ['DF', 'IDF']
    return pd.DataFrame(matriz, index=diccionario, columns=columnas).rename_axis("Término")


In [23]:
ruta = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
df_idf = matriz_idf(ruta)
# Mostrar todas las filas
pd.set_option('display.max_rows', 145)
pd.set_option('display.max_columns', 18)
print(df_idf)


                doc1  doc2  doc3  doc4  doc5  doc6  doc7  doc8  doc9  doc10  \
Término                                                                       
2000               0     0     0     0     0     0     0     0     0      1   
a                  0     0     0     0     0     0     1     1     0      1   
agua               0     0     0     1     0     0     0     0     0      0   
alrededor          0     0     0     0     0     0     0     0     0      0   
altitud            0     0     0     0     0     0     0     0     0      0   
amazonia           0     0     0     0     0     0     0     0     0      0   
andes              0     0     0     0     0     0     0     1     0      0   
arquitectura       0     0     0     0     0     0     1     0     0      0   
artesanal          0     0     0     0     0     1     0     0     0      0   
ascensiones        0     0     0     0     0     0     0     1     0      0   
atrae              0     0     0     0     0     0  