Nombre:  Wilson Inga

# Ejercicio 2
### ¿Cuántos términos exiten en el siguiente corpus?

In [7]:
def contar_terminos(documento):
    total_terminos = 0
    with open(documento, 'r', encoding='utf-8') as file:
        for linea in file:
            terminos = linea.split()
            total_terminos += len(terminos)

    print(f"\nTotal de términos en el documento: {total_terminos}")

In [9]:
direccion = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
contar_terminos(direccion)


Total de términos en el documento: 240


### Normalización de Términos

In [10]:
import unicodedata, string

def normalizar(p):
    return ''.join(c for c in unicodedata.normalize('NFD', p) if unicodedata.category(c) != 'Mn') \
           .translate(str.maketrans('', '', string.punctuation)).lower()

def contar_terminos(documento):
    with open(documento, 'r', encoding='utf-8') as f:
        terminos = sorted({normalizar(p) for l in f for p in l.split() if normalizar(p)})
    print(f"\nTotal de términos únicos: {len(terminos)}\n")
    print("\n".join(terminos))

direccion = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
contar_terminos(direccion)



Total de términos únicos: 145

2000
a
agua
alrededor
altitud
amazonia
andes
arquitectura
artesanal
ascensiones
atrae
atraen
aventura
aves
avistamiento
banos
bienestar
biodiversidad
bosques
cada
cajas
caminatas
canopy
cascadas
centro
cercania
ciudad
colonial
color
como
comunidades
con
conecta
conocer
conocido
cotopaxi
crater
cuenca
cuenta
cultura
de
declarado
del
deportes
deslumbra
disfrutan
durante
ecologico
ecuador
ecuatorianos
el
en
entre
es
excursionistas
exploracion
famosas
famoso
feriado
feriados
fiestas
galapagos
gastronomia
gran
guayaquil
historico
humanidad
ideales
impacta
impresionantes
indigena
indigenas
interesados
invita
islas
jovenes
la
laguna
lagunas
las
llena
locales
longevidad
lopez
los
malecon
mas
megadiverso
mercado
mindo
montanas
montanita
muchos
mundo
nacional
nacionales
naturaleza
nocturna
nublados
ofrece
otavalo
pacifico
pais
para
paraiso
paramos
parque
patrimonio
playas
por
puerto
quilotoa
quito
rafting
region
ruta
salinas
santa
se
selvas
senderos
sorprende
spon

### Cálculo de IDF (Inverse Document Frequency)

In [8]:
import math, unicodedata, string, pandas as pd

def normalizar(p):
    p = unicodedata.normalize('NFD', p)
    return ''.join(c for c in p if unicodedata.category(c) != 'Mn') \
             .translate(str.maketrans('', '', string.punctuation)).lower()

def matriz_idf(documento):
    with open(documento, 'r', encoding='utf-8') as f:
        lineas = [set(normalizar(p) for p in l.split() if normalizar(p)) for l in f]
    terminos = sorted(set.union(*lineas))
    total = len(lineas)
    matriz = []
    for t in terminos:
        fila = [int(t in l) for l in lineas]
        df = sum(fila)
        idf = round(math.log10(total / df), 4) if df else 0
        matriz.append(fila + [df, idf])
    cols = [f'doc{i+1}' for i in range(total)] + ['DF', 'IDF']
    return pd.DataFrame(matriz, index=terminos, columns=cols).rename_axis("Término")

In [9]:
ruta = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
df = matriz_idf(ruta)
print(df)


            doc1  doc2  doc3  doc4  doc5  doc6  doc7  doc8  doc9  doc10  \
Término                                                                   
2000           0     0     0     0     0     0     0     0     0      1   
a              0     0     0     0     0     0     1     1     0      1   
agua           0     0     0     1     0     0     0     0     0      0   
alrededor      0     0     0     0     0     0     0     0     0      0   
altitud        0     0     0     0     0     0     0     0     0      0   
...          ...   ...   ...   ...   ...   ...   ...   ...   ...    ...   
vilcabamba     0     0     0     0     0     0     0     0     0      0   
visitan        0     0     0     0     0     0     0     0     0      0   
visitantes     0     1     0     0     0     0     0     0     0      0   
volcan         0     0     0     0     0     0     0     1     0      0   
y              1     0     0     1     1     1     1     0     1      1   

            doc11  doc12