# Ejercicio 2: Terminos en el corpus

### Crear un codigo que me permita buscar cuantos terminos hay en el corpus de los textos 

In [None]:
archivos = ['../data/01_corpus_turismo.txt', '../data/01_corpus_turismo_500.txt']

#Codigo para contar los terminos del corpus

def contar_terminos(archivo):
    with open(archivo, 'r', encoding='utf-8') as f:
        texto = f.read()
        # Convertir a minúsculas
        texto = texto.lower()
        # Eliminar signos de puntuación y tildes
        texto = texto.replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u')
        for char in ['.', ',', ';', ':', '!', '?', '-', '_', '(', ')', '[', ']', '{', '}', "'", '"']:
            texto = texto.replace(char, '')
        # Dividir el texto en palabras
        palabras = texto.split()
        # Contar términos únicos
        terminos_unicos = set(palabras)
        return len(terminos_unicos)
    
print("Cantidad de terminos en el corpus:")
for archivo in archivos:
    cantidad_terminos = contar_terminos(archivo)
    print(f"{archivo}: {cantidad_terminos} terminos")


Cantidad de terminos en el corpus:
../data/01_corpus_turismo.txt: 145 terminos
../data/01_corpus_turismo_500.txt: 118 terminos


### Generar una tabla de terminos por cada termino del archivo pequeño del corpus

In [5]:
archivo = '../data/01_corpus_turismo.txt'

# Diccionario: término -> lista de frecuencias por documento
tabla_frecuencias = {}
with open(archivo, 'r', encoding='utf-8') as f:
    lineas = f.readlines()
# Procesamos cada documento (línea)
for i, linea in enumerate(lineas):
    texto = linea.strip().lower()
    texto = texto.replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u')
    for signo in ['.', ',', ';', ':', '!', '?', '-', '_', '(', ')', '[', ']', '{', '}', "'", '"']:
        texto = texto.replace(signo, '')
    palabras = texto.split()
    frecuencia_local = {}
    for palabra in palabras:
        if palabra in frecuencia_local:
            frecuencia_local[palabra] += 1
        else:
            frecuencia_local[palabra] = 1

    # Agregamos al diccionario global
    for palabra in frecuencia_local:
        if palabra not in tabla_frecuencias:
            tabla_frecuencias[palabra] = [0] * len(lineas)
        tabla_frecuencias[palabra][i] = frecuencia_local[palabra]

# Imprimimos la tabla
documentos = [f'Doc{i+1}' for i in range(len(lineas))]
print("Término\t\t" + "\t".join(documentos))
print("-" * (10 + 8 * len(documentos)))
for palabra, frecuencias in sorted(tabla_frecuencias.items()):
    frecuencias_str = "\t".join(str(f) for f in frecuencias)
    print(f"{palabra}\t\t{frecuencias_str}")


Término		Doc1	Doc2	Doc3	Doc4	Doc5	Doc6	Doc7	Doc8	Doc9	Doc10	Doc11	Doc12	Doc13	Doc14	Doc15	Doc16
------------------------------------------------------------------------------------------------------------------------------------------
2000		0	0	0	0	0	0	0	0	0	1	0	0	0	0	0	0
a		0	0	0	0	0	0	1	1	0	1	0	0	3	0	0	0
agua		0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0
alrededor		0	0	0	0	0	0	0	0	0	0	1	0	0	0	0	0
altitud		0	0	0	0	0	0	0	0	0	0	0	0	1	0	0	0
amazonia		0	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0
andes		0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0
arquitectura		0	0	0	0	0	0	1	0	0	0	0	0	0	0	0	0
artesanal		0	0	0	0	0	1	0	0	0	0	0	0	0	0	0	0
ascensiones		0	0	0	0	0	0	0	1	0	0	0	0	0	0	0	0
atrae		0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0
atraen		0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0
aventura		0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0
aves		0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0
avistamiento		0	0	0	0	0	0	0	0	1	0	0	0	0	0	0	0
baños		0	0	0	1	0	0	0	0	0	0	0	0	0	0	0	0
bienestar		0	0	0	0	0	0	0	0	0	0	0	0	0	0	1	0
biodiversidad		0	1	0	0	0	0	0	0	0	0	0	0	0	0	0	0
bosques		0	0	0	0	0	0	

### Calcular el IDF(t)

In [6]:
import math

archivo = '../data/01_corpus_turismo.txt'

with open(archivo, 'r', encoding='utf-8') as f:
    lineas = f.readlines()

documentos_por_termino = {}
N = len(lineas)

for linea in lineas:
    texto = linea.strip().lower()
    texto = texto.replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u')
    for signo in ['.', ',', ';', ':', '!', '?', '-', '_', '(', ')', '[', ']', '{', '}', "'", '"']:
        texto = texto.replace(signo, '')
    palabras = set(texto.split())
    for palabra in palabras:
        if palabra in documentos_por_termino:
            documentos_por_termino[palabra] += 1
        else:
            documentos_por_termino[palabra] = 1

idf = {}
for termino, df in documentos_por_termino.items():
    idf[termino] = math.log10(N / df)

print("Término\t\tIDF")
print("-------------------------")
for termino, valor in sorted(idf.items()):
    print(f"{termino}\t\t{valor:.4f}")


Término		IDF
-------------------------
2000		1.2041
a		0.6021
agua		1.2041
alrededor		1.2041
altitud		1.2041
amazonia		1.2041
andes		1.2041
arquitectura		1.2041
artesanal		1.2041
ascensiones		1.2041
atrae		1.2041
atraen		1.2041
aventura		1.2041
aves		1.2041
avistamiento		1.2041
baños		1.2041
bienestar		1.2041
biodiversidad		1.2041
bosques		1.2041
cada		1.2041
cajas		1.2041
caminatas		1.2041
canopy		1.2041
cascadas		1.2041
centro		1.2041
cercania		1.2041
ciudad		1.2041
colonial		1.2041
color		1.2041
como		0.7270
comunidades		1.2041
con		0.5051
conecta		1.2041
conocer		1.2041
conocido		1.2041
cotopaxi		1.2041
crater		1.2041
cuenca		1.2041
cuenta		1.2041
cultura		1.2041
de		0.2499
declarado		1.2041
del		0.7270
deportes		1.2041
deslumbra		1.2041
disfrutan		0.9031
durante		1.2041
ecologico		1.2041
ecuador		1.2041
ecuatorianos		1.2041
el		0.3010
en		0.6021
entre		1.2041
es		0.7270
excursionistas		1.2041
exploracion		1.2041
famosas		1.2041
famoso		1.2041
feriado		0.9031
feriados		1.2041
fiest