# Ejercicio: Modelo Vectorial y TF-IDF

**Nombre: Mishel Ramirez**

**Responder a la siguiente pregunta**

**¿Cuantos términos hay en el corpus?**


In [40]:
import math

def crear_diccionario(corpus):
    diccionario = {}
    documentos = []
    lineas_originales = []

    for doc_path in corpus:
        with open(doc_path, 'r', encoding='utf-8') as archivo_txt:
            lineas = archivo_txt.readlines()
            lineas_filtradas = [linea.strip() for linea in lineas if linea.strip()]
            lineas_originales.extend(lineas_filtradas)
            documentos.append([linea.lower().split() for linea in lineas_filtradas])
            for index, linea in enumerate(lineas_filtradas, start=1):
                palabras = linea.lower().split()
                for termino in palabras:
                    if termino not in diccionario:
                        diccionario[termino] = {
                            'término': termino,
                            'documentos': [],
                            'frecuencia': 0
                        }
                    if (doc_path, index) not in diccionario[termino]['documentos']:
                        diccionario[termino]['documentos'].append((doc_path, index))
                    diccionario[termino]['frecuencia'] += 1
    return diccionario, documentos, lineas_originales

# Corpus
corpus = [r"/kaggle/input/corpus/01_corpus_turismo.txt"]
diccionario, docs_tokenizados, lineas_originales = crear_diccionario(corpus)

# Lista de términos
terminos = list(diccionario.keys())
print(f"El número de términos es: {len(terminos)}\n")

# Matriz de frecuencia absoluta (conteo)
frecuencia_matrix = []

for doc in docs_tokenizados:
    for linea in doc:
        conteo = []
        for termino in terminos:
            conteo.append(linea.count(termino))
        frecuencia_matrix.append(conteo)

# Impresión de la matriz
print("\nMatriz de Frecuencia (conteo de términos por documento):\n")

header = "Términos".ljust(8)
for i in range(1, len(frecuencia_matrix) + 1):
    header += f"Doc{i}".rjust(7)
print(header)
print("-" * len(header))

for i, termino in enumerate(terminos):
    fila = termino.ljust(8)
    for doc_vector in frecuencia_matrix:
        valor = doc_vector[i]
        fila += f"{valor}".rjust(7)
    print(fila)

# Calcular TF
tf_matrix = []

for doc_vector in frecuencia_matrix:
    total_terminos = sum(doc_vector)
    tf_vector = [(frec / total_terminos) if total_terminos > 0 else 0 for frec in doc_vector]
    tf_matrix.append(tf_vector)

# Calcular IDF
N = len(frecuencia_matrix) 
idf_vector = []

for i in range(len(terminos)):
    df = sum(1 for doc_vector in frecuencia_matrix if doc_vector[i] > 0)
    idf = math.log10(N / (1 + df))  
    idf_vector.append(idf)

# Calcular TF-IDF 
tfidf_matrix = []

for tf_vector in tf_matrix:
    tfidf_vector = [tf * idf for tf, idf in zip(tf_vector, idf_vector)]
    tfidf_matrix.append(tfidf_vector)


# Impresión de resultados de TF-IDF por documento
for i, (fila_tfidf, linea_original) in enumerate(zip(tfidf_matrix, lineas_originales)):
    print(f"\nDocumento {i+1}: {linea_original}")
    print("Términos mediante el cálculo de (TF-IDF):")
    for idx, valor in enumerate(fila_tfidf):
        if valor > 0:
            print(f"  {terminos[idx]}: {valor:.4f}")


El número de términos es: 148


Matriz de Frecuencia (conteo de términos por documento):

Términos   Doc1   Doc2   Doc3   Doc4   Doc5   Doc6   Doc7   Doc8   Doc9  Doc10  Doc11  Doc12  Doc13  Doc14  Doc15  Doc16
------------------------------------------------------------------------------------------------------------------------
ecuador       1      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
es            1      0      0      0      0      1      0      0      1      0      0      0      0      0      0      0
un            1      0      1      0      0      0      0      0      1      0      0      0      0      0      0      0
país          1      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
megadiverso,      1      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
con           1      0      1      0      0      0      1  