# Ejercicio 2: Matriz TF-IDF

1. Construcción del índice invertido donde cada palabra es la clave, la misma será asociada a un diccionario donde sus claves serán el número del documento y sus valores la frecuencia con la que la palabra aparece.

In [13]:
def construir_indice_invertido(nombre_archivo):
    with open(nombre_archivo, 'r', encoding='utf-8') as corpus:
        documentos = corpus.readlines()

    indice_invertido = {}

    for n_doc, documento in enumerate(documentos):
        palabras = documento.lower().strip().split()
        for palabra in palabras:
            palabra = palabra.strip('.,;:!?()"\'')
            if palabra:
                if palabra not in indice_invertido:
                    indice_invertido[palabra] = {}
                if n_doc not in indice_invertido[palabra]:
                    indice_invertido[palabra][n_doc] = 0
                indice_invertido[palabra][n_doc] += 1

    return indice_invertido, documentos


2. Calcular el TF, el IDF, W y colocar el resultado en la matriz

In [17]:
import math

def calcular_matriz_tf_idf(indice_invertido, documentos):
    terminos = sorted(indice_invertido.keys())
    num_docs = len(documentos)
    matriz = []

    for termino in terminos:
        fila = []

        # Accede al diccionario interno que contiene el indice del documento que tiene el termino
        # y la frecuencia con la que aparece
        doc_freqs = indice_invertido[termino]

        # calculo del idf
        idf = math.log(num_docs / len(doc_freqs))

        # iterar por cada documento
        for n_doc in range(num_docs):
            # verificar si el documento tiene el termino
            if n_doc in doc_freqs:
                # obtiene f de t en el documento d
                f_td = doc_freqs[n_doc]
                # calculo del tf
                tf = 1 + math.log(f_td)
                # calcular W de t en d
                w = tf * idf
            else:
                w = 0.0
            fila.append(w)
        matriz.append(fila)

    return terminos, matriz


3. Impresion de la matriz TF-IDF

In [33]:
def imprimir_matriz_tfidf(terminos, matriz, num_docs):
    encabezado = ['Palabra'] + [f'Doc_{i}' for i in range(num_docs)]
    print("\t".join(encabezado))

    # Imprimir filas
    for i, palabra in enumerate(terminos):
        fila_str = [f"{matriz[i][j]:.4f}" for j in range(num_docs)]
        print(f"{palabra}\t" + "\t".join(fila_str))

In [34]:
indice, docs = construir_indice_invertido("01_corpus_turismo.txt")
terminos, matriz = calcular_matriz_tf_idf(indice, docs)
imprimir_matriz_tfidf(terminos, matriz, len(docs))

Palabra	Doc_0	Doc_1	Doc_2	Doc_3	Doc_4	Doc_5	Doc_6	Doc_7	Doc_8	Doc_9	Doc_10	Doc_11	Doc_12	Doc_13	Doc_14	Doc_15
2000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	2.7726	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000
a	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	1.3863	1.3863	0.0000	1.3863	0.0000	0.0000	2.9093	0.0000	0.0000	0.0000
agua	0.0000	0.0000	0.0000	2.7726	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000
alrededor	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	2.7726	0.0000	0.0000	0.0000	0.0000	0.0000
altitud	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	2.7726	0.0000	0.0000	0.0000
amazonía	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	2.7726	0.0000	0.0000	0.0000	0.0000
andes	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	2.7726	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000
arquitectura	0.0000	0.0000	0.0000	0.0000	0.0000	0.0000	2.7726

In [35]:
indice, docs = construir_indice_invertido("01_corpus_turismo_500.txt")
terminos, matriz = calcular_matriz_tf_idf(indice, docs)
imprimir_matriz_tfidf(terminos, matriz, len(docs))

Palabra	Doc_0	Doc_1	Doc_2	Doc_3	Doc_4	Doc_5	Doc_6	Doc_7	Doc_8	Doc_9	Doc_10	Doc_11	Doc_12	Doc_13	Doc_14	Doc_15	Doc_16	Doc_17	Doc_18	Doc_19	Doc_20	Doc_21	Doc_22	Doc_23	Doc_24	Doc_25	Doc_26	Doc_27	Doc_28	Doc_29	Doc_30	Doc_31	Doc_32	Doc_33	Doc_34	Doc_35	Doc_36	Doc_37	Doc_38	Doc_39	Doc_40	Doc_41	Doc_42	Doc_43	Doc_44	Doc_45	Doc_46	Doc_47	Doc_48	Doc_49	Doc_50	Doc_51	Doc_52	Doc_53	Doc_54	Doc_55	Doc_56	Doc_57	Doc_58	Doc_59	Doc_60	Doc_61	Doc_62	Doc_63	Doc_64	Doc_65	Doc_66	Doc_67	Doc_68	Doc_69	Doc_70	Doc_71	Doc_72	Doc_73	Doc_74	Doc_75	Doc_76	Doc_77	Doc_78	Doc_79	Doc_80	Doc_81	Doc_82	Doc_83	Doc_84	Doc_85	Doc_86	Doc_87	Doc_88	Doc_89	Doc_90	Doc_91	Doc_92	Doc_93	Doc_94	Doc_95	Doc_96	Doc_97	Doc_98	Doc_99	Doc_100	Doc_101	Doc_102	Doc_103	Doc_104	Doc_105	Doc_106	Doc_107	Doc_108	Doc_109	Doc_110	Doc_111	Doc_112	Doc_113	Doc_114	Doc_115	Doc_116	Doc_117	Doc_118	Doc_119	Doc_120	Doc_121	Doc_122	Doc_123	Doc_124	Doc_125	Doc_126	Doc_127	Doc_128	Doc_129	Doc_130	Doc_131	Doc_132	Doc_133	Doc_134	Doc_135	Doc_136	Doc_13