In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/corpus-turismo/01_corpus_turismo_500.txt


## Nombre: Ozzy Loachamín


# Lectura del corpus de texto
Primero se lee el corpus que está en el archivo `01_corpus_turismo_500.txt`.


In [2]:
# -----------------------------------------------------------
# LECTURA DEL CORPUS DE TEXTO
# -----------------------------------------------------------
# Se abre el archivo de texto que contiene el corpus
# y se guarda su contenido completo en la variable 'texto'.
# -----------------------------------------------------------

ruta = "/kaggle/input/corpus-turismo/01_corpus_turismo_500.txt"
with open(ruta, "r", encoding="utf-8") as f:
    texto = f.read()

# Generación del vocabulario
El vocabulario es la lista de palabras únicas del corpus. Se realiza una limpieza básica, se eliminan saltos de línea y signos de puntuación básicos.


In [3]:
# -----------------------------------------------------------
# CREACIÓN DEL VOCABULARIO
# -----------------------------------------------------------
# Se transforma el texto a minúsculas y se eliminan saltos de línea
# y signos de puntuación (puntos y comas). Luego se divide el texto
# en palabras y se obtienen las únicas (sin repetir) mediante set().
# -----------------------------------------------------------

vocab = list(set(texto.lower().replace('\n', ' ').replace('.','').replace(',','').split()))
len(vocab)

118

# Generación del corpus
Aquí se separa el texto completo en documentos individuales,
asumiendo que cada línea del archivo representa un documento.


In [4]:
# -----------------------------------------------------------
# GENERACIÓN DEL CORPUS
# -----------------------------------------------------------
# Se divide el texto en líneas para crear una lista de documentos.
# Cada elemento de 'corpus' representa un documento individual.
# -----------------------------------------------------------

corpus = texto.split('\n')

In [5]:
# -----------------------------------------------------------
# SELECCIÓN DE UN DOCUMENTO DE EJEMPLO
# -----------------------------------------------------------
# Se selecciona el primer documento del corpus y se muestra
# su contenido para inspección.
# -----------------------------------------------------------

doc = corpus[0]
doc

'Otavalo es conocido por su mercado indígena y su artesanía Perfecto para rafting.'

In [6]:
# -----------------------------------------------------------
# CONTEO DE FRECUENCIA DE UNA PALABRA ESPECÍFICA
# -----------------------------------------------------------
# Se cuenta cuántas veces aparece la palabra 'es' en el documento
# seleccionado. Esto sirve como ejemplo del cálculo de frecuencia.
# -----------------------------------------------------------

doc.split().count('es')

1

In [7]:
# -----------------------------------------------------------
# FUNCIÓN PARA CALCULAR LA FRECUENCIA DE TÉRMINOS (TF)
# -----------------------------------------------------------
# Esta función recibe un documento y devuelve un vector numpy
# que contiene las frecuencias absolutas de cada palabra del vocabulario
# dentro del documento.
# -----------------------------------------------------------
# Parámetros:
#  - doc: texto del documento
# Retorna:
#  - np.array con las frecuencias de cada palabra del vocabulario
# -----------------------------------------------------------

def get_tf(doc):
    vec = []
    #vec = np.array();
    for word in vocab:
        cont = doc.lower().replace('.','').replace(',','').split().count(word)
        vec.append(cont)
    return np.array(vec)

In [8]:
# -----------------------------------------------------------
# PRUEBA DE LA FUNCIÓN get_tf()
# -----------------------------------------------------------
# Se calcula el vector de frecuencias de términos (TF)
# para el primer documento del corpus y se imprime el resultado.
# Cada posición del vector corresponde a una palabra del vocabulario.
# -----------------------------------------------------------

x = get_tf(corpus[0])
print(x)

[1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 1 0 0 0 0 0 0 2 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1
 0 0 0 0 0 0 0]


In [9]:
# -----------------------------------------------------------
# OBTENER EL ÍNDICE DE UNA PALABRA EN EL VOCABULARIO
# -----------------------------------------------------------
# Se busca la posición de la palabra 'rafting' en la lista 'vocab'.
# Esto permite acceder a su frecuencia directamente desde los vectores TF.
# -----------------------------------------------------------

vocab.index('rafting')

110

In [10]:
# -----------------------------------------------------------
# ACCESO A LA FRECUENCIA DE UNA PALABRA ESPECÍFICA
# -----------------------------------------------------------
# Se muestra el valor correspondiente a la palabra 'rafting'
# en el vector TF del primer documento.
# -----------------------------------------------------------

x[116]

0

In [11]:
# -----------------------------------------------------------
# CONSTRUCCIÓN DE LA MATRIZ DE FRECUENCIAS DEL CORPUS
# -----------------------------------------------------------
# Se calcula el vector TF para cada documento del corpus
# y se almacena en una lista de vectores numpy.
# El resultado es una matriz (lista de listas) donde cada fila
# representa un documento y cada columna una palabra.
# -----------------------------------------------------------

corpus_vec = []
for doc in corpus:
    doc_vec = get_tf(doc)
    corpus_vec.append(doc_vec)
    

In [12]:
# -----------------------------------------------------------
# NOTA:
# En esta etapa ya se tiene una matriz donde se observa
# cuántas veces aparece cada palabra en cada documento.
# La siguiente pregunta a resolver es:
# ¿En cuántos documentos aparece una palabra determinada?
# -----------------------------------------------------------


# Cálculo del IDF (Inverse Document Frequency)
El IDF busca identificar qué términos son más o menos representativos
de un conjunto de documentos: palabras comunes tienen bajo IDF y
palabras raras tienen alto IDF.


In [13]:
# -----------------------------------------------------------
# PRUEBA DE SUMA DE FRECUENCIAS ENTRE DOCUMENTOS
# -----------------------------------------------------------
# Ejemplo de suma entre los vectores TF de los primeros documentos.
# Esto muestra cuántas veces aparece cada palabra en los documentos combinados.
# -----------------------------------------------------------

corpus_vec[0]+corpus_vec[1]

array([1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0,
       0, 0, 0, 0, 0, 3, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0])

In [14]:
# -----------------------------------------------------------
# CÁLCULO DEL DFT (DOCUMENT FREQUENCY TOTAL)
# -----------------------------------------------------------
# Se suman las frecuencias por columna para conocer cuántas veces
# aparece cada palabra en todo el corpus.
# -----------------------------------------------------------

dft = np.sum(corpus_vec, axis=0)
dft

array([ 33,  33,  11,  32,  27,  20,  33,  74,  59,  92,  37,  15,  27,
       346,  37,  34,  65,  66, 118,  67, 159,  44,  16,  33, 182,  32,
        32,  27,  17,  32,  27,  96,  79, 145,  27,  33,  34,  96,  33,
        33,  92,  47, 121,  33,  20,  20,  44,  27,  20, 198,  33, 119,
        33,  27,  20,  33,  32,  27,  36,  20,  54,  37,  32,  32, 154,
        37,  32,  40,  33,  36,  33,  47,  27,  32,  32,  47,  44,  32,
        34,  36,  27,  34,  27,  60,  32,  37,  36,  47,  32, 126,  27,
        37,  32,  27,  27, 175,  23,  33,  20,  27,  27,  36,  33,  37,
        23,  33, 100,  32,  47, 268,  54,  37,  47,  96,  27,  32,  13,
        27])

In [15]:
# -----------------------------------------------------------
# MÍNIMO DE FRECUENCIAS EN EL CORPUS
# -----------------------------------------------------------
# Muestra la frecuencia más baja entre todas las palabras del vocabulario.
# -----------------------------------------------------------

min(dft)

11

In [16]:
# -----------------------------------------------------------
# ÍNDICE DE LA PALABRA MENOS FRECUENTE
# -----------------------------------------------------------
# Se obtiene el índice de la palabra que menos aparece en el corpus.
# -----------------------------------------------------------

np.argmin(dft)

2

In [17]:
# -----------------------------------------------------------
# PALABRA MENOS FRECUENTE EN EL CORPUS
# -----------------------------------------------------------
# Se muestra la palabra correspondiente al índice obtenido.
# -----------------------------------------------------------

vocab[49]

'su'

In [18]:
# -----------------------------------------------------------
# PALABRA MÁS FRECUENTE EN EL CORPUS
# -----------------------------------------------------------
# Se obtiene el índice de la palabra con mayor frecuencia
# y se muestra el término correspondiente.
# -----------------------------------------------------------

vocab[np.argmax(dft)]

'para'

In [19]:
# -----------------------------------------------------------
# CÁLCULO DEL IDF (INVERSE DOCUMENT FREQUENCY)
# -----------------------------------------------------------
# El IDF mide la importancia de una palabra según cuántos documentos
# la contienen. Se calcula con log(N / dft),
# donde N es el número total de documentos.
# -----------------------------------------------------------

idf = np.log(np.divide(118, dft))
idf

array([ 1.27417706,  1.27417706,  2.37278935,  1.30494872,  1.47484776,
        1.77495235,  1.27417706,  0.46661953,  0.69314718,  0.24889605,
        1.15976671,  2.06263442,  1.47484776, -1.07575415,  1.15976671,
        1.2443241 ,  0.59629735,  0.58102988,  0.        ,  0.56599201,
       -0.29821958,  0.98649499,  1.9980959 ,  1.27417706, -0.43332206,
        1.30494872,  1.30494872,  1.47484776,  1.93747128,  1.30494872,
        1.47484776,  0.20633643,  0.40123677, -0.20604912,  1.47484776,
        1.27417706,  1.2443241 ,  0.20633643,  1.27417706,  1.27417706,
        0.24889605,  0.92053702, -0.02510592,  1.27417706,  1.77495235,
        1.77495235,  0.98649499,  1.47484776,  1.77495235, -0.51758241,
        1.27417706, -0.00843887,  1.27417706,  1.47484776,  1.77495235,
        1.27417706,  1.30494872,  1.47484776,  1.18716569,  1.77495235,
        0.78170058,  1.15976671,  1.30494872,  1.30494872, -0.26626798,
        1.15976671,  1.30494872,  1.08180517,  1.27417706,  1.18

In [20]:
# -----------------------------------------------------------
# APLICACIÓN DEL LOGARITMO AL VECTOR DE FRECUENCIAS
# -----------------------------------------------------------
# Prueba con logaritmo natural aplicado al vector de frecuencias (TF).
# -----------------------------------------------------------

np.log(x)

array([0.        , 0.        ,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf, 0.        ,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
       0.        ,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf, 0.        ,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf, 0.69314718,
       0.        , 0.        , 0.        ,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -inf,
             -inf,       -inf,       -inf,       -inf,       -

In [21]:
# -----------------------------------------------------------
# CÁLCULO DEL VECTOR TF-IDF PARA UN DOCUMENTO
# -----------------------------------------------------------
# Se multiplica el vector TF del primer documento por el vector IDF
# para ponderar la relevancia de cada palabra.
# -----------------------------------------------------------

corpus_vec[0] * idf

array([ 1.27417706,  1.27417706,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        , -1.07575415,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
       -0.29821958,  0.        ,  0.        ,  0.        , -0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        , -0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        , -0.02510592,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        , -1.03516481,
        1.27417706, -0.00843887,  1.27417706,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
        0.        ,  0.        ,  0.        ,  0.        , -0.        ,
        0.        ,  0.        ,  0.        ,  0.        ,  0.  

In [23]:
# -----------------------------------------------------------
# MATRIZ TF-IDF COMPLETA (INTENTO)
# -----------------------------------------------------------
# Aquí se intenta calcular la matriz TF-IDF de todo el corpus.
# Sin embargo, la expresión 'len(corpus_vec * idf)' es incorrecta,
# ya que 'corpus_vec' es una lista y la multiplicación con numpy no aplica así.
# -----------------------------------------------------------
tfidf = np.array(corpus_vec) * idf
len(tfidf)

# len(corpus_vec * idf)


501