<a href="https://colab.research.google.com/github/carlosramos1/practicas-machine-learning/blob/main/TF_IDF_(implementacion).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [154]:
from math import log

# Tf-IDF

Determina la importancia de un token (palabra)

TFIDF es la multiplicación de dos expresiones:

$$
tf\,idf(w,d,D) = tf(w,d) * idf(w,D)
$$

- $tf(w,d)$ es la frecuencia de aparición de una palabra en un documento.
- $idf(w,D)$ es la proporción inversa de documentos, indica si una palabra es común en el corpus.

In [155]:
def calc_tfidf(word, doc, corpus):
  return calc_tf(word, doc) * calc_idf(word, corpus)

**Cálculo de** $tf$
$$
tf(w,d) = f_{w,d}
$$

- Básicamente es hacer un conteo de las ocurrencias de la palabra $w$ en el documento $d$.

In [156]:
def calc_tf(word, doc):
  return doc.count(word)

**Cálculo de** $idf$

$$
idf(w,D) = log(|D| / df) + 1
$$

- $|D|$ es el total de documentos del corpus.
- $df$ el número de documentos, donde el término $w$ está presente.
- Añadimos $+1$ para evitar un resultado de cero.


In [157]:
def calc_idf(word, corpus):
  N = len(corpus)
  df = sum([word in doc for doc in corpus])
  return round(log(N / df) + 1, 8)

Dado un vocabulario y un conjunto de documentos vamos a crear la matriz TF-IDF.

Las filas representan los documentos y las columnas las pálabras.

- vocabulario: una lista de palabras únicas.
- documento: una lista de palabras.



In [158]:
def matrix_tfidf(vocabulary, Docs):
  N = len(Docs)
  m = len(vocabulary)

  # crear matriz de N filas, m columnas
  tf_idf = [[0 for _ in range(m)] for _ in range(N)]

  for w, word in enumerate(vocabulary):
    for d, doc in enumerate(Docs):
      tf_idf[d][w] = calc_tfidf(word, doc, Docs)
  return tf_idf

## Ejemplo datos de juguete

In [159]:
corpus = [
          'This is the first document',
          'This document is the second document',
          'And this is the third one',
          'Is this the first document',
         ]
corpus = [d.lower() for d in corpus]

Docs = [d.split() for d in corpus]
print("Documentos: ", Docs)

vocabulary = list(set([w for doc in Docs for w in doc]))
vocabulary.sort() # no es necesario, solo para comparar con sklearn
print("Vocabulario: ", vocabulary)

Documentos:  [['this', 'is', 'the', 'first', 'document'], ['this', 'document', 'is', 'the', 'second', 'document'], ['and', 'this', 'is', 'the', 'third', 'one'], ['is', 'this', 'the', 'first', 'document']]
Vocabulario:  ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']


In [160]:
# obtener la matriz tfidf
matrix_tfidf(vocabulary, Docs)

[[0.0, 1.28768207, 1.69314718, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0],
 [0.0, 2.57536414, 0.0, 1.0, 0.0, 2.38629436, 1.0, 0.0, 1.0],
 [2.38629436, 0.0, 0.0, 1.0, 2.38629436, 0.0, 1.0, 2.38629436, 1.0],
 [0.0, 1.28768207, 1.69314718, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0]]

Vectorizar documentos nuevos dado el corpus




In [161]:
def vectorized_tfidf(other_docs, vocabulary, Docs):
  N = len(other_docs)
  m = len(vocabulary)

  # crear matriz de N filas, m columnas
  tf_idf = [[0 for _ in range(m)] for _ in range(N)]

  for w, word in enumerate(vocabulary):
    for d, doc in enumerate(other_docs):
      tf_idf[d][w] = calc_tfidf(word, doc, Docs)
  return tf_idf

In [162]:
other_doc = "the new document"
vectorized_tfidf([other_doc.split()], vocabulary, Docs)

[[0.0, 1.28768207, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0]]

Comparación con libreria `sklearn`

In [163]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(smooth_idf=False, norm=None)
tfidf_vectorizer = vectorizer.fit_transform(corpus)
vectorizer.get_feature_names_out()

array(['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third',
       'this'], dtype=object)

In [164]:
tfidf_vectorizer.toarray()

array([[0.        , 1.28768207, 1.69314718, 1.        , 0.        ,
        0.        , 1.        , 0.        , 1.        ],
       [0.        , 2.57536414, 0.        , 1.        , 0.        ,
        2.38629436, 1.        , 0.        , 1.        ],
       [2.38629436, 0.        , 0.        , 1.        , 2.38629436,
        0.        , 1.        , 2.38629436, 1.        ],
       [0.        , 1.28768207, 1.69314718, 1.        , 0.        ,
        0.        , 1.        , 0.        , 1.        ]])

In [165]:
vectorizer.transform([other_doc]).toarray()


array([[0.        , 1.28768207, 0.        , 0.        , 0.        ,
        0.        , 1.        , 0.        , 0.        ]])