<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/milmor/NLP/blob/main/Notebooks/02_Tf-idf.ipynb">
    <img src="https://www.tensorflow.org/images/colab_logo_32px.png" />
    Run in Google Colab</a>
  </td>
</table>

# Tf-idf

In [1]:
import numpy as np

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [3]:
# datos
X = ["Lobos Gatos Elefantes",
     "Lobos Lobos Caballos Teatro",
     "Lobos Elefantes Lobos",
     "Computadora Procesador Lobos",
     "Teatro Pintura Elefantes",
     "Teatro Música Caballos Teatro Teatro"]
y = [0, 0, 0, 1, 2, 2]

vectorizer = TfidfVectorizer(norm=None)
X_vect = vectorizer.fit_transform(X)

In [4]:
X_vect

<6x9 sparse matrix of type '<class 'numpy.float64'>'
	with 17 stored elements in Compressed Sparse Row format>

In [5]:
X_vect.toarray()

array([[0.        , 0.        , 1.55961579, 2.25276297, 1.33647224,
        0.        , 0.        , 0.        , 0.        ],
       [1.84729786, 0.        , 0.        , 0.        , 2.67294447,
        0.        , 0.        , 0.        , 1.55961579],
       [0.        , 0.        , 1.55961579, 0.        , 2.67294447,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 2.25276297, 0.        , 0.        , 1.33647224,
        0.        , 0.        , 2.25276297, 0.        ],
       [0.        , 0.        , 1.55961579, 0.        , 0.        ,
        0.        , 2.25276297, 0.        , 1.55961579],
       [1.84729786, 0.        , 0.        , 0.        , 0.        ,
        2.25276297, 0.        , 0.        , 4.67884736]])

In [6]:
vectorizer.vocabulary_

{'lobos': 4,
 'gatos': 3,
 'elefantes': 2,
 'caballos': 0,
 'teatro': 8,
 'computadora': 1,
 'procesador': 7,
 'pintura': 6,
 'música': 5}

In [7]:
vectorizer.idf_

array([1.84729786, 2.25276297, 1.55961579, 2.25276297, 1.33647224,
       2.25276297, 2.25276297, 2.25276297, 1.55961579])

- Aquí tf denota la frecuencia del término y tf-idf es la frecuencia del término por la frecuencia inversa de documento. La frecuencia del termino es el número de veces que el término ocurre en el documento.

$$ \text{tf-idf}(t, d) = \text{tf}(t,d) \times \text{idf}(t)$$
$$ \text{idf}(t) = \log\frac{1 + n}{1 + \text{df}(t)} + 1$$
donde $n$ es el número total de documentos y $\text{df}(t)$ es el número total de documentos que contienen el término $t$.

Para la palabra "Lobos" con el índice de vocabulario es 4:

$$ \text{idf(lobos)} = \log\frac{1 + 6}{1 + 4} + 1 = 1.33$$

In [8]:
np.log(7/5) + 1, vectorizer.idf_[4]

(1.336472236621213, 1.336472236621213)

- En el primer documento, la palabra "lobos" aparece una vez, por lo que tf(lobos, 0) = 1 y tf-idf(lobos, 0) = $1 \times 1.33 = 1.33$

- En el segundo documento, la palabra "lobos" aparece dos vez, por lo que tf(lobos, 1) = 2 y tf-idf(lobos, 1) = $2 \times 1.33 = 2.67$ 

In [9]:
X_vect.toarray()[:, 4]

array([1.33647224, 2.67294447, 2.67294447, 1.33647224, 0.        ,
       0.        ])

- Normalizando 

In [10]:
from numpy import linalg as LA

In [11]:
l2_norm = LA.norm([0., 0., 1.55961579, 2.25276297, 1.33647224, 0., 0., 0., 0.])
l2_norm

3.0485243085321074

In [12]:
X_vect.toarray()[0] / l2_norm

array([0.        , 0.        , 0.51159697, 0.73896835, 0.43839973,
       0.        , 0.        , 0.        , 0.        ])

- Normalizando con TfidfVectorizer

In [13]:
vectorizer = TfidfVectorizer(norm='l2')
X_vect = vectorizer.fit_transform(X)
X_vect.toarray()

array([[0.        , 0.        , 0.51159697, 0.73896835, 0.43839973,
        0.        , 0.        , 0.        , 0.        ],
       [0.51255443, 0.        , 0.        , 0.        , 0.74163976,
        0.        , 0.        , 0.        , 0.43273367],
       [0.        , 0.        , 0.50396702, 0.        , 0.8637229 ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.65205671, 0.        , 0.        , 0.3868386 ,
        0.        , 0.        , 0.65205671, 0.        ],
       [0.        , 0.        , 0.49468646, 0.        , 0.        ,
        0.        , 0.71454223, 0.        , 0.49468646],
       [0.33515812, 0.        , 0.        , 0.        , 0.        ,
        0.40872228, 0.        , 0.        , 0.84889053]])

- Para utilizar TfidfVectorizer con datos de prueba utilizar únicamente el método __transform__

In [14]:
X = ["Lobos Computadora Elefantes"]

X_vect = vectorizer.transform(X)
X_vect.toarray()

array([[0.        , 0.73896835, 0.51159697, 0.        , 0.43839973,
        0.        , 0.        , 0.        , 0.        ]])