# TF-IDF v2

### Pero Martín, no habías explicado TF-IDF en la otra notebook? 

<img src='https://em.wattpad.com/28107c22eb70e95b00abe19b2a50f2d4d2197b7e/68747470733a2f2f73332e616d617a6f6e6177732e636f6d2f776174747061642d6d656469612d736572766963652f53746f7279496d6167652f645658326c4b5a443453424446673d3d2d352e313538306462393530386134373165333738313832393831353734302e6a7067?s=fit&w=720&h=720'>

TF-IDF es útil para resolver los principales inconvenientes de BoW, al introducir un concepto importante llamado `frecuencia de documento inversa` o IDF.

TF-IDF es una puntuación que la máquina mantiene donde se evalúan las palabras utilizadas en una oración y mide su uso en comparación con las palabras utilizadas en todo el documento. En otras palabras, es una puntuación para resaltar la relevancia de cada palabra en todo el documento. Se calcula como:


$$IDF = \log\left( \frac{Numero\ de\ documentos}{Numero\ de\ documentos\ que\ contienen\ la\ palabra}\right)$$

Por otra parte, tenemos el TF:

$$TF = \frac{Numero\ de\ repeticiones\ de\ la\ palabra\ en\ un\ documento}{Numero\ de\ palabras\ en\ un\ documento}$$

Finalmente:

$$TFIDF(palabra) = TF(palabra) * IDF(palabra)$$

#### Bien, por ahora solo digamos que TF responde preguntas como: ¿cuántas veces se usa la palabra `belleza` en todo ese documento `X`?

#### Por su parte IDF responde preguntas como ¿Qué tan importante es la palabra `belleza` en toda la lista de documentos? ¿Es un tema común en todos los documentos?

#### Por lo tanto, el uso de TF e IDF tiene sentido para las palabras importantes en un documento y las palabras importantes en todos los documentos.

## ¿Cuál es la forma de encontrar TF-IDF de un documento?

El proceso para encontrar el significado de los documentos usando TF-IDF es muy similar a la BoW:

* Limpieza de Datos/Preprocesamiento: Estandarizar datos, normalizar datos, lematizar datos, etc.
* Tokenizar palabras con frecuencia.
* Encontrar TF de las palabras.
* Encontrar IDF de las palabras.
* Vectorizar con TF-IDF.

Al evaluar TF-IDF o un número de `las palabras utilizadas en una oración frente a las palabras utilizadas en el documento general,` podemos entender:

* Cuán útil es una palabra para una oración (lo que nos ayuda a comprender la importancia de una palabra en una oración).
* Cuán útil es una palabra para un documento (lo que nos ayuda a comprender las palabras importantes con más frecuencia en un documento).
* Nos ayuda a ignorar ciertas palabras que están mal escritas (usando la técnica de n-gramas).

Imaginemos que en un documento se escribió incorrectamente la palabra `example` como `exaple`. En el caso de BoW, tanto el `example` como el `exaple` se tratarán como palabras diferentes y se les dará la misma importancia porque su frecuencia es la misma.

En el caso de TD-IDF debido a la puntuación IDF, este error se corrige porque sabemos que `example` es más importante que `exaple`, por lo que lo tratamos como una palabra no útil.

$$IDF = \log\left( \frac{Numero\ de\ documentos}{Numero\ de\ documentos\ que\ contienen\ la\ palabra}\right)$$

Ahora, debido a estos puntajes, nuestra máquina tiene una mejor comprensión de estos documentos y se le puede pedir que los compare, que encuentre documentos similares, que encuentre documentos opuestos, que encuentre similitudes en el documento y por ejemplo puede ser utilizada por la máquina para recomendarte qué leer en base a los textos que comúnmente lees.

---

## Vamos con un ejemplo manual

Tenemos 3 documentos:

* Documento 1: `It is going to rain today`
* Documento 2: `Today I am not going outside`
* Documento 3: `I am going to watch the season premiere`

Para encontrar TF-IDF, debemos realizar los pasos que describimos anteriormente, vamos a hacerlo.

## Paso 1: Limpiar y Tokenizar con frequencia

<img src='https://miro.medium.com/max/358/1*4e7_738WtUgkKSdumJfQ1Q.png'>

## Paso 2: Encontrar TF

`It is going to rain today` tiene 6 palabras.

<img src='https://miro.medium.com/max/273/1*pWR7LSh3Ui9ADTqRrcbTcw.png'>

Para el resto de los documentos:

<img src='https://miro.medium.com/max/550/1*58b3x6cd6SefwgERcaGamg.png'>

## Paso 3: Encontrar el IDF

<img src='https://miro.medium.com/max/442/1*goSIDb32U3DflYNrKUXQHQ.png'>

## Paso 4: Vectorizar con TF-IDF

<img src='https://miro.medium.com/max/1042/1*OXjZ3vpUk-T3kyZL4Ytncw.png'>

## Paso 5: Comparar resultados

<img src='https://miro.medium.com/max/1005/1*jhKVAMWLbmstk5VO3jdAiw.png'>

Con esta tabla, se puede ver fácilmente que palabras como `it`, `is`, `rain` son importantes para el `Documento 1` pero no para el `Documento 2` y el `Documento 3`, lo que significa que los `Documentos 1` & `2 y 3` son diferentes en el tema lluvia.

También puede decir que los `Documentos 1 y 2` hablan sobre `today`, y los `Documentos 2 y 3` hablan sobre el escritor debido a la palabra `I`

Esta tabla nos ayuda a encontrar similitudes y diferencias entre documentos, palabras y mucho más, de una mejor manera que BoW.

---

# Ahora lo hacemos con Python (y en menos pasos)

### Paso 1: Declaramos todos los documentos.

In [1]:
Document1 = "It is going to rain today."
Document2 = "Today I am not going outside."
Document3 = "I am going to watch the season premiere."

Doc = [Document1, Document2, Document3]
print(Doc)

['It is going to rain today.', 'Today I am not going outside.', 'I am going to watch the season premiere.']


### Paso 2: Inicializamos un objeto `TfidfVectorizer`, en este caso no vamos a eliminar las `stopwords.`

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

### Paso 3: Vectorizamos creando la matriz de los tres documentos, con los features names y visualizamos en un dataframe.

In [3]:
import pandas as pd

X = vectorizer.fit_transform(Doc)
analyze = vectorizer.build_analyzer()
print('Document 1', analyze(Document1))
print('Document 2', analyze(Document2))
print('Document 3', analyze(Document3))

X = vectorizer.fit_transform(Doc)
feature_names = vectorizer.get_feature_names()

con_stop_words = pd.DataFrame(X.toarray(), columns = feature_names)
con_stop_words

Document 1 ['it', 'is', 'going', 'to', 'rain', 'today']
Document 2 ['today', 'am', 'not', 'going', 'outside']
Document 3 ['am', 'going', 'to', 'watch', 'the', 'season', 'premiere']


Unnamed: 0,am,going,is,it,not,outside,premiere,rain,season,the,to,today,watch
0,0.0,0.278245,0.47111,0.47111,0.0,0.0,0.0,0.47111,0.0,0.0,0.358291,0.358291,0.0
1,0.406192,0.315444,0.0,0.0,0.534093,0.534093,0.0,0.0,0.0,0.0,0.0,0.406192,0.0
2,0.324124,0.251711,0.0,0.0,0.0,0.0,0.426184,0.0,0.426184,0.426184,0.324124,0.0,0.426184


<img src='https://cdn.memegenerator.es/imagenes/memes/full/22/45/22459081.jpg'>


<img src='https://miro.medium.com/max/1005/1*jhKVAMWLbmstk5VO3jdAiw.png'>

In [4]:
con_stop_words

Unnamed: 0,am,going,is,it,not,outside,premiere,rain,season,the,to,today,watch
0,0.0,0.278245,0.47111,0.47111,0.0,0.0,0.0,0.47111,0.0,0.0,0.358291,0.358291,0.0
1,0.406192,0.315444,0.0,0.0,0.534093,0.534093,0.0,0.0,0.0,0.0,0.0,0.406192,0.0
2,0.324124,0.251711,0.0,0.0,0.0,0.0,0.426184,0.0,0.426184,0.426184,0.324124,0.0,0.426184


<img src='https://cdn.memegenerator.es/imagenes/memes/full/0/53/536830.jpg'>

### `No os desesperéis, en el ejemplo hecho a mano no se tuvieron en cuenta toooodas las palabras para hacerlo más corto. Recuerden que nunca lo van a hacer a mano, esto es sólo para entender la mecánica.`

La salida representa una medida númerica que expresa cuán relevante es una palabra para un documento en una colección. Una vez que conocemos dichas relevancias/puntaciones podemos hacernos muchas preguntas:

* ¿Son documentos similares?
* ¿Sobre que tema gira el documento?
* Ya termine de leer tal texto, ¿Con qué puedo seguir?
* Etc, etc.

¿Les suenan los `chatbots`?

---

# Ahora repetimos el mismo ejemplo, pero eliminando las `stopwords`

In [5]:
Document1 = "It is going to rain today."
Document2 = "Today I am not going outside."
Document3 = "I am going to watch the season premiere."
Doc = [Document1, Document2, Document3]

vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(Doc)

feature_names = vectorizer.get_feature_names()
sin_stop_words = pd.DataFrame(X.toarray(), columns = feature_names)

In [6]:
con_stop_words

Unnamed: 0,am,going,is,it,not,outside,premiere,rain,season,the,to,today,watch
0,0.0,0.278245,0.47111,0.47111,0.0,0.0,0.0,0.47111,0.0,0.0,0.358291,0.358291,0.0
1,0.406192,0.315444,0.0,0.0,0.534093,0.534093,0.0,0.0,0.0,0.0,0.0,0.406192,0.0
2,0.324124,0.251711,0.0,0.0,0.0,0.0,0.426184,0.0,0.426184,0.426184,0.324124,0.0,0.426184


In [7]:
sin_stop_words

Unnamed: 0,going,outside,premiere,rain,season,today,watch
0,0.425441,0.0,0.0,0.720333,0.0,0.547832,0.0
1,0.425441,0.720333,0.0,0.0,0.0,0.547832,0.0
2,0.322745,0.0,0.546454,0.0,0.546454,0.0,0.546454


### ¿Qué pasó aquí? ¿Cambian las relevancias de las palabras? ¿Es bueno sacar las stopwords? ¿Falta mucho para irnos a casa?