## CountVectorizer

CountVectorizer convierte un conjunto de documentos a vectores para que podamos aplicarlos en ciertos modelos numericos. Básicamente su funcion consiste en contar el número de veces que una palabra en particular ha ocurrido.


In [1]:
from sklearn.feature_extraction.text import CountVectorizer

docs = ["IA la lleva.", "IA rock! wohooo!", "Mi nombre es IA, y soy un Pythonista!"]
cv = CountVectorizer()
X = cv.fit_transform(docs)
print(X.todense())
print(cv.vocabulary_)

[[0 1 1 1 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 1 0 0 1]
 [1 1 0 0 1 1 1 0 1 1 0]]
{u'ia': 1, u'pythonista': 6, u'lleva': 3, u'la': 2, u'mi': 4, u'wohooo': 10, u'un': 9, u'rock': 7, u'soy': 8, u'nombre': 5, u'es': 0}


## DictVectorizer

DictVectorizer convierte mappings a vectores. 



In [2]:
from sklearn.feature_extraction import DictVectorizer

docs = [{"IA": 1, "es": 1, "bakan": 2}, {"Yo": 1, "no": 1, "se": 2, "si": 3, "me": 1, "olvidaste": 2, "lala": 3}]
dv = DictVectorizer()
X = dv.fit_transform(docs)
print(X.todense())
print(dv.vocabulary_)

[[1. 0. 2. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 3. 1. 1. 2. 2. 3.]]
{'me': 5, 'Yo': 1, 'no': 6, 'lala': 4, 'si': 9, 'olvidaste': 7, 'se': 8, 'IA': 0, 'bakan': 2, 'es': 3}


## TfidfVectorizer

En aplicaciones de _Text-Mining_ podemos requerir convertir el texto en vectores para usar algoritmos de machine learning. En general esto significa usar el espacio vectorial. Si bien CountVectorizer podría ser una solución, palabras como "el", "una", "o" etc. son palabras altamente frecuentes es decir se usan a menudo en todo tipo de documentos, por lo cual el uso de CountVectorizer le dará más énfasis a tales recuentos de palabras las cuales resultan no ser __relevantes__. Podríamos evitar estos problemas utilizando `stop_words =" palabra-comun "` que filtraría las palabras comunes pero puede suceder que en un contexto especifico tenga un vocabulario diferente. Por ejemplo, una conversación entre 2 estudiantes de Machine Learning tendría palabras como "RAM", "procesador", "GPU", las cuales se mencionar con demasiada frecuencia, luego tendrá que agregar manualmente tales stop-words. Ello deberia realizarse para cada problema que resuelva.

En tales escenarios, se recomienda usar `TfidfVectorizer` que se encargará de tales cosas. Cada palabra recibe un número de acuerdo con la siguiente fórmula:

$$ \text{tfidf }\left(\text{word}\right)=\text{tf}\left(\text{word},\text{document}_i\right)\cdot\text{idf}\left(\text{word}\right) $$

Donde:

1. tf (word, document_i) = Término de frecuencia de una palabra en el documento específico i.
2. idf (palabra) = Frecuencia inversa de documento de la palabra.

La frecuencia inversa de documentos se define como el logaritmo del ratio entre el número de documentos y el número de veces que la palabra ha aparecido en cualquier documento.

$$ \text{idf }\left(w\right)=\log\left(\frac{n_d}{df\left(w\right)}\right)$$

Donde:
1. df(w) = número de veces que la palabra ha aparecido en cualquier documento.

De manera intuitiva, si una palabra ha aparecido demasiadas veces en otro documento (como palabras comunes "el", "es"), entonces le da menos importancia a tales palabras en contraste con las palabras que han aparecido más veces en un solo documento respecto a otras. Esto significa que si una palabra en particular aparece más veces en un solo documento, entonces podría ser una característica importante.

Tenga en cuenta que el numerador y el denominador se agregan con `1` para evitar el underflow, por ejemplo. cuando la frecuencia del documento es 0

Además, Sklearn también normaliza la salida de tfidf para que tenga una norma de 1. Esto es importante ya que nos interesan las similitudes, por lo que los vectores como (1, 1) y (3, 3) son realmente iguales (van en la misma dirección, solo tiene diferentes pesos) lo cual se logra dividiendo por la longitud del vector.

$$v_i=\frac{v_i}{\left|v\right|_2}=\frac{v_i}{\sqrt{v_1^2+v_2^2+v_3^2+....+v_n^2}}$$


In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

tfidf_vectorizer = TfidfVectorizer()
cv_vectorizer = CountVectorizer()
docs = ["IA es un guitarrista", "IA es un musico", "IA es tambien un programador feliz"]
X_idf = tfidf_vectorizer.fit_transform(docs)
X_cv = cv_vectorizer.fit_transform(docs)
print(X_idf.todense())
print(tfidf_vectorizer.vocabulary_)
print(X_cv.todense())


[[0.41285857 0.         0.69903033 0.41285857 0.         0.
  0.         0.41285857]
 [0.41285857 0.         0.         0.41285857 0.69903033 0.
  0.         0.41285857]
 [0.29360705 0.49711994 0.         0.29360705 0.         0.49711994
  0.49711994 0.29360705]]
{u'feliz': 1, u'tambien': 6, u'un': 7, u'guitarrista': 2, u'ia': 3, u'musico': 4, u'programador': 5, u'es': 0}
[[1 0 1 1 0 0 0 1]
 [1 0 0 1 1 0 0 1]
 [1 1 0 1 0 1 1 1]]


Podemos observar que "IA" y "es" tienen menor peso que "guitarrista", "musico", "programador"