<a href="https://colab.research.google.com/github/merrecalde/curso_la_plata_2019/blob/master/representacion_documentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Notebook: representacion_documentos.ipynb

### Se muestra cómo vectorizar (representar en formato vector) 3 documentos (strings) sencillos, utilizando como términos (features) a 1) las palabras, 2) bi-gramas de palabras y 3) tri-gramas de caracteres. Para las palabras, se muestran distintos tipos de pesados de los términos

In [0]:
documentos = ["pintaron el banco de la plaza",
              "te paso el programa, ejecútalo paso por paso",
              "sentado en el banco, miraba si el banco abría"]

In [2]:
print(type(documentos))
type(documentos[0])


<class 'list'>


str

## 1) Comenzamos con palabras como features

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
vect.fit(documentos)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(1, 1), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [4]:
print("Tamaño de Vocabulario: {}".format(len(vect.vocabulary_)))
print("Contenido del Vocabulario: {}".format(vect.vocabulary_))
print("Features: {}".format(vect.get_feature_names()))

Tamaño de Vocabulario: 16
Contenido del Vocabulario: {'pintaron': 9, 'el': 4, 'banco': 1, 'de': 2, 'la': 6, 'plaza': 10, 'te': 15, 'paso': 8, 'programa': 12, 'ejecútalo': 3, 'por': 11, 'sentado': 13, 'en': 5, 'miraba': 7, 'si': 14, 'abría': 0}
Features: ['abría', 'banco', 'de', 'ejecútalo', 'el', 'en', 'la', 'miraba', 'paso', 'pintaron', 'plaza', 'por', 'programa', 'sentado', 'si', 'te']


### Ahora transforma los documentos en vectores

In [5]:
bolsa_de_palabras = vect.transform(documentos)
print("Bolsa de palabras: {}\n".format(bolsa_de_palabras))


Bolsa de palabras:   (0, 1)	1
  (0, 2)	1
  (0, 4)	1
  (0, 6)	1
  (0, 9)	1
  (0, 10)	1
  (1, 3)	1
  (1, 4)	1
  (1, 8)	3
  (1, 11)	1
  (1, 12)	1
  (1, 15)	1
  (2, 0)	1
  (2, 1)	2
  (2, 4)	2
  (2, 5)	1
  (2, 7)	1
  (2, 13)	1
  (2, 14)	1



In [6]:
print("Bolsa de palabras: {}".format(repr(bolsa_de_palabras)))

Bolsa de palabras: <3x16 sparse matrix of type '<class 'numpy.int64'>'
	with 19 stored elements in Compressed Sparse Row format>


In [7]:
print("Matriz documentos - términos:\n{}".format(bolsa_de_palabras.toarray()))

Matriz documentos - términos:
[[0 1 1 0 1 0 1 0 0 1 1 0 0 0 0 0]
 [0 0 0 1 1 0 0 0 3 0 0 1 1 0 0 1]
 [1 2 0 0 2 1 0 1 0 0 0 0 0 1 1 0]]


### 1.1) Pesado binario

In [8]:
vect_bin = CountVectorizer(binary=True)
vect_bin.fit(documentos)
bow_bin= vect_bin.transform(documentos)
print("Matriz documentos - términos (pesado binario):\n{}".format(bow_bin.toarray()))

Matriz documentos - términos (pesado binario):
[[0 1 1 0 1 0 1 0 0 1 1 0 0 0 0 0]
 [0 0 0 1 1 0 0 0 1 0 0 1 1 0 0 1]
 [1 1 0 0 1 1 0 1 0 0 0 0 0 1 1 0]]


### 1.2) Pesado tf-idf

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer
vect_tf_idf = TfidfVectorizer()
vect_tf_idf.fit(documentos)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

Con los parámetros por defecto usa la frecuencia del término clásico (directa) $tf(t,d)$, y la $idf$ es "smootheada" quedando $idf(t) = \log(\frac{1 + n}{1 + fd(t)}) + 1$. También aplica la normalización l2, es decir, realiza la normalización coseno. En síntesis, el pesado final es $$ w_{d,t} = tf(t,d) \times (\log (\frac{1 + n}{1 + fd(t)}) + 1)$$

y luego este pesado es normalizado $$ \frac{w_{d,t}}{\sqrt{\sum_{t^\prime \in T} w_{d,t^\prime}}} $$

In [10]:
bow_tf_idf_1 = vect_tf_idf.transform(documentos)
print("Matriz documentos - términos (pesado tf-idf por defecto):\n{}".format(bow_tf_idf_1.toarray()))

Matriz documentos - términos (pesado tf-idf por defecto):
[[0.         0.34261996 0.45050407 0.         0.26607496 0.
  0.45050407 0.         0.         0.45050407 0.45050407 0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.2737023  0.16165299 0.
  0.         0.         0.82110689 0.         0.         0.2737023
  0.2737023  0.         0.         0.2737023 ]
 [0.33885833 0.51542099 0.         0.         0.40027038 0.33885833
  0.         0.33885833 0.         0.         0.         0.
  0.         0.33885833 0.33885833 0.        ]]


Si le sacamos el "smootheado" al $idf$ (parámetro *smooth_idf=False*) queda $idf(t) = \log(\frac{n}{fd(t)}) + 1$ y el pesado final es $$ w_{d,t} = tf(t,d) \times (\log (\frac{n}{fd(t)}) + 1)$$

y luego este pesado es normalizado $$ \frac{w_{d,t}}{\sqrt{\sum_{t^\prime \in T} w_{d,t^\prime}}} $$

In [11]:
vect_tf_idf_2 = TfidfVectorizer(smooth_idf=False)
vect_tf_idf_2.fit(documentos)
bow_tf_idf_2 = vect_tf_idf_2.transform(documentos)
print("Matriz documentos - términos (pesado tf-idf (sin suavizado de idf)):\n{}".format(bow_tf_idf_2.toarray()))

Matriz documentos - términos (pesado tf-idf (sin suavizado de idf)):
[[0.         0.30972091 0.46246905 0.         0.22036898 0.
  0.46246905 0.         0.         0.46246905 0.46246905 0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.27495928 0.13101957 0.
  0.         0.         0.82487784 0.         0.         0.27495928
  0.27495928 0.         0.         0.27495928]
 [0.36032154 0.48262307 0.         0.         0.34339029 0.36032154
  0.         0.36032154 0.         0.         0.         0.
  0.         0.36032154 0.36032154 0.        ]]


Si en lugar de trabajar directamente con la frecuencia del término, aplicamos un escalado "sublineal" (reemplazando tf por 1 + log(tf)),  usamos el parámetro *sublinear_tf=True*) y el pesado final (con los restantes valores por defecto) es $$ w_{d,t} = (1 + \log(tf(t,d))) \times (\log (\frac{1 + n}{1 + fd(t)}) + 1)$$

y luego este pesado es normalizado $$ \frac{w_{d,t}}{\sqrt{\sum_{t^\prime \in T} w_{d,t^\prime}}} $$


In [12]:
vect_tf_idf_3 = TfidfVectorizer(sublinear_tf=True)
vect_tf_idf_3.fit(documentos)
bow_tf_idf_3 = vect_tf_idf_3.transform(documentos)
print("Matriz documentos - términos (pesado tf-idf (con frecuencia de termino sub-lineal)):\n{}".format(bow_tf_idf_3.toarray()))

Matriz documentos - términos (pesado tf-idf (con frecuencia de termino sub-lineal)):
[[0.         0.34261996 0.45050407 0.         0.26607496 0.
  0.45050407 0.         0.         0.45050407 0.45050407 0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.33800375 0.19963046 0.
  0.         0.         0.70933881 0.         0.         0.33800375
  0.33800375 0.         0.         0.33800375]
 [0.36135891 0.46531539 0.         0.         0.36135891 0.36135891
  0.         0.36135891 0.         0.         0.         0.
  0.         0.36135891 0.36135891 0.        ]]


Como se puede observar, la mayoria de las codificaciones SMART pueden ser logradas con este vectorizador, a excepción de aquellas 2 que en la frecuencia del término utilizan las máximas frecuencias de un término en el documento (m** y a**)

## 2) Ahora usamos bi-gramas de palabras como features

In [13]:
vect2 = CountVectorizer(ngram_range=(2, 2))
vect2.fit(documentos)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(2, 2), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [14]:
print("Tamaño de Vocabulario: {}".format(len(vect2.vocabulary_)))
print("Contenido del Vocabulario: {}".format(vect2.vocabulary_))
print("Features: {}".format(vect2.get_feature_names()))

Tamaño de Vocabulario: 18
Contenido del Vocabulario: {'pintaron el': 12, 'el banco': 5, 'banco de': 1, 'de la': 3, 'la plaza': 8, 'te paso': 17, 'paso el': 10, 'el programa': 6, 'programa ejecútalo': 14, 'ejecútalo paso': 4, 'paso por': 11, 'por paso': 13, 'sentado en': 15, 'en el': 7, 'banco miraba': 2, 'miraba si': 9, 'si el': 16, 'banco abría': 0}
Features: ['banco abría', 'banco de', 'banco miraba', 'de la', 'ejecútalo paso', 'el banco', 'el programa', 'en el', 'la plaza', 'miraba si', 'paso el', 'paso por', 'pintaron el', 'por paso', 'programa ejecútalo', 'sentado en', 'si el', 'te paso']


In [15]:
bolsa_de_bi_pal = vect2.transform(documentos)
print("Bolsa de bi-gramas de palabras: \n{}".format(bolsa_de_bi_pal))

Bolsa de bi-gramas de palabras: 
  (0, 1)	1
  (0, 3)	1
  (0, 5)	1
  (0, 8)	1
  (0, 12)	1
  (1, 4)	1
  (1, 6)	1
  (1, 10)	1
  (1, 11)	1
  (1, 13)	1
  (1, 14)	1
  (1, 17)	1
  (2, 0)	1
  (2, 2)	1
  (2, 5)	2
  (2, 7)	1
  (2, 9)	1
  (2, 15)	1
  (2, 16)	1


In [16]:
print("Matriz documentos - términos (bi-gramas de palabras):\n{}".format(bolsa_de_bi_pal.toarray()))

Matriz documentos - términos (bi-gramas de palabras):
[[0 1 0 1 0 1 0 0 1 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 1 0 1 0 0 0 1 1 0 1 1 0 0 1]
 [1 0 1 0 0 2 0 1 0 1 0 0 0 0 0 1 1 0]]


## 3) Ahora las features son tri-gramas de caracteres

In [17]:
vect3 = CountVectorizer(analyzer='char',ngram_range=(3, 3))
vect3.fit(documentos)

CountVectorizer(analyzer='char', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(3, 3), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [18]:
print("Tamaño de Vocabulario: {}".format(len(vect3.vocabulary_)))
print("Contenido del Vocabulario: {}".format(vect3.vocabulary_))
print("Features: {}".format(vect3.get_feature_names()))

Tamaño de Vocabulario: 84
Contenido del Vocabulario: {'pin': 66, 'int': 44, 'nta': 56, 'tar': 81, 'aro': 24, 'ron': 74, 'on ': 63, 'n e': 54, ' el': 4, 'el ': 39, 'l b': 47, ' ba': 1, 'ban': 28, 'anc': 23, 'nco': 55, 'co ': 30, 'o d': 58, ' de': 2, 'de ': 33, 'e l': 35, ' la': 6, 'la ': 49, 'a p': 15, ' pl': 9, 'pla': 67, 'laz': 50, 'aza': 26, 'te ': 82, 'e p': 36, ' pa': 8, 'pas': 65, 'aso': 25, 'so ': 78, 'o e': 59, 'l p': 48, ' pr': 11, 'pro': 69, 'rog': 73, 'ogr': 62, 'gra': 42, 'ram': 72, 'ama': 22, 'ma,': 52, 'a, ': 17, ', e': 13, ' ej': 3, 'eje': 38, 'jec': 46, 'ecú': 37, 'cút': 32, 'úta': 83, 'tal': 80, 'alo': 21, 'lo ': 51, 'o p': 60, ' po': 10, 'por': 68, 'or ': 64, 'r p': 70, 'sen': 76, 'ent': 41, 'tad': 79, 'ado': 20, 'do ': 34, ' en': 5, 'en ': 40, 'co,': 31, 'o, ': 61, ', m': 14, ' mi': 7, 'mir': 53, 'ira': 45, 'rab': 71, 'aba': 18, 'ba ': 27, 'a s': 16, ' si': 12, 'si ': 77, 'i e': 43, 'o a': 57, ' ab': 0, 'abr': 19, 'brí': 29, 'ría': 75}
Features: [' ab', ' ba', ' de', 

In [19]:
bolsa_de_tri_car = vect3.transform(documentos)
print("Bolsa de tri-gramas de caracteres: \n{}".format(bolsa_de_tri_car))

Bolsa de tri-gramas de caracteres: 
  (0, 1)	1
  (0, 2)	1
  (0, 4)	1
  (0, 6)	1
  (0, 9)	1
  (0, 15)	1
  (0, 23)	1
  (0, 24)	1
  (0, 26)	1
  (0, 28)	1
  (0, 30)	1
  (0, 33)	1
  (0, 35)	1
  (0, 39)	1
  (0, 44)	1
  (0, 47)	1
  (0, 49)	1
  (0, 50)	1
  (0, 54)	1
  (0, 55)	1
  (0, 56)	1
  (0, 58)	1
  (0, 63)	1
  (0, 66)	1
  (0, 67)	1
  :	:
  (2, 23)	2
  (2, 27)	1
  (2, 28)	2
  (2, 29)	1
  (2, 30)	1
  (2, 31)	1
  (2, 34)	1
  (2, 39)	2
  (2, 40)	1
  (2, 41)	1
  (2, 43)	1
  (2, 45)	1
  (2, 47)	2
  (2, 53)	1
  (2, 54)	1
  (2, 55)	2
  (2, 56)	1
  (2, 57)	1
  (2, 59)	1
  (2, 61)	1
  (2, 71)	1
  (2, 75)	1
  (2, 76)	1
  (2, 77)	1
  (2, 79)	1


In [20]:
print("Matriz documentos - términos (tri-gramas de caracteres):\n{}".format(bolsa_de_tri_car.toarray()))

Matriz documentos - términos (tri-gramas de caracteres):
[[0 1 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 1 0 1 0 0 1 0 1
  0 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 1 1 0 1 0 0 0 0 1 0 0 1 1 0 0 0 0
  0 0 1 0 0 0 0 0 0 1 0 0]
 [0 0 0 1 1 0 0 0 3 0 1 1 0 1 0 0 0 1 0 0 0 1 1 0 0 3 0 0 0 0 0 0 1 0 0 0
  1 1 1 1 0 0 1 0 0 0 1 0 1 0 0 1 1 0 0 0 0 0 0 1 2 0 1 0 1 3 0 0 1 1 1 0
  1 1 0 0 0 0 2 0 1 0 1 1]
 [1 2 0 0 2 1 0 1 0 0 0 0 1 0 1 0 1 0 1 1 1 0 0 2 0 0 0 1 2 1 1 1 0 0 1 0
  0 0 0 2 1 1 0 1 0 1 0 2 0 0 0 0 0 1 1 2 1 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1
  0 0 0 1 1 1 0 1 0 0 0 0]]


## 4) Tri-gramas de caracteres (con límites de palabra)

In [21]:
vect4 = CountVectorizer(analyzer='char_wb',ngram_range=(3, 3))
vect4.fit(documentos)

CountVectorizer(analyzer='char_wb', binary=False, decode_error='strict',
                dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
                lowercase=True, max_df=1.0, max_features=None, min_df=1,
                ngram_range=(3, 3), preprocessor=None, stop_words=None,
                strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, vocabulary=None)

In [22]:
print("Tamaño de Vocabulario: {}".format(len(vect4.vocabulary_)))
print("Contenido del Vocabulario: {}".format(vect4.vocabulary_))
print("Features: {}".format(vect4.get_feature_names()))

Tamaño de Vocabulario: 74
Contenido del Vocabulario: {' pi': 9, 'pin': 55, 'int': 40, 'nta': 49, 'tar': 69, 'aro': 23, 'ron': 62, 'on ': 52, ' el': 4, 'el ': 36, ' ba': 1, 'ban': 27, 'anc': 22, 'nco': 48, 'co ': 29, ' de': 2, 'de ': 32, ' la': 6, 'la ': 43, ' pl': 10, 'pla': 56, 'laz': 44, 'aza': 25, 'za ': 71, ' te': 15, 'te ': 70, ' pa': 8, 'pas': 54, 'aso': 24, 'so ': 66, ' pr': 12, 'pro': 58, 'rog': 61, 'ogr': 51, 'gra': 39, 'ram': 60, 'ama': 21, 'ma,': 46, 'a, ': 16, ' ej': 3, 'eje': 35, 'jec': 42, 'ecú': 34, 'cút': 31, 'úta': 73, 'tal': 68, 'alo': 20, 'lo ': 45, ' po': 11, 'por': 57, 'or ': 53, ' se': 13, 'sen': 64, 'ent': 38, 'tad': 67, 'ado': 19, 'do ': 33, ' en': 5, 'en ': 37, 'co,': 30, 'o, ': 50, ' mi': 7, 'mir': 47, 'ira': 41, 'rab': 59, 'aba': 17, 'ba ': 26, ' si': 14, 'si ': 65, ' ab': 0, 'abr': 18, 'brí': 28, 'ría': 63, 'ía ': 72}
Features: [' ab', ' ba', ' de', ' ej', ' el', ' en', ' la', ' mi', ' pa', ' pi', ' pl', ' po', ' pr', ' se', ' si', ' te', 'a, ', 'aba', 'abr'

In [23]:
bolsa_de_tri_car_lim = vect4.transform(documentos)
print("Bolsa de tri-gramas de caracteres con limite palabra: \n{}".format(bolsa_de_tri_car_lim))

Bolsa de tri-gramas de caracteres con limite palabra: 
  (0, 1)	1
  (0, 2)	1
  (0, 4)	1
  (0, 6)	1
  (0, 9)	1
  (0, 10)	1
  (0, 22)	1
  (0, 23)	1
  (0, 25)	1
  (0, 27)	1
  (0, 29)	1
  (0, 32)	1
  (0, 36)	1
  (0, 40)	1
  (0, 43)	1
  (0, 44)	1
  (0, 48)	1
  (0, 49)	1
  (0, 52)	1
  (0, 55)	1
  (0, 56)	1
  (0, 62)	1
  (0, 69)	1
  (0, 71)	1
  (1, 3)	1
  :	:
  (2, 14)	1
  (2, 17)	1
  (2, 18)	1
  (2, 19)	1
  (2, 22)	2
  (2, 26)	1
  (2, 27)	2
  (2, 28)	1
  (2, 29)	1
  (2, 30)	1
  (2, 33)	1
  (2, 36)	2
  (2, 37)	1
  (2, 38)	1
  (2, 41)	1
  (2, 47)	1
  (2, 48)	2
  (2, 49)	1
  (2, 50)	1
  (2, 59)	1
  (2, 63)	1
  (2, 64)	1
  (2, 65)	1
  (2, 67)	1
  (2, 72)	1


In [24]:
print("Matriz documentos - términos (tri-gramas de caracteres - con limite palabra):\n{}".format(bolsa_de_tri_car_lim.toarray()))

Matriz documentos - términos (tri-gramas de caracteres - con limite palabra):
[[0 1 1 0 1 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 0 1 0 0 1 0 0 0
  1 0 0 0 1 0 0 1 1 0 0 0 1 1 0 0 1 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1
  0 0]
 [0 0 0 1 1 0 0 0 3 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 3 0 0 0 0 0 0 1 0 0 1 1
  1 0 0 1 0 0 1 0 0 1 1 0 0 0 0 1 0 1 3 0 0 1 1 0 1 1 0 0 0 0 3 0 1 0 1 0
  0 1]
 [1 2 0 0 2 1 0 1 0 0 0 0 0 1 1 0 0 1 1 1 0 0 2 0 0 0 1 2 1 1 1 0 0 1 0 0
  2 1 1 0 0 1 0 0 0 0 0 1 2 1 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 0 0 0
  1 0]]
