In [1]:
from sklearn.feature_extraction.text import CountVectorizer

## CountVectorizer

Convierte una colección de documentos de texto en una matriz de recuentos de tokens. Esta implementación produce una representación escasa de los recuentos utilizando scipy.sparse.csr_matrix. Si no proporciona un diccionario a priori y no utiliza un analizador que realice algún tipo de selección de características, entonces el número de características será igual al tamaño de vocabulario encontrado al analizar los datos.

In [12]:
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

my_stop_words = frozenset(["this"])

vectorizer = CountVectorizer(stop_words= my_stop_words) # intente 'english'
X = vectorizer.fit_transform(corpus)

print('Tokens')
print(vectorizer.get_feature_names())

Tokens
['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third']


In [13]:
print('Vectorized Corpus')
print("")
print(X.toarray())  

Vectorized Corpus

[[0 1 1 1 0 0 1 0]
 [0 2 0 1 0 1 1 0]
 [1 0 0 1 1 0 1 1]
 [0 1 1 1 0 0 1 0]]


In [23]:
# frecuencia de las palabras en el diccionario

counts = X.toarray().sum(axis=0)
words = vectorizer.get_feature_names();

count_words = dict(zip(words,counts))

import operator
sorted_x = sorted(count_words.items(), key=lambda kv: kv[1], reverse=True)
sorted_x

[('document', 4),
 ('is', 4),
 ('the', 4),
 ('first', 2),
 ('and', 1),
 ('one', 1),
 ('second', 1),
 ('third', 1)]