# Optimización

## Agrupamiento de documentos de texto

El modelo de la bolsa de palabras permite agrupar documentos de acuerdo a un tema. En primer lugar, se requiere utilizar un método para extraer las características. En este caso se utilizará la función `TfidfVectorizer`. En segundo lugar, se emplea un algoritmo para agrupar. Particularmente, se usuará el algoritmo _k-means_.  

Es el agrupamiento de documentos de texto, es importante aclarar que el algoritmo _k-means_ se aplica sobre una función objetivo no convexa, y es altamente probable que el resultado corresponda con un mínimo local. Para evitar este tipo de situaciones, es necesario ejecutar varias veces el algoritmo con inicializaciones aleatorias independientes.

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score

# Crear documentos que serán agrupados
documentos = [
    "NGC 4889 (also known as Coma B) is an E4 supergiant elliptical galaxy",
    "NGC 4889 was not included by the astronomer Charles Messier in his famous Messier catalogue despite being an intrinsically bright object quite close to some Messier objects",
    "NGC 4889 is located along the high declination region of Coma Berenices, south of the constellation Canes Venatici",
    "On December 5, 2011, astronomers measured the velocity dispersion of the central regions of two massive galaxies, NGC 4889, and the other being NGC 3842 in the Leo Cluster",
    "NGC 4889 lies at the center of the component A of the Coma Cluster, a giant cluster of 2,000 galaxies which it shares with NGC 4874, although NGC 4889 is sometimes referred as the cluster center, and it has been called by its other designation A1656-BCG",
]

# Convertir el texto en características numéricas
vectorizador = TfidfVectorizer(stop_words='english')
print(vectorizador)

TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_idf=True,
        stop_words='english', strip_accents=None, sublinear_tf=False,
        token_pattern=u'(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)


In [14]:
X = vectorizador.fit_transform(documentos)
print(X)

  (0, 43)	0.19613046879795795
  (0, 4)	0.19613046879795795
  (0, 36)	0.4116018120016319
  (0, 19)	0.27565453053242694
  (0, 27)	0.4116018120016319
  (0, 52)	0.4116018120016319
  (0, 28)	0.4116018120016319
  (0, 31)	0.4116018120016319
  (1, 43)	0.1028756255927313
  (1, 4)	0.1028756255927313
  (1, 34)	0.21589605207332543
  (1, 6)	0.21589605207332543
  (1, 16)	0.21589605207332543
  (1, 42)	0.6476881562199763
  (1, 29)	0.21589605207332543
  (1, 13)	0.21589605207332543
  (1, 25)	0.21589605207332543
  (1, 35)	0.21589605207332543
  (1, 10)	0.21589605207332543
  (1, 44)	0.21589605207332543
  (1, 46)	0.21589605207332543
  (1, 17)	0.21589605207332543
  (1, 45)	0.21589605207332543
  (2, 43)	0.15142324433895504
  (2, 4)	0.15142324433895504
  :	:
  (3, 26)	0.2728016038512079
  (3, 15)	0.2728016038512079
  (3, 49)	0.2728016038512079
  (3, 40)	0.2728016038512079
  (3, 30)	0.22009461628857876
  (3, 2)	0.2728016038512079
  (3, 37)	0.2728016038512079
  (3, 18)	0.22009461628857876
  (4, 43)	0.28642256805

In [3]:
# Agrupar documentos
true_k = 2
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)


KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=100,
    n_clusters=2, n_init=1, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [15]:
# Imprimir las palabras más relevantes en cada grupo
print(u"Principales términos por agrupación:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizador.get_feature_names()
for i in range(true_k):
    print(u"Agrupación %d:" % i,)
    for ind in order_centroids[i, :10]:
        print(u' %s' % terms[ind],)
    print

Principales términos por agrupación:
(u'Agrupaci\xf3n 0:',)
(u' high',)
(u' charles',)
(u' canes',)
(u' 4889',)
(u' designation',)
(u' massive',)
(u' galaxies',)
(u' december',)
(u' catalogue',)
(u' elliptical',)

(u'Agrupaci\xf3n 1:',)
(u' giant',)
(u' astronomer',)
(u' central',)
(u' called',)
(u' constellation',)
(u' berenices',)
(u' declination',)
(u' dispersion',)
(u' e4',)
(u' center',)



## Ejercicios

1. ¿Qué parámetros recibe la función `TfidfVectorizer`?
1. ¿Qué tipo de dato retorna la función `TfidfVectorizer`?
1. ¿Qué parámetros recibe la función `KMeans`?
1. ¿Qué tipo de dato retorna la función `KMeans`?

## Referencias

* [Document Clustering with Python](http://brandonrose.org/clustering)
* [Text Analysis 101: Document Classification](https://www.kdnuggets.com/2015/01/text-analysis-101-document-classification.html)