# Optimización

## Agrupamiento de documentos de texto

El modelo de la bolsa de palabras permite agrupar documentos de acuerdo a un tema. En primer lugar, se requiere utilizar un método para extraer las características. En este caso se utilizará la función `TfidfVectorizer`. En segundo lugar, se emplea un algoritmo para agrupar. Particularmente, se usuará el algoritmo _k-means_.  

Es el agrupamiento de documentos de texto, es importante aclarar que el algoritmo _k-means_ se aplica sobre una función objetivo no convexa, y es altamente probable que el resultado corresponda con un mínimo local. Para evitar este tipo de situaciones, es necesario ejecutar varias veces el algoritmo con inicializaciones aleatorias independientes.

In [21]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score

# Crear las categorias
categories = [
    'observation',
    'properties',
    'components',
    'environment',
    ]

# Crear documentos que serán agrupados
documents = [
    "NGC 4889 was not included by the astronomer Charles Messier in his famous Messier catalogue despite being an intrinsically bright object quite close to some Messier objects",
    "NGC 4889 is located along the high declination region of Coma Berenices, south of the constellation Canes Venatici",
    "On December 5, 2011, astronomers measured the velocity dispersion of the central regions of two massive galaxies, NGC 4889, and the other being NGC 3842 in the Leo Cluster",
    "NGC 4889 lies at the center of the component A of the Coma Cluster, a giant cluster of 2,000 galaxies which it shares with NGC 4874, although NGC 4889 is sometimes referred as the cluster center, and it has been called by its other designation A1656-BCG",
]

# Convertir el texto en características numéricas
vectorizer = TfidfVectorizer(stop_words='english')
print(vectorizer)


TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_idf=True,
        stop_words='english', strip_accents=None, sublinear_tf=False,
        token_pattern=u'(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)


In [14]:
X = vectorizer.fit_transform(documents)
print(X)

  (0, 39)	0.11242658255757941
  (0, 4)	0.11242658255757941
  (0, 31)	0.21544201817137396
  (0, 6)	0.21544201817137396
  (0, 16)	0.21544201817137396
  (0, 38)	0.646326054514122
  (0, 27)	0.21544201817137396
  (0, 13)	0.21544201817137396
  (0, 25)	0.21544201817137396
  (0, 32)	0.21544201817137396
  (0, 10)	0.21544201817137396
  (0, 40)	0.21544201817137396
  (0, 42)	0.21544201817137396
  (0, 17)	0.21544201817137396
  (0, 41)	0.21544201817137396
  (1, 39)	0.16366606502543887
  (1, 4)	0.16366606502543887
  (1, 35)	0.3136317635305613
  (1, 30)	0.3136317635305613
  (1, 23)	0.3136317635305613
  (1, 44)	0.3136317635305613
  (1, 19)	0.2472708847813839
  (1, 9)	0.3136317635305613
  (1, 47)	0.3136317635305613
  (1, 21)	0.3136317635305613
  :	:
  (2, 26)	0.27111545166797824
  (2, 15)	0.27111545166797824
  (2, 45)	0.27111545166797824
  (2, 36)	0.27111545166797824
  (2, 28)	0.213750536161217
  (2, 2)	0.27111545166797824
  (2, 33)	0.27111545166797824
  (2, 18)	0.213750536161217
  (3, 39)	0.31076640612

In [15]:
# Agrupar documentos
true_k = 4
model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
model.fit(X)


KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=100,
    n_clusters=4, n_init=1, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [16]:
# Imprimir las palabras más relevantes en cada grupo
print("Principales términos por agrupación:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
    print("Agrupación %d:" % i,)
    for ind in order_centroids[i, :10]:
        print(' %s' % terms[ind],)
    print

Principales términos por agrupación:
Agrupación 0:
 messier
 object
 objects
 intrinsically
 bright
 catalogue
 famous
 astronomer
 included
 quite
Agrupación 1:
 ngc
 astronomers
 massive
 2011
 3842
 regions
 december
 leo
 velocity
 central
Agrupación 2:
 venatici
 berenices
 declination
 high
 canes
 constellation
 located
 south
 region
 coma
Agrupación 3:
 cluster
 center
 ngc
 4889
 designation
 lies
 4874
 a1656
 bcg
 called


## Ejercicios

1. ¿Qué parámetros recibe la función `TfidfVectorizer`?
1. ¿Qué tipo de dato retorna la función `TfidfVectorizer`?
1. ¿Qué parámetros recibe la función `KMeans`?
1. ¿Qué tipo de dato retorna la función `KMeans`?

## Referencias

* [Document Clustering with Python](http://brandonrose.org/clustering)
* [Text Analysis 101: Document Classification](https://www.kdnuggets.com/2015/01/text-analysis-101-document-classification.html)