# Clustering de acciones utilizando KMeans

Agruparemos empresas utilizando sus movimientos diarios en el precio de las acciones (es decir, la diferencia en dólares entre los precios de cierre y apertura de cada día de negociación). Los datos `movements` de movimientos de precios diarios de 2010 a 2015 (obtenido de Yahoo! Finance), donde cada fila corresponde a una empresa y cada columna corresponde a un día de negociación.

Algunas acciones son más caras que otras. Para tener en cuenta esto, incluya un `Normalizeral` comienzo de su canalización. El `Normalizador` transformará por separado el precio de las acciones de cada empresa a una escala relativa antes de que comience la agrupación.

Tenga en cuenta que Normalizer() es diferente al StandardScaler(). Mientras StandardScaler() estandariza características (como las características de los datos de peces) eliminando la media y escalando a la varianza unitaria, Normalizer() reescala cada muestra (en este caso, el precio de las acciones de cada empresa) independientemente de la otra.

In [1]:
# LIBRERIAS

In [2]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import Normalizer
from sklearn.pipeline import make_pipeline

In [21]:
# DATA
ruta_archivo = '/home/jovyan/notebooks/data/company-stock-movements-2010-2015-incl.csv'
precios = pd.read_csv(ruta_archivo,index_col = None)
movements = precios.drop(precios.columns[0], axis=1).values
companies = precios[precios.columns[0]].values

In [10]:
# Instanciar un normalizer: normalizer
normalizer = Normalizer()

# Crear un modelo KMeans con 10 clusters: kmeans
kmeans = KMeans(n_clusters = 10, n_init = 10, random_state = 42)

# Realizar un pipeline cambiando normalizer and kmeans: pipeline
pipeline = make_pipeline(normalizer, kmeans)

# Ajustar pipeline a los movimientos diarios de precios
pipeline.fit(movements)

## ¿Qué valores se mueven juntos?

Agrupamos las empresas en función de los movimientos diarios de sus cotizaciones bursátiles. Entonces, ¿qué empresas tienen precios de acciones que tienden a cambiar de la misma manera? Para averiguarlo, inspeccione las etiquetas de las agrupaciones.

In [24]:
# Predecir las etiquetas de labels: labels
labels = pipeline.predict(movements)

# Crear un DataFrame alineando etiquetas y empresas: df
df = pd.DataFrame({'labels': labels, 'companies': companies})

# Mostrar df ordenado por etiqueta de grupo
print(df.sort_values(by = 'labels'))

    labels                           companies
3        0                    American express
55       0                         Wells Fargo
30       0                          MasterCard
25       1                   Johnson & Johnson
27       1                      Kimberly-Clark
40       1                      Procter Gamble
28       1                           Coca Cola
56       1                            Wal-Mart
41       1                       Philip Morris
38       1                               Pepsi
9        1                   Colgate-Palmolive
15       2                                Ford
35       2                            Navistar
1        2                                 AIG
46       3                      Sanofi-Aventis
43       3                                 SAP
37       3                            Novartis
52       3                            Unilever
19       3                     GlaxoSmithKline
6        3            British American Tobacco
39       3   