## Introducción al Machine Learning
### Clustering

Este cuaderno muestra un ejemplo de como hacer clustering de las empresas del IBEX35 en función
de sus rendimientos mensuales, utilizando el algoritmo K-Means

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

In [2]:
import pickle

Pickle con las series históricas de los componentes del IBEX35

In [3]:
with open('../data/stock_data.pkl', 'rb') as handle:
    stock_data = pickle.load(handle)

In [4]:
close_dict = {ticker: df.close for ticker, df in stock_data.items()} 
close_data = pd.DataFrame(close_dict) 

Haremos clustering de las empresas del IBEX tomando 
como características las rentabilidades mensuales del último
año

In [5]:
close_df = close_data['2018-01-02':]

In [None]:
month_close = close_df.resample('M').last().dropna(axis=1)
month_ret = month_close.pct_change()[1:]

In [None]:
month_ret.head()

In [None]:
features = month_ret.T
features.head()

In [None]:
month_ret.ACS

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score

In [None]:
kmeans = KMeans(n_clusters=5)

Las instancias son las empresas y las características los retornos mensuales

In [None]:
kmeans.fit(features)

In [None]:
kmeans.labels_

In [None]:
grp_ibex = pd.Series(kmeans.labels_, index=features.index)

In [None]:
grp_ibex.sort_values()

In [None]:
grupos_dict = dict()
for icluster in grp_ibex.unique():
    grupos_dict[icluster] = list(grp_ibex[grp_ibex == icluster].index)


In [None]:
grupos_dict

___

#### Etiquetar a partir de un modelo de clustering

Vamos a mostrar a que cluster asignamos a la empresa DAIMLER siguiendo el clustering que hemos creado para las empresas del IBEX

In [None]:
daimler_df = pd.read_csv('../data/daimler.csv', index_col=0)

In [None]:
daimler_df.set_index(pd.DatetimeIndex(daimler_df.index), inplace=True)
daimler_df

Tenemos que generar las mismas características para el ejemplo a etiquetar

In [None]:
dai_close = daimler_df.close['2018-01-02':]

In [None]:
month_dai = dai_close.resample('M').last()
month_dai_ret = month_dai.pct_change()[1:]

In [None]:
month_dai_ret.to_frame().T

In [None]:
x_test = month_dai_ret.values.reshape(1,-1)
x_test

Calculamos el cluster asignado con la función *predict*

In [None]:
kmeans.predict(x_test)