# Algoritmo NCO

Este algoritmo surge con la idea de reducir las fuentes de inestabilidad implícitas en la matriz de covarianzas. Por un lado, lidia con el ruido y por el otro, con la señal, responsable de magnificar los errores de estimación en las variables de entrada.

In [1]:
import numpy as np
import pandas as pd

import pandas_datareader.data as web
import datetime

import requests, json

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples

from scipy.optimize import minimize
import cvxpy as cp

from sklearn.neighbors import KernelDensity

import plotly.express as px

#from scipy.cluster.hierarchy import ClusterWarning
from warnings import simplefilter
simplefilter("ignore", FutureWarning)
simplefilter("ignore", DeprecationWarning)

### Selección de datos

En este notebook vamos a hacer una prueba con un número reducido de tickers seleccionados al azar. La idea es, una vez esté bien definido el comportamiento del algoritmo, definir una función en el notebook de "Portfolio rebalance" que calcule los pesos partiendo únicamente del dataframe con los rendimientos diarios de los tickers a considerar. 

Descargamos primero los precios de cierre diarios de todas las empresas del IBEX 35 recogidas en la API:

In [2]:
'''
Función que permite obtener un dataframe con los precios de cierre de todos los tickers que pertenecen o han pertenecido al
índice introducido como parámetro (benchmark_name).

DATOS DE ENTRADA:
    benchmark_name (string) -> indica el índice a considerar ('IBEX', 'DAX' o 'EUROSTOXX').
    
DATOS DE SALIDA:
    df (dataframe) -> precios de cierre de todos los tickers que pertenecen o han pertenecido al índice introducido 
                      como parámetro (benchmark_name).
'''

def get_data(benchmark_name):
    
    url_base = 'https://miax-gateway-jog4ew3z3q-ew.a.run.app'
    headers = {'Content-Type': 'application/json'}    
    competi = 'mia_4'
    user_key = 'AIzaSyAtcbexO5rwPBXet_P1tBxvC4BHYZHJAbs'
    
    url = f'{url_base}/data/ticker_master'

    # MAESTRA DE VALORES:
    params = {'competi': competi,
              'market': benchmark_name,
              'key': user_key}
    response = requests.get(url, params)
    tk_master = response.json()
    
    maestro_df = pd.DataFrame(tk_master['master'])
    lista=maestro_df['ticker'].tolist()

    # En la maestra no están incluidos todos los tickers del IBEX:
    if benchmark_name=='IBEX':
        lista.append('FDR')
        lista.append('SLR')

    # PRECIOS:
    df=pd.DataFrame()
    
    url2 = f'{url_base}/data/time_series'
    
    for i in range(len(lista)):
        params = {'market': benchmark_name,
                  'key': user_key,
                  'ticker': lista[i],
                  'close': False}
        response = requests.get(url2, params)
        tk_data = response.json()
    
        if response.status_code == 200:
            df_data = pd.read_json(tk_data, typ='frame')
        else: 
            print(response.text)
            
        precios=df_data['close']
        df=pd.concat([df,precios], ignore_index=False, axis=1).rename(columns={'close': lista[i]})
    
    return df

In [3]:
benchmark_name='IBEX'

df=get_data(benchmark_name)
df

Unnamed: 0,ABE,ABG,ABG.P_0,ABG.P_1,ACS,ACX,ACX_0,AENA,ALM,AMS,...,SCYR_1,SGRE,SGRE_0,TEF,TL5,TRE,VIS,VIS_0,FDR,SLR
2010-01-04,7.079902,3.9889,,,18.198652,,9.722429,,,,...,5.381871,,9.364632,9.046801,6.904748,29.693987,,,,
2010-01-05,7.110934,3.9813,,,18.518600,,9.797462,,,,...,5.496363,,9.544552,9.033079,6.938567,30.546259,,,,
2010-01-06,7.137689,4.0098,,,18.556553,,9.755071,,,,...,5.552471,,9.624838,8.966899,6.904748,29.882358,,,,
2010-01-07,7.077627,4.0368,,,18.371189,,9.807211,,,,...,5.629802,,9.666842,8.877849,6.993000,30.283471,,,,
2010-01-08,7.008919,3.9922,,,18.772204,,9.813826,,,,...,6.026540,,9.708928,8.722548,7.064299,30.187564,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2021-08-30,,,,,22.850000,11.480,,135.15,14.04,50.90,...,,25.61,,4.257000,,,60.15,,35.75,16.650
2021-08-31,,,,,22.860000,11.520,,135.20,14.38,51.72,...,,25.11,,4.181500,,,59.80,,34.60,16.800
2021-09-01,,,,,23.510000,11.515,,138.10,14.63,53.12,...,,25.64,,4.230500,,,60.15,,35.65,16.995
2021-09-02,,,,,23.460000,11.475,,138.50,14.73,52.84,...,,25.85,,4.193500,,,59.85,,36.80,16.890


Elegimos al azar un subconjunto de ellas:

In [4]:
lista = ['ACX', 'MEL', 'MTS', 'REP', 'SAB', 'TEF', 'SAN', 'BBVA']

price=df.iloc[(len(df)-450):len(df)]
price=price.loc[:, lista]

price

Unnamed: 0,ACX,MEL,MTS,REP,SAB,TEF,SAN,BBVA
2019-12-02,8.562145,7.415,15.175328,11.858381,0.956198,5.714753,3.308239,4.382224
2019-12-03,8.500573,7.370,14.683241,11.816464,0.958304,5.648322,3.279261,4.348145
2019-12-04,8.623717,7.475,15.228902,12.030242,0.989418,5.754275,3.375221,4.415369
2019-12-05,8.678046,7.585,15.447167,12.021858,0.984631,5.705503,3.360494,4.410701
2019-12-06,8.841031,7.795,15.972985,12.269170,0.989897,5.775298,3.406099,4.465788
...,...,...,...,...,...,...,...,...
2021-08-30,11.480000,5.996,29.305000,9.896000,0.604000,4.257000,3.123000,5.535000
2021-08-31,11.520000,5.916,28.455000,9.705000,0.606000,4.181500,3.127500,5.547000
2021-09-01,11.515000,6.052,28.345000,9.515000,0.619000,4.230500,3.179500,5.637000
2021-09-02,11.475000,5.998,28.665000,9.747000,0.612600,4.193500,3.139500,5.609000


Calculamos sus rendimientos diarios:

In [5]:
df_r=price.pct_change()

df_r

Unnamed: 0,ACX,MEL,MTS,REP,SAB,TEF,SAN,BBVA
2019-12-02,,,,,,,,
2019-12-03,-0.007191,-0.006069,-0.032427,-0.003535,0.002203,-0.011624,-0.008759,-0.007777
2019-12-04,0.014487,0.014247,0.037162,0.018092,0.032468,0.018758,0.029263,0.015461
2019-12-05,0.006300,0.014716,0.014332,-0.000697,-0.004838,-0.008476,-0.004363,-0.001057
2019-12-06,0.018781,0.027686,0.034040,0.020572,0.005348,0.012233,0.013571,0.012489
...,...,...,...,...,...,...,...,...
2021-08-30,-0.009918,-0.013167,-0.004247,-0.000808,-0.014682,-0.004443,-0.013582,-0.008065
2021-08-31,0.003484,-0.013342,-0.029005,-0.019301,0.003311,-0.017735,0.001441,0.002168
2021-09-01,-0.000434,0.022989,-0.003866,-0.019578,0.021452,0.011718,0.016627,0.016225
2021-09-02,-0.003474,-0.008923,0.011289,0.024383,-0.010339,-0.008746,-0.012581,-0.004967


### Denoise covariance matrix

En este apartado se presentan las funciones necesarias para eliminar el ruido en la matriz de covarianzas sin alterar la información asociada a la señal.

Se recomienda aplicar este método sobre todo en aquellos casos en los que el cociente entre el número de datos empleados para el cálculo de la matriz de covarianzas (T) y el número de tickers a considerar (N), N/T, es relativamente pequeño.

In [6]:
'''
Función que calcula la pdf (probability density function) experimental.

DATOS DE ENTRADA:
    obs (array) -> observaciones a ajustar. Se trata de la diagonal de la matriz diagonalizada (los autovalores).
    bWidth (float) -> ancho de banda del núcleo. "El ancho de banda actúa aquí como un parámetro de suavización, 
                      controlando el equilibrio entre el sesgo y la varianza en el resultado. Un ancho de banda 
                      grande conduce a una distribución de densidad muy suave (es decir, con un sesgo alto). 
                      Un ancho de banda pequeño conduce a una distribución de densidad poco suave (es decir, 
                      alta varianza)".
    kernel (string) -> núcleo a emplear.
    x (array) -> valores en los que se va a evaluar el ajuste del KDE.

DATOS DE SALIDA:
    pdf (serie) -> pdf experimental.
'''  
def fitKDE(obs,bWidth=.25,kernel='gaussian',x=None):
    if len(obs.shape)==1:
        obs=obs.reshape(-1,1)       
    kde=KernelDensity(kernel=kernel,bandwidth=bWidth).fit(obs)   
    if x is None:
        x=np.unique(obs).reshape(-1,1)
    if len(x.shape)==1:
        x=x.reshape(-1,1)        
    logProb=kde.score_samples(x)
    pdf=pd.Series(np.exp(logProb),index=x.flatten())    
    return pdf


'''
Función que calcula la pdf (probability density function) teórica de Marchenko-Pastur.

DATOS DE ENTRADA:
    var (float) -> varianza.
    q (float) -> q=T/N, siendo T el número de filas y N el número de columnas.
    pts (int) -> número de puntos empleados para construir la pdf.

DATOS DE SALIDA:
    pdf (serie) -> pdf teórica de Marchenko-Pastur.
'''  
def mpPDF(var,q,pts): # q=T/N     
    eMin,eMax=var*(1-(1./q)**.5)**2,var*(1+(1./q)**.5)**2
    eVal=np.linspace(eMin,eMax,pts)
    pdf=q/(2*np.pi*var*eVal)*((eMax-eVal)*(eVal-eMin))**.5
    pdf=pd.Series(pdf,index=eVal)
    return pdf

'''
Función que calcula el error entre la pdf experimental y teórica.

DATOS DE ENTRADA:
    var (float) -> varianza.
    eVal (array) -> autovalores de la matriz de correlaciones en cuestión.
    q (float) -> q=T/N, siendo T el número de filas y N el número de columnas.
    bWidth (float) -> ancho de banda del núcleo. (Se suele fijar en 0.25).
    pts (int) -> número de puntos empleados para construir la pdf.

DATOS DE SALIDA:
    sse (float) -> diferencia entre la pdf experimental y la teórica de Marchenko-Pastur.
''' 
def errPDFs(var,eVal,q,bWidth,pts=1000):
    pdf0=mpPDF(var,q,pts) # theoretical pdf
    pdf1=fitKDE(eVal,bWidth,x=pdf0.index.values) # empirical pdf
    sse=np.sum((pdf1-pdf0)**2)
    return sse

def fun_to_minimize(x, *args):
    return errPDFs(x[0], args[0], args[1], args[2])

'''
Función que recurre al algoritmo KDE para ajustar distribución empírica de autovalores a la distribución de Marcenko-Pastur
con el objetivo final de obtener el máximo autovalor asociado al ruido y poder luego separar los autovalores asociados al
ruido de los autovalores asociados a la señal.

DATOS DE ENTRADA:
    eVal (array) -> autovalores de la matriz de correlaciones en cuestión.
    q (float) -> q=T/N, siendo T el número de filas y N el número de columnas.
    bWidth (float) -> ancho de banda del núcleo. (Se suele fijar en 0.25).

DATOS DE SALIDA:
    eMax (float) -> autovalor máximo asociado al ruido.
    var (float) -> varianza que minimiza el error entre la pdf empírica y experimental. Nos permite calcular eMax.
'''
def findMaxEval(eVal, q, bWidth):
    # Buscamos el valor de la varianza que minimiza el error entre la distribución experimental de autovalores y la 
    #distribución de Marcenko-Pastur:
    var_0 = np.array([0.5])
    out=minimize(
        fun_to_minimize, 
        var_0, 
        args=(eVal, q, bWidth),
        bounds=((1E-5, 1-1E-5), )
    )
    if out['success']:
        var=out['x'][0] 
    else:
        var=1 
    eMax=var*(1+(1./q)**.5)**2
    return eMax,var

'''
Función que calcula la matriz de correlaciones a partir de una matriz de covarianzas dada.
'''
def cov2corr(cov):
    std=np.sqrt(np.diag(cov))
    corr=cov/np.outer(std,std)
    corr[corr<-1],corr[corr>1]=-1,1
    return corr

'''
Función que calcula la matriz de covarianzas asociada a una matriz de correlaciones.

DATOS DE ENTRADA:
    std (array) -> raiz cuadrada de la diagonal de la matriz de covarianzas: std=np.diag(cov)**.5
'''
def corr2cov(corr,std):
    cov=corr*np.outer(std,std)
    return cov

'''
Función que calcula los autovalores y autovectores de una matriz hermítica.

DATOS DE ENTRADA:
    matrix (array) -> matriz de correlaciones en cuestión.

DATOS DE SALIDA:
    eVal (array) -> autovalores de la matriz de correlaciones.
    eVec (array) -> autovectores de la matriz de correlaciones.
'''
def getPCA(matrix):
    eVal,eVec=np.linalg.eigh(matrix)
    indices=eVal.argsort()[::-1] # arguments for sorting eVal desc (returns the indices that would sort an array)
    eVal,eVec=eVal[indices],eVec[:,indices]
    eVal=np.diagflat(eVal) # matriz de entrada diagonalizada
    return eVal,eVec

'''
Función que reduce los autovalores asociados al ruido, devolviendo una matriz de correlaciones sin ruido.

DATOS DE ENTRADA:
    eVal (array) -> autovalores de la matriz de correlaciones.
    eVec (array) -> autovectores de la matriz de correlaciones.
    nFacts (int) -> posición en la que habría que añadir el mayor autovalor asociado al ruido para seguir preservando
                    ese orden decreciente en el array de autovalores.

DATOS DE SALIDA:
    corr1 (array) -> matriz de correlaciones sin ruido.
'''
def denoisedCorr(eVal,eVec,nFacts):
    eVal_=np.diag(eVal).copy()
    
    # Los autovalores están ordenados de mayor a menor valor. nFacts es la posición en la que habría que añadir el mayor 
    # autovalor para seguir preservando ese orden decreciente de los autovalores. Los autovalores menores al autovalor 
    # máximo hay que modificarlos y es lo que se hace en la siguiente línea:
    eVal_[nFacts:]=eVal_[nFacts:].sum()/float(eVal_.shape[0]-nFacts)
    
    # Definimos la nueva matriz diagonal:
    eVal_=np.diag(eVal_) # matriz diagonal que contiene los autovalores corregidos (sería la A en la fórmula)
    corr1=np.dot(eVec,eVal_).dot(eVec.T) # esta sería la matriz C tilde
    corr1=cov2corr(corr1) # y esta la matriz C sin tilde
    return corr1

'''
Función que reduce los autovalores asociados al ruido, devolviendo una matriz de covarianzas sin ruido.

DATOS DE ENTRADA:
    cov0 (array) -> matriz de covarianzas a la que queremos eliminar el ruido.
    eVal (array) -> autovalores de la matriz de correlaciones.
    q (float) -> q=T/N, siendo T el número de filas y N el número de columnas.
    bWidth (float) -> ancho de banda del núcleo. (Se suele fijar en 0.25).
    
DATOS DE SALIDA:
    cov1 (array) -> matriz de covarianzas sin ruido.
'''
def deNoiseCov(cov0,q,bWidth):
    corr0=cov2corr(cov0)
    eVal0,eVec0=getPCA(corr0)
    # recurrimos a la función findMaxEval para obtener eMax0 y poder encontrar con ello nFacts0
    eMax0,var0=findMaxEval(np.diag(eVal0),q,bWidth)
    # Los autovalores de np.diag(eVal0) están ordenados de mayor a menor valor. Con np.diag(eVal0)[::-1] los ordenamos 
    # de menor a mayor.
    nFacts0=eVal0.shape[0]-np.diag(eVal0)[::-1].searchsorted(eMax0)
    # nFacts0 es la posición en la que habría que añadir el mayor autovalor para seguir preservando ese orden decreciente
    # de los autovalores 
    corr1=denoisedCorr(eVal0,eVec0,nFacts0)
    cov1=corr2cov(corr1,np.diag(cov0)**.5)
    return cov1

In [7]:
q=df_r.shape[0]/float(df_r.shape[1])
cov=df_r.cov()
bWidth=0.25 

dd=deNoiseCov(cov,q,bWidth)
pd.DataFrame(index=cov.index, columns=cov.columns, data=dd)

Unnamed: 0,ACX,MEL,MTS,REP,SAB,TEF,SAN,BBVA
ACX,0.000529,0.000557,0.000493,0.000421,0.000566,0.000335,0.000434,0.000448
MEL,0.000557,0.001729,0.000876,0.000747,0.001006,0.000595,0.000771,0.000795
MTS,0.000493,0.000876,0.001268,0.000661,0.00089,0.000526,0.000682,0.000704
REP,0.000421,0.000747,0.000661,0.000911,0.000759,0.000449,0.000582,0.0006
SAB,0.000566,0.001006,0.00089,0.000759,0.001633,0.000605,0.000784,0.000808
TEF,0.000335,0.000595,0.000526,0.000449,0.000605,0.000653,0.000464,0.000478
SAN,0.000434,0.000771,0.000682,0.000582,0.000784,0.000464,0.0009,0.00062
BBVA,0.000448,0.000795,0.000704,0.0006,0.000808,0.000478,0.00062,0.00097


### Clustering - algoritmo ONC

In [8]:
'''
Función que clusteriza la matriz de correlaciones empleando el número óptimo de clusters. Para encontrar ese número 
óptimo de clusters se modifica el algoritmo de KMeans introduciendo el coeficiente de Silhouette como medida de la calidad
del clustering.

DATOS DE ENTRADA:
    corr0 (array) -> matriz de correlaciones a clusterizar.
    maxNumClusters (int) -> número máximo de clusters. Por defecto, la mitad del número de tickers.
    n_init (int) -> "número de veces que se ejecutará el algoritmo k-means con diferentes semillas de centroides. El 
                    resultado final será el mejor resultado de n_init ejecuciones consecutivas en términos de inercia".

DATOS DE SALIDA:
    corr1 (dataframe) -> matriz de correlaciones ordenada en base al clustering realizado.
    clstrs (diccionario) -> clusters encontrados junto con los tickers que pertenecen a cada cluster.
    silh (serie) -> coeficiente de Silhouette asociado a cada ticker.
'''
def clusterKMeansBase(corr0,maxNumClusters=None,n_init=10): 
    
    dist=((1-corr0.fillna(0))/2.)**.5 # distance matrix 
    silh=pd.Series()
    
    # Aleatoriedad controlada para que proporcione la misma solución en ejecuciones múltiples con los 
    # mismos datos de entrada:
    np.random.seed(1)
    
    if maxNumClusters is None:
        maxNumClusters=int(corr0.shape[0]/2.)
        
    for init in range(n_init): 
        
        # Buscamos el número óptimo de clusters:
        for i in range(2,maxNumClusters+1): 
            
            kmeans_=KMeans(n_clusters=i,n_jobs=1,n_init=1) 
            kmeans_=kmeans_.fit(dist)
                       
            # kmeans_.labels_ nos dice a qué cluster pertenece cada ticker
            # silhouette_samples calcula el coeficiente de Silhouette para cada muestra
            silh_=silhouette_samples(dist,kmeans_.labels_)
            
            # stat es q, una medida de la calidad del clustering, cuanto más grande, mejor
            # stat[0] es el q obtenido con el nuevo i
            # stat[1] es el mejor q obtenido hasta el momento
            stat=(silh_.mean()/silh_.std(),silh.mean()/silh.std())
            
            # Si el q obtenido ahora (stat[0]) es mejor que el anterior, se actualiza:
            if np.isnan(stat[1]) or stat[0]>stat[1]:
                silh=silh_ 
                kmeans=kmeans_ 
        
    newIdx=np.argsort(kmeans.labels_) 
    corr1=corr0.iloc[newIdx] # reorder rows 
    corr1=corr1.iloc[:,newIdx] # reorder columns 
    
    clstrs={i:corr0.columns[np.where(kmeans.labels_==i)[0]].tolist() for \
            i in np.unique(kmeans.labels_)} # cluster members 
    silh=pd.Series(silh,index=dist.index)
    
    return corr1,clstrs,silh
    

In [9]:
cov=df_r.cov()

clusterKMeansBase(cov,maxNumClusters=int(cov.shape[0]/2),n_init=10)

(           MEL       SAB       ACX       MTS       REP       TEF       SAN  \
 MEL   0.001729  0.000974  0.000486  0.000809  0.000760  0.000438  0.000773   
 SAB   0.000974  0.001633  0.000515  0.000824  0.000748  0.000571  0.000924   
 ACX   0.000486  0.000515  0.000529  0.000604  0.000403  0.000272  0.000426   
 MTS   0.000809  0.000824  0.000604  0.001268  0.000691  0.000378  0.000710   
 REP   0.000760  0.000748  0.000403  0.000691  0.000911  0.000422  0.000628   
 TEF   0.000438  0.000571  0.000272  0.000378  0.000422  0.000653  0.000498   
 SAN   0.000773  0.000924  0.000426  0.000710  0.000628  0.000498  0.000900   
 BBVA  0.000778  0.000947  0.000441  0.000732  0.000609  0.000487  0.000827   
 
           BBVA  
 MEL   0.000778  
 SAB   0.000947  
 ACX   0.000441  
 MTS   0.000732  
 REP   0.000609  
 TEF   0.000487  
 SAN   0.000827  
 BBVA  0.000970  ,
 {0: ['MEL', 'SAB'], 1: ['ACX', 'MTS', 'REP', 'TEF', 'SAN', 'BBVA']},
 ACX     0.468598
 MEL     0.122323
 MTS     0.207809


### Portfolio allocation - algoritmo NCO

In [10]:
'''
Función que calcula las ponderaciones de cartera de acuerdo al modelo de Markowitz considerando tanto posiciones
largas como posiciones cortas. Consideraciones:
    mu = None -> calcula las ponderaciones de cartera de la cartera de mínima varianza.
    mu = rendimientos diarios medios -> calcula las ponderaciones de cartera de la cartera con el máximo ratio de Sharpe.

DATOS DE ENTRADA:
    cov (array) -> matriz de covarianzas a considerar.
    mu (array) -> vector de rendimientos diarios medios.

DATOS DE SALIDA:
    w (array) -> vector con las ponderaciones de cartera asociadas a cada ticker.
'''
def optPort(cov,mu=None):
    inv=np.linalg.inv(cov)
    ones=np.ones(shape=(inv.shape[0],1))
    if mu is None:mu=ones
    w=np.dot(inv,mu)
    w/=np.dot(ones.T,w) # es un array
    return w 

'''
Función que calcula las ponderaciones de cartera de la cartera de mínima varianza considerando únicamente posiciones largas.

DATOS DE ENTRADA:
    cov (array) -> matriz de covarianzas a considerar.
    mu (array) -> vector de rendimientos diarios medios.

DATOS DE SALIDA:
    w (array) -> vector con las ponderaciones de cartera asociadas a cada ticker.
'''
def optPort_mv(cov):
       
    num_acciones = cov.shape[1]
        
    w = cp.Variable(num_acciones)
    risk = cp.quad_form(w, cov)
  
    # Establecemos unos límites para el valor de w:    
    w_max = 0.1
    
    # Si la cartera EW asigna unos pesos menores que la limitación deseada (w_max), podemos establecer ese límite:
    if (1./num_acciones) <= w_max:        
        prob = cp.Problem(cp.Minimize(risk), 
               [cp.sum(w) == 1, 
                w >= 0, w <= w_max])     
    
    # En caso contrario, no:
    else:
        prob = cp.Problem(cp.Minimize(risk), 
                       [cp.sum(w) == 1, 
                        w >= 0])  
        
    prob.solve()
    sol=w.value
    
    return sol

'''
Función que calcula las ponderaciones de cartera de la cartera tangente considerando únicamente posiciones largas.

DATOS DE ENTRADA:
    cov (array) -> matriz de covarianzas a considerar.
    mu (array) -> vector de rendimientos diarios medios.

DATOS DE SALIDA:
    w (array) -> vector con las ponderaciones de cartera asociadas a cada ticker.
'''
def optPort_sr(cov,mu): 
    
    num_acciones=cov.shape[1]
        
    rf=0.0 # rf -> rentabilidad del activo libre de riesgo
    def objetivo(w): #-SR
        wM=np.array(w).reshape(len(w),1) 
        var=np.dot(np.dot(wM.T,cov),wM)
        vol=np.sqrt(var[0][0])
        rp_diario=np.dot(wM.T,mu)
        sr=(rp_diario*252-rf)/(vol*np.sqrt(252)) # Valor anual del ratio de sharpe
        return -sr[0][0] # Maximizar SR es lo mismo que minimizar -SR
    
    # Problema de optimización:    
    w0=np.random.random(num_acciones)
    w0=w0/np.sum(w0)
    
    # Establecemos unos límites para el valor de w:    
    w_max = 0.1
    
    # Si la cartera EW asigna unos pesos menores que la limitación deseada (w_max), podemos establecer ese límite:
    if (1./num_acciones) < w_max:        
        b=(0.,w_max)
    
    # En caso contrario, no:
    else:
        b=(0.,1.)
        
    bnds=tuple(b for i in range(num_acciones))
    
    cons={'type': 'eq', 'fun': lambda w: sum(w)-1}
    
    sol=minimize(objetivo, w0, method='SLSQP', bounds=bnds, constraints=cons) 

    w=(sol.x) # es un array
    
    return w

'''
Función que calcula las ponderaciones de cartera de acuerdo con el algoritmo NCO. Consideraciones:
    denoise = False -> valor por defecto. No se elimina el ruido de la matriz de correlaciones para la asignación de pesos.
    denoise = True -> se elimina el ruido de la matriz de correlaciones para la asignación de pesos.

DATOS DE ENTRADA:
    df_r (dataframe) -> rendimientos diarios históricos de los tickers a considerar para la asignación de pesos.
    bWidth (float) -> ancho de banda del núcleo. Por defecto 0.25.
    maxNumClusters (int) -> número máximo de clusters. Por defecto la mitad del número de tickers.

DATOS DE SALIDA:
    df_w (serie) -> ponderaciones de cartera asociadas a cada ticker.
'''
# Los parámetros por defecto no hace falta indicarlos a la hora de llamar a la función!
def nco(df_r,maxNumClusters=None,denoise=True):
    
    cov=df_r.cov()
    mu=df_r.mean()
    q=df_r.shape[0]/float(df_r.shape[1])
    
    # ETAPA 0:
    # Si queremos eliminar el ruido de la matriz de covarianzas debemos hacerlo antes del clustering:
    if denoise==True:
        bWidth=0.25
        dd=deNoiseCov(cov,q,bWidth)
        cov=pd.DataFrame(index=cov.index, columns=cov.columns, data=dd)
       
    # ETAPA 1: 
    # Clusterizamos la matriz de covarianzas en subconjuntos de variables altamente correlacionadas recurriendo a la 
    # función clusterKMeansBase.
    corr1=cov2corr(cov)
    corr1,clstrs,_=clusterKMeansBase(corr1,maxNumClusters,n_init=10)
    
    # df que recogerá los pesos intra-cluster: 
    wIntra=pd.DataFrame(0,index=cov.index,columns=clstrs.keys())

    # ETAPA 2:
    # Asignamos los pesos dentro de cada cluster (intra-cluster allocations)
    for i in clstrs:
        # El .values convierte los valores del df en un array
        cov_=cov.loc[clstrs[i],clstrs[i]].values
        mu_=mu.loc[clstrs[i]].values.reshape(-1,1)
        
        # Pesos intra-cluster
        #wIntra.loc[clstrs[i],i]=optPort(cov_,mu_).flatten()
        wIntra.loc[clstrs[i],i]=optPort_sr(cov_,mu_).flatten()
        #wIntra.loc[clstrs[i],i]=optPort_mv(cov_).flatten()
    
    # ETAPA 3:
    # Asignamos los pesos a los clusters (inter-cluster allocations)    
    cov_=wIntra.T.dot(np.dot(cov,wIntra)) # matriz de covarianzas reducida
    
    # Considerando que cada cluster forma una cartera, el rendimiento diario esperado para cada cluster será 
    # el rendimiento diario esperado para la cartera que forma: 
    mu_=wIntra.T.dot(mu)
    
    # Pesos inter-cluster
    #wInter=pd.Series(optPort(cov_,mu_).flatten(),index=cov_.index)
    wInter=pd.Series(optPort_sr(cov_.to_numpy(),mu_.to_numpy().reshape(-1,1)).flatten(),index=cov_.index)
    #wInter=pd.Series(optPort_mv(cov_.values).flatten(),index=cov_.index)
    
    # Los pesos de cada ticker serán el resultado de multiplicar los pesos intra-cluster por los pesos inter-cluster:
    nco=wIntra.mul(wInter,axis=1).sum(axis=1).values.reshape(-1,1)
   
    # El .flatten() devuelve una copia del array de pesos nco recogido todo en una sola dimensión
    df_w=pd.Series(data=nco.flatten(),index=cov.columns)

    return df_w

Resultados SIN reducir el ruido de la matriz de covarianzas:

In [11]:
nco(df_r,denoise=False)

ACX     9.020562e-17
MEL     0.000000e+00
MTS     1.000000e+00
REP     1.298874e-16
SAB     2.159731e-16
TEF     0.000000e+00
SAN     6.938894e-18
BBVA    0.000000e+00
dtype: float64

Resultados reduciendo el ruido de la matriz de covarianzas:

In [12]:
nco(df_r,denoise=True)

ACX     2.003862e-01
MEL     0.000000e+00
MTS     7.996138e-01
REP     3.040103e-16
SAB     3.211407e-16
TEF     0.000000e+00
SAN     0.000000e+00
BBVA    0.000000e+00
dtype: float64