# Análisis de resultados de varias carteras y representación gráfica

En este notebook generamos automáticamente una cartera para cada periodo de los 10 últimos disponibles, utilizando en cada periodo como set de entrenamiento la información de los periodos anteriores. De este modo intentamos simular una situación real en la que en cada periodo únicamente disponemos de información histórica.

En cada sección revisamos el tamaño aproximado de los valores que gay por periodo, y marcamos como tamaño de nuestra cartera un 10% aproximadamente de la cartera.

Como variables para cada bucle consideramos también un importe de inversión. En este caso dejamos marcado 100, lo que hace que el resultado obtenido sea equibalente al valor porcentual de la rentabilidad.

Dejamos fijado también para nuestra simulación los 10 últimos periodos, excluyendo los 2 últimos en los que ya carecemos de un número importante de valores, por no disponer de su precio a +180 días.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sn
from sklearn.metrics import confusion_matrix, classification_report

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import recall_score
from sklearn.metrics import make_scorer

from sklearn.neighbors import KNeighborsClassifier

import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv("../tablas/dataformodel.csv", usecols=['Price_d', 'Price_d+180',
                                                        'quantile_PER', 'var_quantile_PER','PER','var_PER',
                                                        'quantile_PBC', 'var_quantile_PBC','var_PBC',
                                                        'quantile_ROA', 'var_quantile_ROA','var_ROA','ROA',
                                                        'Etiqueta', 'Periodo','Ticker','Sector'])

df=df.replace([np.inf, -np.inf], np.nan)
for column in df.columns:
    df=df[df[column].notnull()]
df=df.reset_index(drop=True)

In [3]:
def resultado(row):
    return (row['Price_d+180'] - row['Price_d'])/row['Price_d']

## Sector energético

In [4]:
df_sector=df[df.Sector=='Energy']
df_sector.groupby('Periodo').Ticker.count()

Periodo
2014Q1    40
2014Q2    41
2014Q3    42
2014Q4    42
2015Q1    42
2015Q2    42
2015Q3    42
2015Q4    42
2016Q1    42
2016Q2    42
2016Q3    42
2016Q4    41
2017Q1    41
2017Q2    42
2017Q3    42
2017Q4    42
2018Q1    42
2018Q2    42
2018Q3    42
2018Q4    39
2019Q1     3
2019Q2     1
Name: Ticker, dtype: int64

In [5]:
df_sector=df[df.Sector=='Energy']
df_var_indice = pd.read_csv("../tablas/var_indice_energy.csv")
lista_periodos=df_sector.Periodo.unique()[10:-2]
titulos = 4
inversion = 100
resumen = pd.DataFrame(columns=['Periodo','Rentabilidad'])
ratios = ['quantile_PER','var_quantile_PER','quantile_PBC','var_quantile_PBC']

for trim_seleccionado in lista_periodos:
    df_train = df_sector[df_sector.Periodo<trim_seleccionado]
    df_test = df_sector[df_sector.Periodo==trim_seleccionado]
    
    X_train=df_train[ratios].values
    y_train=df_train['Etiqueta'].values
    
    
    X_test=df_test[ratios].values
    y_test=df_test['Etiqueta'].values
    
    clfk=KNeighborsClassifier(n_neighbors=5)
    clfk.fit(X_train,y_train)
    
    knGrid = GridSearchCV(clfk,cv=5,scoring="accuracy",param_grid={'n_neighbors':np.arange(1,20)})
    knGrid.fit(X_train,y_train)
    best_param=knGrid.best_params_.get('n_neighbors')
    
    clfk=KNeighborsClassifier(n_neighbors=best_param)
    clfk.fit(X_train,y_train)
      
    df_prob=pd.DataFrame({'Probabilidad':clfk.predict_proba(X_test)[:,0],'Prediction':clfk.predict(X_test),
                          'Actual':y_test})
    df_prob.index=df_test.index

    mejores=df_prob.sort_values('Probabilidad').tail(titulos)  
#    peores=df_prob.sort_values('Probabilidad').head(titulos)

    
    cartera_mejores = mejores.join(df_test)
    res_cartera_mejores=cartera_mejores[['Prediction','Price_d','Price_d+180']]
    
#    cartera_peores = peores.join(df_test)
#    res_cartera_peores=cartera_peores[['Prediction','Price_d','Price_d+180']]
    
    res_cartera_mejores['Resultado']=res_cartera_mejores.apply(resultado,axis=1)*inversion  
#    res_cartera_peores['Resultado']=res_cartera_peores.apply(resultado,axis=1)*inversion
    
#    res_cartera=res_cartera_mejores.append(res_cartera_peores)
    
    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Cartera',
                              'Rentabilidad':res_cartera_mejores.Resultado.mean()}, ignore_index=True)
    
#    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Peores',
#                              'Rentabilidad':res_cartera_peores.Resultado.mean()}, ignore_index=True)
    


resumen = resumen.merge(df_var_indice, 
                              left_on=('Periodo'),
                              right_on=('Periodo'), 
                              how='left')

resumen.drop(['Indice_d_100','Indice_d+180_100'], axis=1, inplace=True)


resumen_total=resumen

In [6]:
resumen.Rentabilidad.sum()

40.77749505042544

In [7]:
resumen.Rent_indice.sum()

-18.32562437835808

## Sector tecnológico

In [8]:
df_sector=df[df.Sector=='Technology']
df_sector.groupby('Periodo').Ticker.count()

Periodo
2014Q1    106
2014Q2    135
2014Q3    142
2014Q4    142
2015Q1    142
2015Q2    142
2015Q3    142
2015Q4    142
2016Q1    144
2016Q2    144
2016Q3    144
2016Q4    144
2017Q1    144
2017Q2    144
2017Q3    143
2017Q4    141
2018Q1    141
2018Q2    141
2018Q3    141
2018Q4    111
2019Q1     46
2019Q2     30
Name: Ticker, dtype: int64

In [9]:
df_sector=df[df.Sector=='Technology']
df_var_indice = pd.read_csv("../tablas/var_indice_tec.csv")
lista_periodos=df_sector.Periodo.unique()[10:-2]
titulos = 14
inversion = 100
resumen = pd.DataFrame(columns=['Periodo','Rentabilidad'])
ratios = ['quantile_PER','var_quantile_PER','quantile_PBC','var_quantile_PBC']

for trim_seleccionado in lista_periodos:
    df_train = df_sector[df_sector.Periodo<trim_seleccionado]
    df_test = df_sector[df_sector.Periodo==trim_seleccionado]
    
    X_train=df_train[ratios].values
    y_train=df_train['Etiqueta'].values
    
    
    X_test=df_test[ratios].values
    y_test=df_test['Etiqueta'].values
    
    clfk=KNeighborsClassifier(n_neighbors=5)
    clfk.fit(X_train,y_train)
    
    knGrid = GridSearchCV(clfk,cv=5,scoring="accuracy",param_grid={'n_neighbors':np.arange(1,20)})
    knGrid.fit(X_train,y_train)
    best_param=knGrid.best_params_.get('n_neighbors')
    
    clfk=KNeighborsClassifier(n_neighbors=best_param)
    clfk.fit(X_train,y_train)
      
    df_prob=pd.DataFrame({'Probabilidad':clfk.predict_proba(X_test)[:,0],'Prediction':clfk.predict(X_test),
                          'Actual':y_test})
    df_prob.index=df_test.index

    mejores=df_prob.sort_values('Probabilidad').tail(titulos)  
#    peores=df_prob.sort_values('Probabilidad').head(titulos)

    
    cartera_mejores = mejores.join(df_test)
    res_cartera_mejores=cartera_mejores[['Prediction','Price_d','Price_d+180']]
    
#    cartera_peores = peores.join(df_test)
#    res_cartera_peores=cartera_peores[['Prediction','Price_d','Price_d+180']]
    
    res_cartera_mejores['Resultado']=res_cartera_mejores.apply(resultado,axis=1)*inversion  
#    res_cartera_peores['Resultado']=res_cartera_peores.apply(resultado,axis=1)*inversion
    
#    res_cartera=res_cartera_mejores.append(res_cartera_peores)
    
    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Cartera',
                              'Rentabilidad':res_cartera_mejores.Resultado.mean()}, ignore_index=True)
    
#    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Peores',
#                              'Rentabilidad':res_cartera_peores.Resultado.mean()}, ignore_index=True)
    


resumen = resumen.merge(df_var_indice, 
                              left_on=('Periodo'),
                              right_on=('Periodo'), 
                              how='left')

resumen.drop(['Indice_d_100','Indice_d+180_100'], axis=1, inplace=True)


resumen_total=resumen_total.append(resumen)

In [10]:
resumen.Rentabilidad.sum()

124.304017721141

In [11]:
resumen.Rent_indice.sum()

84.71506275039

## Sector sanitario

In [12]:
df_sector=df[df.Sector=='Healthcare']
df_sector.groupby('Periodo').Ticker.count()

Periodo
2014Q1     86
2014Q2     98
2014Q3    100
2014Q4    100
2015Q1    100
2015Q2    100
2015Q3    100
2015Q4    101
2016Q1    102
2016Q2    102
2016Q3    102
2016Q4    102
2017Q1    102
2017Q2    101
2017Q3    101
2017Q4    100
2018Q1    100
2018Q2    100
2018Q3    100
2018Q4     85
2019Q1     23
2019Q2     15
Name: Ticker, dtype: int64

In [13]:
df_sector=df[df.Sector=='Healthcare']
df_var_indice = pd.read_csv("../tablas/var_indice_health.csv")
lista_periodos=df_sector.Periodo.unique()[10:-2]
titulos = 10
inversion = 100
resumen = pd.DataFrame(columns=['Periodo','Rentabilidad'])
ratios = ['quantile_PER','var_quantile_PER','quantile_PBC','var_quantile_PBC']

for trim_seleccionado in lista_periodos:
    df_train = df_sector[df_sector.Periodo<trim_seleccionado]
    df_test = df_sector[df_sector.Periodo==trim_seleccionado]
    
    X_train=df_train[ratios].values
    y_train=df_train['Etiqueta'].values
    
    
    X_test=df_test[ratios].values
    y_test=df_test['Etiqueta'].values
    
    clfk=KNeighborsClassifier(n_neighbors=5)
    clfk.fit(X_train,y_train)
    
    knGrid = GridSearchCV(clfk,cv=5,scoring="accuracy",param_grid={'n_neighbors':np.arange(1,20)})
    knGrid.fit(X_train,y_train)
    best_param=knGrid.best_params_.get('n_neighbors')
    
    clfk=KNeighborsClassifier(n_neighbors=best_param)
    clfk.fit(X_train,y_train)
      
    df_prob=pd.DataFrame({'Probabilidad':clfk.predict_proba(X_test)[:,0],'Prediction':clfk.predict(X_test),
                          'Actual':y_test})
    df_prob.index=df_test.index

    mejores=df_prob.sort_values('Probabilidad').tail(titulos)  
#    peores=df_prob.sort_values('Probabilidad').head(titulos)

    
    cartera_mejores = mejores.join(df_test)
    res_cartera_mejores=cartera_mejores[['Prediction','Price_d','Price_d+180']]
    
#    cartera_peores = peores.join(df_test)
#    res_cartera_peores=cartera_peores[['Prediction','Price_d','Price_d+180']]
    
    res_cartera_mejores['Resultado']=res_cartera_mejores.apply(resultado,axis=1)*inversion  
#    res_cartera_peores['Resultado']=res_cartera_peores.apply(resultado,axis=1)*inversion
    
#    res_cartera=res_cartera_mejores.append(res_cartera_peores)
    
    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Cartera',
                              'Rentabilidad':res_cartera_mejores.Resultado.mean()}, ignore_index=True)
    
#    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Peores',
#                              'Rentabilidad':res_cartera_peores.Resultado.mean()}, ignore_index=True)
    


resumen = resumen.merge(df_var_indice, 
                              left_on=('Periodo'),
                              right_on=('Periodo'), 
                              how='left')

resumen.drop(['Indice_d_100','Indice_d+180_100'], axis=1, inplace=True)


resumen_total=resumen_total.append(resumen)

In [14]:
resumen.Rentabilidad.sum()

60.40599535873711

In [15]:
resumen.Rent_indice.sum()

84.64575429344129

## Sector industrial

In [16]:
df_sector=df[df.Sector=='Industrials']
df_sector.groupby('Periodo').Ticker.count()

Periodo
2014Q1    132
2014Q2    149
2014Q3    154
2014Q4    154
2015Q1    154
2015Q2    154
2015Q3    155
2015Q4    157
2016Q1    156
2016Q2    157
2016Q3    157
2016Q4    157
2017Q1    157
2017Q2    157
2017Q3    158
2017Q4    158
2018Q1    158
2018Q2    158
2018Q3    158
2018Q4    135
2019Q1     37
2019Q2     21
Name: Ticker, dtype: int64

In [17]:
df_sector=df[df.Sector=='Industrials']
df_var_indice = pd.read_csv("../tablas/var_indice_ind.csv")
lista_periodos=df_sector.Periodo.unique()[10:-2]
titulos = 16
inversion = 100
resumen = pd.DataFrame(columns=['Periodo','Rentabilidad'])
ratios = ['quantile_PER','var_quantile_PER','quantile_PBC','var_quantile_PBC']

for trim_seleccionado in lista_periodos:
    df_train = df_sector[df_sector.Periodo<trim_seleccionado]
    df_test = df_sector[df_sector.Periodo==trim_seleccionado]
    
    X_train=df_train[ratios].values
    y_train=df_train['Etiqueta'].values
    
    
    X_test=df_test[ratios].values
    y_test=df_test['Etiqueta'].values
    
    clfk=KNeighborsClassifier(n_neighbors=5)
    clfk.fit(X_train,y_train)
    
    knGrid = GridSearchCV(clfk,cv=5,scoring="accuracy",param_grid={'n_neighbors':np.arange(1,20)})
    knGrid.fit(X_train,y_train)
    best_param=knGrid.best_params_.get('n_neighbors')
    
    clfk=KNeighborsClassifier(n_neighbors=best_param)
    clfk.fit(X_train,y_train)
      
    df_prob=pd.DataFrame({'Probabilidad':clfk.predict_proba(X_test)[:,0],'Prediction':clfk.predict(X_test),
                          'Actual':y_test})
    df_prob.index=df_test.index

    mejores=df_prob.sort_values('Probabilidad').tail(titulos)  
#    peores=df_prob.sort_values('Probabilidad').head(titulos)

    
    cartera_mejores = mejores.join(df_test)
    res_cartera_mejores=cartera_mejores[['Prediction','Price_d','Price_d+180']]
    
#    cartera_peores = peores.join(df_test)
#    res_cartera_peores=cartera_peores[['Prediction','Price_d','Price_d+180']]
    
    res_cartera_mejores['Resultado']=res_cartera_mejores.apply(resultado,axis=1)*inversion  
#    res_cartera_peores['Resultado']=res_cartera_peores.apply(resultado,axis=1)*inversion
    
#    res_cartera=res_cartera_mejores.append(res_cartera_peores)
    
    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Cartera',
                              'Rentabilidad':res_cartera_mejores.Resultado.mean()}, ignore_index=True)
    
#    resumen = resumen.append({'Periodo':trim_seleccionado,'Tipo':'Peores',
#                              'Rentabilidad':res_cartera_peores.Resultado.mean()}, ignore_index=True)
    


resumen = resumen.merge(df_var_indice, 
                              left_on=('Periodo'),
                              right_on=('Periodo'), 
                              how='left')

resumen.drop(['Indice_d_100','Indice_d+180_100'], axis=1, inplace=True)

resumen_total=resumen_total.append(resumen)

In [18]:
resumen.Rentabilidad.sum()

74.10137230507696

In [19]:
resumen.Rent_indice.sum()

81.99169861220004

In [20]:
resumen_total.reset_index(inplace=True, drop=True)
resumen_total.to_csv('../tablas/result_carteras_KN.csv', index=False)