# Surameria Results

Cargamos los resultados de iterar todos los conjuntos de indicadores

In [1]:
import pandas as pd
import numpy as np
import time
import plotly.plotly as py
import plotly.graph_objs as go

datos = pd.read_csv("suramerica.csv").drop('Unnamed: 0', 1)
paises = datos['CountryCode'].drop_duplicates().values.tolist()
pais_nombre = 'Suramerica'

preprocessing = 'imput'
year_init = 2012
year_range = 5
look_back = 3
years = range(year_init-year_range+1,year_init+1)[::-1]

agricultura     = open("Indicadores/iagricultura.txt").read().split(',')
ambiente        = open("Indicadores/iambiente.txt").read().split(',')
ayuda           = open("Indicadores/iayuda.txt").read().split(',')
ciencia         = open("Indicadores/iciencia.txt").read().split(',')
clima           = open("Indicadores/iclima.txt").read().split(',')
comercio        = open("Indicadores/icomercio.txt").read().split(',')
deuda           = open("Indicadores/ideuda.txt").read().split(',')
economia        = open("Indicadores/ieconomia.txt").read().split(',')
educacion       = open("Indicadores/ieducacion.txt").read().split(',')
energia         = open("Indicadores/ienergia.txt").read().split(',')
finanzas        = open("Indicadores/ifinanzas.txt").read().split(',')
genero          = open("Indicadores/igenero.txt").read().split(',')
infraestructura = open("Indicadores/iinfraestructura.txt").read().split(',')
pobreza         = open("Indicadores/ipobreza.txt").read().split(',')
privado         = open("Indicadores/iprivado.txt").read().split(',')
publico         = open("Indicadores/ipublico.txt").read().split(',')
salud           = open("Indicadores/isalud.txt").read().split(',')
social          = open("Indicadores/isocial.txt").read().split(',')
trabajo         = open("Indicadores/itrabajo.txt").read().split(',')
urbano          = open("Indicadores/iurbano.txt").read().split(',')


conjunto_nombre = ['Agricultura','Ambiente','Ayuda','Ciencia','Clima','Comercio','Deuda','Economia','Educacion',
                   'Energia','Finanzas','Genero','Infraestructura','Pobreza','Privado','Publico','Salud','Social',
                   'Trabajo','Urbano']
conjunto = [agricultura,ambiente,ayuda,ciencia,clima,comercio,deuda,economia,educacion,energia,finanzas,genero,
            infraestructura,pobreza,privado,publico,salud,social,trabajo,urbano]

In [2]:
def tabla_base(indicadores):
    tab = pd.DataFrame.pivot_table(datos, values='Value', index=['CountryCode', 'Year'], columns=['IndicatorCode']).loc[(paises,years),indicadores].sortlevel(["CountryCode","Year"], ascending=[True,False])
    return tab

In [3]:
def buscar_mejores(df):
    return df[df.Resultados > 0.9].reset_index(drop=True)

In [4]:
def graficar_resultados(df,look_back):

    trace = go.Heatmap(z=df[df['Look Back'] == look_back]['%'],
                       x=df[df['Look Back'] == look_back]['Base'],
                       y=df[df['Look Back'] == look_back]['Target'],
                       zmax=1.0,
                       zmin=0.0,
                       colorscale = 'Viridis')
    data=[trace]
    
    layout = go.Layout(
        title=pais_nombre+' + '+search+': Total Heatmap with Look Back = '+str(look_back),
        xaxis=dict(title='Base',   titlefont=dict(size=18)),
        yaxis=dict(title='Target', titlefont=dict(size=18))
    )
    
    fig = go.Figure(data=data, layout=layout)

    return py.iplot(fig,filename=pais_nombre+' + '+search+': Total Heatmap with Look Back = '+str(look_back))

In [5]:
def buscar_resultados(df,indicador_1,indicador_2,look_back):
    #Buscamos Resultados en base al conjunto de indicadores Base, Target y Look Back
    temp = df[(df['Base']==indicador_1)&(df['Target']==indicador_2)&(df['Look Back'] == look_back)]['Results'].values[0]
    df_temp = temp.replace("'","").replace("[","").replace("]","").replace(" ","").split('\n')
    results = []
    for i in df_temp: 
        results.append(float(i))
    
    # Códigos de los indicadores con registros 
    df_nombres = pd.DataFrame(conjunto_nombre, columns=['Resultados'])
    indicador_1 = conjunto[df_nombres[df_nombres['Resultados']==indicador_1].index.values[0]]
    indicador_2 = conjunto[df_nombres[df_nombres['Resultados']==indicador_2].index.values[0]]     
    df = pd.DataFrame(indicador_2)
    
    # Filtro indicadores repetidos
    if(indicador_1!=indicador_2):
        indicador_2 = np.array(df.loc[~df.ix[:,0].isin(indicador_1)]).flatten()
    df_zeros = tabla_base(indicador_2).dropna(how='all',axis=1)
    icodes = df_zeros.columns.values

    # Buscamos Nombres de los Códigos de los Indicadores
    nombres = pd.DataFrame(datos).loc[:,['IndicatorName','IndicatorCode']].set_index('IndicatorCode').loc[icodes].drop_duplicates()

    # Concatenamos Resultados y Nombres, Reindexando en base a los nombres
    df_results = pd.DataFrame(np.column_stack([nombres,results]),columns=['Indicadores','Resultados'])
    
    return df_results

In [6]:
def graficar_resultados_individuales(df,indicador_base,indicador_target,look_back):

    df_temp = buscar_resultados(df,indicador_base,indicador_target,look_back)

    data = [go.Bar(
                x= df_temp['Indicadores'],
                y= df_temp['Resultados'],

        marker=dict(     
            color = df_temp['Resultados'].values,
            colorscale ='Viridis',
            cmax=1.0,
            cmin=0.0,
            showscale = True
            ),
        )]

    layout = go.Layout(
        title=pais_nombre+' + '+search+': Result to predict '+indicador_target+' from '+indicador_base+' with '+'Look Back = '+str(look_back),
    )
    
    fig = go.Figure(data=data, layout=layout)

    return py.iplot(fig, filename=pais_nombre+' + '+search+': Result to predict '+indicador_target+' from '+indicador_base+' with '+'Look Back = '+str(look_back))

In [7]:
def conjuntos_performance(df,look_back,perform,predict,rango):
    return df[df['Look Back']==look_back].groupby(predict).mean().sort_values('%', ascending=perform)

In [8]:
def predecibles_predictores(df,look_back,rango):
    return pd.DataFrame(np.column_stack([conjuntos_performance(df,look_back,False,'Base',rango),conjuntos_performance(df,look_back,True,'Base',rango),conjuntos_performance(df,look_back,False,'Target',rango),conjuntos_performance(df,look_back,True,'Target',rango)]),columns=[['Predictor','Predictor','Predictable','Predictable'],['Best','Worse','Easy','Hard']])

# Original

In [9]:
original = pd.read_csv("suramerica_results_original.csv").drop(['Unnamed: 0'], 1)
search   = 'original'

In [10]:
original

Unnamed: 0,Base,Target,Look Back,Reg,%,Time,Results
0,Agricultura,Agricultura,1,48,0.751710,14.081192,[[ 0.84417477]\n [ 0.60243841]\n [ 0.49421566]...
1,Agricultura,Agricultura,2,48,0.650503,13.562043,[[ 0.82708981]\n [ 0.46201133]\n [ 0.68394697]...
2,Agricultura,Agricultura,3,48,0.698588,15.635314,[[ 0.62186412]\n [ 0.46657095]\n [ 0.71804695]...
3,Agricultura,Ambiente,1,96,0.659490,19.270615,[[ 0.60493183]\n [ 0.14411922]\n [ 0.54422433]...
4,Agricultura,Ambiente,2,96,0.675724,21.358137,[[ 0.651033 ]\n [ 0.67818193]\n [ 0.69563164]...
5,Agricultura,Ambiente,3,96,0.622507,24.148684,[[ 0.51253898]\n [ 0.88538664]\n [ 0.80934785]...
6,Agricultura,Ayuda,1,71,0.523632,20.764145,[[ 1. ]\n [ 0.69674797]\n [ 0.941338 ]...
7,Agricultura,Ayuda,2,71,0.574172,21.292787,[[ 1. ]\n [ 0.91616066]\n [ 0.46374175]...
8,Agricultura,Ayuda,3,71,0.561706,23.834690,[[ 1. ]\n [ 0.75137723]\n [ 0.58849902]...
9,Agricultura,Ciencia,1,13,0.774843,5.896331,[[ 0.87812996]\n [ 0.96817906]\n [ 0.21769062]...


In [14]:
df = original
conjuntos_performance(df,1,True,'Target',5)

Unnamed: 0_level_0,Look Back,Reg,%,Time
Target,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ayuda,1.0,69.25,0.486263,21.045218
Salud,1.0,148.35,0.498957,35.2139
Trabajo,1.0,128.15,0.507377,38.186558
Genero,1.0,166.35,0.520047,40.279792
Deuda,1.0,226.85,0.535897,63.157088
Privado,1.0,157.8,0.563364,42.636621
Pobreza,1.0,24.55,0.565691,8.122112
Ambiente,1.0,105.85,0.569151,23.824785
Finanzas,1.0,65.1,0.576248,18.111155
Educacion,1.0,162.55,0.584336,34.575156


## Mejores Combinaciones

In [15]:
original.sort_values('%', ascending=False).reset_index().drop(['index','Time','Results'],1)[:10]

Unnamed: 0,Base,Target,Look Back,Reg,%
0,Privado,Ciencia,1,11,0.900546
1,Urbano,Ciencia,2,13,0.892362
2,Comercio,Ciencia,2,11,0.879526
3,Comercio,Ciencia,3,11,0.877208
4,Infraestructura,Ciencia,2,13,0.874702
5,Energia,Ciencia,1,13,0.862954
6,Ciencia,Ciencia,3,13,0.855968
7,Privado,Ciencia,2,11,0.855853
8,Urbano,Ciencia,1,13,0.842303
9,Comercio,Ciencia,1,11,0.84093


In [16]:
graficar_resultados_individuales(original,'Privado','Ciencia',1)

NameError: global name 'go' is not defined

## Peores Combinaciones

In [17]:
original.sort_values('%', ascending=True).reset_index().drop(['index','Time','Results'],1)[:10]

Unnamed: 0,Base,Target,Look Back,Reg,%
0,Pobreza,Urbano,3,21,0.171713
1,Pobreza,Urbano,1,21,0.192287
2,Pobreza,Ayuda,2,69,0.19545
3,Pobreza,Salud,1,152,0.201384
4,Pobreza,Ayuda,3,69,0.20837
5,Pobreza,Urbano,2,21,0.21016
6,Pobreza,Salud,2,152,0.210652
7,Pobreza,Salud,3,152,0.215839
8,Pobreza,Ambiente,1,111,0.223511
9,Pobreza,Energia,3,53,0.225532


In [18]:
graficar_resultados_individuales(original,'Pobreza','Urbano',3)

NameError: global name 'go' is not defined

## Resultados

In [None]:
graficar_resultados(original,1)

In [None]:
graficar_resultados(original,2)

In [None]:
graficar_resultados(original,3)

## Best and Worse Predictors and Predictable

- Con el objetivo de encontrar los conjuntos con mayor grado de predictibilidad, determinamos el promedio de su rendimiento para dos casos:

 **Predictor:** Conjunto que predice a otro conjunto
 
 **Predecible:** Conjunto que es predecido por otro conjunto

In [None]:
predecibles_predictores(original,1,5)

## GridSearchCV

In [None]:
grid = pd.read_csv("suramerica_results_grid_total.csv").drop(['Unnamed: 0'], 1)
search   = 'grid'

## Mejores Combinaciones

In [None]:
grid.sort_values('%', ascending=False).reset_index().drop(['index','Time','Results'],1)[:10]

## Peores Combinaciones

In [None]:
grid.sort_values('%', ascending=True).reset_index().drop(['index','Time','Results'],1)[:10]

In [None]:
graficar_resultados(grid,1)

In [None]:
graficar_resultados(grid,2)

In [None]:
graficar_resultados(grid,3)

## Best and Worse Predictors and Predictable

- Con el objetivo de encontrar los conjuntos con mayor grado de predictibilidad, determinamos el promedio de su rendimiento para dos casos:

 **Predictor:** Conjunto que predice a otro conjunto
 
 **Predecible:** Conjunto que es predecido por otro conjunto

In [None]:
predecibles_predictores(grid,1,5)

## Rendimiento Original Vs Random Vs Grid
- Comparamos los tres métodos de asignación de parametros para los estimadores

In [None]:
import numpy as np
import pandas as pd
import plotly.plotly as py
import plotly.graph_objs as go

original = pd.read_csv("suramerica_results_original.csv").drop(['Unnamed: 0'], 1)
grid     = pd.read_csv("suramerica_results_grid_total.csv").drop(['Unnamed: 0'], 1)

In [None]:
pd.DataFrame(np.column_stack([ original[original['Look Back'] == 1]['%'] , grid[grid['Look Back'] == 1]['%'] ]), columns=['Original','Grid'], index=([original[original['Look Back'] == 1]['Base'].values,original[original['Look Back'] == 1]['Target'].values])).head()

In [None]:
pd.DataFrame(np.column_stack([ original[original['Look Back'] == 1]['Time'] , grid[grid['Look Back'] == 1]['Time'] ]), columns=['Original','Grid'], index=([original[original['Look Back'] == 1]['Base'].values,original[original['Look Back'] == 1]['Target'].values])).head()

- Calculamos la mejora de rendimiento en cada caso

In [None]:
def rendimiento(look_back,variable):
    original_grid   = ( (grid[grid['Look Back'] == look_back][variable].values / original[original['Look Back'] == look_back][variable].values ) - 1)*100
    return pd.DataFrame(original_grid, columns=['Original to Grid'], index=([original[original['Look Back'] == look_back]['Base'],original[original['Look Back'] == look_back]['Target']]))

In [None]:
rendimiento(1,'%').head()

In [None]:
rendimiento(1,'Time').head()

## Promedio de Rendimiento
- Promediamos el rendimiento para cada caso

In [None]:
def grafica_rendimiento(variable):

    trace0 = go.Bar(
        x=['Original to Grid'],
        y=rendimiento(1,variable).mean().values.tolist(),
        name='Look Back = 1',
        marker=dict(
            color='rgb(0,59,70)'
        )
    )
    trace1 = go.Bar(
        x=['Original to Grid'],
        y=rendimiento(2,variable).mean().values.tolist(),
        name='Look Back = 2',
        marker=dict(
            color='rgb(7,87,91)',
        )
    )

    trace2 = go.Bar(
        x=['Original to Grid'],
        y=rendimiento(3,variable).mean().values.tolist(),
        name='Look Back = 3',
        marker=dict(
            color='rgb(102,165,173)',
        )
    )

    data = [trace0, trace1, trace2]
    layout = go.Layout(
        xaxis=dict(tickangle=-45),
        barmode='group',
    )

    fig = go.Figure(data=data, layout=layout)
    
    return py.iplot(fig, filename='Performance of '+variable+' on Suramérica')

In [None]:
grafica_rendimiento('%')

In [None]:
grafica_rendimiento('Time')