# Colombia Results Total

Cargamos los resultados de iterar todos los conjuntos de indicadores

In [45]:
import pandas as pd
import numpy as np
import time
import plotly.plotly as py
import plotly.graph_objs as go

datos = pd.read_csv("suramerica.csv").drop('Unnamed: 0', 1)
paises = ['COL']
pais_nombre = 'Colombia'

preprocessing = 'imput'
year_init = 2015
year_range = 15
look_back = 3
years = range(year_init-year_range+1,year_init+1)[::-1]

agricultura     = open("Indicadores/iagricultura.txt").read().split(',')
ambiente        = open("Indicadores/iambiente.txt").read().split(',')
ayuda           = open("Indicadores/iayuda.txt").read().split(',')
ciencia         = open("Indicadores/iciencia.txt").read().split(',')
clima           = open("Indicadores/iclima.txt").read().split(',')
comercio        = open("Indicadores/icomercio.txt").read().split(',')
deuda           = open("Indicadores/ideuda.txt").read().split(',')
economia        = open("Indicadores/ieconomia.txt").read().split(',')
educacion       = open("Indicadores/ieducacion.txt").read().split(',')
energia         = open("Indicadores/ienergia.txt").read().split(',')
finanzas        = open("Indicadores/ifinanzas.txt").read().split(',')
genero          = open("Indicadores/igenero.txt").read().split(',')
infraestructura = open("Indicadores/iinfraestructura.txt").read().split(',')
pobreza         = open("Indicadores/ipobreza.txt").read().split(',')
privado         = open("Indicadores/iprivado.txt").read().split(',')
publico         = open("Indicadores/ipublico.txt").read().split(',')
salud           = open("Indicadores/isalud.txt").read().split(',')
social          = open("Indicadores/isocial.txt").read().split(',')
trabajo         = open("Indicadores/itrabajo.txt").read().split(',')
urbano          = open("Indicadores/iurbano.txt").read().split(',')


conjunto_nombre = ['Agricultura','Ambiente','Ayuda','Ciencia','Clima','Comercio','Deuda','Economia','Educacion',
                   'Energia','Finanzas','Genero','Infraestructura','Pobreza','Privado','Publico','Salud','Social',
                   'Trabajo','Urbano']
conjunto = [agricultura,ambiente,ayuda,ciencia,clima,comercio,deuda,economia,educacion,energia,finanzas,genero,
            infraestructura,pobreza,privado,publico,salud,social,trabajo,urbano]

In [46]:
def tabla_base(indicadores):
    tab = pd.DataFrame.pivot_table(datos, values='Value', index=['CountryCode', 'Year'], columns=['IndicatorCode']).loc[(paises,years),indicadores].sortlevel(["CountryCode","Year"], ascending=[True,False])
    return tab

In [47]:
def buscar_mejores(df):
    return df[df.Resultados > 0.9].reset_index(drop=True)

In [48]:
def graficar_resultados(df,look_back):

    trace = go.Heatmap(z=df[df['Look Back'] == look_back]['%'],
                       x=df[df['Look Back'] == look_back]['Base'],
                       y=df[df['Look Back'] == look_back]['Target'],
                       zmax=1.0,
                       zmin=0.0,
                       colorscale = 'Viridis')
    data=[trace]
    
    layout = go.Layout(
        title=pais_nombre+' + '+search+': Total Heatmap with Look Back = '+str(look_back),
        xaxis=dict(title='Base',   titlefont=dict(size=18)),
        yaxis=dict(title='Target', titlefont=dict(size=18))
    )
    
    fig = go.Figure(data=data, layout=layout)

    return py.iplot(fig,filename=pais_nombre+' + '+search+': Total Heatmap with Look Back = '+str(look_back))

In [58]:
def buscar_resultados(df,indicador_1,indicador_2,look_back):
    #Buscamos Resultados en base al conjunto de indicadores Base, Target y Look Back
    temp = df[(df['Base']==indicador_1)&(df['Target']==indicador_2)&(df['Look Back'] == look_back)]['Results'].values[0]
    df_temp = temp.replace("'","").replace("[","").replace("]","").replace(" ","").split('\n')
    results = []
    for i in df_temp: 
        results.append(float(i))
    
    # Códigos de los indicadores con registros 
    df_nombres = pd.DataFrame(conjunto_nombre, columns=['Resultados'])
    indicador_1 = conjunto[df_nombres[df_nombres['Resultados']==indicador_1].index.values[0]]
    indicador_2 = conjunto[df_nombres[df_nombres['Resultados']==indicador_2].index.values[0]]     
    df = pd.DataFrame(indicador_2)
    
    # Filtro indicadores repetidos
    if(indicador_1!=indicador_2):
        indicador_2 = np.array(df.loc[~df.ix[:,0].isin(indicador_1)]).flatten()
    df_zeros = tabla_base(indicador_2).dropna(thresh=5,axis=1)
    icodes = df_zeros.columns.values

    # Buscamos Nombres de los Códigos de los Indicadores
    nombres = pd.DataFrame(datos).loc[:,['IndicatorName','IndicatorCode']].set_index('IndicatorCode').loc[icodes].drop_duplicates()

    # Concatenamos Resultados y Nombres, Reindexando en base a los nombres
    df_results = pd.DataFrame(np.column_stack([nombres,results]),columns=['Indicadores','Resultados'])
    
    return df_results

In [50]:
def graficar_resultados_individuales(df,indicador_base,indicador_target,look_back):

    df_temp = buscar_resultados(df,indicador_base,indicador_target,look_back)

    data = [go.Bar(
                x= df_temp['Indicadores'],
                y= df_temp['Resultados'],

        marker=dict(     
            color = df_temp['Resultados'].values,
            colorscale ='Viridis',
            cmax=1.0,
            cmin=0.0,
            showscale = True
            ),
        )]

    layout = go.Layout(
        title=pais_nombre+' + '+search+': Result to predict '+indicador_target+' from '+indicador_base+' with '+'Look Back = '+str(look_back),
    )
    
    fig = go.Figure(data=data, layout=layout)

    return py.iplot(fig, filename=pais_nombre+' + '+search+': Result to predict '+indicador_target+' from '+indicador_base+' with '+'Look Back = '+str(look_back))

In [51]:
def conjuntos_performance(df,look_back,perform,predict,rango):
    return df[df['Look Back']==look_back].groupby(predict).mean().sort_values('%', ascending=perform).index.values[:rango]

In [52]:
def predecibles_predictores(df,look_back,rango):
    return pd.DataFrame(np.column_stack([conjuntos_performance(df,look_back,False,'Base',rango),conjuntos_performance(df,look_back,True,'Base',rango),conjuntos_performance(df,look_back,False,'Target',rango),conjuntos_performance(df,look_back,True,'Target',rango)]),columns=[['Predictor','Predictor','Predictable','Predictable'],['Best','Worse','Easy','Hard']])

# Original

In [53]:
original = pd.read_csv("colombia_original_log.csv").drop(['Unnamed: 0'], 1)
search   = 'original'

## Mejores Combinaciones

In [54]:
original.sort_values('%', ascending=False).reset_index().drop(['index','Time','Results'],1)[:10]

Unnamed: 0,Base,Target,Look Back,Reg,%
0,Social,Urbano,2,24,0.721845
1,Social,Urbano,3,24,0.693165
2,Urbano,Urbano,1,24,0.669267
3,Energia,Urbano,2,20,0.661917
4,Urbano,Salud,1,149,0.645482
5,Clima,Urbano,2,16,0.643453
6,Social,Salud,2,145,0.641142
7,Salud,Urbano,2,21,0.6394
8,Salud,Salud,1,152,0.637943
9,Economia,Urbano,2,24,0.637235


In [59]:
graficar_resultados_individuales(original,'Social','Urbano',2)

## Peores Combinaciones

In [60]:
original.sort_values('%', ascending=True).reset_index().drop(['index','Time','Results'],1)[:10]

Unnamed: 0,Base,Target,Look Back,Reg,%
0,Agricultura,Publico,3,97,0.107455
1,Finanzas,Publico,2,95,0.111846
2,Infraestructura,Publico,2,97,0.112536
3,Infraestructura,Publico,3,97,0.117392
4,Trabajo,Publico,2,97,0.117819
5,Ayuda,Publico,3,97,0.121123
6,Deuda,Publico,1,97,0.123299
7,Energia,Publico,2,97,0.127654
8,Publico,Publico,3,97,0.13019
9,Genero,Publico,1,87,0.130502


In [61]:
graficar_resultados_individuales(original,'Pobreza','Urbano',3)

## Resultados

In [62]:
graficar_resultados(original,1)

In [63]:
graficar_resultados(original,2)

In [64]:
graficar_resultados(original,3)

## Best and Worse Predictors and Predictable

- Con el objetivo de encontrar los conjuntos con mayor grado de predictibilidad, determinamos el promedio de su rendimiento para dos casos:

 **Predictor:** Conjunto que predice a otro conjunto
 
 **Predecible:** Conjunto que es predecido por otro conjunto

In [65]:
predecibles_predictores(original,1,5)

Unnamed: 0_level_0,Predictor,Predictor,Predictable,Predictable
Unnamed: 0_level_1,Best,Worse,Easy,Hard
0,Salud,Pobreza,Salud,Publico
1,Urbano,Deuda,Urbano,Pobreza
2,Economia,Publico,Economia,Educacion
3,Clima,Educacion,Agricultura,Genero
4,Ciencia,Trabajo,Privado,Energia


## GridSearchCV

In [66]:
grid = pd.read_csv("colombia_grid_total.csv").drop(['Unnamed: 0'], 1)
search   = 'grid'

## Mejores Combinaciones

In [67]:
grid.sort_values('%', ascending=False).reset_index().drop(['index','Time','Results'],1)[:10]

Unnamed: 0,Base,Target,Look Back,Reg,%
0,Social,Urbano,2,24,0.80579
1,Salud,Urbano,2,21,0.749051
2,Urbano,Salud,3,149,0.741379
3,Trabajo,Urbano,1,24,0.736665
4,Social,Urbano,3,24,0.735455
5,Economia,Urbano,3,24,0.735405
6,Economia,Salud,2,152,0.715344
7,Energia,Urbano,2,20,0.703163
8,Economia,Urbano,1,24,0.702132
9,Urbano,Salud,1,149,0.700822


## Peores Combinaciones

In [68]:
grid.sort_values('%', ascending=True).reset_index().drop(['index','Time','Results'],1)[:10]

Unnamed: 0,Base,Target,Look Back,Reg,%
0,Publico,Pobreza,1,25,0.085089
1,Ambiente,Publico,2,97,0.10477
2,Agricultura,Publico,2,97,0.112697
3,Ambiente,Publico,1,97,0.114057
4,Infraestructura,Pobreza,1,25,0.115308
5,Pobreza,Publico,3,97,0.120765
6,Deuda,Publico,2,97,0.124598
7,Finanzas,Pobreza,1,25,0.129712
8,Privado,Publico,3,92,0.129792
9,Finanzas,Publico,3,95,0.131903


In [69]:
graficar_resultados(grid,1)

In [70]:
graficar_resultados(grid,2)

In [71]:
graficar_resultados(grid,3)

## Best and Worse Predictors and Predictable

- Con el objetivo de encontrar los conjuntos con mayor grado de predictibilidad, determinamos el promedio de su rendimiento para dos casos:

 **Predictor:** Conjunto que predice a otro conjunto
 
 **Predecible:** Conjunto que es predecido por otro conjunto

In [72]:
predecibles_predictores(grid,1,5)

Unnamed: 0_level_0,Predictor,Predictor,Predictable,Predictable
Unnamed: 0_level_1,Best,Worse,Easy,Hard
0,Urbano,Pobreza,Urbano,Publico
1,Salud,Publico,Salud,Pobreza
2,Economia,Educacion,Agricultura,Ayuda
3,Privado,Ayuda,Economia,Educacion
4,Deuda,Ambiente,Social,Genero


## Rendimiento Original Vs Random Vs Grid
- Comparamos los tres métodos de asignación de parametros para los estimadores

In [73]:
pd.DataFrame(np.column_stack([ original[original['Look Back'] == 1]['%'] , grid[grid['Look Back'] == 1]['%'] ]), columns=['Original','Grid'], index=([original[original['Look Back'] == 1]['Base'].values,original[original['Look Back'] == 1]['Target'].values])).head()

Unnamed: 0,Unnamed: 1,Original,Grid
Agricultura,Agricultura,0.455277,0.554284
Agricultura,Ambiente,0.307334,0.400047
Agricultura,Ayuda,0.38228,0.357198
Agricultura,Ciencia,0.429908,0.285037
Agricultura,Clima,0.404357,0.390015


In [74]:
pd.DataFrame(np.column_stack([ original[original['Look Back'] == 1]['Time'] , grid[grid['Look Back'] == 1]['Time'] ]), columns=['Original','Grid'], index=([original[original['Look Back'] == 1]['Base'].values,original[original['Look Back'] == 1]['Target'].values])).head()

Unnamed: 0,Unnamed: 1,Original,Grid
Agricultura,Agricultura,10.584898,270.655403
Agricultura,Ambiente,16.575595,450.69763
Agricultura,Ayuda,17.504265,523.918233
Agricultura,Ciencia,5.675936,123.103455
Agricultura,Clima,12.573218,344.131365


- Calculamos la mejora de rendimiento en cada caso

In [75]:
def rendimiento(look_back,variable):
    original_grid   = ( (grid[grid['Look Back'] == look_back][variable].values / original[original['Look Back'] == look_back][variable].values ) - 1)*100
    return pd.DataFrame(original_grid, columns=['Original to Grid'], index=([original[original['Look Back'] == look_back]['Base'],original[original['Look Back'] == look_back]['Target']]))

In [76]:
rendimiento(1,'%').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Original to Grid
Base,Target,Unnamed: 2_level_1
Agricultura,Agricultura,21.746567
Agricultura,Ambiente,30.166858
Agricultura,Ayuda,-6.561116
Agricultura,Ciencia,-33.698212
Agricultura,Clima,-3.546998


In [77]:
rendimiento(1,'Time').head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Original to Grid
Base,Target,Unnamed: 2_level_1
Agricultura,Agricultura,2456.995854
Agricultura,Ambiente,2619.043426
Agricultura,Ayuda,2893.089003
Agricultura,Ciencia,2068.866164
Agricultura,Clima,2637.018971


## Promedio de Rendimiento
- Promediamos el rendimiento para cada caso

In [78]:
def grafica_rendimiento(variable):

    trace0 = go.Bar(
        x=['Original to Grid'],
        y=rendimiento(1,variable).mean().values.tolist(),
        name='Look Back = 1',
        marker=dict(
            color='rgb(0,59,70)'
        )
    )
    trace1 = go.Bar(
        x=['Original to Grid'],
        y=rendimiento(2,variable).mean().values.tolist(),
        name='Look Back = 2',
        marker=dict(
            color='rgb(7,87,91)',
        )
    )

    trace2 = go.Bar(
        x=['Original to Grid'],
        y=rendimiento(3,variable).mean().values.tolist(),
        name='Look Back = 3',
        marker=dict(
            color='rgb(102,165,173)',
        )
    )

    data = [trace0, trace1, trace2]
    layout = go.Layout(
        xaxis=dict(tickangle=-45),
        barmode='group',
    )

    fig = go.Figure(data=data, layout=layout)
    
    return py.iplot(fig, filename='Performance of '+variable)

In [79]:
grafica_rendimiento('%')

In [80]:
grafica_rendimiento('Time')