In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import cross_val_score

from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline

from collections import Counter
from __future__ import division
from itertools import combinations

In [2]:
path = '../data/merge.csv'
df = pd.read_csv(path, index_col=0)

In [3]:
df.dep = df.dep.apply(lambda x: x.replace('2A', '20').replace('2B', '20'))

In [4]:
#Stockons dès maintenant une dummisation des départements
#garder l'année au cas où

ddeps = pd.get_dummies(df.dep).join(df.year)

In [31]:
groups = ['EG', 'G', 'autre', 'C', 'D', 'ED']
lgroups = ['l_%s' % g for g in groups]
pgroups = ['presid_%s' % g for g in groups]

In [5]:
#fonction qui imprime les scores de cross validation (si supérieurs à 0) de régressions données avec un nom donné,
#lorsque testées pour le X et le y donnés.
def eval_reg(X, y, name, regs):
    i = 1
    for reg in regs:
        score = np.mean(cross_val_score(reg, X, y, cv=24))
        if score > 0:
            print name + ' %d :' % i, score
        else:
            print name + " : R2 negatif"
        i += 1


#fct qui applique eval_reg à de nombreuses régressions avec plusieurs hyperparamètres, pour un X et un y donnés.
def test_regs(X, y):

    #Decision tree
    from sklearn.tree import DecisionTreeRegressor
    
    regr_1 = DecisionTreeRegressor(max_depth=2)
    regr_2 = DecisionTreeRegressor(max_depth=5)
    regr_3 = DecisionTreeRegressor(max_depth=8)
    regs = [regr_1, regr_2, regr_3]
    eval_reg(X, y, "DecisionTree", regs)
    print '_____\n'
    
    
    #RF
    from sklearn.ensemble import RandomForestRegressor
    
    regr_1 = RandomForestRegressor()
    regr_2 = RandomForestRegressor(n_estimators=40)
    regr_3 = RandomForestRegressor(min_samples_split=50)
    regr_4 = RandomForestRegressor(n_estimators=40, min_samples_split=50)
    regs = [regr_1, regr_2, regr_3, regr_4]
    eval_reg(X, y, "RF", regs)
    print '_____\n'
    
    
    #ExtraTree
    from sklearn.tree import ExtraTreeRegressor
    
    regr_1 = ExtraTreeRegressor(max_depth=2)
    regr_2 = ExtraTreeRegressor(max_depth=5)
    regr_3 = ExtraTreeRegressor(max_depth=8)
    regs = [regr_1, regr_2, regr_3]
    eval_reg(X, y, "ExtraTree", regs)
    print '_____\n'
    
    
    #Linear
    from sklearn.linear_model import LinearRegression
    
    regr_1 = LinearRegression(normalize=True, fit_intercept=True)
    regr_2 = LinearRegression(normalize=True, fit_intercept=False)
    regr_3 = LinearRegression(normalize=False, fit_intercept=True)
    regr_4 = LinearRegression(normalize=False, fit_intercept=False)
    regs = [regr_1, regr_2, regr_3, regr_4]
    eval_reg(X, y, "Linear", regs)
    print '_____\n'
    
    
    #Ridge
    from sklearn.linear_model import Ridge
    
    
    regr_1 = Ridge(alpha=0.1)
    regr_2 = Ridge()
    regr_3 = Ridge(alpha=10.0)
    regs = [regr_1, regr_2, regr_3]
    eval_reg(X, y, "Ridge", regs)
    print '_____\n'


    #Lasso
    from sklearn.linear_model import Lasso
    
    
    regr_1 = Lasso(alpha=0.1)
    regr_2 = Lasso()
    regr_3 = Lasso(alpha=10.0)
    regs = [regr_1, regr_2, regr_3]
    eval_reg(X, y, "Lasso", regs)
    print '_____\n'
    
    
    #MultitaskLasso
    from sklearn.linear_model import MultiTaskLasso
    
    regr_1 = MultiTaskLasso(alpha=0.1)
    regr_2 = MultiTaskLasso()
    regr_3 = MultiTaskLasso(alpha=10.0)
    regs = [regr_1, regr_2, regr_3]
    eval_reg(X, y, "MTLasso", regs)
    print '_____\n'
    
    
    #ElasticNet
    from sklearn.linear_model import ElasticNet
    
    regr_1 = ElasticNet(alpha=0.1)
    regr_2 = ElasticNet()
    regr_3 = ElasticNet(alpha=10.0)
    regs = [regr_1, regr_2, regr_3]
    eval_reg(X, y, "ElasticNet", regs)
    print '_____\n'
    
    
    #MTElasticNet
    from sklearn.linear_model import MultiTaskElasticNet
    
    regr_1 = MultiTaskElasticNet(alpha=0.1)
    regr_2 = MultiTaskElasticNet()
    regr_3 = MultiTaskElasticNet(alpha=10.0)
    regs = [regr_1, regr_2, regr_3]
    eval_reg(X, y, "MTElasticNet", regs)
    print '_____\n'
    
    
    #Lars
    from sklearn.linear_model import Lars

    regr_1 = Lars(normalize=True, fit_intercept=True)
#    regr_2 = Lars(normalize=True, fit_intercept=False)
    regr_3 = Lars(normalize=False, fit_intercept=True)
#    regr_4 = Lars(normalize=False, fit_intercept=False)
    regs = [regr_1, regr_3] #On vire la 2 et la 4 qui ne convergent pas
    eval_reg(X, y, "Lars", regs)

In [6]:
#Pour commencer, on test des regressions en utilisant juste les présidentielles
X = df[df.columns[-12:-6]]
y = df[df.columns[-6:]]

In [7]:
test_regs(X, y)

DecisionTree : R2 negatif
DecisionTree 2 : 0.00330162353104
DecisionTree : R2 negatif
_____

RF : R2 negatif
RF 2 : 0.0278264267158
RF 3 : 0.0408272148118
RF 4 : 0.0558547764298
_____

ExtraTree : R2 negatif
ExtraTree : R2 negatif
ExtraTree : R2 negatif
_____

Linear : R2 negatif
Linear : R2 negatif
Linear : R2 negatif
Linear : R2 negatif
_____

Ridge : R2 negatif
Ridge : R2 negatif
Ridge : R2 negatif
_____





Lasso : R2 negatif
Lasso : R2 negatif
Lasso : R2 negatif
_____

MTLasso : R2 negatif
MTLasso : R2 negatif
MTLasso : R2 negatif
_____

ElasticNet : R2 negatif
ElasticNet : R2 negatif
ElasticNet : R2 negatif
_____

MTElasticNet : R2 negatif
MTElasticNet : R2 negatif
MTElasticNet : R2 negatif
_____

Lars : R2 negatif
Lars : R2 negatif


Bref pas terrible. Quasiment que des R2 négatifs.
La régression arrive-t-elle à qqch si appliquée uniquement à une année, ou bien à deux ? On peut espérer que ça au moins ça fonctionne.

In [8]:
#X et y sont modifiés pour se restreindre aux années 2012 et 2017.
X = df[df.year >= 2012.0][df.columns[-12:-6]]
y = df[df.year >= 2012.0][df.columns[-6:]]

In [9]:
#On refait les mêmes tests
test_regs(X, y)

DecisionTree : R2 negatif
DecisionTree : R2 negatif
DecisionTree : R2 negatif
_____

RF 1 : 0.00447658415743
RF 2 : 0.0213020263536
RF 3 : 0.0452156119659
RF 4 : 0.0521341684218
_____

ExtraTree : R2 negatif
ExtraTree : R2 negatif
ExtraTree : R2 negatif
_____

Linear 1 : 0.0775859454472
Linear 2 : 0.0779009168744
Linear 3 : 0.0775859454472
Linear 4 : 0.0779009168744
_____

Ridge 1 : 0.0781443477865
Ridge 2 : 0.077943889438
Ridge 3 : 0.0780611593508
_____

Lasso 1 : 0.0788201015964
Lasso 2 : 0.0783541929208
Lasso 3 : 0.0359276793635
_____





MTLasso 1 : 0.078648367156
MTLasso 2 : 0.0791543219493
MTLasso 3 : 0.0566846684068
_____

ElasticNet 1 : 0.0790576455391
ElasticNet 2 : 0.0792452501358
ElasticNet 3 : 0.0515205155318
_____

MTElasticNet 1 : 0.0789794874549
MTElasticNet 2 : 0.0802988188475
MTElasticNet 3 : 0.0618476016024
_____

Lars : R2 negatif
Lars : R2 negatif


In [10]:
#X et y sont modifiés pour se restreindre à 2017.
X = df[df.year == 2017.0][df.columns[-12:-6]]
y = df[df.year == 2017.0][df.columns[-6:]]

In [11]:
#On refait les mêmes tests
test_regs(X, y)

DecisionTree : R2 negatif
DecisionTree : R2 negatif
DecisionTree : R2 negatif
_____

RF : R2 negatif
RF : R2 negatif
RF : R2 negatif
RF : R2 negatif
_____

ExtraTree : R2 negatif
ExtraTree : R2 negatif
ExtraTree : R2 negatif
_____

Linear : R2 negatif
Linear : R2 negatif
Linear : R2 negatif
Linear : R2 negatif
_____

Ridge : R2 negatif
Ridge : R2 negatif
Ridge : R2 negatif
_____

Lasso : R2 negatif
Lasso : R2 negatif
Lasso : R2 negatif
_____

MTLasso : R2 negatif
MTLasso : R2 negatif
MTLasso : R2 negatif
_____

ElasticNet : R2 negatif
ElasticNet : R2 negatif
ElasticNet : R2 negatif
_____

MTElasticNet : R2 negatif
MTElasticNet : R2 negatif
MTElasticNet : R2 negatif
_____

Lars : R2 negatif
Lars : R2 negatif


In [12]:
#X et y sont modifiés pour se restreindre à 2012.
X = df[df.year == 2012.0][df.columns[-12:-6]]
y = df[df.year == 2012.0][df.columns[-6:]]

In [13]:
#On refait les mêmes tests
test_regs(X, y)

DecisionTree : R2 negatif
DecisionTree : R2 negatif
DecisionTree : R2 negatif
_____

RF : R2 negatif
RF : R2 negatif
RF 3 : 0.001528592097
RF 4 : 0.00966386681753
_____

ExtraTree : R2 negatif
ExtraTree : R2 negatif
ExtraTree : R2 negatif
_____

Linear 1 : 0.0419162351651
Linear 2 : 0.0433986409983
Linear 3 : 0.0419162351651
Linear 4 : 0.0433986409983
_____

Ridge 1 : 0.0447322830841
Ridge 2 : 0.0476240103584
Ridge 3 : 0.0488668225706
_____

Lasso 1 : 0.049082268116
Lasso 2 : 0.0454637540938
Lasso 3 : 0.00869324515001
_____

MTLasso 1 : 0.0490880450542
MTLasso 2 : 0.0488323159224
MTLasso 3 : 0.0239165623836
_____

ElasticNet 1 : 0.0491276754539
ElasticNet 2 : 0.0480240030361
ElasticNet 3 : 0.0233516245499
_____

MTElasticNet 1 : 0.0491399196163
MTElasticNet 2 : 0.0491159340773
MTElasticNet 3 : 0.0288884384989
_____

Lars : R2 negatif
Lars : R2 negatif


In [14]:
#X et y sont modifiés pour se restreindre à 2007 et 2012.
X = df[(df.year == 2007.0) | (df.year == 2012.0)][df.columns[-12:-6]]
y = df[(df.year == 2007.0) | (df.year == 2012.0)][df.columns[-6:]]

In [15]:
#On refait les mêmes tests
test_regs(X, y)

DecisionTree : R2 negatif
DecisionTree : R2 negatif
DecisionTree : R2 negatif
_____

RF : R2 negatif
RF 2 : 0.0036764663498
RF 3 : 0.046530313993
RF 4 : 0.0652841091693
_____

ExtraTree : R2 negatif
ExtraTree : R2 negatif
ExtraTree : R2 negatif
_____

Linear 1 : 0.0887869964802
Linear 2 : 0.0891967685352
Linear 3 : 0.0887869964802
Linear 4 : 0.0891967685352
_____

Ridge 1 : 0.0894265222531
Ridge 2 : 0.089230765671
Ridge 3 : 0.0870813080397
_____

Lasso 1 : 0.0842302893923
Lasso 2 : 0.0840130638987
Lasso 3 : 0.0361449529349
_____

MTLasso 1 : 0.0841709258364
MTLasso 2 : 0.0843436196439
MTLasso 3 : 0.0666638410807
_____

ElasticNet 1 : 0.0842251822411
ElasticNet 2 : 0.0846565125396
ElasticNet 3 : 0.059750893201
_____

MTElasticNet 1 : 0.0845524843741
MTElasticNet 2 : 0.0845004957382
MTElasticNet 3 : 0.0723668647273
_____

Lars : R2 negatif
Lars : R2 negatif


In [16]:
#X et y sont modifiés pour se restreindre à 2002 + 2007 + 2012.
X = df[(2002 <= df.year) & (df.year <= 2012.0)][df.columns[-12:-6]]
y = df[(2002 <= df.year) & (df.year <= 2012.0)][df.columns[-6:]]

In [17]:
#On refait les mêmes tests
test_regs(X, y)

DecisionTree : R2 negatif
DecisionTree : R2 negatif
DecisionTree : R2 negatif
_____

RF : R2 negatif
RF 2 : 0.0144822749979
RF 3 : 0.0300182367239
RF 4 : 0.0564805417025
_____

ExtraTree : R2 negatif
ExtraTree 2 : 8.17026218501e-05
ExtraTree : R2 negatif
_____

Linear 1 : 0.0763463207401
Linear 2 : 0.0776787255028
Linear 3 : 0.0763463207401
Linear 4 : 0.0776787255028
_____

Ridge 1 : 0.0774367244532
Ridge 2 : 0.0776473202271
Ridge 3 : 0.077685561765
_____

Lasso 1 : 0.0779372620159
Lasso 2 : 0.0762064046891
Lasso 3 : 0.0122994700749
_____

MTLasso 1 : 0.0777972770198
MTLasso 2 : 0.0777829208267
MTLasso 3 : 0.0416724742952
_____

ElasticNet 1 : 0.0779208190121
ElasticNet 2 : 0.0776152352245
ElasticNet 3 : 0.037679599294
_____

MTElasticNet 1 : 0.0778461282408
MTElasticNet 2 : 0.0780445926385
MTElasticNet 3 : 0.0524379154528
_____

Lars : R2 negatif
Lars : R2 negatif


In [18]:
#X et y sont modifiés pour se restreindre à 2007 + 2012 + 2017.
X = df[(2007 <= df.year)][df.columns[-12:-6]]
y = df[(2007 <= df.year)][df.columns[-6:]]

In [19]:
#On refait les mêmes tests
test_regs(X, y)

DecisionTree : R2 negatif
DecisionTree 2 : 0.00654022250294
DecisionTree : R2 negatif
_____

RF 1 : 0.000222026397022
RF 2 : 0.034804729545
RF 3 : 0.0624139910939
RF 4 : 0.0787597348497
_____

ExtraTree : R2 negatif
ExtraTree : R2 negatif
ExtraTree : R2 negatif
_____

Linear 1 : 0.0551173134833
Linear 2 : 0.0572075286298
Linear 3 : 0.0551173134833
Linear 4 : 0.0572075286298
_____

Ridge 1 : 0.0569458473998
Ridge 2 : 0.0572063440162
Ridge 3 : 0.0575186370769
_____

Lasso 1 : 0.0591342121557
Lasso 2 : 0.0562166941964
Lasso 3 : 0.00114212193847
_____

MTLasso 1 : 0.0583478677285
MTLasso 2 : 0.0602585962972
MTLasso 3 : 0.0337430354222
_____

ElasticNet 1 : 0.060218155916
ElasticNet 2 : 0.0595573688026
ElasticNet 3 : 0.0240791996453
_____

MTElasticNet 1 : 0.0597416920571
MTElasticNet 2 : 0.0612824674458
MTElasticNet 3 : 0.0399137416088
_____

Lars 1 : 0.0523567813487
Lars : R2 negatif


L'algorithme qui donne le meilleur R2 n'est pas toujours le même selon les années dans le jeu d'entraînement. Quoiqu'il en soit on reste sur des scores bien faibles...

Est-ce que les coefficients sont très différents selon les années qui ont entraîné le modèle ?

In [20]:
#Test d'une régression Lasso avec alpha = 1 sur les années 2002, 2007, 2012, 2017, pour voir les R^2 et coefs

from sklearn.linear_model import Lasso
regr_2 = Lasso()

X1 = df[df.year == 2002.0][df.columns[-12:-6]]
y1 = df[df.year == 2002.0][df.columns[-6:]]

X2 = df[df.year == 2007.0][df.columns[-12:-6]]
y2 = df[df.year == 2007.0][df.columns[-6:]]

X3 = df[df.year == 2012.0][df.columns[-12:-6]]
y3 = df[df.year == 2012.0][df.columns[-6:]]

X4 = df[df.year == 2017.0][df.columns[-12:-6]]
y4 = df[df.year == 2017.0][df.columns[-6:]]

In [21]:
eval_reg(X1, y1, "2002", [regr_2])
regr_2.fit(X1, y1)
print regr_2.coef_
print '________\n'

eval_reg(X2, y2, "2007", [regr_2])
regr_2.fit(X2, y2)
print regr_2.coef_
print '________\n'

eval_reg(X3, y3, "2012", [regr_2])
regr_2.fit(X3, y3)
print regr_2.coef_
print '________\n'

eval_reg(X4, y4, "2017", [regr_2])
regr_2.fit(X4, y4)
print regr_2.coef_
print '________\n'

2002 1 : 0.00634536851447
[[ 0.41151286 -0.          0.          0.         -0.         -0.        ]
 [ 0.          1.02797817  0.         -0.38888801 -0.29923686 -0.        ]
 [ 0.         -0.          0.56277398 -0.03243499 -0.01252142  0.        ]
 [-0.05677739 -0.         -0.17012186  0.36354689  0.07508955  0.        ]
 [-0.         -0.22921198  0.          0.97667906  0.59554369 -0.        ]
 [ 0.          0.          0.          0.          0.          0.        ]]
________

2007 1 : 0.0534219927783
[[ 0.5979913   0.02281881 -0.         -0.         -0.13588298  0.        ]
 [ 0.24278764  0.60467657 -0.         -0.         -0.57280017  0.        ]
 [-0.          0.03172636  0.32897865 -0.         -0.05651096  0.        ]
 [-0.02505132 -0.         -0.          0.3113791   0.17384958  0.        ]
 [-0.35063858 -0.59194225  0.          0.          0.80419054  0.        ]
 [ 0.          0.          0.          0.          0.          0.        ]]
________

2012 1 : 0.0454637540938
[[

On a effectivement des coefs assez différents d'une année à l'autre.

Bien il est temps de réintégrer des variables. Commençons par un test brut avec toutes les variables.

In [22]:
X = df[df.year >= 2012.0][df.columns[:-6]]
y = df[df.year >= 2012.0][df.columns[-6:]]

print "2012 et 2017 toutes features :", np.mean(cross_val_score(regr_2, X, y, cv=24))
regr_2.fit(X, y)
print regr_2.coef_
print '________\n'

2012 et 2017 toutes features : 0.0484472697038
[[ -5.69544870e-03  -9.13455560e-02   1.25253815e+00   9.30122361e-07
   -1.47774412e-04   0.00000000e+00   0.00000000e+00  -0.00000000e+00
   -0.00000000e+00  -0.00000000e+00   0.00000000e+00   0.00000000e+00
    1.20769803e+00  -8.34481877e-02   8.44923766e-02  -6.76805895e-02
   -0.00000000e+00   0.00000000e+00]
 [  3.05179003e-03  -8.10846657e-02  -0.00000000e+00  -1.31728800e-06
    1.46921279e-04  -0.00000000e+00   0.00000000e+00   4.59477992e-02
   -3.02115981e-02  -1.36993893e-01   0.00000000e+00  -2.57719240e-01
   -1.45618677e-01   1.17017588e+00   1.74636256e-01  -0.00000000e+00
   -0.00000000e+00  -0.00000000e+00]
 [ -7.38048978e-03   3.15169220e-01  -0.00000000e+00   6.86667455e-07
   -2.29459021e-05  -0.00000000e+00  -0.00000000e+00   0.00000000e+00
    0.00000000e+00  -0.00000000e+00  -0.00000000e+00   0.00000000e+00
   -2.37871572e-01   0.00000000e+00   6.31105906e-01  -0.00000000e+00
   -0.00000000e+00  -0.00000000e+00]
 [

Certaines variables ne sont pas vraiment utilisées, par exemple les age_1/2...
On va donc réintégrer quelques variables à la fois.

In [23]:
#test avec les département binarisés.

X = ddeps[ddeps.year >= 2012.0][ddeps.columns[:-1]].join(df[df.year >= 2012.0][df.columns[-12:-6].tolist()])
y = df[df.year >= 2012.0][df.columns[-6:]]


print "2012 et 2017 avec ddeps :", np.mean(cross_val_score(regr_2, X, y, cv=24))
regr_2.fit(X, y)
print regr_2.coef_
print '________\n'

2012 et 2017 avec ddeps : 0.0783541929208
[[-0.          0.         -0.         -0.          0.          0.         -0.
  -0.         -0.          0.         -0.         -0.         -0.          0.
  -0.          0.         -0.         -0.          0.          0.         -0.
  -0.         -0.          0.          0.          0.          0.          0.
  -0.         -0.         -0.         -0.         -0.          0.          0.
   0.         -0.         -0.          0.         -0.          0.          0.
  -0.          0.          0.         -0.         -0.         -0.         -0.
  -0.          0.         -0.         -0.          0.          0.          0.
  -0.         -0.          0.         -0.          0.          0.          0.
  -0.          0.          0.         -0.         -0.          0.         -0.
  -0.          0.         -0.         -0.         -0.          0.          0.
  -0.          0.         -0.         -0.          0.          0.         -0.
   0.          0.     

In [24]:
#aucune utilisation des départements...

In [25]:
#Travail de réintégration des variables. On test en réintégrant chacune des variables.
#On va le faire sur 2007/2012, puis sur 2012/2017

X1 = df[(df.year == 2012.0) | (df.year == 2007.0)][df.columns[-12:-6]]
y1 = df[(df.year == 2012.0) | (df.year == 2007.0)][df.columns[-6:]]

X2 = df[df.year >= 2012][df.columns[-12:-6]]
y2 = df[df.year >= 2012][df.columns[-6:]]

l1 = {}
l2 = {}

for col in df.columns[:-12]:
    l1[col] = X1.join(df[col])
    l2[col] = X2.join(df[col])

print "Pour 2007/2012 :"
eval_reg(X1, y1, "sans réintégrer de var", [regr_2])
for col in df.columns[:-12]:
    eval_reg(l1[col], y1, "avec %s" % col, [regr_2])

print '_______'

print "Pour 2012/2017 :"
eval_reg(X2, y2, "sans réintégrer de var", [regr_2])
for col in df.columns[:-12]:
    eval_reg(l2[col], y2, "avec %s" % col, [regr_2])

Pour 2007/2012 :
sans réintégrer de var 1 : 0.0840130638987
avec dep 1 : 0.0807121469982
avec circ 1 : 0.0852232736626
avec year 1 : 0.0887734250887
avec pop 1 : 0.0852072141634
avec dens 1 : 0.0850232140576
avec age_1 1 : 0.0832678621051
avec age_2 1 : 0.0883102889099
avec age_3 1 : 0.0844122953395
avec age_4 1 : 0.0851008999091
avec etud 1 : 0.0841300542758
avec hf 1 : 0.0840130638987
avec chom 1 : 0.0828642114762
_______
Pour 2012/2017 :
sans réintégrer de var 1 : 0.0783541929208
avec dep 1 : 0.0323377459958
avec circ 1 : 0.0880127661549
avec year 1 : 0.0786981047489
avec pop 1 : 0.0877296965746
avec dens 1 : 0.0791631537611
avec age_1 1 : 0.0744483961037
avec age_2 1 : 0.0847571818264
avec age_3 1 : 0.0800354484094
avec age_4 1 : 0.0767661874445
avec etud 1 : 0.0806736542992
avec hf 1 : 0.0783541929208
avec chom 1 : 0.0542124969519


In [26]:
#rien de fou mais on peut gagner quelques dixièmes de point.
#réintégration de deux variables à la fois

ll1 = {}
ll2 = {}

for col1 in df.columns[:-12]:
    for col2 in df.columns[:-12]:
        if (col1 != col2) and ((col2, col1) not in ll1.keys()):
            ll1[(col1, col2)] = X1.join(df[col1]).join(df[col2])
        else:
            pass
        
for col1 in df.columns[:-12]:
    for col2 in df.columns[:-12]:
        if (col1 != col2) and ((col2, col1) not in ll2.keys()):
            ll2[(col1, col2)] = X2.join(df[col1]).join(df[col2])
        else:
            pass

score_min = np.mean(cross_val_score(regr_2, X1, y1, cv=24))
print "Pour 2007/2012, seul :", score_min
for (col1, col2) in ll1.keys():
    score = np.mean(cross_val_score(regr_2, ll1[col1, col2], y1, cv=24))
    if score > score_min:
        score_min = score #Certes on ne verra pas "les meilleurs scores" mais on limitera le nombre de print
        print "Pour 2007/2012, %s, %s : %f" % (col1, col2, score)
    else:
        pass

print '_______'
score_min = np.mean(cross_val_score(regr_2, X2, y2, cv=24))
print "Pour 2012/2017, seul :", score_min
for (col1, col2) in ll2.keys():
    score = np.mean(cross_val_score(regr_2, ll2[col1, col2], y2, cv=24))
    if score > score_min:
        score_min = score
        print "Pour 2012/2017, %s, %s : %f" % (col1, col2, score)
    else:
        pass

Pour 2007/2012, seul : 0.0840130638987
Pour 2007/2012, year, age_3 : 0.089049
Pour 2007/2012, year, age_4 : 0.090455
Pour 2007/2012, year, age_2 : 0.093202
_______
Pour 2012/2017, seul : 0.0783541929208
Pour 2012/2017, circ, dens : 0.086958
Pour 2012/2017, circ, hf : 0.088013
Pour 2012/2017, circ, age_2 : 0.091065


In [27]:
#Bref, peut-être que 3 variables nous amèneront au dessus de la barre des 10% ?

lll1 = {}
lll2 = {}

for (col1, col2, col3) in combinations(df.columns[:-12].tolist(), 3):
    lll1[(col1, col2, col3)] = X1.join(df[col1]).join(df[col2]).join(df[col3])
    
for (col1, col2, col3) in combinations(df.columns[:-12].tolist(), 3):
    lll2[(col1, col2, col3)] = X2.join(df[col1]).join(df[col2]).join(df[col3])

score_min = np.mean(cross_val_score(regr_2, X1, y1, cv=24))
print "Pour 2007/2012, seul : %f" % score_min
for (col1, col2, col3) in lll1.keys():
    score = np.mean(cross_val_score(regr_2, lll1[col1, col2, col3], y1, cv=24))
    if score > score_min:
        score_min = score
        print "Pour 2007/2012, %s, %s, %s : %f" % (col1, col2, col3, score)
    else:
        pass

print '_______'

score_min = np.mean(cross_val_score(regr_2, X2, y2, cv=24))
print "Pour 2012/2017, seul : %f" % score_min
for (col1, col2, col3) in lll2.keys():
    score = np.mean(cross_val_score(regr_2, lll2[col1, col2, col3], y2, cv=24))
    if score > score_min:
        score_min = score
        print "Pour 2012/2017, %s, %s, %s : %f" % (col1, col2, col3, score)
    else:
        pass

Pour 2007/2012, seul : 0.084013
Pour 2007/2012, age_1, age_2, chom : 0.087231
Pour 2007/2012, year, hf, chom : 0.088445
Pour 2007/2012, year, dens, age_1 : 0.089286
Pour 2007/2012, year, pop, chom : 0.090273
Pour 2007/2012, circ, year, age_3 : 0.090464
Pour 2007/2012, year, age_2, chom : 0.092878
Pour 2007/2012, year, age_1, age_2 : 0.093125
Pour 2007/2012, year, age_2, age_3 : 0.093156
Pour 2007/2012, year, age_2, hf : 0.093202
_______
Pour 2012/2017, seul : 0.078354
Pour 2012/2017, circ, age_4, etud : 0.086066
Pour 2012/2017, circ, pop, etud : 0.089604
Pour 2012/2017, circ, pop, hf : 0.089861
Pour 2012/2017, circ, pop, age_2 : 0.090339
Pour 2012/2017, circ, year, age_2 : 0.091410
Pour 2012/2017, circ, age_2, age_3 : 0.091671


Finalement on arrive pas à passer la barre des 10%.
Essayons quand même une prédiction pour 2017 avec le meilleur modèle entraîné sur 2007/2012 qui n'utilise pas l'année (variable qui ne peut que conduire à du surentraînement). Il s'agit du modèle qui utilise age_1, age_2 et chom.

In [33]:
test = df[df.year == 2017][pgroups + ['age_1', 'age_2', 'chom']]

X0 = lll1[('age_1', 'age_2', 'chom')]

#pour rappel
print np.mean(cross_val_score(regr_2, X0, y1, cv=24))

regr_2.fit(X0, y1)
pred = regr_2.predict(test)

0.0872306871892


In [34]:
pred
#oublions le fait que autre se voit attribués des scores négatifs...

array([[  9.26766138,  19.20543826,  -1.69477891,  17.41274872,
         37.53853633,   0.        ],
       [  9.26766138,  19.20543826,  -1.69477891,  17.41274872,
         37.53853633,   0.        ],
       [  9.26766138,  19.20543826,  -1.69477891,  17.41274872,
         37.53853633,   0.        ],
       ..., 
       [ 13.40463059,  30.04211095,  -6.28874209,  15.67069067,
         31.49937576,   0.        ],
       [  6.76609636,   8.84408793,  -0.10122607,  18.51218347,
         45.62191379,   0.        ],
       [  6.76609636,   8.84408793,  -0.10122607,  18.51218347,
         45.62191379,   0.        ]])

In [37]:
#Et essayons de voir ce que ça veut dire en termes de groupes gagnants

#!!! assuming only one winner for each line. otherwise argmax pas une bonne idée

#on change l'ordre de groups pour s'adapter à la façon dont les colonnes sont ordonnées dans la frame et donc l'ordre
#des scores dans la prédiction.
groups2 = ['C', 'D', 'ED', 'EG', 'G', 'autre']
lgroups2 = ['l_%s' % g for g in groups2]
winners = [lgroups2[np.argmax(l)] for l in pred]

In [38]:
Counter(winners)

Counter({'l_D': 20, 'l_G': 538})

In [None]:
#Super donc c'est une prédiction très peu réaliste.