In [30]:
import numpy as np
import pandas as pd
from sklearn.neural_network import MLPRegressor
from sklearn.preprocessing import StandardScaler  
from sklearn.model_selection import train_test_split

In [31]:
df = pd.read_csv("data/merged/global_cluster.csv", sep=";") 

### Séparation des données en ensemble d'entrainement et de test.

In [5]:
df_train, df_test = train_test_split(df, test_size=0.2, random_state=84)

## Entraînement d'un modèle avec variables indépendantes gardées tel quel.

In [16]:
regr = MLPRegressor(random_state=84, max_iter=500).fit(df_train[["nativity", "health_expend", "educ_expend", "taxes", "gdp"]], df_train["Happiness Score"])
indice_predit = regr.predict(df_test[["nativity", "health_expend", "educ_expend", "taxes", "gdp"]])

### Nous obtenons un score R2 négatif. Ce modèle est donc inutilisable.
Ce score est calculé par la formule:  1 - (résidus_sum ^2  / total_sommes ^2 ) 

In [17]:
regr.score(df_test[["nativity", "health_expend", "educ_expend", "taxes", "gdp"]], df_test["Happiness Score"])

-6.670444781816871

## Entraînement d'un modèle avec variables indépendantes misent à l'échelle.

In [20]:
scaler = StandardScaler()  

# Mise à l'échelle des variables indépendantes afins d'avoir des moyennes de 0 et des variances de 1.
scaler.fit(df_train[["nativity", "health_expend", "educ_expend", "taxes", "gdp"]])  
entree_train = scaler.transform(df_train[["nativity", "health_expend", "educ_expend", "taxes", "gdp"]])  

# apply same transformation to test data
entree_test = scaler.transform(df_test[["nativity", "health_expend", "educ_expend", "taxes", "gdp"]]) 

regr = MLPRegressor(random_state=84, max_iter=1000).fit(entree_train, df_train["Happiness Score"])
indice_predit = regr.predict(entree_test)

### Cette fois nous obtenons un score R2 beaucoup plus intéressant.

In [21]:
regr.score(entree_test, df_test["Happiness Score"])

0.7795366216883206

## Sauvegarde du fichier contenant les résultats de tests.

In [25]:
df_test['predicted_score'] = indice_predit
# Sauvegarde du data frame des résultats de tests
df_test.to_csv("data/resultats/test_pmc.csv", sep=";", index=False) 
df_test

Unnamed: 0,annee,Country,Happiness Score,nativity,migration,health_expend,educ_expend,gdp,taxes,budget,milit,cluster_init,cluster3,cluster6,predicted_score
647,2019,Bahrain,6.1990,13.10,11.60,4.9,2.3,49000.0,16.60,-10.1,3.600000,4,0,4,6.467802
1272,2023,Russia,5.6610,9.22,1.70,7.6,3.7,28000.0,10.83,-1.4,5.400000,5,0,5,5.842086
880,2020,Jordan,4.6334,23.00,-11.30,8.1,3.1,3291.0,23.60,-5.1,4.700000,0,2,2,4.393599
957,2021,Poland,6.1660,8.69,-0.33,6.3,4.6,32200.0,39.50,-1.7,2.200000,5,0,5,6.123789
1209,2023,Norway,7.3150,11.89,3.89,11.4,5.9,65700.0,21.09,4.4,1.740000,1,1,1,7.573119
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
385,2017,Venezuela,5.2500,18.80,-1.20,5.3,6.9,14000.0,34.40,-48.0,1.000000,2,2,2,5.449699
261,2016,Namibia,4.5740,27.90,0.00,8.9,8.3,11400.0,35.50,-5.5,4.200000,2,2,0,4.372682
485,2018,Brazil,6.4190,13.90,-0.10,8.3,5.9,15600.0,35.70,-1.1,1.320000,2,2,2,6.031221
234,2016,Bhutan,5.1960,17.50,0.00,3.6,5.9,8200.0,27.50,-3.8,2.152823,0,2,0,5.238331


### Quelque tests avec des données fictives
À titre comparatif, utilisation des même données fictives que dans le notebook **06_regression_lin**

In [27]:
# Ensemble de test, cinq lignes de données fictives
df_test5 = pd.DataFrame([[13.3, 6.6, 3.3, 16.9, 14400],
                         [19.5, 6.7, 9.2, 41, 8200],                         
                         [24.2, 8.8, 10.1, 32, 9100],
                         [23, 5.2, 4.05, 13.8, 8300],
                         [7.9, 9.1, 4.1, 14.1, 42010]], 
                        columns=["nativity", "health_expend", "educ_expend", "taxes", "gdp"])
df_test5

Unnamed: 0,nativity,health_expend,educ_expend,taxes,gdp
0,13.3,6.6,3.3,16.9,14400
1,19.5,6.7,9.2,41.0,8200
2,24.2,8.8,10.1,32.0,9100
3,23.0,5.2,4.05,13.8,8300
4,7.9,9.1,4.1,14.1,42010


Voici les indices de bonheurs prédits pour les données fictive ci-dessus.

In [29]:
entree_test5 = scaler.transform(df_test5) 

test5_results = regr.predict(entree_test5)
test5_results

array([5.24943393, 5.00605336, 4.08976202, 5.08286563, 6.21155658])

#### Comme point de comparaisons, le modèle de régression linéaire prédisait ces résultats pour les même données fictives en entrée:
array([5.39162182, 5.53638813, 5.47342865, 4.85602985, 6.40364188])