# Machine Learning sur des données socio-démographiques

Dans ce notebook, vous trouvez notre code d'entrainement et validation automatique d'algorithmes de Machine Learning pour prédire le nombre de logements sociaux dans une zone géographique de France métropolitaine à partir du jeu de données *Données carroyées issues du dispositif sur les revenus localisés fiscaux et sociaux (FiLoSoFi)*.

**dataset:** https://www.data.gouv.fr/fr/datasets/donnees-carroyees-issues-du-dispositif-sur-les-revenus-localises-fiscaux-et-sociaux-filosofi/<br>
**tâche:** Régression<br>
**target variable:** *Log_soc*

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split 
#pour l'entraînement automatique:
from supervised.automl import AutoML
#pour générer un rapport html des résultats:
import IPython
import markdown

## 1. Importation des données

On importe le dataset téléchargeable ici: https://www.insee.fr/fr/statistiques/4176281?sommaire=4176305#consulter et on élimine les colonnes de valeurs manquantes.

In [None]:
#path_metr = '/home/giulia/data/Filosofi2015_carreaux_niveau_naturel_metropole.csv'
carreaux_metr = pd.read_csv(path_metr)

In [None]:
carreaux_metr = carreaux_metr.drop(columns=['Ind_inc','Log_inc'])

## 2. Train/test splitting

On n'effectue pas de séléction de variables. On définit la variable réponse et les variables explicatives.
On partage le dataset en dataset d'entraînement et de test. Attention, AutoML nécessite d'un partage 75%/25%.

In [None]:
y = carreaux_metr['Log_soc'].values
X = carreaux_metr.drop(columns=['Log_soc'])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

## 3. AutoML

On entraîne, test et valide automatiquement plusieurs algorithmes de ML sur le dataset avec AutoML (plus d'infos ici: https://supervised.mljar.com/) et on génère un html des métriques et des paramètres du modèle.

In [None]:
automl = AutoML(total_time_limit=5*60, mode='Explain',random_state=42)
#fit model
automl.fit(X_train,y_train)
#predictions
predictions = automl.predict(X_test)
#generate html report
automl.report()