# Projet Machine Learning

Mélissa Zennaf - Janvier 2021

Les notebooks suivants ainsi que la librairie qui leur est associée constituent le fruit du Projet Machine Learning correspondant à l'enseignement du même nom au sein du Master Mécen. 

# Introduction

**En tant que future jeune diplômée, je serai prochainement amenée à trouver du travail et ce sera certainement dans un autre départemet que l'Indre-et-Loire. Ma problématique est de savoir dans quel département français je suis susceptible de percevoir la rémunération la plus élevée. Existe-t-il des disparités de salaire entre les départements français ? Quels sont les déterminants et aboutissants de ces disparités ? Dans quel département s'installer pour maximiser sa rémunération ?**

Pour tenter de répondre à cette problématique:
* données économiques, 
* données géographiques, 
* données démographiques, 
* données financières.

On recherche **les features $X$ pour lesquels une relation $y=f(X)$ est possible et pertinente** avec $y$ la variable à expliquer, à savoir le revenu moyen au sein d'un département. On s'attachera à définir la relation $f()$ dans la partie trois de cette étude.

Les principales **librairies** utilisées seront :
* numpy
* matplotlib
* requests
* seaborn
* scikit learn
* pandas
* bs4

Nous commençons par une phase de recherche internet et de récupération des données.

# Récupération des données

**Dans cette première partie, nous allons scraper des données sur le web afin des se constituer une base de données.**

On commence par importer les librairies et fonctions nécessaires à ce travail.

In [1]:
from requests import get
from bs4 import BeautifulSoup as BS
import re
import pandas as pd
import numpy as np
from string import digits

In [2]:
from script import adresse, get_pages, find_jdn, find_wiki, find_wiki_2, gestion_ligne5, gestion_ligne9, gestion_ligne12, gestion_ligne14, gestion_ligne6, gestion_ligne7, gestion_ligne8, construit_df, URL1, URL2, URL3, URL4, URL5, URL6, URL7, URL8, URL9, URL10, URL11, merge, columns1, columns2, columns3, columns4, columns5, columns6, columns7, tous_les_df

Au cours de la phase de modélisation, nous avons donc établi que nous cherchons à extraire des données sur les départements français. Pour ceci, on s'est constitué un **catalogue des sources internet** :

* [pib des départements français - Wikipédia](https://fr.wikipedia.org/wiki/Liste_des_d%C3%A9partements_fran%C3%A7ais_class%C3%A9s_par_produit_int%C3%A9rieur_brut_par_habitant)

* [population et superficie des départements français - Wikipédia](https://fr.wikipedia.org/wiki/Liste_des_d%C3%A9partements_fran%C3%A7ais_class%C3%A9s_par_population_et_superficie)

* [nombre de communes par département - Wikipédia](https://fr.wikipedia.org/wiki/Nombre_de_communes_par_d%C3%A9partement_en_France_au_1er_janvier_2014)

* [salaire par département - Journal du net](http://www.journaldunet.com/business/salaire/classement/departements/salaires)

* [revenu déclaré par département - Journal du net](http://www.journaldunet.com/economie/impots/classement/departements/revenu-fiscal)

* [taxe foncière par département - Journal du net](http://www.journaldunet.com/economie/impots/classement/departements/taxe-fonciere-bati)

* [impôt sur le revenu par département - Journal du net](http://www.journaldunet.com/economie/impots/classement/departements/impot-revenu)

## Web scraping des données 

La fonction de scraping est **différente pour chaque source** mais on utilise la **même procédure**.

* ``lignes3=list(find_wiki(adresse(URL1)))``

* ``res3=gestion_ligne6(lignes3)``

Suite à cette procédure, on stocke nos données dans une **liste de listes** pour chaque source.

La fonction nommée ``gestion_ligne i ()`` varie pour chaque source.

### Cas 1 : toutes les données sur une même page

Dans le cas le plus simple, toutes les données sont sur la **même page**, dans ce cas, on met en entrée le lien url et on récupère directement les données. 

In [3]:
lignes3=list(find_wiki(adresse(URL1)))
res1=gestion_ligne6(lignes3)

In [4]:
lignes4=list(find_wiki_2(adresse(URL2)))
res2=gestion_ligne7(lignes4)
res2[1][1]= ' P a r i s '

In [5]:
lignes5=list(find_wiki_2(adresse(URL3)))
res3=gestion_ligne8(lignes5)

### Cas 2 : les données sur deux pages

Dans ce cas un peu différent, les données d'un tableau apparaissent sur **deux pages ayant des url différents**. On choisit d'appeler la fonction à deux reprises.

In [6]:
lignes=list(find_jdn(adresse(URL4)))
lignes2=list(find_jdn(adresse(URL5)))
gestion_ligne5(lignes)
res4=gestion_ligne5(lignes2)

In [7]:
lignes4=list(find_jdn(adresse(URL6)))
lignes42=list(find_jdn(adresse(URL7)))
gestion_ligne9(lignes4)
res5=gestion_ligne9(lignes42)

In [8]:
lignes10=list(find_jdn(adresse(URL8)))
lignes102=list(find_jdn(adresse(URL9)))
gestion_ligne14(lignes10)
res6=gestion_ligne14(lignes102)

### Cas 3 : les données sur trois pages

Enfin, dans ce dernier cas, il y a **trois pages**. On va cette fois créer une boucle qui nous permet de créer des liens pour les pages 2 et 3. Cette fonction est codée de la manière suivante :

``def get_pages(token, nb):
    pages = []
    for i in range(2,nb+1):
        j = token + str(i)
        pages.append(j)
    return pages``

On applique ensuite une boucle sur les pages deux et trois. 

In [9]:
lignes8=list(find_jdn(adresse(URL10)))
gestion_ligne12(lignes8)
token = URL11
pages = get_pages(token,3)
for i in range(len(pages)) :
    lignes82=list(find_jdn(adresse(pages[i])))
    res7=gestion_ligne12(lignes82)

## Constitution de la base de données

**Nous avons donc en notre possession les listes de liste contenant nos données**.

On transforme les données en data frame puis on les réunit. 

In [10]:
df1, df2, df3, df4, df5, df6, df7 = tous_les_df(res1, res2, res3, res4, res5, res6, res7)

In [11]:
df=merge(df1, df2, df3, df4, df5, df6, df7)

Nous obtenons le data frame suivant. On peut voir que l'on a plus que **92 lignes sur les 100 départements** français.

In [12]:
df.head()

Unnamed: 0,code_x,nom,pop_2013,pop_2017,pop_2018,superficie,densite,pib_2015,pib_2005,pib_2000,code_y,nb_commune,pop_municipale,hab_m,rmoyen,décla,taxe_om,impot
0,59,N o r d,2595536,2604361,2606234,5743,454,,23567,19794,59,650,2579208,3968,2427,24887,1807,3414
1,75,P a r i s,2229621,2187526,2175601,105,20641,96400.0,75439,67502,75,1,2249975,2249975,4007,48301,1350,11750
2,13,B o u c h e s - d u - R h ô n e,1993177,2024162,2034357,5087,400,34200.0,27818,23521,13,119,1975896,16604,2570,26751,2106,3996
3,93,S e i n e - S a i n t - D e n i s,1552482,1623111,1632677,236,6912,38900.0,27420,23305,93,40,1529928,38248,2398,21768,2191,3095
4,92,H a u t s - d e - S e i n e,1591403,1609306,1619120,176,9221,97500.0,73277,62244,92,36,1581628,43934,3885,45966,1604,9162


On enregistre finalement ce data frame au format csv en prévision de la suite de nos analyses. 

In [13]:
filename = 'df.csv'
df.to_csv(filename, index=False, encoding='utf-8')