# Nantes Social

Dans ce projet nous allons étudier les données de l'open data de Nantes
- La première difficulté vient du fait que nous avons 2 jeux de données différents. 
Nous importons Pandas et Numpy

In [1]:
import pandas as pd
import numpy as np

Puis nous importons notre premier jeu de données concernant les bénéficiaires du RSA (Revenu de Solidarité Active) dans les différentes communes de l'agglomération nantaise. 

In [2]:
dfRSA = pd.read_csv('donnees/Beneficiaires_RSA_Commune.csv', header = 0)

Observons ce jeu de données

In [3]:
dfRSA.head(10)

Unnamed: 0,location,Commune,Annee,Nombre de bénéficaires du RSA
0,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2010,39.0
1,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2015,43.0
2,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2011,43.0
3,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2012,41.0
4,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2013,38.0
5,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2014,41.0
6,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2010,31.0
7,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2015,38.0
8,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2011,33.0
9,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2012,33.0


Nous avons un jeu de données représentant le nombre de bénéficiaire du RSA par commune et par année de 2010 à 2015

In [4]:
dfRSA.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1326 entries, 0 to 1325
Data columns (total 4 columns):
location                         1326 non-null object
Commune                          1326 non-null object
Annee                            1326 non-null int64
Nombre de bénéficaires du RSA    1310 non-null float64
dtypes: float64(1), int64(1), object(2)
memory usage: 41.5+ KB


Notre tableau est composé de 4 colonnes : 
- La 1ère est un objet qui indique la situation géographique par position GPS. Nous n'en aurons pas besoin. 
- La 2ème est un objet qui nous indique le nom de la ville
- La 3ème correspond à l'année. C'est un int64
- la dernière est le nombre de bénéficiaire renseignée sous forme de float64

Nous allons maintenant importer notre 2ème jeu de données. Il s'agit des bénéficiaires du FSL : Fond de Solidarité Logement. 

In [5]:
dfFSL = pd.read_csv('donnees/Beneficiaires_FSL_Commune.csv', header = 0)

In [None]:
Observons ce jeu de données :

In [32]:
dfFSL.head(10)

Unnamed: 0,location,Commune,Annee,Nombre de bénéficaires de l'accompagnement FSL,NbFill,nbfill
0,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2010,,,0.0
1,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2011,,,0.0
2,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2012,,,0.0
3,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2013,,,0.0
4,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2014,,,0.0
5,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2015,,,0.0
6,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2010,0.0,0.0,0.0
7,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2011,0.0,0.0,0.0
8,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2012,0.0,0.0,0.0
9,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2013,,,0.0


Nous constatons que nous avons un tableau quasi identique au 1er :
    - En 1er la localisation GPS dont nous n'avons pas besoin
    - En second le nom de la commune
    - en 3ème l'année de 2010 à 2015
    - En dernier le nombre de bénéficiaires du FSL
    Là nous constatons que beaucoup de données ne sont pas renseignées. 

Nous redéfinissons notre tableaux de données en supprimant la 1ère colonne et en ajoutant une colonne à remplir. 

In [15]:
dfFSL['NbFill'] = dfFSL['Nombre de bénéficaires de l\'accompagnement FSL']
dfFSL [dfFSL['Nombre de bénéficaires de l\'accompagnement FSL'].isnull()][['Commune','Annee','Nombre de bénéficaires de l\'accompagnement FSL','NbFill']].head(50)


Unnamed: 0,Commune,Annee,Nombre de bénéficaires de l'accompagnement FSL,NbFill
0,ABBARETZ,2010,,
1,ABBARETZ,2011,,
2,ABBARETZ,2012,,
3,ABBARETZ,2013,,
4,ABBARETZ,2014,,
5,ABBARETZ,2015,,
9,AIGREFEUILLE-SUR-MAINE,2013,,
10,AIGREFEUILLE-SUR-MAINE,2014,,
11,AIGREFEUILLE-SUR-MAINE,2015,,
19,ANETZ,2011,,


In [16]:
dfFSL.describe()



Unnamed: 0,Annee,Nombre de bénéficaires de l'accompagnement FSL,NbFill
count,1326.0,728.0,728.0
mean,2012.5,6.133242,6.133242
std,1.708469,26.615456,26.615456
min,2010.0,0.0,0.0
25%,2011.0,,
50%,2012.5,,
75%,2014.0,,
max,2015.0,314.0,314.0


En raison des cases non renseignées nous obtenons une erreur. En effet Python ne peut effectuer de calculs sur des cellules comportant des caractères. 
Nous allons d'abord montrer la moyenne et la médiane générale pour nos 2 tableau puis le nombre de bénéficiaire par ville et par année. 

In [20]:
dfRSA.median()

Annee                            2012.5
Nombre de bénéficaires du RSA      35.5
dtype: float64

In [21]:
dfFSL.median()

Annee                                             2012.5
Nombre de bénéficaires de l'accompagnement FSL       0.0
NbFill                                               0.0
dtype: float64

In [22]:
dfRSA.mean()

Annee                            2012.500000
Nombre de bénéficaires du RSA     160.903053
dtype: float64

In [23]:
dfFSL.mean()

Annee                                             2012.500000
Nombre de bénéficaires de l'accompagnement FSL       6.133242
NbFill                                               6.133242
dtype: float64

Nous constatons que nous avons bien plus de bénéficiaires du RSA que du FSL. 

In [25]:
dfFSL["nbfill"]=dfFSL["Nombre de bénéficaires de l'accompagnement FSL"].fillna(dfFSL["Nombre de bénéficaires de l'accompagnement FSL"].median())

In [26]:
dfFSL.head(50)

Unnamed: 0,location,Commune,Annee,Nombre de bénéficaires de l'accompagnement FSL,NbFill,nbfill
0,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2010,,,0.0
1,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2011,,,0.0
2,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2012,,,0.0
3,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2013,,,0.0
4,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2014,,,0.0
5,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2015,,,0.0
6,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2010,0.0,0.0,0.0
7,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2011,0.0,0.0,0.0
8,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2012,0.0,0.0,0.0
9,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2013,,,0.0


In [27]:
dFslV = dfFSL.groupby("Commune")

In [29]:
dfFSL.head(20)

Unnamed: 0,location,Commune,Annee,Nombre de bénéficaires de l'accompagnement FSL,NbFill,nbfill
0,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2010,,,0.0
1,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2011,,,0.0
2,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2012,,,0.0
3,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2013,,,0.0
4,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2014,,,0.0
5,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2015,,,0.0
6,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2010,0.0,0.0,0.0
7,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2011,0.0,0.0,0.0
8,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2012,0.0,0.0,0.0
9,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2013,,,0.0


In [30]:
dFslV.median()

Unnamed: 0_level_0,Annee,Nombre de bénéficaires de l'accompagnement FSL,NbFill,nbfill
Commune,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
ABBARETZ,2012.5,,,0.0
AIGREFEUILLE-SUR-MAINE,2012.5,0.0,0.0,0.0
ANCENIS,2012.5,16.5,16.5,16.5
ANETZ,2012.5,0.0,0.0,0.0
ARTHON-EN-RETZ,2012.5,0.0,0.0,0.0
ASSERAC,2012.5,0.0,0.0,0.0
AVESSAC,2012.5,,,0.0
BARBECHAT,2012.5,0.0,0.0,0.0
BASSE-GOULAINE,2012.5,0.0,0.0,0.0
BATZ-SUR-MER,2012.5,,,0.0


En constatant que nombre de données ne sont pas calculables pour certaines communes nous avons 2 possibilité :
- Soit certaines communes sont riches et n'ont pas de ce types de bénéficiaires
- Soit elles n'ont tout simplement pas répondu à la question. 
Nous allons donc les éliminer mais nous allons d'abord fusionner nos 2 tableaux du début. 
Commençons par renommer les colonnes puis par leur attribuer un index :
sub = df.ix[3:6,["annee","temps"]]
sub.columns = ["year","time"]

In [36]:

dfFSL.columns = ["location","Commune","Annee","NbFSL","Nbfill","nbfill"]
dfFSL.head(10)

Unnamed: 0,location,Commune,Annee,NbFSL,Nbfill,nbfill
0,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2010,,,0.0
1,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2011,,,0.0
2,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2012,,,0.0
3,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2013,,,0.0
4,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2014,,,0.0
5,"[ 47.5559053978 , -1.49321993821]",ABBARETZ,2015,,,0.0
6,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2010,0.0,0.0,0.0
7,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2011,0.0,0.0,0.0
8,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2012,0.0,0.0,0.0
9,"[ 47.071465819 , -1.41539314185]",AIGREFEUILLE-SUR-MAINE,2013,,,0.0


Nous allons maintenant joindre nos 2 tableaux en leur attribuant un index commun : La commune et l'année. 
dfi = df.set_index(["nom","prénom"])

In [37]:
dfFSLi = dfFSL.set_index(["Commune","Annee"])
dfRSAi = dfRSA.set_index(["Commune","Annee"])

In [38]:
df_RSA_FSL = pd.concat([dfRSA, dfFSL])

In [40]:
df_RSA_FSL.head(100)

Unnamed: 0,Annee,Commune,NbFSL,Nbfill,Nombre de bénéficaires du RSA,location,nbfill
0,2010,ABBARETZ,,,39.0,"[ 47.5559053978 , -1.49321993821]",
1,2015,ABBARETZ,,,43.0,"[ 47.5559053978 , -1.49321993821]",
2,2011,ABBARETZ,,,43.0,"[ 47.5559053978 , -1.49321993821]",
3,2012,ABBARETZ,,,41.0,"[ 47.5559053978 , -1.49321993821]",
4,2013,ABBARETZ,,,38.0,"[ 47.5559053978 , -1.49321993821]",
5,2014,ABBARETZ,,,41.0,"[ 47.5559053978 , -1.49321993821]",
6,2010,AIGREFEUILLE-SUR-MAINE,,,31.0,"[ 47.071465819 , -1.41539314185]",
7,2015,AIGREFEUILLE-SUR-MAINE,,,38.0,"[ 47.071465819 , -1.41539314185]",
8,2011,AIGREFEUILLE-SUR-MAINE,,,33.0,"[ 47.071465819 , -1.41539314185]",
9,2012,AIGREFEUILLE-SUR-MAINE,,,33.0,"[ 47.071465819 , -1.41539314185]",


là un désordre est arrivé. Nous allons recommencer par ordre + logique : 
- Fusionner les différents tableaux sur leur index
- oter les villes dont la médiane est incalculable
Puis reprendre notre étude. 
Notons que pour les parties suivantes j'envisageais d'étudier le lien avec le nombre d'intervention des travailleurs sociaux et le nombre d'école. Je commencerais donc par tenter une fusion de ces différends tableaux pour commencer. 
