**Dans cette section, on fait l'analyse descriptive de l'année 2018 dans la petite courounne de Paris pour les variables suivantes:**
* **Brevet**
* **Bac**
* **Catégorie Socioprofessionnelle**

# 0. Traitement des données et libraries

In [1]:
import pandas as pd
import numpy as np
import math
from matplotlib import pyplot as plt
import datetime as dt
import seaborn as sns
import plotly.express as px
%matplotlib inline
import sys
import warnings
from  matplotlib.colors import LinearSegmentedColormap
if not sys.warnoptions:
    warnings.simplefilter("ignore")

In [2]:
# Base de données pour l'analyse de Brevet
#SOURCE:https://data.education.gouv.fr/explore/dataset/fr-en-dnb-par-etablissement/information/?disjunctive.session&disjunctive.numero_d_etablissement&disjunctive.denomination_principale&disjunctive.secteur_d_enseignement&disjunctive.commune_et_arrondissement&disjunctive.commune_et_arrondissement_lib_l&disjunctive.departement&disjunctive.departement_libelle&disjunctive.academie&disjunctive.academie_libelle&disjunctive.region&disjunctive.region_libelle
df_brevet=pd.read_csv("fr-en-dnb-par-etablissement.csv",  encoding='utf-8-sig', sep=';',na_values=["-"])

In [3]:
#Traiter les données pour transformer en valeur flotante
df_brevet['taux_de_reussite']=df_brevet['taux_de_reussite'].replace('[\%,]', '', regex=True).astype(float)/100

In [79]:
#Convertir automatiquement les données 
df_brevet.convert_dtypes(infer_objects=True, convert_string=True,
      convert_integer=True, convert_boolean=True, convert_floating=True);

In [5]:
#Convertir manuellement les donnees en datetime et object
df_brevet['session']=pd.to_datetime(df_brevet['session'], format= '%Y')
df_brevet['academie']=df_brevet['academie'].astype(str)
df_brevet['region']=df_brevet['region'].astype(str)
df_brevet['session'] = pd.DatetimeIndex(df_brevet['session']).year

In [6]:
#Sélectionner les départements de la petite couronne
df1_brevet=df_brevet[df_brevet['departement'].isin(['075','092','093','094'])]

In [38]:
#Valeur Manquantes
df1_brevet.isnull().sum().head(30)

session                             0
numero_d_etablissement              0
denomination_principale             0
patronyme                          24
secteur_d_enseignement              0
commune_et_arrondissement           0
commune_et_arrondissement_lib_l     0
departement                         0
departement_libelle                 0
academie                            0
academie_libelle                    0
region                              0
region_libelle                      0
nombre_d_inscrits                   0
nombre_de_presents                  0
nombre_total_d_admis                0
nombre_d_admis_sans_mention         0
nombre_d_admis_mention_ab           0
nombre_d_admis_mention_b            0
nombre_d_admis_mention_tb           0
taux_de_reussite                    0
dtype: int64

In [37]:
# Base de données pour l'analyse de BAC
#SOURCE:https://data.education.gouv.fr/explore/dataset/fr-en-indicateurs-de-resultat-des-lycees-denseignement-general-et-technologique/table/
df_bac=pd.read_csv('fr-en-indicateurs-de-resultat-des-lycees-denseignement-general-et-technologique.csv',   encoding='utf-8-sig', sep=';')

In [80]:
#Convertir automatiquement les données 
df_bac.convert_dtypes(infer_objects=True, convert_string=True,
      convert_integer=True, convert_boolean=True, convert_floating=True);

In [9]:
#Comme les lycées n'ont pas les mêmes sections techniques, 
#une moyenne pondérée par le nombre d'élèves et le taux de réussite est calculée 
#afin d'avoir un indicateur représentatif.
df_bac['total_eleves_general']=df_bac['Presents - L']+df_bac['Presents - ES']+df_bac['Presents - S']
df_bac['Taux_reussite_general']=(df_bac['Presents - L']*df_bac['Taux de reussite - L']+df_bac['Presents - S']*df_bac['Taux de reussite - S']+df_bac['Presents - ES']*df_bac['Taux de reussite - ES'])/df_bac['total_eleves_general']
df_bac['Taux_mentions_general']=(df_bac['Presents - L']*df_bac['Taux de mentions - L']+df_bac['Presents - S']*df_bac['Taux de mentions - S']+df_bac['Presents - ES']*df_bac['Taux de mentions - ES'])/df_bac['total_eleves_general']

df_ayuda=df_bac[[
 'Presents - STG',
 'Presents - STI2D',
 'Presents - STD2A',
 'Presents - STMG',
 'Presents - STI',
 'Presents - STL',
 'Presents - ST2S',
 'Presents - TMD',
 'Presents - STHR',
 'Taux de reussite - STG',
 'Taux de reussite - STI2D',
 'Taux de reussite - STD2A',
 'Taux de reussite - STMG',
 'Taux de reussite - STI',
 'Taux de reussite - STL',
 'Taux de reussite - ST2S',
 'Taux de reussite - TMD',
 'Taux de reussite - STHR',
 'Taux de mentions - STI2D',
 'Taux de mentions - STD2A',
 'Taux de mentions - STMG',
 'Taux de mentions - STL',
 'Taux de mentions - ST2S',
 'Taux de mentions - TMD',
 'Taux de mentions - STHR']]  
df_ayuda=df_ayuda.fillna(0)

df_bac['total_eleves_technique']=df_ayuda['Presents - STG']+df_ayuda['Presents - STI2D']+df_ayuda['Presents - STD2A']+df_ayuda['Presents - STMG']+df_ayuda['Presents - STI']+df_ayuda['Presents - STL']+df_ayuda['Presents - ST2S']+df_ayuda['Presents - TMD']+df_ayuda['Presents - STHR']
df_bac['Taux_reussite_technique']= (df_ayuda['Presents - STG']*df_ayuda['Taux de reussite - STG']+ df_ayuda['Presents - STI2D']*df_ayuda['Taux de reussite - STI2D']+df_ayuda['Presents - STD2A']*df_ayuda['Taux de reussite - STD2A']+df_ayuda['Presents - STMG']*df_ayuda['Taux de reussite - STMG']+df_ayuda['Presents - STI']*df_ayuda['Taux de reussite - STI']+df_ayuda['Presents - STL']*df_ayuda['Taux de reussite - STL']+df_ayuda['Presents - ST2S']*df_ayuda['Taux de reussite - ST2S']+df_ayuda['Presents - TMD']*df_ayuda['Taux de reussite - TMD']+df_ayuda['Presents - STHR']*df_ayuda['Taux de reussite - STHR'])/df_bac['total_eleves_technique']
df_bac['Taux_mentions_technique']= (df_ayuda['Presents - STI2D']*df_ayuda['Taux de mentions - STI2D']+df_ayuda['Presents - STD2A']*df_ayuda['Taux de mentions - STD2A']+df_ayuda['Presents - STMG']*df_ayuda['Taux de mentions - STMG']+df_ayuda['Presents - STL']*df_ayuda['Taux de mentions - STL']+df_ayuda['Presents - ST2S']*df_ayuda['Taux de mentions - ST2S']+df_ayuda['Presents - TMD']*df_ayuda['Taux de mentions - TMD']+df_ayuda['Presents - STHR']*df_ayuda['Taux de mentions - STHR'])/(df_bac['total_eleves_technique']-df_ayuda['Presents - STI']-df_ayuda['Presents - STG'])

df_bac['STG']=np.where(df_bac["Presents - STG"]>0, 1,0)
df_bac['STI2D']=np.where(df_bac["Presents - STI2D"]>0, 1,0)
df_bac['STD2A']=np.where(df_bac["Presents - STD2A"]>0, 1,0)
df_bac['STMG']=np.where(df_bac["Presents - STMG"]>0, 1,0)
df_bac['STI']=np.where(df_bac["Presents - STI"]>0, 1,0)
df_bac['STL']=np.where(df_bac["Presents - STL"]>0, 1,0)
df_bac['ST2S']=np.where(df_bac["Presents - ST2S"]>0, 1,0)
df_bac['TMD']=np.where(df_bac["Presents - TMD"]>0, 1,0)
df_bac['STHR']=np.where(df_bac["Presents - STHR"]>0, 1,0)

df_bac['Nombre_section_tecnique']=df_bac['STG']+df_bac['STI2D']+df_bac['STD2A']+df_bac['STMG']+df_bac['STI']+df_bac['STL']+df_bac['ST2S']+df_bac['TMD']+df_bac['STHR']

In [10]:
df1_bac=df_bac[df_bac['Region'].isin(['Ile-de-France']) & df_bac['code_departement'].isin(['75','92','93','94'])]

In [11]:
df1_bac=df1_bac[["Taux_mentions_technique", "Taux_mentions_general","total_eleves_general","total_eleves_technique","Nombre_section_tecnique", "Taux_reussite_general", "Taux_reussite_technique", "Etablissement","Annee","Ville","UAI","Code commune","Academie","Departement","Secteur","Presents - L","Presents - ES","Presents - S","Presents - STG","Presents - STI2D","Presents - STD2A","Presents - STMG","Presents - STI","Presents - STL","Presents - ST2S","Presents - TMD","Presents - STHR","Presents - Toutes series","Taux de reussite - L","Taux de reussite - ES","Taux de reussite - S","Taux de reussite - STG","Taux de reussite - STI2D","Taux de reussite - STD2A","Taux de reussite - STMG","Taux de reussite - STI","Taux de reussite - STL","Taux de reussite - ST2S","Taux de reussite - TMD","Taux de reussite - STHR","Taux de reussite - Toutes series","Taux de reussite attendu france - L","Taux de reussite attendu france - ES","Taux de reussite attendu france - S","Taux de reussite attendu france - STG","Taux de reussite attendu france - STI2D","Taux de reussite attendu france - STD2A","Taux de reussite attendu france - STMG","Taux de reussite attendu france - STI","Taux de reussite attendu france - STL","Taux de reussite attendu france - ST2S","Taux de reussite attendu france - TMD","Taux de reussite attendu france - STHR","Taux de reussite attendu france - Toutes series","Taux de mentions - L","Taux de mentions - ES","Taux de mentions - S","Taux de mentions - STI2D","Taux de mentions - STD2A","Taux de mentions - STMG","Taux de mentions - STL","Taux de mentions - ST2S","Taux de mentions - TMD","Taux de mentions - STHR","Taux de mentions - Toutes series","Taux de mentions attendu - L","Taux de mentions attendu - ES","Taux de mentions attendu - S","Taux de mentions attendu - STI2D","Taux de mentions attendu - STD2A","Taux de mentions attendu - STMG","Taux de mentions attendu - STL","Taux de mentions attendu - ST2S","Taux de mentions attendu - TMD","Taux de mentions attendu - STHR","Taux de mentions attendu - Toutes series","Structure pedagogique 5 groupes","Structure pedagogique 7 groupes","Effectif de seconde","Effectif de premiere","Effectif de terminale","Taux d'acces 2nde-bac","Taux d'acces attendu france 2nde-bac","Taux d'acces 1ere-bac","Taux d'acces attendu france 1ere-bac","Taux d'acces terminale-bac", "Taux d'acces attendu france terminale-bac","Region","Code region","code_departement"]]

In [12]:
cmap=LinearSegmentedColormap.from_list('rg',["r", "w", "g"], N=256)

# 1. Analyse des indicateurs en 2018

## 1.1 Analyse du taux de réussite au Brevet 

### 1.1.1 Par département

In [47]:
df1_brevet[df1_brevet['session']==2018].groupby(['departement_libelle'])['taux_de_reussite','nombre_d_admis_mention_tb','nombre_d_admis_mention_ab', 'nombre_d_admis_mention_b', 'nombre_d_admis_sans_mention'].mean().round(2)

Unnamed: 0_level_0,taux_de_reussite,nombre_d_admis_mention_tb,nombre_d_admis_mention_ab,nombre_d_admis_mention_b,nombre_d_admis_sans_mention
departement_libelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
HAUTS-DE-SEINE,90.66,37.98,22.07,28.16,22.9
PARIS,87.03,40.86,16.78,22.57,13.62
SEINE-SAINT-DENIS,82.46,19.14,25.19,21.47,29.51
VAL-DE-MARNE,85.17,25.22,21.4,22.59,23.16


***On voit que Paris et des Hautes-de-Seine presentent les meilleurs taux de réussite au Brevet 2018, soutenus par une nombre plus grande de mentions très bien et un nombre plus faible de sans mentions.***

### 1.1.2 Par Commune

In [93]:
df1_brevet[(df1_brevet['academie_libelle']=='PARIS') & (df1_brevet['session']==2018)].groupby(['commune_et_arrondissement_lib_l'])['taux_de_reussite','nombre_d_admis_mention_tb','nombre_d_admis_mention_ab', 'nombre_d_admis_mention_b', 'nombre_d_admis_sans_mention'].mean().round(2).sort_values(by=['taux_de_reussite'], ascending=False)

Unnamed: 0_level_0,taux_de_reussite,nombre_d_admis_mention_tb,nombre_d_admis_mention_ab,nombre_d_admis_mention_b,nombre_d_admis_sans_mention
commune_et_arrondissement_lib_l,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
PARIS 8E ARRONDISSEMENT,97.98,122.25,25.5,39.75,10.5
PARIS 5E ARRONDISSEMENT,97.83,65.86,12.71,23.29,7.71
PARIS 4E ARRONDISSEMENT,95.78,64.2,17.6,36.6,9.0
PARIS 7E ARRONDISSEMENT,94.92,44.5,14.88,24.88,8.38
PARIS 2E ARRONDISSEMENT,94.9,43.0,15.0,11.0,6.0
PARIS 16E ARRONDISSEMENT,92.98,80.47,17.73,29.67,8.33
PARIS 1ER ARRONDISSEMENT,91.4,36.0,5.0,22.0,12.0
PARIS 11E ARRONDISSEMENT,89.86,26.91,14.27,20.55,12.36
PARIS 9E ARRONDISSEMENT,89.82,33.8,16.2,18.6,11.2
PARIS 6E ARRONDISSEMENT,89.1,58.9,12.0,20.4,9.0


**Au niveau de commune, on voit que le 8ème, 5ème, 4ème, 7ème, 2ème, 16ème arrondissements ont le taux de reussitte plus haute, plus de 90%.**

## 1.2 Analyse du taux de réussite au BAC (Technique et géneral)

In [94]:
df_bac.isnull().sum().head(30)

Etablissement                   0
Annee                           0
Ville                           0
UAI                             0
Code commune                    0
Academie                        0
Departement                     0
Secteur                         0
Presents - L                 4732
Presents - ES                3030
Presents - S                 1866
Presents - STG              18360
Presents - STI2D            16052
Presents - STD2A            20132
Presents - STMG             12142
Presents - STI              20215
Presents - STL              18520
Presents - ST2S             16851
Presents - TMD              20632
Presents - STHR             20239
Presents - Toutes series        0
Taux de reussite - L         4732
Taux de reussite - ES        3030
Taux de reussite - S         1866
Taux de reussite - STG      18360
Taux de reussite - STI2D    16052
Taux de reussite - STD2A    20132
Taux de reussite - STMG     12142
Taux de reussite - STI      20215
Taux de reussi

***Parce que certains parcours tel section STD2A, section STG.. etc. que n'existent pas dans les lycées étudiés, donc il a l'air logique qu'on ait des valeurs manquantes dans ces sections.***

### 1.2.1 Nombre des élèves

In [129]:
fig = px.histogram(df1_bac[df1_bac['Annee']==2018].groupby(['Annee','code_departement'])['total_eleves_technique'].sum().reset_index(), x='code_departement',y="total_eleves_technique", title='Total élèves - TECHNIQUE', width=950, height=560)
fig.update_layout(legend =dict(font = dict(family = "Courier", size = 10, color = "black")),
                  legend_title = dict(font = dict(size = 20, color = "blue")))
fig.show()

In [127]:
fig = px.histogram(df1_bac[df1_bac['Annee']==2018].groupby(['Annee','code_departement'])['total_eleves_general'].sum().reset_index(), x='code_departement',y="total_eleves_general", title='T - GENERAL', width=950, height=560)
fig.update_layout(legend =dict(font = dict(family = "Courier", size = 10, color = "black")),
                  legend_title = dict(font = dict(size = 20, color = "blue")))
fig.show()

***On constate qu'il existe une différence dans la proportion du nombre d'étudiants en section générale et technique entre les départements. Nous avons plus d'étudiants en section générale en 75 et plus d'étudiants en section technique en 93.***

In [97]:
df2_bac=df1_bac[df1_bac['Academie']=='PARIS']
fig = px.histogram(df2_bac[df2_bac['Annee']==2019].groupby(['Annee','Ville'])['total_eleves_technique'].sum().reset_index(), x='Ville',y="total_eleves_technique", title='Total eleves - TECHNIQUE', width=950, height=560)
fig.update_layout(legend =dict(font = dict(family = "Courier", size = 10, color = "black")),
                  legend_title = dict(font = dict(size = 20, color = "blue")))
fig.show()

In [98]:
df2_bac=df1_bac[df1_bac['Academie']=='PARIS']
fig = px.histogram(df2_bac[df2_bac['Annee']==2019].groupby(['Annee','Ville'])['total_eleves_general'].sum().reset_index(), x='Ville',y="total_eleves_general", title='Total eleves - GENERAL', width=950, height=560)
fig.update_layout(legend =dict(font = dict(family = "Courier", size = 10, color = "black")),
                  legend_title = dict(font = dict(size = 20, color = "blue")))
fig.show()

***Au niveau de l'arrondissement, on peut apprécier une présence plus importante d'étudiants appartenant aux sections techniques dans les 6ème, 13ème, 14ème et 19ème. Alors que la section générale n'est pas dans la même proportion, maintenant une forte présence d'étudiants appartenant au 16ème et 06ème arrondissement.***

### 1.2.2 BAC général

In [99]:
df1=df_bac.loc[df_bac['Academie'] == 'PARIS']
df2=df1[['Etablissement','Annee','Ville','Academie','Taux de reussite - L','Taux de reussite - ES','Taux de reussite - S']]

In [100]:
df3 = df2[['Etablissement','Annee','Ville','Academie','Taux de reussite - L','Taux de reussite - ES','Taux de reussite - S']]
df3=df2.loc[df2['Annee'] == 2018.0]

In [115]:
df3.groupby(['Ville','Annee']).agg(avg_tx_réussite_L=('Taux de reussite - L','mean'),avg_tx_réussite_ES = ('Taux de reussite - ES', 'mean'),avg_tx_réussite_S = ('Taux de reussite - S', 'mean')).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,avg_tx_réussite_L,avg_tx_réussite_ES,avg_tx_réussite_S
Ville,Annee,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PARIS 03,2018,95.67,95.5,93.0
PARIS 04,2018,99.5,98.75,99.5
PARIS 05,2018,100.0,100.0,99.8
PARIS 06,2018,98.29,97.71,98.5
PARIS 07,2018,95.75,98.0,99.83
PARIS 08,2018,99.5,99.67,98.33
PARIS 09,2018,93.2,93.0,88.6
PARIS 10,2018,98.25,96.0,95.25
PARIS 11,2018,94.0,84.0,91.25
PARIS 12,2018,95.0,93.0,92.83


***En l'année 2018, le 5e arrodissement a obtenu de bons résultats, avec un taux de réussite de près de 100 % sur les trois parcours du Bac, suivi par des taux de réussite élevés pour les élèves des 4e et 8e arrondissements, et des taux de réussite supérieurs à 80 % dans tous les autres arrondissements, à l'exception du 18e arrondissement , qui a enregistré un taux de réussite de seulement 69 % sur le parcours littérature en l'année 2018.***

### 1.2.3 BAC technique

In [102]:

df2a = df1[['Etablissement','Annee','Ville','Academie','Presents - STG',
 'Presents - STI2D',
 'Presents - STD2A',
 'Presents - STMG',
 'Presents - STI',
 'Presents - STL',
 'Presents - ST2S',
 'Presents - TMD',
 'Presents - STHR',
 'Taux de reussite - STG',
 'Taux de reussite - STI2D',
 'Taux de reussite - STD2A',
 'Taux de reussite - STMG',
 'Taux de reussite - STI',
 'Taux de reussite - STL',
 'Taux de reussite - ST2S',
 'Taux de reussite - TMD',
 'Taux de reussite - STHR',
 'Taux de mentions - STI2D',
 'Taux de mentions - STD2A',
 'Taux de mentions - STMG',
 'Taux de mentions - STL',
 'Taux de mentions - ST2S',
 'Taux de mentions - TMD',
 'Taux de mentions - STHR']]
df4=df2a.loc[df2['Annee'] == 2018.0]

In [103]:
df_ayuda=df4[[
 'Presents - STG',
 'Presents - STI2D',
 'Presents - STD2A',
 'Presents - STMG',
 'Presents - STI',
 'Presents - STL',
 'Presents - ST2S',
 'Presents - TMD',
 'Presents - STHR',
 'Taux de reussite - STG',
 'Taux de reussite - STI2D',
 'Taux de reussite - STD2A',
 'Taux de reussite - STMG',
 'Taux de reussite - STI',
 'Taux de reussite - STL',
 'Taux de reussite - ST2S',
 'Taux de reussite - TMD',
 'Taux de reussite - STHR',
 'Taux de mentions - STI2D',
 'Taux de mentions - STD2A',
 'Taux de mentions - STMG',
 'Taux de mentions - STL',
 'Taux de mentions - ST2S',
 'Taux de mentions - TMD',
 'Taux de mentions - STHR']]  
df_ayuda=df_ayuda.fillna(0)
df4['total_eleves_technique']=df_ayuda['Presents - STG']+df_ayuda['Presents - STI2D']+df_ayuda['Presents - STD2A']+df_ayuda['Presents - STMG']+df_ayuda['Presents - STI']+df_ayuda['Presents - STL']+df_ayuda['Presents - ST2S']+df_ayuda['Presents - TMD']+df_ayuda['Presents - STHR']
df4['Taux_reussite_technique']= (df_ayuda['Presents - STG']*df_ayuda['Taux de reussite - STG']+ df_ayuda['Presents - STI2D']*df_ayuda['Taux de reussite - STI2D']+df_ayuda['Presents - STD2A']*df_ayuda['Taux de reussite - STD2A']+df_ayuda['Presents - STMG']*df_ayuda['Taux de reussite - STMG']+df_ayuda['Presents - STI']*df_ayuda['Taux de reussite - STI']+df_ayuda['Presents - STL']*df_ayuda['Taux de reussite - STL']+df_ayuda['Presents - ST2S']*df_ayuda['Taux de reussite - ST2S']+df_ayuda['Presents - TMD']*df_ayuda['Taux de reussite - TMD']+df_ayuda['Presents - STHR']*df_ayuda['Taux de reussite - STHR'])/df4['total_eleves_technique']

In [116]:
df4.groupby(['Ville','Annee']).agg(avg_tx_réussite_tech= ('Taux_reussite_technique','mean')).round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,avg_tx_réussite_tech
Ville,Annee,Unnamed: 2_level_1
PARIS 03,2018,91.5
PARIS 04,2018,100.0
PARIS 05,2018,97.0
PARIS 06,2018,99.04
PARIS 07,2018,98.51
PARIS 08,2018,98.0
PARIS 09,2018,82.5
PARIS 10,2018,
PARIS 11,2018,95.5
PARIS 12,2018,92.67


***On observe que les 4e，6e，7e, 8e, 13e arrondissements de Paris sont très performants avec le note moyen supérieur à 95 en l'année 2018 et par contre que les moins performants sont les 9e, 14e et 15e arrondissements de Paris, ils ont eu un note moyen inférieur à 90 en l'année 2018.***

## 1.3 Analyse des données socio-economiques

In [105]:
#Base de données pour l'analyse de CSP
#SOURCE: https://www.insee.fr/fr/statistiques/5395838?sommaire=5395900#consulter
idf= pd.read_excel('Ale/Donn/soceco2018.xlsx')

In [106]:
# Le taux de chomage 
# Tous 15-64
idf['TCHOM1564']= 100*idf['P18_CHOM1564'] / idf['P18_ACT1564']

In [107]:
# Part de cadres dans la population active
idf['TCADACTOCC1564'] = 100*idf['C18_ACTOCC1564_CS3'] / idf['C18_ACTOCC1564']

In [108]:
# Le taux d'emploi 
# Tous 15-64
idf['TEMPL1564']= 100*idf['P18_ACTOCC1564'] / idf['P18_POP1564']

In [109]:
# On vien de computer les statistiques pour les autres categories socioprofessionnelles.
# Part d'artisans, commercants et chefs d'entreprise dans la population active
idf['TACCACTOCC1564'] = 100*idf['C18_ACTOCC1564_CS2'] / idf['C18_ACTOCC1564']

In [110]:
# Part de professionnelles intermediares dans la population active occupée.
idf['TINTACTOCC1564'] = 100*idf['C18_ACTOCC1564_CS4'] / idf['C18_ACTOCC1564']

In [111]:
# Part d'employés dans la population active occupée.
idf['TEMPLACTOCC1564'] = 100*idf['C18_ACTOCC1564_CS5'] / idf['C18_ACTOCC1564']

In [112]:
# Part d'ouvriers dans la population active occupée.
idf['TOUVRACTOCC1564'] = 100*idf['C18_ACTOCC1564_CS6'] / idf['C18_ACTOCC1564']

### Pour une meilleure visualisation et computation des statistiques descriptives on selectionne que les variables qu'on veut observer.

In [113]:
idf= idf[['CODGEO','DEP','LIBGEO','TEMPL1564','TCHOM1564','TCADACTOCC1564','TACCACTOCC1564','TINTACTOCC1564','TEMPLACTOCC1564',
         'TOUVRACTOCC1564']]
# On selectionne que les colomnes que on utiliserà 

In [114]:
idf.groupby('DEP')['TEMPL1564','TCHOM1564','TCADACTOCC1564','TACCACTOCC1564','TINTACTOCC1564','TEMPLACTOCC1564',
         'TOUVRACTOCC1564'].agg(['mean','std']).round(2)
# On montre le moyenne et la deviation standard pour les données

Unnamed: 0_level_0,TEMPL1564,TEMPL1564,TCHOM1564,TCHOM1564,TCADACTOCC1564,TCADACTOCC1564,TACCACTOCC1564,TACCACTOCC1564,TINTACTOCC1564,TINTACTOCC1564,TEMPLACTOCC1564,TEMPLACTOCC1564,TOUVRACTOCC1564,TOUVRACTOCC1564
Unnamed: 0_level_1,mean,std,mean,std,mean,std,mean,std,mean,std,mean,std,mean,std
DEP,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
75,69.78,3.68,10.84,1.87,50.65,5.47,6.65,2.12,21.08,2.65,16.41,3.12,5.18,1.74
92,70.01,4.14,10.49,2.79,42.47,10.42,5.15,1.63,23.89,2.37,20.86,5.98,7.61,4.07
93,60.95,6.19,17.03,4.35,16.78,8.19,5.46,1.04,25.2,4.07,32.61,5.51,19.93,6.36
94,67.32,4.31,11.7,3.2,26.75,10.68,5.48,1.73,27.16,2.79,27.37,5.91,13.19,5.78


***Le taux d'emploi est plus élevé dans le haut de seine comme le taux de chommage que dans ce cas est le plus bas en moyenne.
Dans Paris il y a moins d'ouvriers ou employées que dans la petite couronne, en particulier si on regarde la difference entre Paris et le departements 93/94 la difference est plus elevée. Ce constat est aussi observable dans le fait que il y a plus de cadres a Paris et dans le Hauts-de-Seine que dans le departements de Seine-Saint-Denis et Val-de-Marne.***

In [35]:
idf.loc[idf['DEP'] == 75].groupby('CODGEO')['TEMPL1564','TCHOM1564','TCADACTOCC1564','TACCACTOCC1564','TINTACTOCC1564','TEMPLACTOCC1564',
         'TOUVRACTOCC1564'].agg(['mean']).round(2)

Unnamed: 0_level_0,TEMPL1564,TCHOM1564,TCADACTOCC1564,TACCACTOCC1564,TINTACTOCC1564,TEMPLACTOCC1564,TOUVRACTOCC1564
Unnamed: 0_level_1,mean,mean,mean,mean,mean,mean,mean
CODGEO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
75101,70.41,10.65,51.09,9.33,19.83,15.34,4.41
75102,76.8,9.79,53.83,7.93,19.79,13.42,4.99
75103,74.05,9.96,52.6,8.07,21.97,13.86,3.5
75104,70.6,11.09,50.92,7.7,22.06,15.56,3.69
75105,65.0,9.15,57.44,6.38,19.62,13.04,3.49
75106,62.97,9.62,55.75,9.26,17.6,13.44,3.86
75107,68.32,9.01,54.25,9.73,16.87,15.27,3.8
75108,70.8,8.23,53.14,9.46,16.89,15.66,4.78
75109,75.28,9.47,57.48,7.74,18.82,11.95,3.98
75110,71.41,12.17,51.43,5.78,21.81,15.51,5.45


***Pour Paris, le taux de chommage est plus élevé dans le 19ème et 20ème arrondissements mais le taux d'emploi est plus bas dans le 6ème. Pour ce que regarde les catégories socio-professionnelles les cadres se situent hors 19ème et 20ème arrondissements que sont aussi les arrondissements avec le plus d'employées.***