# Séance 7 - Tri à plat et tableau croisé

Chargement de l'ensemble des fonctions nécessaires

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

#Création d'une fonction qui met en forme un tableau
def tri_a_plat(colonne):
    effectif = colonne.value_counts().sort_index()
    pourcentage = round(100*colonne.value_counts(normalize=True),1)
    tableau = pd.DataFrame([effectif,pourcentage]).T
    tableau.columns = ["Effectif","Pourcentage (%)"]
    return tableau

#Création d'une fonction qui fait un tableau croisé
def tableau_croise(c1,c2):
    t_absolu = pd.crosstab(c1,c2,margins=True)
    t_pourcentage = pd.crosstab(c1,c2)\
            .apply(lambda x: 100*x/sum(x),axis=1)
    t = t_absolu.copy()
    for i in range(0,t_pourcentage.shape[0]):
        for j in range(0,t_pourcentage.shape[1]):
            t.iloc[i,j] = str(t_absolu.iloc[i,j]) \
            +" ("+str(round(t_pourcentage.iloc[i,j],1))+"%)"
    return t

Chargement des données

In [3]:
#enquete = pd.read_csv("../mathSHS/Données/enquete2011.csv")
url = "https://raw.githubusercontent.com/emilienschultz/mathSHS/master/Donn%C3%A9es/enquete2011.csv"
enquete = pd.read_csv(url)
    
print(list(enquete.columns))

['Unnamed: 0', 'ident', 'poids1', 'in06', 'regsof', 'habp', 'rs1', 'rs2', 'age', 'rs3', 'rs5', 'rs6', 'pcsip', 'rs6b', 'rs7', 'rs7b', 'pcsp', 'rs9', 'rs9b', 'rs69b', 'q1_1', 'q1_2', 'q1_3', 'q1_4', 'q1_5', 'q1_6', 'q1_7', 'q1_8', 'q1_9', 'q1_10', 'q2', 'm_q29_1', 'm_q29_2', 'm_q29_3', 'm_q29_4', 'm_q29_5', 'm_q29_6', 'm_q29_7', 'm_q29_8', 'm_q29_9', 'm_q29_10', 'm_q29_11', 'm_q29_12', 'm_q29_13', 'm_q29_14', 'm_q29_15', 'm_q29_16', 'm_q29_17', 'm_q29_18', 'm_q29_19', 'm_q29_20', 'm_q29_21', 'm_q29_22', 'm_q29_23', 'm_q29_24', 'm_q29_25', 'm_q29_26', 'm_q29_27', 'm_q29_28', 'm_q29_29', 'q3_1', 'q3_2', 'q3_3', 'q3_4', 'q3_5', 'q3_6', 'q3_7', 'q3_8', 'q3_9', 'q3_10', 'q3_11', 'q4', 'q5_1', 'q5_2', 'q5_3', 'q5_4', 'q6_1', 'q6_2', 'q6_3', 'q6_4', 'q6_5', 'q6_6', 'q6_7', 'q6_8', 'q7', 'q8', 'q10', 'q11', 'q12', 'q13', 'q14_1', 'q14_2', 'q15', 'q16_1', 'q16_2', 'q16_3', 'q16_4', 'q16_5', 'q31', 'q17', 'q18', 'q19', 'q20', 'q21_1', 'q21_2', 'q21_3', 'q21_4', 'q21_5', 'q21_6', 'q21_7', 'q21_8',

Variables d'intérêt

- confiance dans la science q1_6
- intérêt dans la sciences q2
- intérêt politique rs15
- positionnement politique rs16
- religion rs17
- niveau d'étude nivet6
- revenu rs14
- PCS pp18

## Tri à plat

In [4]:
tri_a_plat(enquete["q1_6"])

Unnamed: 0,Effectif,Pourcentage (%)
Pas du tout confiance,12.0,1.2
Plutôt confiance,691.0,69.2
Plutôt pas confiance,92.0,9.2
Très confiance,204.0,20.4


Attention pour les variables manquantes

In [13]:
tri_a_plat(enquete["q2"])

Unnamed: 0,Effectif,Pourcentage (%)
Assez,413.0,40.3
Beaucoup,147.0,14.3
Pas du tout,120.0,11.7
Peu,346.0,33.7


## Recodage

In [11]:
recodage = {'Plutôt confiance':"Confiance", 'Très confiance':"Confiance", 'Plutôt pas confiance':"Pas confiance",
       'Pas du tout confiance':"Pas confiance"}

enquete["confiance"] = enquete["q1_6"].replace(recodage).fillna("Pas de réponse")

In [12]:
tri_a_plat(enquete["confiance"])

Unnamed: 0,Effectif,Pourcentage (%)
Confiance,895.0,87.1
Pas confiance,104.0,10.1
Pas de réponse,28.0,2.7


In [15]:
recodage = {'Assez':"Oui", 'Peu':"Non", 'Pas du tout':"Non", 'Beaucoup':"Oui"}
enquete["interet"] = enquete["q2"].replace(recodage).fillna("Pas de réponse")
tri_a_plat(enquete["interet"])

Unnamed: 0,Effectif,Pourcentage (%)
Non,466.0,45.4
Oui,560.0,54.5
Pas de réponse,1.0,0.1


## Tableau croisé

In [17]:
tableau_croise(enquete["rs15"],enquete["interet"])

interet,Non,Oui,Pas de réponse,All
rs15,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Beaucoup,61 (24.4%),188 (75.2%),1 (0.4%),250
Pas du tout,111 (68.1%),52 (31.9%),0 (0.0%),163
Très peu,113 (58.9%),79 (41.1%),0 (0.0%),192
Un peu,181 (42.9%),241 (57.1%),0 (0.0%),422
All,466,560,1,1027
