In [None]:
# Les prérequis usuels
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


Continuons avec notre exemple de typologie de rejets.

In [None]:
kapi_rejets = pd.read_csv('../data/base_kapi_rejets.csv', sep=';', encoding='ANSI')

# 3.1 Sélectionner les types de rejets à propos du Dictionnaire

J'aimerais savoir quel information a le plus d'erreurs concernant le Dictionnaire. Tout d'abord, nous jetterons un coup d'œil aux données pour voir à quoi elles ressemblent :

In [None]:
kapi_rejets[:5]

Pour obtenir les erreurs dictionnaire, il faut trouver les lignes où la colonne "Type d'erreur" est "Dictionnaire". Je vais vous montrer comment faire, puis vous expliquer ce qui se passe. 

In [None]:
erreurs_dictionnaire = kapi_rejets[kapi_rejets['Type_erreur'] == "Dictionnaire"]
erreurs_dictionnaire[:3]

Si vous examinez `erreurs_dictionnaire`, vous verrez que cela a fonctionné, et qu'il ne contient que des erreurs avec le bon type d'erreurs. Mais comment cela fonctionne-t-il ? Déconstruisons-le en deux parties

In [None]:
kapi_rejets['Type_erreur'] == "Dictionnaire"

Il s'agit d'un grand tableau de "Vrai" et de "Faux", un pour chaque ligne de notre dataframe. Lorsque nous indexons notre dataframe avec ce tableau, nous obtenons juste les lignes où notre tableau booléen a été évalué à `True`.  Il est important de noter que pour le filtrage de lignes par un tableau booléen, la longueur de l'index de notre dataframe doit être la même que celle du tableau booléen utilisé pour le filtrage.

Vous pouvez également combiner plus d'une condition avec l'opérateur `&` comme ceci :

In [None]:
est_dictionnaire = kapi_rejets['Type_erreur'] == "Dictionnaire"
est_ZYGR = kapi_rejets['INFO'] == "ZYGR"
kapi_rejets[est_dictionnaire & est_ZYGR][:5]

Ou si nous voulons plus de colonne :

In [None]:
kapi_rejets[est_dictionnaire & est_ZYGR][['ID','INFO', 'Type_erreur', 'Libellé ou Code erreur', 'Analyse CISIRH ']][:10]

# 3.2 Une digression à propos des tableaux numpy

A l'intérieur, le type de colonne est `pd.Series`

In [None]:
pd.Series([1,2,3])

et les Series pandas sont en interne des tableaux numpy. Si vous ajoutez `.values` à la fin des `Series`, vous obtiendrez des tableaux internes numpy.

In [None]:
np.array([1,2,3])

In [None]:
pd.Series([1,2,3]).values

Donc, cette activité de sélection de binaires est en fait quelque chose qui fonctionne avec n'importe quel tableau numpy :

In [None]:
arr = np.array([1,2,3])

In [None]:
arr != 2

In [None]:
arr[arr != 2]

# 3.3 Alors, quel est l'information qui a le plus de rejets au sujet du Dictionnaire ?

In [None]:
est_dictionnaire = kapi_rejets['Type_erreur'] == "Dictionnaire"

erreur_dictionnaire = kapi_rejets[est_dictionnaire]
erreur_dictionnaire['INFO'].value_counts()

C'est ZYGR ! Mais que se passerait-il si nous voulions diviser par le nombre total d'erreurs, pour que cela ait un peu plus de sens ? Ce serait facile aussi :

In [None]:
nombre_erreurs_dictionnaire = erreur_dictionnaire['INFO'].value_counts()
nombre_erreurs = kapi_rejets['INFO'].value_counts()

In [None]:
rapport_erreur=nombre_erreurs_dictionnaire / nombre_erreurs
rapport_erreur

Oups, pourquoi c'était NaN ? Ce n'est pas bon signe. C'est à cause de l'absence d'erreur Dictionnaire sur ces informations. Corrigeons cela, en ajoutant la fonction `dropna()`.

In [None]:
rapport_erreur.dropna()

In [None]:
(rapport_erreur.dropna()).plot(kind='bar')

Trop d'informations tue l'information ! Surpris ?.

<style>
    @font-face {
        font-family: "Computer Modern";
        src: url('http://mirrors.ctan.org/fonts/cm-unicode/fonts/otf/cmunss.otf');
    }
    div.cell{
        width:800px;
        margin-left:16% !important;
        margin-right:auto;
    }
    h1 {
        font-family: Helvetica, serif;
    }
    h4{
        margin-top:12px;
        margin-bottom: 3px;
       }
    div.text_cell_render{
        font-family: Computer Modern, "Helvetica Neue", Arial, Helvetica, Geneva, sans-serif;
        line-height: 145%;
        font-size: 130%;
        width:800px;
        margin-left:auto;
        margin-right:auto;
    }
    .CodeMirror{
            font-family: "Source Code Pro", source-code-pro,Consolas, monospace;
    }
    .text_cell_render h5 {
        font-weight: 300;
        font-size: 22pt;
        color: #4057A1;
        font-style: italic;
        margin-bottom: .5em;
        margin-top: 0.5em;
        display: block;
    }
    
    .warning{
        color: rgb( 240, 20, 20 )
        }  