In [None]:
# Préambule usuel
import pandas as pd
import matplotlib.pyplot as plt

# Améliore le graphique
# pd.set_option('display.mpl_style', 'default')

# This is necessary to show lots of columns in pandas 0.12. 
# Not necessary in pandas 0.13.
pd.set_option('display.width', 5000) 
pd.set_option('display.max_columns', 60)

plt.rcParams['figure.figsize'] = (15, 5)

Nous allons utiliser un nouvel ensemble de données ici, pour montrer comment traiter des ensembles de données plus importants. Il s'agit de notre base de capitalisation des rejets avec injections des bordereaux. 

In [None]:
kapi_rejets = pd.read_csv('../data/base_kapi_rejets.csv', sep=';', encoding='ANSI')

Selon la version de votre pandas, il se peut qu'une erreur comme "DtypeWarning : Les colonnes (8) ont des types mixtes". Cela signifie qu'il a rencontré un problème de lecture dans nos données. Dans ce cas, cela signifie presque certainement qu'il a des colonnes où certaines des entrées sont des chaînes de caractères et d'autres sont des entiers.

Pour l'instant, nous allons l'ignorer et espérer ne pas avoir de problème, mais à long terme, nous devrons enquêter sur cet avertissement.

# 2.1 Qu'est-ce qu'il y a dedans ? (le résumé)

Lorsque vous imprimez un grand bloc de données, il n'affiche que les premières lignes.

Si vous ne voyez pas ça, ne paniquez pas ! Le comportement par défaut pour les grandes trames de données a changé entre les pandas 0.12 et 0.13. Avant la version 0.13, il vous montrerait un résumé du dataframe. Ceci inclut toutes les colonnes, et combien de valeurs non nulles il y a dans chaque colonne.

In [None]:
kapi_rejets

# 2.2 Selectionner des colonnes et des lignes

Pour sélectionner une colonne, nous l'indexons avec le nom de la colonne, comme ceci :

In [None]:
kapi_rejets['Type_erreur']

Pour obtenir les 5 premières lignes d'un dataframe, on peut utiliser une tranche : `df[:5]`.

C'est une excellente façon de se faire une idée du type d'information contenue dans le cadre de données - prenez une minute pour examiner le contenu et se faire une idée de cet ensemble de données.

In [None]:
kapi_rejets[:5]

Nous pouvons les combiner pour obtenir les 5 premières lignes d'une colonne :

In [None]:
kapi_rejets['Type_erreur'][:5]

et peu importe dans quelle direction on le fait :

In [None]:
kapi_rejets[:5]['Type_erreur']

# 2.3 Selectionner de multiple colonnes

Que faire si nous voulons simplement connaître le type de plainte et l'arrondissement, mais pas le reste de l'information ? Pandas facilite grandement la sélection d'un sous-ensemble de colonnes : il suffit d'indexer avec la liste des colonnes que vous voulez.

In [None]:
kapi_rejets[['Type_erreur', 'Libellé ou Code erreur']]

Cela nous a montré un résumé, puis nous pouvons regarder les 10 premières rangées :

In [None]:
kapi_rejets[['Type_erreur', 'Libellé ou Code erreur']][:10]

# 2.4 Quel est le type d'erreur le plus courant ?

C'est une question à laquelle il est très facile de répondre ! Il y a la méthode `.value_counts()` que nous pouvons utiliser :

In [None]:
kapi_rejets['Type_erreur'].value_counts()

Si nous ne voulions que les 10 erreurs les plus courantes, nous pouvons le faire :

In [None]:
kapi_rejets_counts = kapi_rejets['Type_erreur'].value_counts()
kapi_rejets_counts[:10]

Mais c'est encore mieux ! On peut les tracer !

In [None]:
kapi_rejets_counts[:10].plot(kind='bar')

<style>
    @font-face {
        font-family: "Computer Modern";
        src: url('http://mirrors.ctan.org/fonts/cm-unicode/fonts/otf/cmunss.otf');
    }
    div.cell{
        width:800px;
        margin-left:16% !important;
        margin-right:auto;
    }
    h1 {
        font-family: Helvetica, serif;
    }
    h4{
        margin-top:12px;
        margin-bottom: 3px;
       }
    div.text_cell_render{
        font-family: Computer Modern, "Helvetica Neue", Arial, Helvetica, Geneva, sans-serif;
        line-height: 145%;
        font-size: 130%;
        width:800px;
        margin-left:auto;
        margin-right:auto;
    }
    .CodeMirror{
            font-family: "Source Code Pro", source-code-pro,Consolas, monospace;
    }
    .text_cell_render h5 {
        font-weight: 300;
        font-size: 22pt;
        color: #4057A1;
        font-style: italic;
        margin-bottom: .5em;
        margin-top: 0.5em;
        display: block;
    }
    
    .warning{
        color: rgb( 240, 20, 20 )
        }  