# Numpy, scipy et pandas

Il s'agit de librairies scientifique qui font en grande partie la popularité de python.
Elles sont rapides et efficaces.

In [1]:
import numpy as np

def my_sum(l):
    res = 0
    for it in l:
        res += it
    return res
l = list(range(100000))
a = np.arange(100000)

print("User defined method or cross-method")
%timeit my_sum(a) # user defined with numpy array
%timeit sum(a)    # built-in with numpy array
%timeit np.sum(l) # numpy function with list
%timeit my_sum(l) # user definedwith list
print("Builtin function")
%timeit sum(l)    # built-in with list
print("Numpy function")
%timeit np.sum(a) # numpy function
%timeit a.sum()   # numpy method

User defined method or cross-method
100 loops, best of 3: 12.3 ms per loop
100 loops, best of 3: 10.3 ms per loop
100 loops, best of 3: 7.53 ms per loop
100 loops, best of 3: 5.2 ms per loop
Builtin function
1000 loops, best of 3: 1.16 ms per loop
Numpy function
The slowest run took 4.10 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 69.7 µs per loop
10000 loops, best of 3: 68.6 µs per loop


Le langage python en lui-même est lent, mais il est basé sur une couche en C, qui est un langage potentiellement très efficace.  
On peut donc avoir des programmes compliqués et pourtant rapide écrit en python, à condition que python ne soit que le chef d'orchestre qui organise les différents appels et organise les interactions entre les couches et librairies de C ou C++. On peut faire de la 3d en python, ou du traitement d'image (librairie OpenCV).

## La librairie numpy

Il s'agit du coeur des principales librairies scientifiques de python (scipy, pandas).

Elle permet :
- de stocker des valeurs numériques de façon efficace
- de faire rapidement des calculs usuels (moyenne, min, max) 
- elle permet de faire des calculs vectoriel, dont les mathématiciens sont assez friands
- elle est utilisée dans les librairies fournissant les outils mathématiques standards (scipy, scikit-learn, pandas)


In [34]:
import math 
x = np.array( [1,2,3] )
math.pi + x

array([ 4.14159265,  5.14159265,  6.14159265])

In [27]:
import numpy as np


x = np.array( [1,2,3] )
y = np.array( [4,5,6] )
print( "numpy :", x + y )
print( (x + y)/2 )

x = [1,2,3]
y = [4,5,6]
print( "list:", x + y )
## Cela ne fonctionne pas !
print( (x + y)/2 )

numpy : [5 7 9]
[ 2.5  3.5  4.5]
list: [1, 2, 3, 4, 5, 6]


TypeError: unsupported operand type(s) for /: 'list' and 'int'

Un exemple entre autres, réalisation d'un dégradé de couleur :

In [35]:
import numpy as np
from PIL import Image
largeur = 400
hauteur = 210

carre = Image.new("RGB",(largeur,hauteur))
mat_cr = carre.load() 

indigo = np.array((128,0,255))
orange = np.array((255,128,0))

def faire_degrade( cr, mat_cr, couleur1, couleur2 ):
    max_x, max_y = cr.size
    for it_y in range(0, max_y):
        coef1 = it_y
        coef2 = max_y - 1 - it_y
        couleur = tuple( (coef1*couleur1 + coef2*couleur2)//(max_y 
                                                             - 1) )
        for it_x in range(0, max_x):
            mat_cr[ it_x, it_y ] = couleur
            
faire_degrade( carre, mat_cr, indigo, orange )            
carre.show()
carre.save("exemple_degrade.jpg")

## Partie 1 : calcul sur les écarts de salaire

### Exercice 1 : statistiques sur les écarts de salaires

On dispose d'un jeu de donnée **Donnees_salaires_horaires.xlsx** qui provient de l'INSEE et qui contient les salaires moyen en France par catégories socio-professionnelles et par age.

On peut le charger en utilisant une autre librairie, pandas.

Pandas est une librairie qui utilise numpy. Elle permet d'aggréger des jeux de données sous forme de tableau, en mélant différent types de données, et les valeurs numériques sont stockées sous forme de np.array.

In [39]:
salaire_cadre = salaires['Cadres et professions intellectuelles supérieures']

In [41]:
salaire_cadre.describe()

count    12.000000
mean     32.816667
std      11.243085
min      14.300000
25%      23.875000
50%      34.000000
75%      39.425000
max      49.900000
Name: Cadres et professions intellectuelles supérieures, dtype: float64

In [54]:
import pandas as pd

salaires = pd.read_excel( "Donnees_salaires_horaires.xlsx" )
salaires

Unnamed: 0,Catégorie socioprofessionnelle (5 modalités),age,Cadres et professions intellectuelles supérieures,Professions intermédiaires,Employés,Ouvriers qualifiés,Ouvriers non qualifiés
0,Moins de 18 ans,16,23.9,13.0,10.2,9.7,9.5
1,De 18 à 20 ans,19,14.3,12.1,11.0,11.3,11.1
2,De 21 à 25 ans,23,19.3,14.5,11.7,12.7,11.5
3,De 26 à 30 ans,28,23.8,16.6,13.0,13.9,12.2
4,De 31 à 35 ans,33,28.1,18.2,13.9,14.7,12.6
5,De 36 à 40 ans,38,32.3,19.2,14.3,15.3,12.9
6,De 41 à 45 ans,43,35.7,20.1,14.5,15.6,13.0
7,De 46 à 50 ans,48,38.2,20.9,14.7,15.8,13.1
8,De 51 à 55 ans,53,39.1,21.5,15.0,16.0,13.2
9,De 56 à 60 ans,58,40.4,22.3,15.6,16.4,13.7


On peut afficher la liste des colonnes avec l'attribut columns

In [9]:
salaires.columns

Index(['Catégorie socioprofessionnelle (5 modalités)', 'age',
       'Cadres et professions intellectuelles supérieures',
       'Professions intermédiaires', 'Employés', 'Ouvriers qualifiés',
       'Ouvriers non qualifiés'],
      dtype='object')

Et on peut ensuite accéder aux colonnes en utilisant l'opérateur crochet avec l'en tête de la colonne.

In [37]:
salaires['Ouvriers qualifiés'] * 1.20

0     11.64
1     13.56
2     15.24
3     16.68
4     17.64
5     18.36
6     18.72
7     18.96
8     19.20
9     19.68
10    20.16
11    17.52
Name: Ouvriers qualifiés, dtype: float64

In [10]:
salaires['Cadres et professions intellectuelles supérieures']

0     23.9
1     14.3
2     19.3
3     23.8
4     28.1
5     32.3
6     35.7
7     38.2
8     39.1
9     40.4
10    48.8
11    49.9
Name: Cadres et professions intellectuelles supérieures, dtype: float64

Et on peut directement effectuer des opérations entre colonnes, ou sur les colonnes.
Par exemple pour calculer les min, max, moyenne (mean en anglais) et l'écart type :

In [11]:
salaires_cadres = salaires['Cadres et professions intellectuelles supérieures']
print( salaires_cadres.mean() )
print( salaires_cadres.min() )
print( salaires_cadres.max() )
print( salaires_cadres.std() )

32.81666666666666
14.3
49.9
11.243085417133932


Par exemple, si l'on veut obtenir la différence de salaire des cadres par rapport à leur salaire moyen :

In [12]:
salaires_cadres - salaires_cadres.mean()

0     -8.916667
1    -18.516667
2    -13.516667
3     -9.016667
4     -4.716667
5     -0.516667
6      2.883333
7      5.383333
8      6.283333
9      7.583333
10    15.983333
11    17.083333
Name: Cadres et professions intellectuelles supérieures, dtype: float64

L'objet obtenue étant lui-même une série, sur lequel on peut utiliser les fonctions précédentes :

In [None]:
diff_moyenne_cadre = salaires_cadres - salaires_cadres.mean()
print( diff_moyenne_cadre.mean() )
print( diff_moyenne_cadre.min() )
print( diff_moyenne_cadre.max() )
print( diff_moyenne_cadre.std() )

A vous de jouer !

#### Question 1 : quelle est le salaire moyen des ouvriers qualifiés ? Des ouvriers non qualifiées ?

In [48]:
salaires['Ouvriers non qualifiés'].mean()

12.616666666666667

In [50]:
x

12.616666666666667

#### Question 2 : quelle est la moyenne de la différence de salaire entre un cadre et un ouvrier qualifié ?

In [52]:
diff_salaires = salaires[
'Cadres et professions intellectuelles supérieures'] - salaires[
'Ouvriers qualifiés'    
]
print(diff_salaires)
print(diff_salaires.mean())

0     14.2
1      3.0
2      6.6
3      9.9
4     13.4
5     17.0
6     20.1
7     22.4
8     23.1
9     24.0
10    32.0
11    35.3
dtype: float64
18.416666666666668


#### Question 3 : pour quelle tranche d'âge la différence entre le salaire moyen d'un cadre et celui d'un ouvrier qualifié est-elle le plus important ?

In [53]:
print(diff_salaires)

0     14.2
1      3.0
2      6.6
3      9.9
4     13.4
5     17.0
6     20.1
7     22.4
8     23.1
9     24.0
10    32.0
11    35.3
dtype: float64


#### Question 4 : même question avec le ratio

In [55]:
ratio_salaires = salaires[
'Cadres et professions intellectuelles supérieures'] / salaires[
'Ouvriers qualifiés'    
]
ratio_salaires

0     2.463918
1     1.265487
2     1.519685
3     1.712230
4     1.911565
5     2.111111
6     2.288462
7     2.417722
8     2.443750
9     2.463415
10    2.904762
11    3.417808
dtype: float64

### Exercice 2 : évolution temporelle

On s'intéresse maintenant aux différences de salaires au sein d'une même catégorie pour différentes tranches d'ages.

In [None]:
diff_salaires = salaires[ salaires.index != 0 ]

for it_col in ('Cadres et professions intellectuelles supérieures',
               'Professions intermédiaires', 
               'Employés', 
               'Ouvriers qualifiés',
               'Ouvriers non qualifiés'):
    diff_salaires[ it_col ] = salaires[ it_col ].values[1:] - salaires[ it_col ].values[:-1]

In [None]:
diff_salaires

A vous de jouer !

#### Question 1 : entre quelles tranches d'age la différence de salaire est-elle la plus élevée pour un cadre ? Pour un ouvrier qualifiés ?

#### Question 2 : en moyenne, quelle est la différence de salaire entre deux tranches d'age pour un cadre ? Pour un ouvrier qualifié ?

#### Question 3 : comment évolue la différence de salaire entre un cadre et un ouvrier ? Pour quel tranche d'age connaît-elle la plus grosse augmentation ? La plus faible ?

### Exercice 3 : chargement du jeu de donnée apache

Nous disposons d'un jeu de donnée (**log_aggreges.txt.csv**) qui correspond à l'extraction du log apache(**log_aggreges.txt**).

Les requêtes sont signalées dans les logs apache de la façon suivante :

~~~
89.251.55.16 - - [17/Mar/2015:11:23:36 -0400] "GET / HTTP/1.1" 200 39665 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:35.0) Gecko/20100101 Firefox/35.0"
~~~

Où les champs correspondent à :

- 89.251.55.16 : adresse ip de la requête
- [17/Mar/2015:11:23:36 -0400] : la date de la requête
- GET / HTTP/1.1 : la requête
- 200 : le code de retour (200 = ok, 404 = page not found, etc ...)
- 39665 : la taille des données renvoyées
- "-" : le referer, ce qui peut indiquer l'origine de la requête. Vide ici.
- le client 

Ces données ont été extraites du fichier de log, et mise sous format de tableau dans un fichier csv (ie un fichier excel au format texte).



In [23]:
import pandas as pd
import time
import numpy as np

## Le chargement du fichier proprement dit, on indique que les colonnes sont 
## séparées par des ;
apache_log_df = pd.read_csv( "log_aggreges.txt.csv", sep =";" )

## Une fonction pour convertir la colonne "apache_date" en date manipulable par python
apache_log_df["date"] = apache_log_df["apache_date"].apply( 
    lambda apache_date_format: time.strptime(apache_date_format, "%d/%b/%Y:%H:%M:%S") 
     )

## Une fonction pour convertir la colonne "apache_date" en date manipulable par python
apache_log_df["data_size"] = apache_log_df["data_size"].replace("-","0").astype(np.int64)

## Une fonction pour extraire l'heure
apache_log_df["heure"] = apache_log_df["date"].apply( lambda x:x.tm_hour )

## On peut maintenant avoir un aperçu de ce tableau, avec la fonction head qui permet
## de renvoyer les n premières lignes.
apache_log_df.head(5)

Unnamed: 0,ip_address,apache_date,apache_tz,request,request_args,HTTP_version,return_code,data_size,referer,client,date,heure
0,89.251.55.16,17/Mar/2015:08:59:34,-400,GET /,,HTTP/1.1,200,39585,-,"Mozilla/5.0 (X11, Ubuntu, Linux x86_64, rv:35....","(2015, 3, 17, 8, 59, 34, 1, 76, -1)",8
1,89.251.55.16,17/Mar/2015:08:59:34,-400,GET /favicon.ico,,HTTP/1.1,404,307,-,"Mozilla/5.0 (X11, Ubuntu, Linux x86_64, rv:35....","(2015, 3, 17, 8, 59, 34, 1, 76, -1)",8
2,10.224.158.6,17/Mar/2015:09:10:29,-400,HEAD /,,HTTP/1.1,200,0,-,Ruby,"(2015, 3, 17, 9, 10, 29, 1, 76, -1)",9
3,10.224.158.6,17/Mar/2015:09:10:30,-400,HEAD /,,HTTP/1.1,200,0,-,Ruby,"(2015, 3, 17, 9, 10, 30, 1, 76, -1)",9
4,10.224.158.6,17/Mar/2015:10:10:47,-400,HEAD /,,HTTP/1.1,200,0,-,Ruby,"(2015, 3, 17, 10, 10, 47, 1, 76, -1)",10


On peut ensuite sélectionner des informations avec la notation suivante (par exemple pour connaître les codes retours des requêtes de type HEAD /)

D'abord on veut connaître les différentes requêtes, et vérifier les histoires d'espace dans le nom.

In [None]:
apache_log_df['request'].unique()

Maintenant, on veut connaître les différents code de retour pour les requêtes :

In [None]:
apache_log_df[ apache_log_df['request'] == 'HEAD / ']['return_code'].value_counts()

On peut faire une boucle sur les colonnes afin d'avoir un aperçu de chacune.

In [56]:
for it_col in apache_log_df.columns:
    print("#"*20)
    print("Colonne", it_col)
    print("#"*20)
    print( apache_log_df[it_col].dtypes )
    print( apache_log_df[it_col].value_counts().head(5) )

####################
Colonne ip_address
####################
object
89.251.55.16      5176
109.28.107.201    4958
90.43.145.240      619
90.62.29.192       529
90.62.21.70        485
Name: ip_address, dtype: int64
####################
Colonne apache_date
####################
object
19/Mar/2015:18:55:18    25
19/Mar/2015:18:55:17    23
22/Mar/2015:15:03:57    21
23/Mar/2015:23:18:37    19
23/Mar/2015:23:22:25    18
Name: apache_date, dtype: int64
####################
Colonne apache_tz
####################
int64
-400    16205
Name: apache_tz, dtype: int64
####################
Colonne request
####################
object
GET /shifumi.php                     3641
GET /nombres_premiers.php            3271
HEAD /shifumi.php                    3035
HEAD /                               2122
GET /big_brother_is_watching_you     1197
Name: request, dtype: int64
####################
Colonne request_args
####################
object
?nb=5000&min_value=100000     1165
?hand=ciseaux&name=Xavier      8

A noter qu'il existe une méthode **describe()** pour avoir un résumé des colonnes.  
Pour les valeurs non numériques elle indique le nombre de valeurs, le nombre de valeur unique, la valeur unique la plus fréquente et son nombre d'occurrences.

In [1]:
print( apache_log_df["date"].describe() )

NameError: name 'apache_log_df' is not defined

Pour une valeur numérique, celle-ci indiquera le nombre de valeur, la moyenne, l'écart type, le minimum, le maximum et 5 quartiles (0, 25%, 50%, 75%, 100%).

In [44]:
print( apache_log_df["data_size"].describe() )

count    1.620500e+04
mean     2.308460e+05
std      6.992402e+06
min      0.000000e+00
25%      0.000000e+00
50%      1.120000e+02
75%      3.150000e+02
max      5.082245e+08
Name: data_size, dtype: float64


In [25]:
apache_log_df['request'].value_counts()

GET /shifumi.php                                                          3641
GET /nombres_premiers.php                                                 3271
HEAD /shifumi.php                                                         3035
HEAD /                                                                    2122
GET /big_brother_is_watching_you                                          1197
GET /                                                                      502
GET /check_death.php                                                       258
GET /historique.php                                                        248
GET /nombres_premiers                                                      225
GET /shifumi.php/                                                          220
GET /display_log.php                                                       177
GET /shifumi.php                                                           162
GET /boucle_infini.php                              

A vous de jouer !

#### Question 1 : à quelle heure le site connaît-il le plus d'activité ?

#### Question 2 : quelle est la requête qui a le plus de code d'erreur 500 ? Celle qui en a le moins ?

#### Question 3 : pour quelle valeur des paramètres la quantité de données envoyée est-elle la plus importante ?