# Intro à l'analyse de données avec Numpy

## Introduction à Numpy

### Les listes

In [1]:
list_of_list =[["Bayonne",64],["Toulouse",31],["Bordeaux",33]]
list_of_list

[['Bayonne', 64], ['Toulouse', 31], ['Bordeaux', 33]]

In [2]:
list_of_list[1][0]

'Toulouse'

In [3]:
liste = [1,"plages",8]
liste.append("montagne")
liste

[1, 'plages', 8, 'montagne']

Avantages :
 - différents types de données
 - modification dynamique
 
Inconvénients :
 - bcp de mémoire et d'énergie consommées
 - problème quand la taille des datasets augmente

### Les tableaux

#### Type ndarray = tableaux de dimensions n

In [4]:
import numpy as np

In [5]:
vector = np.array([2,4,9,17])
vector, type(vector)

(array([ 2,  4,  9, 17]), numpy.ndarray)

In [6]:
matrix = np.array([[1,1,18],[23,4,90],[17,11,87],[18,12,88]])
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

In [7]:
matrix = np.array([[1,1,18],[23,"4",90],[17,11,87],[18,"12",88]])
matrix

array([['1', '1', '18'],
       ['23', '4', '90'],
       ['17', '11', '87'],
       ['18', '12', '88']], dtype='<U21')

In [8]:
matrix.dtype

dtype('<U21')

#### Taille d'un tableau

In [9]:
# propriété shape
print(vector.shape)

(4,)


In [10]:
print(matrix.shape)

(4, 3)


In [11]:
print(matrix.shape[0])
print(matrix.shape[1])

4
3


In [12]:
len(vector), len(matrix)

(4, 4)

In [13]:
# méthode size
print(vector.size,matrix.size)

4 12


#### Lecture d'un fichier de données

In [14]:
# numpy.genfromtxt() ou numpy.loadtxt()
data0 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",")

# les types de données classiques bool, int (16,32,64), float (16,32,64) et string
print(type(data0),data0.dtype)

<class 'numpy.ndarray'> float64


In [15]:
data0

array([[      nan,       nan,       nan,       nan,       nan],
       [1.986e+03,       nan,       nan,       nan, 0.000e+00],
       [1.986e+03,       nan,       nan,       nan, 5.000e-01],
       ...,
       [1.986e+03,       nan,       nan,       nan, 2.540e+00],
       [1.987e+03,       nan,       nan,       nan, 0.000e+00],
       [1.986e+03,       nan,       nan,       nan, 5.150e+00]])

In [16]:
data1 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75")
# afficher data0, data1 et data pour voir les effets et l'intérêt des paramètres dtype et skip_header

In [17]:
data1

array([['Year', 'WHO region', 'Country', 'Beverage Types',
        'Display Value'],
       ['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['1986', 'Americas', 'Uruguay', 'Other', '0.5'],
       ...,
       ['1986', 'Europe', 'Switzerland', 'Spirits', '2.54'],
       ['1987', 'Western Pacific', 'Papua New Guinea', 'Other', '0'],
       ['1986', 'Africa', 'Swaziland', 'Other', '5.15']], dtype='<U75')

In [18]:
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)
print(data)

[['1986' 'Western Pacific' 'Viet Nam' 'Wine' '0']
 ['1986' 'Americas' 'Uruguay' 'Other' '0.5']
 ['1985' 'Africa' "Cte d'Ivoire" 'Wine' '1.62']
 ...
 ['1986' 'Europe' 'Switzerland' 'Spirits' '2.54']
 ['1987' 'Western Pacific' 'Papua New Guinea' 'Other' '0']
 ['1986' 'Africa' 'Swaziland' 'Other' '5.15']]


#### Extraction de valeurs et sous-ensembles

Éxécuter les cellules suivantes pour voir et comprendre ce qui se passe. C'est ce qu'on appelle le *slicing*

In [19]:
data[0,3]

'Wine'

In [20]:
data[0,:]

array(['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'], dtype='<U75')

In [21]:
data[:,3]

array(['Wine', 'Other', 'Wine', ..., 'Spirits', 'Other', 'Other'],
      dtype='<U75')

In [22]:
print(data.shape,data.T.shape)

(3257, 5) (5, 3257)


In [23]:
data.T[3,:]

array(['Wine', 'Other', 'Wine', ..., 'Spirits', 'Other', 'Other'],
      dtype='<U75')

In [24]:
data[0:3,:]

array([['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['1986', 'Americas', 'Uruguay', 'Other', '0.5'],
       ['1985', 'Africa', "Cte d'Ivoire", 'Wine', '1.62']], dtype='<U75')

In [25]:
data[:3,:2]

array([['1986', 'Western Pacific'],
       ['1986', 'Americas'],
       ['1985', 'Africa']], dtype='<U75')

In [26]:
data[:,2:5]

array([['Viet Nam', 'Wine', '0'],
       ['Uruguay', 'Other', '0.5'],
       ["Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['Switzerland', 'Spirits', '2.54'],
       ['Papua New Guinea', 'Other', '0'],
       ['Swaziland', 'Other', '5.15']], dtype='<U75')

In [27]:
data[:,-2:]

array([['Wine', '0'],
       ['Other', '0.5'],
       ['Wine', '1.62'],
       ...,
       ['Spirits', '2.54'],
       ['Other', '0'],
       ['Other', '5.15']], dtype='<U75')

## Analyse de données avec Numpy

In [28]:
### On travaille sur les mêmes données
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)

### Comparer

Possibilité d'effectuer des comparaisons est ce qui rend la bibliothèque Numpy très intéressante !

In [29]:
vector

array([ 2,  4,  9, 17])

In [30]:
vector>=9

array([False, False,  True,  True])

In [31]:
vector[vector>=9]

array([ 9, 17])

In [32]:
data[:,2]=='France'

array([False, False, False, ..., False, False, False])

In [33]:
data[data[:,2]=='France', ]

array([['1985', 'Europe', 'France', 'Spirits', '2.7'],
       ['1989', 'Europe', 'France', 'Wine', '10.24'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1989', 'Europe', 'France', 'Other', '0.27'],
       ['1984', 'Europe', 'France', 'Spirits', '2.58'],
       ['1987', 'Europe', 'France', 'Beer', '2.45'],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1989', 'Europe', 'France', 'Beer', '2.56'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1984', 'Europe', 'France', 'Beer', '2.62'],
       ['1984', 'Europe', 'France', 'Other', '0.24'],
       ['1985', 'Europe', 'France', 'Wine', '11.1'],
       ['1985', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1989', 'Europe', 'France', 'Spirits', '2.98'],
       ['1985', 'Europe', 'France', 'Beer', '2.54'],
       ['1987', 'Europe', 'France', 'Wine', '10.42'],
       ['1984', 'Europe', 'France', 'Wine', '11.45'],
       ['1987', 'Europe', '

In [34]:
data[(data[:,2]=='Canada')|(data[:,2]=='France'), :]

array([['1985', 'Europe', 'France', 'Spirits', '2.7'],
       ['1984', 'Americas', 'Canada', 'Spirits', '3.35'],
       ['1989', 'Europe', 'France', 'Wine', '10.24'],
       ['1989', 'Americas', 'Canada', 'Wine', '1.27'],
       ['1984', 'Americas', 'Canada', 'Beer', '5'],
       ['1985', 'Americas', 'Canada', 'Beer', '4.94'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1987', 'Americas', 'Canada', 'Wine', '1.3'],
       ['1989', 'Europe', 'France', 'Other', '0.27'],
       ['1987', 'Americas', 'Canada', 'Beer', '4.83'],
       ['1984', 'Europe', 'France', 'Spirits', '2.58'],
       ['1987', 'Europe', 'France', 'Beer', '2.45'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1989', 'Europe', 'France', 'Beer', '2.56'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1985', 'Americas', 'Canada', 'Spirits', '3.21'],
       ['1984',

In [35]:
data[((data[:,2]=='Canada') | (data[:,2]=='France')) & (data[:,0] == '1986')]

array([['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1986', 'Americas', 'Canada', 'Beer', '4.87'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1986', 'Americas', 'Canada', 'Wine', '1.33']], dtype='<U75')

In [36]:
data86 = data[data[:,0] == '1986']
data86[(data86[:,2]=='Canada') | (data86[:,2]=='France')]

array([['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1986', 'Americas', 'Canada', 'Beer', '4.87'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1986', 'Americas', 'Canada', 'Wine', '1.33']], dtype='<U75')

### Remplacer des valeurs

In [37]:
data2=data.copy()
data2[data2[:,0]=='1986', 0]='2018'
data2

array([['2018', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['2018', 'Americas', 'Uruguay', 'Other', '0.5'],
       ['1985', 'Africa', "Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['2018', 'Europe', 'Switzerland', 'Spirits', '2.54'],
       ['1987', 'Western Pacific', 'Papua New Guinea', 'Other', '0'],
       ['2018', 'Africa', 'Swaziland', 'Other', '5.15']], dtype='<U75')

### Convertir des types de données

In [38]:
### pour effectuer des calculs sur la consommation moyenne, celle-ci doit être numérique
### or pour le moment il s'agit d'un string (conséquence du dtype="U75")

### On utilise la méthode .astype()
mon_filtre_valeurs_vide = (data[:,4] == '')
data[mon_filtre_valeurs_vide, 4] = '0'
consommation = data[:,4].astype(float)
consommation

array([0.  , 0.5 , 1.62, ..., 2.54, 0.  , 5.15])

### Calculs avec Numpy

In [39]:
### sum(), mean(), max(), ...
vector

array([ 2,  4,  9, 17])

In [40]:
sum(vector)

32

In [41]:
vector.sum()

32

In [42]:
vector.mean()

8.0

In [43]:
vector.max()

17

In [44]:
vector.min()

2

In [45]:
matrix = matrix.astype(int)
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

In [46]:
matrix[:,2].sum()

283

In [47]:
matrix.sum(axis=0)

array([ 59,  28, 283])

In [48]:
matrix.sum(axis=1)

array([ 20, 117, 115, 118])

In [49]:
matrix.sum(axis=0)[2]

283

In [50]:
print(matrix.sum(axis=1),' et ', matrix.sum(axis=0))

[ 20 117 115 118]  et  [ 59  28 283]


In [51]:
print(matrix.max(axis=1),' et ', matrix.max(axis=0))

[18 90 87 88]  et  [23 12 90]


In [52]:
print(matrix.mean(axis=1),' et ', matrix.mean(axis=0))

[ 6.66666667 39.         38.33333333 39.33333333]  et  [14.75  7.   70.75]


## Exo : comparer les consommations annuelles d'alcool par pays et déterminer le pays qui a la plus grande consommation d'alcool

In [53]:
import numpy as np
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)
data = data[data[:,4]!='']
print(data.shape)
data

(3035, 5)


array([['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['1986', 'Americas', 'Uruguay', 'Other', '0.5'],
       ['1985', 'Africa', "Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['1986', 'Europe', 'Switzerland', 'Spirits', '2.54'],
       ['1987', 'Western Pacific', 'Papua New Guinea', 'Other', '0'],
       ['1986', 'Africa', 'Swaziland', 'Other', '5.15']], dtype='<U75')

In [54]:
#Conso totale en Fr en 86
data[(data[:, 2] == "France") & (data[:, 0] == "1986"), 4].astype(float).sum()

16.13

In [55]:
# Conso totale de vins en Fr
data[(data[:, 2] == "France") & (data[:, 3] == "Wine"), 4].astype(float).sum()

53.83

In [56]:
np.mean(data[(data[:, 2] == "France") & (data[:, 3] == "Wine"), 4].astype(float))

10.766

In [57]:
# Conso moyenne de vins en Fr
data[(data[:, 2] == "France") & (data[:, 3] == "Wine"), 4].astype(float).mean()

10.766

In [58]:
# Conso max de vins en Fr
max_vins = np.max(data[(data[:, 2] == "France") & (data[:, 3] == "Wine"), 4].astype(float))
max_vins

11.45

In [59]:
data[data[:, 4].astype(float) == max_vins, 0]

array(['1984'], dtype='<U75')

In [60]:
# 
vins_fra = data[(data[:, 2] == "France") & (data[:, 3] == "Wine"), :]
vins_fra[np.argmax(vins_fra[:, 4].astype(float)), 0]

'1984'

In [66]:
# une solution possibe parmi les 100aines qui existent : chacun la sienne donc !
# on va créer un dictionnaire de la forme :
# conso = {pays1 :{annee1 : conso1,
#                  annee2 : conso2,
#                  etc},
#           pays2 :{annee1 : conso1,
#                   annee2 : conso2,
#                   etc},
#            ...}
conso = {}

for pays in np.unique(data[:, 2]):
    conso[pays] = {}
    for annee in np.unique(data[:,0]):
        filtre = (data[:,0]==annee) & (data[:,2]==pays)
        conso[pays][annee] = data[filtre,4].astype(float).sum()
    
conso
  

{'Afghanistan': {'1984': 0.0,
  '1985': 0.0,
  '1986': 0.0,
  '1987': 0.0,
  '1989': 0.0},
 'Albania': {'1984': 1.58,
  '1985': 1.6,
  '1986': 1.38,
  '1987': 1.63,
  '1989': 1.73},
 'Algeria': {'1984': 0.33,
  '1985': 0.31,
  '1986': 0.29,
  '1987': 0.28,
  '1989': 0.4},
 'Angola': {'1984': 1.94,
  '1985': 2.06,
  '1986': 1.7,
  '1987': 1.6300000000000001,
  '1989': 2.28},
 'Antigua and Barbuda': {'1984': 5.41,
  '1985': 3.58,
  '1986': 3.55,
  '1987': 3.68,
  '1989': 4.69},
 'Argentina': {'1984': 13.839999999999998,
  '1985': 12.749999999999998,
  '1986': 12.89,
  '1987': 12.759999999999998,
  '1989': 10.82},
 'Australia': {'1984': 12.73,
  '1985': 12.9,
  '1986': 12.3,
  '1987': 12.46,
  '1989': 12.09},
 'Austria': {'1984': 13.9,
  '1985': 13.3,
  '1986': 13.6,
  '1987': 13.5,
  '1989': 13.9},
 'Bahamas': {'1984': 14.74,
  '1985': 14.55,
  '1986': 14.120000000000001,
  '1987': 14.139999999999999,
  '1989': 12.290000000000001},
 'Bahrain': {'1984': 6.53,
  '1985': 5.45,
  '1986': 5.1

In [73]:
conso['France']

{'1984': 16.89, '1985': 16.59, '1986': 16.13, '1987': 15.9, '1989': 16.05}

Pour déterminer le pays avec la plus grande consommation d'alcool, il y a plusieurs mesures possibles :
 - le plus grand consommateur annuel (la plus grande consommation sur une année) ? *réponse le recordman : tel pays a consommé tant en telle année*
 - le plus grand consommateur annuel en moyenne sur toute la période ? *plus grande consommation consommation annuelle moyenne calculée sur 84-89*
 - le plus grand en consommation totale sur la période ?
 - celui qui a été plus grand consommateur annuel le plus de fois sur la période ?
 - système de classement par points avec des points attribués chaque année en fonction de la position
 - etc...

On en implémente quelques unes

In [76]:
### Plus grand en consommation annuelle

# calcul la conso max pour chaque pays
conso_max = {}
for pays in conso:
    conso_max[pays] = max(conso[pays].values())
    

# récupérer la consommation record
conso_record = max(conso_max.values())
conso_record

18.13

In [77]:
# récuéprer le pays et l'année ayant atteint ce record
for pays in conso:
    for ann in conso[pays]:
        if conso_record == conso[pays][ann]:
            pays_record = pays
            annee_record = ann

print(f"{pays_record} a consommé {conso_record} L/hab en {annee_record}")

Slovenia a consommé 18.13 L/hab en 1986


In [78]:
### Plus grand en consommation myenne sur la période

# calcul la conso moyenne pour chaque pays
conso_moy = {}
for pays in conso:
    conso_moy[pays] = sum(conso[pays].values())/len(conso[pays].values())

# récupérer la plus grande conso moyenne
conso_moy_max = max(conso_moy.values())

# récupérer le pays qui a cette moyenne
for pays in conso_moy:
    if conso_moy[pays] == conso_moy_max:
        pays_max = pays
        break
                
print(f"{pays_max} a la plus grande consommation moyenne sur la période 84-89 avec {conso_moy_max} L/hab consommés en moyenne")

Hungary a la plus grande consommation moyenne sur la période 84-89 avec 16.444 L/hab consommés en moyenne


In [79]:
### Plus grand en consommation totale sur toute la période

#calcul la conso totale
conso_tot = {}
for pays in conso:
    conso_tot[pays] = sum(conso[pays].values())
    
# récupérer la conso totale max ET le pays associé
pays_max = ''
conso_max = 0

for pays in conso_tot:
    if conso_tot[pays] > conso_max:
        conso_max = conso_tot[pays]
        pays_max = pays

print(f"{pays_max} est le champion sur la période 84-89 avec au total {conso_max} L/hab consommés")

Hungary est le champion sur la période 84-89 avec au total 82.22 L/hab consommés


In [80]:
# récupérer le pays "vainqueur" et sa consommation pour chaque année
for ann in np.unique(data[:,0]):
    max_ann = 0
    pays_ann = ''

    for pays in conso:
        if conso[pays][ann] > max_ann:
            pays_ann = pays
            max_ann = conso[pays][ann]

    print(ann, pays_ann, max_ann)

1984 Portugal 17.5
1985 Hungary 16.740000000000002
1986 Slovenia 18.13
1987 Slovenia 16.64
1989 Hungary 16.29
