# Intro à l'analyse de données avec Numpy

## Introduction à Numpy

### Les listes

In [1]:
list_of_list =[["Bayonne",64],["Toulouse",31],["Bordeaux",33]]
list_of_list

[['Bayonne', 64], ['Toulouse', 31], ['Bordeaux', 33]]

In [2]:
list_of_list[1][0]

'Toulouse'

In [3]:
liste = [1,"plages",8]
liste.append("montagne")
liste

[1, 'plages', 8, 'montagne']

Avantages :
 - différents types de données
 - modification dynamique
 
Inconvénients :
 - bcp de mémoire et d'énergie consommées
 - problème quand la taille des datasets augmente

### Les tableaux

#### Type ndarray = tableaux de dimensions n

In [4]:
import numpy as np

In [5]:
vector = np.array([2,4,9,17])
vector, type(vector)

(array([ 2,  4,  9, 17]), numpy.ndarray)

In [6]:
matrix = np.array([[1,1,18],[23,4,'90'],[17,'11',87],[18,12,88]])
matrix

array([['1', '1', '18'],
       ['23', '4', '90'],
       ['17', '11', '87'],
       ['18', '12', '88']], dtype='<U21')

In [7]:
matrix = np.array([[1,1,18],[23,4,90],[17,11,87],[18,12,88]])
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

In [9]:
matrix.dtype

dtype('int64')

#### Taille d'un tableau

In [10]:
# propriété shape
print(vector.shape, matrix.shape)

(4,) (4, 3)


In [11]:
print(matrix.shape[0])
print(matrix.shape[1])

4
3


In [20]:
len(vector), len(matrix)

(4, 4)

In [12]:
# méthode size
print(vector.size, matrix.size)

4 12


#### Lecture d'un fichier de données

In [13]:
# numpy.genfromtxt() ou numpy.loadtxt()
data0 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",")

# les types de données classiques bool, int (16,32,64), float (16,32,64) et string
print(type(data0),data0.dtype)

<class 'numpy.ndarray'> float64


In [14]:
data0

array([[      nan,       nan,       nan,       nan,       nan],
       [1.986e+03,       nan,       nan,       nan, 0.000e+00],
       [1.986e+03,       nan,       nan,       nan, 5.000e-01],
       ...,
       [1.986e+03,       nan,       nan,       nan, 2.540e+00],
       [1.987e+03,       nan,       nan,       nan, 0.000e+00],
       [1.986e+03,       nan,       nan,       nan, 5.150e+00]])

In [15]:
data1 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75")
# afficher data0, data1 et data pour voir les effets et l'intérêt des paramètres dtype et skip_header

In [16]:
data1

array([['Year', 'WHO region', 'Country', 'Beverage Types',
        'Display Value'],
       ['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['1986', 'Americas', 'Uruguay', 'Other', '0.5'],
       ...,
       ['1986', 'Europe', 'Switzerland', 'Spirits', '2.54'],
       ['1987', 'Western Pacific', 'Papua New Guinea', 'Other', '0'],
       ['1986', 'Africa', 'Swaziland', 'Other', '5.15']], dtype='<U75')

In [17]:
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)
print(data)

[['1986' 'Western Pacific' 'Viet Nam' 'Wine' '0']
 ['1986' 'Americas' 'Uruguay' 'Other' '0.5']
 ['1985' 'Africa' "Cte d'Ivoire" 'Wine' '1.62']
 ...
 ['1986' 'Europe' 'Switzerland' 'Spirits' '2.54']
 ['1987' 'Western Pacific' 'Papua New Guinea' 'Other' '0']
 ['1986' 'Africa' 'Swaziland' 'Other' '5.15']]


#### Extraction de valeurs et sous-ensembles

Éxécuter les cellules suivantes pour voir et comprendre ce qui se passe. C'est ce qu'on appelle le *slicing*

In [18]:
data[0,3]

'Wine'

In [19]:
data[0,:]

array(['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'], dtype='<U75')

In [20]:
data[:,3]

array(['Wine', 'Other', 'Wine', ..., 'Spirits', 'Other', 'Other'],
      dtype='<U75')

In [22]:
print(data.shape, data.T.shape)

(3257, 5) (5, 3257)


In [23]:
data.T[3,:]

array(['Wine', 'Other', 'Wine', ..., 'Spirits', 'Other', 'Other'],
      dtype='<U75')

In [24]:
data[0:3,:]

array([['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['1986', 'Americas', 'Uruguay', 'Other', '0.5'],
       ['1985', 'Africa', "Cte d'Ivoire", 'Wine', '1.62']], dtype='<U75')

In [25]:
data[:3,:2]

array([['1986', 'Western Pacific'],
       ['1986', 'Americas'],
       ['1985', 'Africa']], dtype='<U75')

In [26]:
data[:,2:5]

array([['Viet Nam', 'Wine', '0'],
       ['Uruguay', 'Other', '0.5'],
       ["Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['Switzerland', 'Spirits', '2.54'],
       ['Papua New Guinea', 'Other', '0'],
       ['Swaziland', 'Other', '5.15']], dtype='<U75')

In [27]:
data[:,-2:]

array([['Wine', '0'],
       ['Other', '0.5'],
       ['Wine', '1.62'],
       ...,
       ['Spirits', '2.54'],
       ['Other', '0'],
       ['Other', '5.15']], dtype='<U75')

## Analyse de données avec Numpy

In [28]:
### On travaille sur les mêmes données
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)

### Comparer

Possibilité d'effectuer des comparaisons est ce qui rend la bibliothèque Numpy très intéressante !

In [29]:
vector

array([ 2,  4,  9, 17])

In [30]:
vector==9

array([False, False,  True, False])

In [31]:
vector[vector==9]

array([9])

In [32]:
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

In [34]:
matrix==1, matrix.dtype

(array([[ True,  True, False],
        [False, False, False],
        [False, False, False],
        [False, False, False]]),
 dtype('int64'))

In [35]:
matrix[matrix==1]

array([1, 1])

In [36]:
data[:,2]=='France'

array([False, False, False, ..., False, False, False])

In [40]:
mask = data[:,2]=='France'
data[mask]

array([['1985', 'Europe', 'France', 'Spirits', '2.7'],
       ['1989', 'Europe', 'France', 'Wine', '10.24'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1989', 'Europe', 'France', 'Other', '0.27'],
       ['1984', 'Europe', 'France', 'Spirits', '2.58'],
       ['1987', 'Europe', 'France', 'Beer', '2.45'],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1989', 'Europe', 'France', 'Beer', '2.56'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1984', 'Europe', 'France', 'Beer', '2.62'],
       ['1984', 'Europe', 'France', 'Other', '0.24'],
       ['1985', 'Europe', 'France', 'Wine', '11.1'],
       ['1985', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1989', 'Europe', 'France', 'Spirits', '2.98'],
       ['1985', 'Europe', 'France', 'Beer', '2.54'],
       ['1987', 'Europe', 'France', 'Wine', '10.42'],
       ['1984', 'Europe', 'France', 'Wine', '11.45'],
       ['1987', 'Europe', '

In [41]:
data[(data[:,2]=='Canada')|(data[:,2]=='France')]

array([['1985', 'Europe', 'France', 'Spirits', '2.7'],
       ['1984', 'Americas', 'Canada', 'Spirits', '3.35'],
       ['1989', 'Europe', 'France', 'Wine', '10.24'],
       ['1989', 'Americas', 'Canada', 'Wine', '1.27'],
       ['1984', 'Americas', 'Canada', 'Beer', '5'],
       ['1985', 'Americas', 'Canada', 'Beer', '4.94'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1987', 'Americas', 'Canada', 'Wine', '1.3'],
       ['1989', 'Europe', 'France', 'Other', '0.27'],
       ['1987', 'Americas', 'Canada', 'Beer', '4.83'],
       ['1984', 'Europe', 'France', 'Spirits', '2.58'],
       ['1987', 'Europe', 'France', 'Beer', '2.45'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1989', 'Europe', 'France', 'Beer', '2.56'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1985', 'Americas', 'Canada', 'Spirits', '3.21'],
       ['1984',

In [69]:
data[(data[:,2]=='Canada') | (data[:,2]=='France') & (data[:,0] == '1986')]

array([['1984', 'Americas', 'Canada', 'Spirits', '3.35'],
       ['1989', 'Americas', 'Canada', 'Wine', '1.27'],
       ['1984', 'Americas', 'Canada', 'Beer', '5'],
       ['1985', 'Americas', 'Canada', 'Beer', '4.94'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1987', 'Americas', 'Canada', 'Wine', '1.3'],
       ['1987', 'Americas', 'Canada', 'Beer', '4.83'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1985', 'Americas', 'Canada', 'Spirits', '3.21'],
       ['1985', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Americas', 'Canada', 'Beer', '4.87'],
       ['1984', 'Americas', 'Canada', 'Wine', '1.24'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1989', 'Americas', 'Canada', 'Spirits', '2.91'],
       ['1984', 'Americas', 'Canada', 'Other', ''],
       ['1985'

In [42]:
data86 = data[data[:,0] == '1986']
data86[(data86[:,2]=='Canada') | (data86[:,2]=='France')]

array([['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1986', 'Americas', 'Canada', 'Beer', '4.87'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1986', 'Americas', 'Canada', 'Wine', '1.33']], dtype='<U75')

In [43]:
data[((data[:,2]=='Canada') | (data[:,2]=='France')) & (data[:,0] == '1986')]

array([['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1986', 'Americas', 'Canada', 'Beer', '4.87'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1986', 'Americas', 'Canada', 'Wine', '1.33']], dtype='<U75')

### Remplacer des valeurs

In [46]:
!pwd

/home/elka/IA-P3-Euskadi/Ressources/Python/1. Analyse de données


In [47]:
data2=data.copy()
data2[data2[:,0]=='1986',0]='2018'
data2

array([['2018', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['2018', 'Americas', 'Uruguay', 'Other', '0.5'],
       ['1985', 'Africa', "Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['2018', 'Europe', 'Switzerland', 'Spirits', '2.54'],
       ['1987', 'Western Pacific', 'Papua New Guinea', 'Other', '0'],
       ['2018', 'Africa', 'Swaziland', 'Other', '5.15']], dtype='<U75')

### Convertir des types de données

In [48]:
### pour effectuer des calculs sur la consommation moyenne, celle-ci doit être numérique
### or pour le moment il s'agit d'un string (conséquence du dtype="U75")

### On utilise la méthode .astype()
mon_filtre_valeurs_vide = (data[:,4] == '')
data[mon_filtre_valeurs_vide,4] = '0'
consommation = data[:,4].astype(float)
consommation

array([0.  , 0.5 , 1.62, ..., 2.54, 0.  , 5.15])

### Calculs avec Numpy

In [49]:
### sum(), mean(), max(), ...
vector

array([ 2,  4,  9, 17])

In [50]:
sum(vector)

32

In [52]:
vector.sum()

32

In [53]:
vector.mean()

8.0

In [54]:
vector.max()

17

In [55]:
vector.min()

2

In [56]:
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

In [57]:
matrix[:,2].sum()

283

In [58]:
matrix.sum(axis=0)

array([ 59,  28, 283])

In [59]:
matrix.sum(axis=1)

array([ 20, 117, 115, 118])

In [60]:
matrix.sum(axis=0)[2]

283

In [61]:
print(matrix.sum(axis=1),' et ', matrix.sum(axis=0))

[ 20 117 115 118]  et  [ 59  28 283]


In [62]:
print(matrix.max(axis=1),' et ', matrix.max(axis=0))

[18 90 87 88]  et  [23 12 90]


In [63]:
print(matrix.mean(axis=1),' et ', matrix.mean(axis=0))

[ 6.66666667 39.         38.33333333 39.33333333]  et  [14.75  7.   70.75]


## Exo : comparer les consommations annuelles d'alcool par pays et déterminer le pays qui a la plus grande consommation d'alcool

Pour déterminer le pays avec la plus grande consommation d'alcool, il y a plusieurs mesures possibles :
 - le plus grand consommateur annuel (la plus grande consommation sur une année) ? *réponse le recordman : tel pays a consommé tant en telle année*
 - le plus grand consommateur annuel en moyenne sur toute la période ? *plus grande consommation consommation annuelle moyenne calculée sur 84-89*
 - le plus grand en consommation totale sur la période ?
 - celui qui a été plus grand consommateur annuel le plus de fois sur la période ?
 - système de classement par points avec des points attribués chaque année en fonction de la position
 - etc...

In [1]:
import numpy as np
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)

# on regarde combien de conso sont manquantes
print(sum(data[:,4]==''), " consos manquantes")

# on supprime les lignes pour lesquelles la conso est manquante
data = data[data[:,4] != '']

# on enlève la région dont on a pas besoin ici
data = data[:,[0,2,3,4]]

print(data.shape)
data

222  consos manquantes
(3035, 4)


array([['1986', 'Viet Nam', 'Wine', '0'],
       ['1986', 'Uruguay', 'Other', '0.5'],
       ['1985', "Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['1986', 'Switzerland', 'Spirits', '2.54'],
       ['1987', 'Papua New Guinea', 'Other', '0'],
       ['1986', 'Swaziland', 'Other', '5.15']], dtype='<U75')

In [2]:
# compter le nombre de pays
pays = np.unique(data[:,1])
len(pays)

163

In [3]:
# compter le nombre d'années
annees = np.unique(data[:,0])
len(annees)

5

In [4]:
# une solution possible, il y en a plein !
# on va créer un dictionnaire de la forme :
# conso = {pays1 :{annee1 : conso1,
#                  annee2 : conso2,
#                  etc},
#           pays2 :{annee1 : conso1,
#                   annee2 : conso2,
#                   etc},
#            ...}
            
conso = {}

for p in pays:
    conso[p] = {}
    for a in annees:
        filtre = (data[:,1]==p) & (data[:,0]==a)
        conso[p][a] = data[filtre,3].astype(float).sum()

conso['France']['1985']
#conso

16.59

In [5]:
# une autre solution :
# création d'un array conso aux bonnes dimensions
c1 = np.tile(annees, len(pays))
c2 = np.repeat(pays, len(annees))
c3 = np.zeros(len(pays)*len(annees))

conso = np.stack((c1,c2,c3), axis=1)
print(conso.shape)
conso

(815, 3)


array([['1984', 'Afghanistan', '0.0'],
       ['1985', 'Afghanistan', '0.0'],
       ['1986', 'Afghanistan', '0.0'],
       ...,
       ['1986', 'Zimbabwe', '0.0'],
       ['1987', 'Zimbabwe', '0.0'],
       ['1989', 'Zimbabwe', '0.0']], dtype='<U75')

In [12]:
# calcul de la conso par année et par pays avec une boucle for
for i in range(conso.shape[0]):
    a = conso[i,0]
    p = conso[i,1]
    filtre = (data[:,1]==p) & (data[:,0]==a)
    res = data[filtre,3].astype(float).sum()
    conso[i,2] = round(res,2)

conso

array([['1984', 'Afghanistan', '0.0'],
       ['1985', 'Afghanistan', '0.0'],
       ['1986', 'Afghanistan', '0.0'],
       ...,
       ['1986', 'Zimbabwe', '7.24'],
       ['1987', 'Zimbabwe', '5.03'],
       ['1989', 'Zimbabwe', '4.92']], dtype='<U75')

In [10]:
# calcul de la conso par année et par pays avec apply_along_axis (équivalent à une boucle for)
def conso_p_a(row):
    a = row[0]
    p = row[1]
    filtre = (data[:,1]==p) & (data[:,0]==a)
    res = data[filtre,3].astype(float).sum()
    return round(res, 2)

conso[:,2] = np.apply_along_axis(conso_p_a, 1, conso)
conso

array([['1984', 'Afghanistan', '0.0'],
       ['1985', 'Afghanistan', '0.0'],
       ['1986', 'Afghanistan', '0.0'],
       ...,
       ['1986', 'Zimbabwe', '7.24'],
       ['1987', 'Zimbabwe', '5.03'],
       ['1989', 'Zimbabwe', '4.92']], dtype='<U75')

In [13]:
# calcul de la conso par année et par pays avec vectorize
def conso_p_a(row):
    a = row[0]
    p = row[1]
    filtre = (data[:,1]==p) & (data[:,0]==a)
    res = data[filtre,3].astype(float).sum()
    return round(res, 2)

vconso = np.vectorize(conso_p_a, signature="(n) -> ()")
conso[:,2] = vconso(conso)
conso

array([['1984', 'Afghanistan', '0.0'],
       ['1985', 'Afghanistan', '0.0'],
       ['1986', 'Afghanistan', '0.0'],
       ...,
       ['1986', 'Zimbabwe', '7.24'],
       ['1987', 'Zimbabwe', '5.03'],
       ['1989', 'Zimbabwe', '4.92']], dtype='<U75')

In [49]:
### Plus grand en consommation annuelle
conso_max = str(max(conso[:,2].astype(float)))
res = conso[conso[:,2] == conso_max]
"{1} détient le record avec {2} L/hab consommés en {0}".format(*res[0])

'Slovenia détient le record avec 18.13 L/hab consommés en 1986'

In [76]:
### Calcul de la somme et la moyenne par pays
conso_p = np.column_stack((pays, np.zeros((len(pays), 2))))

def consos_p(row):
    p = row[0]
    filtre = conso[:,1]==p
    tot = conso[filtre,2].astype(float).sum()
    moy = conso[filtre,2].astype(float).mean()
    return round(tot, 2), round(moy, 2)

vconsos_p = np.vectorize(consos_p, signature="(n) -> (), ()")
res = vconsos_p(conso_p)
conso_p[:,1] = res[0]
conso_p[:,2] = res[1]

In [78]:
### Calcul de la somme et la moyenne par pays avec une boucle for
conso_p = np.column_stack((pays, np.zeros((len(pays), 2))))

for i in range(conso_p.shape[0]):
    p = conso_p[i,0]
    filtre = conso[:,1]==p
    tot = conso[filtre,2].astype(float).sum()
    moy = conso[filtre,2].astype(float).mean()
    conso_p[i,1] = round(tot, 2)
    conso_p[i,2] = round(moy, 2)

#conso_p

In [72]:
### Plus grand en consommation totale sur toute la période
conso_tot_max = str(max(conso_p[:,1].astype(float)))
res = conso_p[conso_p[:,1] == conso_tot_max]
"{0} a la plus grande consommation totale entre 84 et 89 avec avec {1} L/hab".format(*res[0])

'Hungary a la plus grande consommation totale entre 84 et 89 avec avec 82.22 L/hab'

In [73]:
### Plus grand en consommation moyenne sur la période
conso_moy_max = str(max(conso_p[:,2].astype(float)))
res = conso_p[conso_p[:,2] == conso_moy_max]
"{0} a la plus grande consommation moyenne entre 84 et 89 avec avec {2} L/hab".format(*res[0])

'Hungary a la plus grande consommation moyenne entre 84 et 89 avec avec 16.44 L/hab'

In [87]:
### Plus grand nombre d'occurences à la 1ère place du podium (sur les 5 années)
conso_a = np.column_stack((annees, np.zeros((len(annees), 2))))
for i in range(conso_a.shape[0]):
    a = conso_a[i,0]
    filtre = conso[:,0]==a
    max_a = str(max(conso[filtre,2].astype(float)))
    conso_a[i,2] = max_a
    filtre2 = conso[:,2] == max_a
    pays_a = conso[filtre2,1]
    conso_a[i,1] = pays_a[0]

conso_a

array([['1984', 'Portugal', '17.5'],
       ['1985', 'Hungary', '16.74'],
       ['1986', 'Slovenia', '18.13'],
       ['1987', 'Slovenia', '16.64'],
       ['1989', 'Hungary', '16.29']], dtype='<U75')