# Intro à l'analyse de données avec Numpy

## Introduction à Numpy

### Les listes

In [19]:
list_of_list =[["Bayonne",64],["Toulouse",31],["Bordeaux",33]]
list_of_list

[['Bayonne', 64], ['Toulouse', 31], ['Bordeaux', 33]]

In [20]:
list = [1,"plages",8]
list.append("montagne")
list

[1, 'plages', 8, 'montagne']

Avantages :
 - différents types de données
 - modification dynamique
 
Inconvénients :
 - bcp de mémoire et d'énergie consommées
 - problème quand la taille des datasets augmente

### Les tableaux

#### Type ndarray = tableaux de dimensions n

In [2]:
import numpy as np

In [3]:
vector = np.array([2,4,9,17])
vector

array([ 2,  4,  9, 17])

In [21]:
matrix = np.array([[1,1,18],[23,4,90],[17,11,87],[18,12,88]])
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

#### Taille d'un tableau

In [22]:
# propriété shape
print(vector.shape, matrix.shape)

(4,) (4, 3)


In [23]:
# méthode size
print(vector.size,matrix.size)

4 12


#### Lecture d'un fichier de données

In [3]:
# numpy.genfromtxt() ou numpy.loadtxt()
data0 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",")

# les types de données classiques bool, int (16,32,64), float (16,32,64) et string
print(type(data0),data0.dtype)

<class 'numpy.ndarray'> float64


In [9]:
data1 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75")
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)
# afficher data0, data1 et data pour voir les effets et l'intérêt des paramètres dtype et skip_header

#### Extraction de valeurs et sous-ensembles

Éxécuter les cellules suivantes pour voir et comprendre ce qui se passe. C'est ce qu'on appelle le *slicing*

In [10]:
data[0,3]

'Wine'

In [11]:
data[0,:]

array(['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'], dtype='<U75')

In [12]:
data[:,3]

array(['Wine', 'Other', 'Wine', ..., 'Spirits', 'Other', 'Other'],
      dtype='<U75')

In [13]:
data.T

array([['1986', '1986', '1985', ..., '1986', '1987', '1986'],
       ['Western Pacific', 'Americas', 'Africa', ..., 'Europe',
        'Western Pacific', 'Africa'],
       ['Viet Nam', 'Uruguay', "Cte d'Ivoire", ..., 'Switzerland',
        'Papua New Guinea', 'Swaziland'],
       ['Wine', 'Other', 'Wine', ..., 'Spirits', 'Other', 'Other'],
       ['0', '0.5', '1.62', ..., '2.54', '0', '5.15']], dtype='<U75')

In [18]:
data.T[3,:]

array(['Wine', 'Other', 'Wine', ..., 'Spirits', 'Other', 'Other'],
      dtype='<U75')

In [15]:
data[0:3,:]

array([['1986', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['1986', 'Americas', 'Uruguay', 'Other', '0.5'],
       ['1985', 'Africa', "Cte d'Ivoire", 'Wine', '1.62']], dtype='<U75')

In [16]:
data[0:3,0:2]

array([['1986', 'Western Pacific'],
       ['1986', 'Americas'],
       ['1985', 'Africa']], dtype='<U75')

In [17]:
data[:,2:5]

array([['Viet Nam', 'Wine', '0'],
       ['Uruguay', 'Other', '0.5'],
       ["Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['Switzerland', 'Spirits', '2.54'],
       ['Papua New Guinea', 'Other', '0'],
       ['Swaziland', 'Other', '5.15']], dtype='<U75')

## Analyse de données avec Numpy

In [4]:
### On travaille sur les mêmes données
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)

### Comparer

Possibilité d'effectuer des comparaisons est ce qui rend la bibliothèque Numpy très intéressante !

In [26]:
vector

array([ 2,  4,  9, 17])

In [32]:
vector==9

array([False, False,  True, False])

In [30]:
vector[vector==9]

array([9])

In [28]:
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

In [33]:
matrix==1

array([[ True,  True, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [34]:
matrix[matrix==1]

array([1, 1])

In [35]:
data[data[:,2]=='France']

array([['1985', 'Europe', 'France', 'Spirits', '2.7'],
       ['1989', 'Europe', 'France', 'Wine', '10.24'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1989', 'Europe', 'France', 'Other', '0.27'],
       ['1984', 'Europe', 'France', 'Spirits', '2.58'],
       ['1987', 'Europe', 'France', 'Beer', '2.45'],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1989', 'Europe', 'France', 'Beer', '2.56'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1984', 'Europe', 'France', 'Beer', '2.62'],
       ['1984', 'Europe', 'France', 'Other', '0.24'],
       ['1985', 'Europe', 'France', 'Wine', '11.1'],
       ['1985', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1989', 'Europe', 'France', 'Spirits', '2.98'],
       ['1985', 'Europe', 'France', 'Beer', '2.54'],
       ['1987', 'Europe', 'France', 'Wine', '10.42'],
       ['1984', 'Europe', 'France', 'Wine', '11.45'],
       ['1987', 'Europe', '

In [81]:
data[(data[:,2]=='Canada')|(data[:,2]=='France')]

array([['1985', 'Europe', 'France', 'Spirits', '2.7'],
       ['1984', 'Americas', 'Canada', 'Spirits', '3.35'],
       ['1989', 'Europe', 'France', 'Wine', '10.24'],
       ['1989', 'Americas', 'Canada', 'Wine', '1.27'],
       ['1984', 'Americas', 'Canada', 'Beer', '5'],
       ['1985', 'Americas', 'Canada', 'Beer', '4.94'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1987', 'Americas', 'Canada', 'Wine', '1.3'],
       ['1989', 'Europe', 'France', 'Other', '0.27'],
       ['1987', 'Americas', 'Canada', 'Beer', '4.83'],
       ['1984', 'Europe', 'France', 'Spirits', '2.58'],
       ['1987', 'Europe', 'France', 'Beer', '2.45'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1989', 'Europe', 'France', 'Beer', '2.56'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1985', 'Americas', 'Canada', 'Spirits', '3.21'],
       ['1984',

In [82]:
data[((data[:,2]=='Canada') | (data[:,2]=='France')) & (data[:,0] == '1986')]

array([['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1986', 'Americas', 'Canada', 'Beer', '4.87'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1986', 'Americas', 'Canada', 'Wine', '1.33']], dtype='<U75')

In [83]:
data[(data[:,2]=='Canada') | (data[:,2]=='France') & (data[:,0] == '1986')]

array([['1984', 'Americas', 'Canada', 'Spirits', '3.35'],
       ['1989', 'Americas', 'Canada', 'Wine', '1.27'],
       ['1984', 'Americas', 'Canada', 'Beer', '5'],
       ['1985', 'Americas', 'Canada', 'Beer', '4.94'],
       ['1986', 'Europe', 'France', 'Other', '0.25'],
       ['1987', 'Americas', 'Canada', 'Wine', '1.3'],
       ['1987', 'Americas', 'Canada', 'Beer', '4.83'],
       ['1986', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Europe', 'France', 'Spirits', '2.71'],
       ['1986', 'Europe', 'France', 'Beer', '2.55'],
       ['1986', 'Americas', 'Canada', 'Spirits', '3.11'],
       ['1985', 'Americas', 'Canada', 'Spirits', '3.21'],
       ['1985', 'Americas', 'Canada', 'Other', ''],
       ['1986', 'Americas', 'Canada', 'Beer', '4.87'],
       ['1984', 'Americas', 'Canada', 'Wine', '1.24'],
       ['1986', 'Europe', 'France', 'Wine', '10.62'],
       ['1989', 'Americas', 'Canada', 'Spirits', '2.91'],
       ['1984', 'Americas', 'Canada', 'Other', ''],
       ['1985'

### Remplacer des valeurs

In [86]:
data2=data.copy()
data2[:,0][data2[:,0]=='1986']='2018'
data2

array([['2018', 'Western Pacific', 'Viet Nam', 'Wine', '0'],
       ['2018', 'Americas', 'Uruguay', 'Other', '0.5'],
       ['1985', 'Africa', "Cte d'Ivoire", 'Wine', '1.62'],
       ...,
       ['2018', 'Europe', 'Switzerland', 'Spirits', '2.54'],
       ['1987', 'Western Pacific', 'Papua New Guinea', 'Other', '0'],
       ['2018', 'Africa', 'Swaziland', 'Other', '5.15']], dtype='<U75')

### Convertir des types de données

In [98]:
### pour effectuer des calculs sur la consommation moyenne, celle-ci doit être numérique
### or pour le moment il s'agit d'un string (conséquence du dtype="U75")

### On utilise la méthode .astype()
data[:,4][data[:,4] == ''] = '0'
consommation = data[:,4].astype(float)
consommation

array([0.  , 0.5 , 1.62, ..., 2.54, 0.  , 5.15])

### Calculs avec Numpy

In [101]:
### sum(), mean(), max(), ...
vector

array([ 2,  4,  9, 17])

In [102]:
vector.sum()

32

In [103]:
vector.mean()

8.0

In [104]:
vector.max()

17

In [105]:
vector.min()

2

In [106]:
matrix

array([[ 1,  1, 18],
       [23,  4, 90],
       [17, 11, 87],
       [18, 12, 88]])

In [110]:
print(matrix.sum(axis=1),' et ', matrix.sum(axis=0))

[ 20 117 115 118]  et  [ 59  28 283]


In [111]:
print(matrix.max(axis=1),' et ', matrix.max(axis=0))

[18 90 87 88]  et  [23 12 90]


In [112]:
print(matrix.mean(axis=1),' et ', matrix.mean(axis=0))

[ 6.66666667 39.         38.33333333 39.33333333]  et  [14.75  7.   70.75]


## Exo : comparer les consommations annuelles d'alcool par pays et déterminer le pays qui a la plus grande consommation d'alcool

In [151]:
### une solution possible parmi les centaines qui existent : chacun la sienne donc !
conso = {}

for country in np.unique(data[:,2]):
    conso[country]={}
    for year in np.unique(data[:,0]):
        conso[country][year] = data[(data[:,0]==year)&(data[:,2]==country),4].astype(float).sum()
        
conso

{'Afghanistan': {'1984': 0.0,
  '1985': 0.0,
  '1986': 0.0,
  '1987': 0.0,
  '1989': 0.0},
 'Albania': {'1984': 1.58,
  '1985': 1.6,
  '1986': 1.38,
  '1987': 1.63,
  '1989': 1.73},
 'Algeria': {'1984': 0.33,
  '1985': 0.31,
  '1986': 0.29,
  '1987': 0.28,
  '1989': 0.4},
 'Angola': {'1984': 1.94,
  '1985': 2.06,
  '1986': 1.7,
  '1987': 1.6300000000000001,
  '1989': 2.28},
 'Antigua and Barbuda': {'1984': 5.41,
  '1985': 3.58,
  '1986': 3.55,
  '1987': 3.68,
  '1989': 4.69},
 'Argentina': {'1984': 13.839999999999998,
  '1985': 12.749999999999998,
  '1986': 12.89,
  '1987': 12.759999999999998,
  '1989': 10.82},
 'Australia': {'1984': 12.73,
  '1985': 12.9,
  '1986': 12.3,
  '1987': 12.46,
  '1989': 12.09},
 'Austria': {'1984': 13.9,
  '1985': 13.3,
  '1986': 13.6,
  '1987': 13.5,
  '1989': 13.9},
 'Bahamas': {'1984': 14.74,
  '1985': 14.55,
  '1986': 14.120000000000001,
  '1987': 14.139999999999999,
  '1989': 12.290000000000001},
 'Bahrain': {'1984': 6.53,
  '1985': 5.45,
  '1986': 5.1

Pour déterminer le pays avec la plus grande consommation d'alcool, il y a plusieurs mesures possibles :
 - le plus grand consommateur annuel en moyenne sur toute la période ?
 - le plus grand en consommation totale sur la période ?
 - le plus grand consommateur par an en moyenne ?
 - celui qui a été plus grand consommateur annuel le plus de fois sur la période ?
 - système de classement par points avec des points attribués chaque année en fonction de la position
 - etc...

On en implémente quelques unes

In [178]:
### Plus grand en consommation annuelle sur toute la période
country_max = ''
conso_max = 0
year_max = ''

for country in np.unique(data[:,2]):
    for year in np.unique(data[:,0]):
        if conso[country][year] > conso_max:
            country_max = country
            year_max = year
            conso_max = conso[country][year]

print(country_max,'a établi le record de consommation annuelle avec',conso_max, 'L/hab/an consommés en',year_max)

Slovenia a établi le record de consommation annuelle avec 18.13 L/hab/an consommés en 1986


In [175]:
### Plus grand en consommation totale sur toute la période
### (on peut repartir de data en faisant une somme par pays ou directement du dictionnaire conso)
for country in np.unique(data[:,2]):
    conso[country]['conso_tot']=sum([conso[country][yr] for yr in np.unique(data[:,0])])

country_max_tot = ''
conso_max_tot = 0

for country in np.unique(data[:,2]):
    if conso[country]['conso_tot'] > conso_max_tot:
        country_max_tot = country
        conso_max_tot = conso[country]['conso_tot']

print(country_max_tot,'est le petit champion sur la période 84-89 avec au total',conso_max_tot,'L/hab/an consommés')

### WARNING : quel principal défaut pourrait-on reprocher à cette mesure ?

Hungary est le petit champion sur la période 84-89 avec au total 82.22 L/hab/an consommés


In [174]:
### Plus grand en consommation annuelle moyenne sur la période
for country in np.unique(data[:,2]):
    conso[country]['conso_mean']=np.mean([conso[country][yr] for yr in np.unique(data[:,0])])

country_max_mean = ''
conso_max_mean = 0

for country in np.unique(data[:,2]):
    if conso[country]['conso_mean'] > conso_max_mean:
        country_max_mean = country
        conso_max_mean = conso[country]['conso_mean']

print(country_max_mean,'a la plus grande consommation annuelle moyenne avec',conso_max_mean,'L/hab/an consommés')

Hungary a la plus grande consommation annuelle moyenne avec 16.444 L/hab/an consommés


In [223]:
### Plus grand nombre d'occurences à la 1ère place du podium
maxi={}
for yr in np.unique(data[:,0]):
    consomax = max([conso[cntry][yr] for cntry in np.unique(data[:,2])])
    for country in np.unique(data[:,2]):
        if consomax in conso[country].values():
            countrymax = country
            break
    maxi[yr] = [consomax,countrymax]

maxi
#c = [maxi[yr][1] for yr in np.unique(data[:,0])]
#o = [c.count(c[k]) for k in range(0,5)]

### WARNING : que faire lorsque 2 pays ont le même nombre d'occurences ?

{'1984': [17.5, 'Portugal'],
 '1985': [16.740000000000002, 'Hungary'],
 '1986': [18.13, 'Slovenia'],
 '1987': [16.64, 'Slovenia'],
 '1989': [16.29, 'Hungary']}