# Intro à l'analyse de données avec Numpy

## Introduction à Numpy

### Les listes

In [None]:
list_of_list =[["Bayonne",64],["Toulouse",31],["Bordeaux",33]]
list_of_list

In [None]:
list_of_list[1][0]

In [None]:
liste = [1,"plages",8]
liste.append("montagne")
liste

Avantages :
 - différents types de données
 - modification dynamique
 
Inconvénients :
 - bcp de mémoire et d'énergie consommées
 - problème quand la taille des datasets augmente

### Les tableaux

#### Type ndarray = tableaux de dimensions n

In [None]:
import numpy as np

In [None]:
vector = np.array([2,4,9,17])
vector, type(vector)

In [None]:
matrix = np.array([[1,1,18],[23,4,90],[17,11,87],[18,12,88]])
matrix

In [None]:
matrix = np.array([[1,1,18],[23,"4",90],[17,11,87],[18,"12",88]])
matrix

In [None]:
matrix.dtype

#### Taille d'un tableau

In [None]:
# propriété shape
print(vector.shape)

In [None]:
print(matrix.shape)

In [None]:
print(matrix.shape[0])
print(matrix.shape[1])

In [None]:
len(vector), len(matrix)

In [None]:
# méthode size
print(vector.size,matrix.size)

#### Lecture d'un fichier de données

In [None]:
# numpy.genfromtxt() ou numpy.loadtxt()
data0 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",")

# les types de données classiques bool, int (16,32,64), float (16,32,64) et string
print(type(data0),data0.dtype)

In [None]:
data0

In [None]:
data1 = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75")
# afficher data0, data1 et data pour voir les effets et l'intérêt des paramètres dtype et skip_header

In [None]:
data1

In [None]:
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)
print(data)

#### Extraction de valeurs et sous-ensembles

Éxécuter les cellules suivantes pour voir et comprendre ce qui se passe. C'est ce qu'on appelle le *slicing*

In [None]:
data[0,3]

In [None]:
data[0,:]

In [None]:
data[:,3]

In [None]:
print(data.shape,data.T.shape)

In [None]:
data.T[3,:]

In [None]:
data[0:3,:]

In [None]:
data[:3,:2]

In [None]:
data[:,2:5]

In [None]:
data[:,-2:]

## Analyse de données avec Numpy

In [None]:
### On travaille sur les mêmes données
data = np.genfromtxt("Data/world-alcohol.csv", delimiter = ",", dtype="U75", skip_header =1)

### Comparer

Possibilité d'effectuer des comparaisons est ce qui rend la bibliothèque Numpy très intéressante !

In [None]:
vector

In [None]:
vector>=9

In [None]:
vector[vector>=9]

In [None]:
data[:,2]=='France'

In [None]:
data[data[:,2]=='France', ]

In [None]:
data[(data[:,2]=='Canada')|(data[:,2]=='France'), :]

In [None]:
data[((data[:,2]=='Canada') | (data[:,2]=='France')) & (data[:,0] == '1986')]

In [None]:
data86 = data[data[:,0] == '1986']
data86[(data86[:,2]=='Canada') | (data86[:,2]=='France')]

### Remplacer des valeurs

In [None]:
data2=data.copy()
data2[data2[:,0]=='1986', 0]='2018'
data2

### Convertir des types de données

In [None]:
### pour effectuer des calculs sur la consommation moyenne, celle-ci doit être numérique
### or pour le moment il s'agit d'un string (conséquence du dtype="U75")

### On utilise la méthode .astype()
mon_filtre_valeurs_vide = (data[:,4] == '')
data[mon_filtre_valeurs_vide, 4] = '0'
consommation = data[:,4].astype(float)
consommation

### Calculs avec Numpy

In [None]:
### sum(), mean(), max(), ...
vector

In [None]:
sum(vector)

In [None]:
vector.sum()

In [None]:
vector.mean()

In [None]:
vector.max()

In [None]:
vector.min()

In [None]:
matrix = matrix.astype(int)
matrix

In [None]:
matrix[:,2].sum()

In [None]:
matrix.sum(axis=0)

In [None]:
matrix.sum(axis=1)

In [None]:
matrix.sum(axis=0)[2]

In [None]:
print(matrix.sum(axis=1),' et ', matrix.sum(axis=0))

In [None]:
print(matrix.max(axis=1),' et ', matrix.max(axis=0))

In [None]:
print(matrix.mean(axis=1),' et ', matrix.mean(axis=0))

## Exo : comparer les consommations annuelles d'alcool par pays et déterminer le pays qui a la plus grande consommation d'alcool

Pour déterminer le pays avec la plus grande consommation d'alcool, il y a plusieurs mesures possibles :
 - le plus grand consommateur annuel (la plus grande consommation sur une année) ? *réponse le recordman : tel pays a consommé tant en telle année*
 - le plus grand consommateur annuel en moyenne sur toute la période ? *plus grande consommation consommation annuelle moyenne calculée sur 84-89*
 - le plus grand en consommation totale sur la période ?
 - celui qui a été plus grand consommateur annuel le plus de fois sur la période ?
 - système de classement par points avec des points attribués chaque année en fonction de la position
 - etc...

On en implémente quelques unes