## Numpy

Numpy est une biblotheque pour la manipulation de données numériques, elle est utilisée pour :
- Créer et manipuler efficacement des tableaux multidimensionnels
- Effectuer des calculs performants
- Travailler avec des fichiers CSV
- Servir de base à des bibliotheques comme Pandas, Scikit-learn

In [2]:
# pip install numpy
import numpy as np

### 1. Création d'un tableaux NumPy

NumPy permet de créer des tableaux de manière efficace :
- à partir d'une liste
- Avec des méthodes comme `arange`, `zeros`, `ones`, `random`

In [13]:
ma_liste = [1, 2, 3]

a = np.array(ma_liste)
print(a)
print(type(a))

# Matrice à 2D
b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b)

# Methodes utilitaires
print(np.arange(0, 10, 2))
print(np.zeros((5,6)))
print(np.ones((2,3)))
print(np.random.rand(2,3))

[1 2 3]
<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[0 2 4 6 8]
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[0.73845638 0.41649118 0.72703946]
 [0.22496973 0.39096582 0.81061753]]


### 2. Indexing et Slicing

Vous pouvez accéder aux éléments d'un tableau Numpy avec l'index ou des tranches (slice)

In [None]:
arr = np.arange(10)
print("Tableau de base :", arr)
print("Tableau[1] :", arr[1])
print("Tableau[2:5] :", arr[2:5]) # [index_debut : index_fin(inclut)]

mat = np.arange(1,10).reshape(3,3)
print("Matrice :\n", mat)
print("mat[1,2] :", mat[1,2]) # mat[1][2]
print("mat[:2,1:] :\n", mat[:2,1:]) # [lignes, colones]


Tableau de base : [0 1 2 3 4 5 6 7 8 9]
Tableau[1] : 1
Tableau[2:5] : [2 3 4]
Matrice :
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
mat[1,2] : 6
mat[:2,1:] :
 [[2 3]
 [5 6]]


### Exercice 01 :

1. Créer une matrice de 3x3 remplie de 7
2. Générer une matrice 4x4 de nombres aléatoires entre 0 et 1
3. Créer un tableau de 0 à 9 et afficher les éléments d'index 3 à 7
4. Extraire la dernière colone d'une matrice 3x3 construite avec arange

In [31]:
# Correction

# 1.
a = np.full((3,3), 7)
print(a)

# 2.
b = np.random.rand(4, 4)
print(b)

# 3.
c = np.arange(10)
print(c[3:8])

# 4.
d = np.arange(9).reshape(3,3)
print(d)
print(d[:,-1])

[[7 7 7]
 [7 7 7]
 [7 7 7]]
[[0.64125061 0.86064275 0.08235789 0.86011518]
 [0.98777258 0.85657141 0.32189293 0.61123298]
 [0.97984775 0.12203838 0.43228624 0.30159396]
 [0.50529956 0.32355038 0.63717134 0.99805536]]
[3 4 5 6 7]
[[0 1 2]
 [3 4 5]
 [6 7 8]]
[2 5 8]


## 3. Opérations mathématiques

- `+`, `-`, `*`, `/`
- `np.sum`, `np.mean`, `np.std` ect

In [None]:
x = np.array([1,2,3])
y = np.array([4,5,6])

print("Addition :", x + y)
print("Multiplication :", x * y)

# Statistiques sur les tableaux
mat = np.arange(1, 10).reshape(3,3)
print(mat)
print("La somme des valeurs du tableau :", mat.sum())
print("Somme horizontal :", mat.sum(axis=1)) # axis=1 -> lignes
print("Somme vertical :", mat.sum(axis=0)) # axis=0 -> colones
print("Medianne :", np.median(mat))
print("Medianne en excluant les nan :", np.nanmedian(mat))
print("min :", mat.min())
print("position de min :", mat.argmin())
print("max :", mat.max())
print("position de max :", mat.argmax())
print("moyenne :", mat.mean())
print("Ecart type :", mat.std())


Addition : [5 7 9]
Multiplication : [ 4 10 18]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
La somme des valeurs du tableau : 45
Somme horizontal : [ 6 15 24]
Somme vertical : [12 15 18]
Medianne : 5.0
Medianne en excluant les nan : 5.0
min : 1
position de min : 0
max : 9
position de max : 8
moyenne : 5.0
Ecart type : 2.581988897471611


### Exercice 02:

1. Créer un tableau de 10 valeurs aléatoires et afficher sa moyenne
2. Calculer la somme de chaque colonne d'une matrice 4x3

In [49]:
# Correction

# 1. 
a = np.random.rand(10)
print("Moyenne :", a.mean())

# 2
b = np.random.randint(1, 10, size=(4, 3))
print(b)
print("somme par colonne :", b.sum(axis=0))

Moyenne : 0.41534240038596615
[[6 4 5]
 [8 6 6]
 [1 1 7]
 [5 9 1]]
somme par colonne : [20 20 19]


4. Chargement de données CSV

In [63]:
# On saute la première ligne pour les en-têtes et on ignore la première colonne
data = np.genfromtxt("./pays.csv", delimiter=",", skip_header=1, usecols=(1,2))

print(data)
valeurs_2015 = data[:,0].astype(int)
valeurs_2020 = data[:,1].astype(int)

print("Moyenne de 2015:",valeurs_2015.mean())
print("Moyenne de 2020:", valeurs_2020.mean())

augmentation = valeurs_2020 - valeurs_2015
print(augmentation)

noms_pays = np.genfromtxt("./pays.csv", delimiter=",", skip_header=1, usecols=0, dtype=str)
print(noms_pays)

print("Pays avec la plus grande augmentation :", noms_pays[np.argmax(augmentation)])



[[4000. 4200.]
 [3800. 3900.]
 [3500. 3600.]
 [3300. 3400.]]
Moyenne de 2015: 3650.0
Moyenne de 2020: 3775.0
[200 100 100 100]
['France' 'Allemagne' 'Italie' 'Espagne']
Pays avec la plus grande augmentation : France


### Exercice 03 :

1. Charger le csv avec genfromtxt
2. Calculer à l'aide de Numpy :
    - Le total des ventes de l'année
    - Le chiffre d'affaire total
    - Le mois avec le plus gros chiffre d'affaire
    - La moyenne des prix moyens
    - La corrélation entre articles vendus et le chiffre d'affaire

In [67]:
# Correction

mois = np.genfromtxt("./ventes_mensuelles.csv", delimiter=",", encoding="utf-8", skip_header=1, usecols=0, dtype=str)
data = np.genfromtxt("./ventes_mensuelles.csv", delimiter=",", encoding="utf-8", skip_header=1, usecols=range(1,4))

articles_vendus = data[:,0].astype(float)
prix_moyen = data[:,1].astype(float)
chiffre_affaires = data[:,2].astype(float)

# Calculs
print("Total articles vendus :", np.sum(articles_vendus))
print("Chiffre d'affaires total :", np.sum(chiffre_affaires))
print("Le mois avec le plus gros CA :", mois[np.argmax(chiffre_affaires)])
print("Prix moyen annuel :", np.mean(prix_moyen))
print("Corrélation ventes/CA :", np.corrcoef(articles_vendus, chiffre_affaires)[0,1])



Total articles vendus : 1732.0
Chiffre d'affaires total : 34038.340000000004
Le mois avec le plus gros CA : Novembre
Prix moyen annuel : 19.9475
Corrélation ventes/CA : 0.8690920851973903


### TP

1. Chargez les données avec Numpy
    dates -> range(4, 66)
2. Calculez les statistiques de base : moyenne, médiane et écart-type sur chaque années
3. Identifiez les pays avec la plus haute et la plus basse consommation

In [None]:
# Correction

annees = np.genfromtxt("Cleaned_Energy_Consumption_Data.csv", delimiter=",", encoding="utf-8", max_rows=1, usecols=range(4,66))
noms_pays = np.genfromtxt("Cleaned_Energy_Consumption_Data.csv", delimiter=",", encoding="utf-8", skip_header=1, usecols=0, dtype=str)
data = np.genfromtxt("Cleaned_Energy_Consumption_Data.csv", delimiter=",", skip_header=1, usecols=range(4,66))

moyenne_annuelle = np.nanmean(data, axis=0)
mediane_annuelle = np.nanmedian(data, axis=0)
ecart_type_annuel = np.nanstd(data, axis=0)

for i,annee in enumerate(annees):
    if not np.isnan(moyenne_annuelle[i]):
        print(f"Année : {int(annee)} -> Moyenne : {moyenne_annuelle[i]} -> Médiane : {mediane_annuelle[i]} -> Écart-type : {ecart_type_annuel[i]}")

moyenne_par_pays = np.nanmean(data, axis=1)

indice_max = np.nanargmax(moyenne_par_pays)
indice_min = np.nanargmin(moyenne_par_pays)

valeur_max = moyenne_par_pays[indice_max]
valeur_min = moyenne_par_pays[indice_min]

print(f"Pays le plus consommateur : {noms_pays[indice_max]} avec {valeur_max}")
print(f"Pays le moins consommateur : {noms_pays[indice_min]} avec {valeur_min}")


Année : 1960 -> Moyenne : 2385.4778525176125 -> Médiane : 1906.17492996139 -> Écart-type : 1964.9369128021829
Année : 1961 -> Moyenne : 2420.6151296238836 -> Médiane : 1937.64474486121 -> Écart-type : 1949.3607735567646
Année : 1962 -> Moyenne : 2521.592262604552 -> Médiane : 2081.01162075335 -> Écart-type : 1939.2348437424316
Année : 1963 -> Moyenne : 2656.7048872065056 -> Médiane : 2268.42788956612 -> Écart-type : 1959.7188395151334
Année : 1964 -> Moyenne : 2765.0577579639425 -> Médiane : 2341.14631341369 -> Écart-type : 2055.0076451078958
Année : 1965 -> Moyenne : 2809.547181049369 -> Médiane : 2435.74681451341 -> Écart-type : 2026.2794119677624
Année : 1966 -> Moyenne : 2889.1431226163277 -> Médiane : 2496.625915482805 -> Écart-type : 1995.1603894417476
Année : 1967 -> Moyenne : 2972.116780893887 -> Médiane : 2575.60741470247 -> Écart-type : 1999.8772061411837
Année : 1968 -> Moyenne : 3159.6594934369496 -> Médiane : 2802.1661213840152 -> Écart-type : 2115.610897302918
Année : 196

  moyenne_annuelle = np.nanmean(data, axis=0)
  mediane_annuelle = np.nanmedian(data, axis=0)
  var = nanvar(a, axis=axis, dtype=dtype, out=out, ddof=ddof,
  moyenne_par_pays = np.nanmean(data, axis=1)
