## Numpy

Numpy est une biblotheque pour la manipulation de données numériques, elle est utilisée pour :
- Créer et manipuler efficacement des tableaux multidimensionnels
- Effectuer des calculs performants
- Travailler avec des fichiers CSV
- Servir de base à des bibliotheques comme Pandas, Scikit-learn

In [2]:
# pip install numpy
import numpy as np

### 1. Création d'un tableaux NumPy

NumPy permet de créer des tableaux de manière efficace :
- à partir d'une liste
- Avec des méthodes comme `arange`, `zeros`, `ones`, `random`

In [13]:
ma_liste = [1, 2, 3]

a = np.array(ma_liste)
print(a)
print(type(a))

# Matrice à 2D
b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b)

# Methodes utilitaires
print(np.arange(0, 10, 2))
print(np.zeros((5,6)))
print(np.ones((2,3)))
print(np.random.rand(2,3))

[1 2 3]
<class 'numpy.ndarray'>
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[0 2 4 6 8]
[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]]
[[0.73845638 0.41649118 0.72703946]
 [0.22496973 0.39096582 0.81061753]]


### 2. Indexing et Slicing

Vous pouvez accéder aux éléments d'un tableau Numpy avec l'index ou des tranches (slice)

In [None]:
arr = np.arange(10)
print("Tableau de base :", arr)
print("Tableau[1] :", arr[1])
print("Tableau[2:5] :", arr[2:5]) # [index_debut : index_fin(inclut)]

mat = np.arange(1,10).reshape(3,3)
print("Matrice :\n", mat)
print("mat[1,2] :", mat[1,2]) # mat[1][2]
print("mat[:2,1:] :\n", mat[:2,1:]) # [lignes, colones]


Tableau de base : [0 1 2 3 4 5 6 7 8 9]
Tableau[1] : 1
Tableau[2:5] : [2 3 4]
Matrice :
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
mat[1,2] : 6
mat[:2,1:] :
 [[2 3]
 [5 6]]


### Exercice 01 :

1. Créer une matrice de 3x3 remplie de 7
2. Générer une matrice 4x4 de nombres aléatoires entre 0 et 1
3. Créer un tableau de 0 à 9 et afficher les éléments d'index 3 à 7
4. Extraire la dernière colone d'une matrice 3x3 construite avec arange

In [31]:
# Correction

# 1.
a = np.full((3,3), 7)
print(a)

# 2.
b = np.random.rand(4, 4)
print(b)

# 3.
c = np.arange(10)
print(c[3:8])

# 4.
d = np.arange(9).reshape(3,3)
print(d)
print(d[:,-1])

[[7 7 7]
 [7 7 7]
 [7 7 7]]
[[0.64125061 0.86064275 0.08235789 0.86011518]
 [0.98777258 0.85657141 0.32189293 0.61123298]
 [0.97984775 0.12203838 0.43228624 0.30159396]
 [0.50529956 0.32355038 0.63717134 0.99805536]]
[3 4 5 6 7]
[[0 1 2]
 [3 4 5]
 [6 7 8]]
[2 5 8]


## 3. Opérations mathématiques

- `+`, `-`, `*`, `/`
- `np.sum`, `np.mean`, `np.std` ect

In [None]:
x = np.array([1,2,3])
y = np.array([4,5,6])

print("Addition :", x + y)
print("Multiplication :", x * y)

# Statistiques sur les tableaux
mat = np.arange(1, 10).reshape(3,3)
print(mat)
print("La somme des valeurs du tableau :", mat.sum())
print("Somme horizontal :", mat.sum(axis=1)) # axis=1 -> lignes
print("Somme vertical :", mat.sum(axis=0)) # axis=0 -> colones
print("Medianne :", np.median(mat))
print("Medianne en excluant les nan :", np.nanmedian(mat))
print("min :", mat.min())
print("position de min :", mat.argmin())
print("max :", mat.max())
print("position de max :", mat.argmax())
print("moyenne :", mat.mean())
print("Ecart type :", mat.std())


Addition : [5 7 9]
Multiplication : [ 4 10 18]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
La somme des valeurs du tableau : 45
Somme horizontal : [ 6 15 24]
Somme vertical : [12 15 18]
Medianne : 5.0
Medianne en excluant les nan : 5.0
min : 1
position de min : 0
max : 9
position de max : 8
moyenne : 5.0
Ecart type : 2.581988897471611


### Exercice 02 :

1. Créer un tableau de 10 valeurs aléatoires et afficher sa moyenne
2. Calculer la somme de chaque colonne d'une matrice 4x3

In [13]:
# Tableau de 10 valeurs aléatoires + moyenne
my_array = np.random.rand(10)
print(my_array)
print("Moyenne : ", my_array.mean())

# Somme de chaque colonne d'une matrice 4x3
my_new_array = np.random.randint(1, 10, size=(4,3))
print(my_new_array)
print("Sommes par colonnes : ", my_new_array.sum(axis=0))

[0.43628394 0.00564091 0.21204099 0.48607705 0.81866618 0.25900366
 0.80198402 0.25115557 0.42236062 0.59531194]
Moyenne :  0.42885248914291685
[[5 6 7]
 [8 4 5]
 [5 9 3]
 [9 9 8]]
Sommes par colonnes :  [27 28 23]


## 4. Chargement de données CSV

In [None]:
# On saute la première ligne pour les en-têtes et on ignore la première colonne
data = np.genfromtxt("./pays.csv", delimiter=",", skip_header=1, usecols=(1,2))

print(data)
valeurs_2015 = data[:,0].astype(int)
valeurs_2020 = data[:,1].astype(int)

print("Moyenne de 2015 :", valeurs_2015.mean())
print("Moyenne de 2020 :", valeurs_2020.mean())

augmentation = valeurs_2020 - valeurs_2015
print(augmentation)

noms_pays = np.genfromtxt("./pays.csv", delimiter=",", skip_header=1, usecols=0, dtype=str)
print(noms_pays)

print("Pays avec la plus grande augmentation :", noms_pays[np.argmax(augmentation)])

### Exercice 03 :
1. Charger le csv avec genfromtxt
2. Calculer à l'aide de Numpy :
   - Le total des ventes de l'année
   - Le chiffre d'affaire total
   - Le mois avec le plus gros chiffre d'affaire
   - La moyenne des prix moyens
   - La corrélation entre les articles vendus et le chiffre d'affaire

In [57]:
# Extraire le CSV :
data = np.genfromtxt("./ventes_mensuelles.csv", delimiter=",", skip_header=1, usecols=range(1,4))
mois = np.genfromtxt("./ventes_mensuelles.csv", delimiter=",", skip_header=1, usecols=(0), dtype=str)

articles_vendus = data[:,0]
prix_moyen = data[:,1]
chiffre_affaires = data[:,2]

# Calculs :
print("Total des ventes : ", np.sum(articles_vendus))
print("CA total : ", np.sum(chiffre_affaires))
print("Mois avec le plus gros CA : ", mois[np.argmax(chiffre_affaires)])
print("Moyenne des prix moyens : ", np.mean(prix_moyen))
print("Coefficient de corrélation entre le nombre d'articles vendus et le chiffre d'affaire", np.corrcoef(articles_vendus, chiffre_affaires)[0,1])

Total des ventes :  1732.0
CA total :  34038.340000000004
Mois avec le plus gros CA :  Novembre
Moyenne des prix moyens :  19.9475
Coefficient de corrélation entre le nombre d'articles vendus et le chiffre d'affaire 0.8690920851973903


## TP
1. Charger les données avec Numpy
   dates -> range(4,66)
2. Calculer les statistiques de base (moy, med, écart-type) sur chaque année
3. Identifier les pays sur la plus haute et la plus basse consommation

In [None]:
data = np.genfromtxt("./Cleaned_Energy_Consumption_Data.csv", delimiter=",", encoding="utf-8", skip_header=1, usecols=range(4,67), filling_values=np.nan, dtype=float)
annees = np.genfromtxt("./Cleaned_Energy_Consumption_Data.csv", delimiter=",", encoding="utf-8", max_rows=1, usecols=range(4,67), dtype=int)
pays = np.genfromtxt("./Cleaned_Energy_Consumption_Data.csv", delimiter=",", encoding="utf-8", skip_header=1, usecols=0, dtype=str)

# Calculs de base
for i, annee in enumerate(annees): 
    colonne = data[:,i]

    print(f"Pour l'année {annee} :")
    if np.all(np.isnan(colonne)):
        print("    - Données manquantes pour cette colonne.")
    else:
        print(f"    - La consommation moyenne a été de : {np.nanmean(colonne)}.")
        print(f"    - La consommation médiane a été de : {np.nanmedian(colonne)}.")
        print(f"    - L'écart-type a été de : {np.nanstd(colonne)}.")
        print(f"    - Le pays ayant le plus consommé est : {pays[np.nanargmax(colonne)]}")
        print(f"    - Le pays ayant le moins consommé est : {pays[np.nanargmin(colonne)]}")

# Pays ayant le plus et moins consommés au total :

moyennes_globales = np.nanmean(data, axis=1)
print(f"Au total, le pays ayant le plus consommé est : {pays[np.nanargmax(moyennes_globales)]}")
print(f"Au total, le pays ayant le moins consommé est : {pays[np.nanargmin(moyennes_globales)]}")

Pour l'année 1960 :
    - La consommation moyenne a été de : 2385.477852517612.
    - La consommation médiane a été de : 1906.17492996139.
    - L'écart-type a été de : 1964.9369128021833.
    - Le pays ayant le plus consommé est : Luxembourg
    - Le pays ayant le moins consommé est : Greece
Pour l'année 1961 :
    - La consommation moyenne a été de : 2420.615129623884.
    - La consommation médiane a été de : 1937.64474486121.
    - L'écart-type a été de : 1949.3607735567643.
    - Le pays ayant le plus consommé est : Luxembourg
    - Le pays ayant le moins consommé est : Greece
Pour l'année 1962 :
    - La consommation moyenne a été de : 2521.5922626045517.
    - La consommation médiane a été de : 2081.01162075335.
    - L'écart-type a été de : 1939.2348437424316.
    - Le pays ayant le plus consommé est : Luxembourg
    - Le pays ayant le moins consommé est : Greece
Pour l'année 1963 :
    - La consommation moyenne a été de : 2656.7048872065056.
    - La consommation médiane a été 

  moyennes_globales = np.nanmean(data, axis=1)
