# Import des packages

In [1]:
import numpy as np

# Méthodes ndarray

In [2]:
np.random.seed(0)
A = np.random.randint(0,10, [2,3])
A

array([[5, 0, 3],
       [3, 7, 9]])

In [4]:
A.sum()

27

In [7]:
# Utiliser la méthode sum sur l'un des axes de mon tableau
## Axe 0 
A.sum(axis = 0) # somme des x
## Axe 1
A.sum(axis = 1) # somme des y

array([ 8, 19])

### Utilisation de plusieurs méthodes

In [8]:
# Somme cumulé
A.cumsum()

array([ 5,  5,  8, 11, 18, 27])

In [10]:
# Produit du tableau
A.prod()

0

In [11]:
# Produit cumulé
A.cumprod()

array([5, 0, 0, 0, 0, 0])

In [19]:
A.min(axis=0)

array([0, 3, 5])

In [13]:
A.max()

9

In [14]:
A.argmin() # sert à trouver la position du minimum

1

In [20]:
A.argmax() # sert à trouver la position du maximum

5

In [17]:
A.sort()
A

array([[0, 3, 5],
       [3, 7, 9]])

In [24]:
# méthode argsort()
## Permet de retourner la façon de retourner nos différents index afin d'avoir trier notre tableau du plus grand au plus petit ou inversement
## Utile pour effectuer des classements un peu sophistiqué dans un tableau numpy
# Exemple : 
ex =   [1, 3, -2, 5]
# index 0, 1,  2, 3
np.argsort(ex)

array([2, 0, 1, 3], dtype=int64)

In [25]:
np.cos(ex)

array([ 0.54030231, -0.9899925 , -0.41614684,  0.28366219])

# Statistiques avec NumPy

In [26]:
A

array([[0, 3, 5],
       [3, 7, 9]])

In [27]:
A.mean()

4.5

In [29]:
A.std()

2.9297326385411577

In [30]:
A.var()

8.583333333333334

In [34]:
# fonction corrcoef --> correlation coeficient
## Permet de tracer une matrice de correlation entre les différentes lignes/colonnes dans notre tableau A 
## ou de n'importe quel tableau différent
np.corrcoef(A)

array([[1.        , 0.99717646],
       [0.99717646, 1.        ]])

In [36]:
# si on veut accéder à un élément en particulier de notre matrice on fait comme pour de l'indexing classique
np.corrcoef(A)[0,1]

0.997176464952738

### Fonction np.unique
##### Permet de retourner un tableau contenant les différentes entité présente dans notre tableau numpy mais également le nb de répétitions pour chacune de ces entités

In [38]:
np.unique(A, return_counts = True) # utile pour les très grand dataset

(array([0, 3, 5, 7, 9]), array([1, 2, 1, 1, 1], dtype=int64))

In [39]:
np.random.seed(0)
B = np.random.randint(0,10, [5,5])
B

array([[5, 0, 3, 3, 7],
       [9, 3, 5, 2, 4],
       [7, 6, 8, 8, 1],
       [6, 7, 7, 8, 1],
       [5, 9, 8, 9, 4]])

In [40]:
np.unique(B, return_counts = True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([1, 2, 1, 3, 2, 3, 2, 4, 4, 3], dtype=int64))

In [41]:
# c'est ici que argsort() est utile
values, counts = np.unique(B, return_counts = True)

In [42]:
counts

array([1, 2, 1, 3, 2, 3, 2, 4, 4, 3], dtype=int64)

In [43]:
# renvoie un tableau des différents index qui permettent de trier counts
counts.argsort() # Si on veut trier counts il faut placer les index dans l'ordre renvoyé par la fonction pour trier du plus petit au plus grand

array([0, 2, 1, 4, 6, 3, 5, 9, 7, 8], dtype=int64)

In [44]:
# Injection dans le tableau values
values[counts.argsort()]

array([0, 2, 1, 4, 6, 3, 5, 9, 7, 8])

In [48]:
for i, j in zip(values[counts.argsort()], counts[counts.argsort()]):
    print(f' la valeur {i} apparait {j} fois')
    

 la valeur 0 apparait 1 fois
 la valeur 2 apparait 1 fois
 la valeur 1 apparait 2 fois
 la valeur 4 apparait 2 fois
 la valeur 6 apparait 2 fois
 la valeur 3 apparait 3 fois
 la valeur 5 apparait 3 fois
 la valeur 9 apparait 3 fois
 la valeur 7 apparait 4 fois
 la valeur 8 apparait 4 fois


# NAN Corrections

In [131]:
A = np.random.randn(5,5)
A[0,2] = np.nan
A[4,3] = np.nan
A
# ici on ne peu pas calculer n'importe quelle statistiques à cause des valeurs NaN
# Il existe cependant des méthodes pours traiter avec ces valeurs NaN (notamment avec Pandas)

array([[-0.8151513 , -0.12782898,         nan, -1.91439344, -1.90013433],
       [-1.23468775,  0.11699649, -2.08035134, -0.64262051,  0.68702441],
       [ 2.0385073 , -0.58876556, -2.71823258, -0.78947723,  0.25369995],
       [ 0.17252846,  0.99701929,  0.54905957,  0.22824135, -0.60755365],
       [ 0.20193034,  0.13320537, -0.81296416,         nan, -0.05981476]])

In [132]:
np.nanstd(A)

1.0693497830043748

In [134]:
# comment compter le nombre de NaN dans notre fonction
np.isnan(A).sum()

2

In [135]:
# connaitre le rapport de NaN par rapport à la taille de notre tableau
np.isnan(A).sum()/A.size

0.08

In [137]:
# comment se débarasser des NaN avec le Boolean Indexing
A[np.isnan(A)] = 0
A

array([[-0.8151513 , -0.12782898,  0.        , -1.91439344, -1.90013433],
       [-1.23468775,  0.11699649, -2.08035134, -0.64262051,  0.68702441],
       [ 2.0385073 , -0.58876556, -2.71823258, -0.78947723,  0.25369995],
       [ 0.17252846,  0.99701929,  0.54905957,  0.22824135, -0.60755365],
       [ 0.20193034,  0.13320537, -0.81296416,  0.        , -0.05981476]])

# Algèbre Linéaire

In [138]:
A = np.ones((2,3))
B = np.ones((3,2))
A

array([[1., 1., 1.],
       [1., 1., 1.]])

In [139]:
B

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [140]:
A.T # Obtenir la transposée de ma matrice

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [141]:
# Produit matriciel entre A et B
A.dot(B)

array([[3., 3.],
       [3., 3.]])

In [142]:
B.dot(A) # non commutatives

array([[2., 2., 2.],
       [2., 2., 2.],
       [2., 2., 2.]])

In [143]:
# Package numpy.linalg pour faire tout ça
A = np.random.randint(0,10, [3,3])
A

array([[1, 6, 4],
       [0, 0, 2],
       [7, 6, 6]])

In [144]:
np.linalg.det(A)

72.0

In [147]:
np.linalg.inv(A)

array([[-0.16666667, -0.16666667,  0.16666667],
       [ 0.19444444, -0.30555556, -0.02777778],
       [ 0.        ,  0.5       ,  0.        ]])

In [148]:
# si il y a des compinaison linéaires dans mes matrices 
np.linalg.pinv(A)

array([[-1.66666667e-01, -1.66666667e-01,  1.66666667e-01],
       [ 1.94444444e-01, -3.05555556e-01, -2.77777778e-02],
       [-5.55111512e-17,  5.00000000e-01,  2.42861287e-17]])

In [150]:
np.linalg.eig(A) # eig pour eigen value qui veut dire valeur propre

EigResult(eigenvalues=array([10.77542909+0.j        , -1.88771455+1.76589985j,
       -1.88771455-1.76589985j]), eigenvectors=array([[ 0.45737756+0.j        ,  0.40563353-0.44529258j,
         0.40563353+0.44529258j],
       [ 0.16228394+0.j        ,  0.35671669+0.33369767j,
         0.35671669-0.33369767j],
       [ 0.87433957+0.j        , -0.63132798+0.j        ,
        -0.63132798-0.j        ]]))

# Exercice

In [154]:
np.random.seed(0)
A = np.random.randint(0,100, [10,5])
A

array([[44, 47, 64, 67, 67],
       [ 9, 83, 21, 36, 87],
       [70, 88, 88, 12, 58],
       [65, 39, 87, 46, 88],
       [81, 37, 25, 77, 72],
       [ 9, 20, 80, 69, 79],
       [47, 64, 82, 99, 88],
       [49, 29, 19, 19, 14],
       [39, 32, 65,  9, 57],
       [32, 31, 74, 23, 35]])

### Standardiser notre matrice avec une méthode précise

##### Prendre notre tableau, le soustraire à la moyenne et à diviser par l'écart-type
##### on doit réaliser cette méthode sur chaque colonne du tableau