In [1]:
# IMPORTATION DES LIBRAIRIES
import numpy as np
import matplotlib.pyplot as plt

In [2]:
np.random.seed(0)
A = np.random.randint(0, 10, [5, 5])
A

array([[5, 0, 3, 3, 7],
       [9, 3, 5, 2, 4],
       [7, 6, 8, 8, 1],
       [6, 7, 7, 8, 1],
       [5, 9, 8, 9, 4]])

# Méthodes ndarray

In [3]:
A.sum()

135

In [4]:
# On peut faire la somme sur les axes de notre tableau

# Sommer sur l'axe vertical de notre tableau
A.sum(axis=0)

array([32, 25, 31, 30, 17])

In [5]:
# Sommer les éléments se trouvant sur l'axe horizontal
A.sum(axis=1)

array([18, 23, 30, 29, 35])

In [6]:
# Faire une somme cummulée
A.cumsum()

array([  5,   5,   8,  11,  18,  27,  30,  35,  37,  41,  48,  54,  62,
        70,  71,  77,  84,  91,  99, 100, 105, 114, 122, 131, 135],
      dtype=int32)

In [7]:
# Le minimum suivant l'axe 0
A.min(axis=0)

array([5, 0, 3, 2, 1])

In [8]:
# Le minimum suivant l'axe 1
A.min(axis=1)

array([0, 2, 1, 1, 4])

In [9]:
# Le maximum suivant les deux axes, 0 et 1
A.max(axis=0)
#A.max(axis=1)

array([9, 9, 8, 9, 7])

In [10]:
# On peut aussi utiliser la méthode argmin() ou argmax pour trouver la position du mini ou du maxi
A.argmin(axis=0)
#A.argmax(axis=1)

array([0, 0, 0, 1, 2], dtype=int64)

In [11]:
# La méthode argsort(), elle retourne la façon dont il faut placer nos différents index afin de trier les éléments selon 
# l'ordre que l'on veut sans pour autant modifier le tableau initial.
# Cette méthode est très utile pour effectuer des classements un peu plus avancé dans un tableau numpy
A.argsort()

array([[1, 2, 3, 0, 4],
       [3, 1, 4, 2, 0],
       [4, 1, 0, 2, 3],
       [4, 0, 1, 2, 3],
       [4, 0, 2, 1, 3]], dtype=int64)

## Statistiques

In [12]:
# Quand on a un Data set le mieux serait de faire en premier les stats
A.mean()

5.4

In [13]:
# L'écart type
A.std()

2.6683328128252666

In [14]:
# La variance
A.var()

7.12

In [15]:
# La fonction permettant de créer une matrice de corrélation 
# Comprendre les différentes corrélations que l'on a entre les colonnes, lignes ou différents tableaux
np.corrcoef(A)

array([[ 1.        ,  0.39741307, -0.59190035, -0.77390599, -0.89934617],
       [ 0.39741307,  1.        ,  0.09521171, -0.11337365, -0.59181844],
       [-0.59190035,  0.09521171,  1.        ,  0.9579589 ,  0.6947088 ],
       [-0.77390599, -0.11337365,  0.9579589 ,  1.        ,  0.84515425],
       [-0.89934617, -0.59181844,  0.6947088 ,  0.84515425,  1.        ]])

In [16]:
# Voir la corrélation de la deuxieme ligne
np.corrcoef(A)[0, 1]

0.39741306906256163

In [17]:
 # Voir le nombre de fois les éléments se repetent
np.unique(A, return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([1, 2, 1, 3, 2, 3, 2, 4, 4, 3], dtype=int64))

In [18]:
# Cette fois-ci nous allons mettre les deux tableaux dans des variables
# values pour les valeurs et counts pour le nombre d'ocurrences de ces valeurs
values, counts = np.unique(A, return_counts=True)

In [19]:
values

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
counts

array([1, 2, 1, 3, 2, 3, 2, 4, 4, 3], dtype=int64)

In [22]:
# Afficher dans l'ordre croissant les values qui apparaissent +plusieurs fois
values[counts.argsort()]

array([0, 2, 1, 4, 6, 3, 5, 9, 7, 8])

In [23]:
# AFFICHAGE DANS UNE BOUCLE
for i, j in zip(values[counts.argsort()], counts[counts.argsort()]):
    print(f"La valeur {i} apparait {j} fois")

La valeur 0 apparait 1 fois
La valeur 2 apparait 1 fois
La valeur 1 apparait 2 fois
La valeur 4 apparait 2 fois
La valeur 6 apparait 2 fois
La valeur 3 apparait 3 fois
La valeur 5 apparait 3 fois
La valeur 9 apparait 3 fois
La valeur 7 apparait 4 fois
La valeur 8 apparait 4 fois


### Corrections de NaN

In [24]:
# Toutes les fonctions de stat citées ci-dessus sont à utiliser avec les nombres
# Que faut-il faire dans le cas où l'on a des NaN
A = np.random.randn(5, 5)
A[::2, ::2] = np.nan
A

array([[        nan,  0.33367433,         nan, -0.20515826,         nan],
       [-0.85409574, -2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [        nan, -1.45436567,         nan, -0.18718385,         nan],
       [ 1.46935877,  0.15494743,  0.37816252, -0.88778575, -1.98079647],
       [        nan,  0.15634897,         nan,  1.20237985,         nan]])

In [26]:
# Pour remedier à ce problème avec numpy il y a quelque fonctions dispo
# la moyenne
np.nanmean(A)

-0.22822587031404906

In [27]:
# La variance et toutes les autres fonctions stats
np.nanvar(A)

1.1844173091342476

In [30]:
# Compter le nombre de valeurs NaN
np.isnan(A).sum()
# la fonction sum() va sommer toutes les ocurrences NaN

9

In [32]:
# Connaître le rapport de NaN par rapport à tout l'ensemble de A
np.isnan(A).sum()/A.size

0.36

In [33]:
# Eliminer les NaN et les remplacer avec une valeur fixe
A[np.isnan(A)] = 0

In [34]:
A

array([[ 0.        ,  0.33367433,  0.        , -0.20515826,  0.        ],
       [-0.85409574, -2.55298982,  0.6536186 ,  0.8644362 , -0.74216502],
       [ 0.        , -1.45436567,  0.        , -0.18718385,  0.        ],
       [ 1.46935877,  0.15494743,  0.37816252, -0.88778575, -1.98079647],
       [ 0.        ,  0.15634897,  0.        ,  1.20237985,  0.        ]])

## Algèbre Linéaire

In [36]:
A = np.ones((2, 3))
B = np.ones((3, 2))
A

array([[1., 1., 1.],
       [1., 1., 1.]])

In [37]:
B

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [38]:
# Faire la transposée d'une matrice
A.T

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [39]:
# Le produit matriciel de deux matrices
A.dot(B)

array([[3., 3.],
       [3., 3.]])

In [40]:
B.dot(A)

array([[2., 2., 2.],
       [2., 2., 2.],
       [2., 2., 2.]])

In [41]:
A = np.random.randint(0, 10, [3, 3])

In [43]:
# le determinant d'une matrice
np.linalg.det(A)

23.999999999999993

In [44]:
# l'inverse d'une matrice
np.linalg.inv(A)

array([[-0.5       ,  0.875     , -0.25      ],
       [ 0.5       , -1.125     ,  0.75      ],
       [-0.        ,  0.33333333, -0.33333333]])

In [45]:
# trouver les valeurs et vecteurs propres d'une matrice
np.linalg.eig(A)

(array([13.58872344, -3.        , -0.58872344]),
 array([[-6.70561268e-01, -8.32050294e-01,  6.04408531e-01],
        [-5.73889829e-01, -2.53488338e-16, -7.73940635e-01],
        [-4.70104297e-01,  5.54700196e-01,  1.88960901e-01]]))

## Exercice
#### Standardiser la matrice A sur chaque colonne.
#### Résultat : Chaque colonne une moyenne = 0 et l'écart type = 1

### Les techniques de standardisation
#### 1. La normalisation par la moyenne (Mean normalization) : x' = (x - average(x) / max(x) - min(x))
#### 2. La mise à l'échelle (Rescalling min-max normalization) :  x' = (x - min(x) / max(x) - min(x))
#### 3. La standardisation - Satandardization (Z-score Normalisation). Cette technique est la plus utilisée en Machine Learning : x' = x - moyenne / ecartype(x)

In [47]:
np.random.seed(0)
A = np.random.randint(0, 100, [10, 5])
A

array([[44, 47, 64, 67, 67],
       [ 9, 83, 21, 36, 87],
       [70, 88, 88, 12, 58],
       [65, 39, 87, 46, 88],
       [81, 37, 25, 77, 72],
       [ 9, 20, 80, 69, 79],
       [47, 64, 82, 99, 88],
       [49, 29, 19, 19, 14],
       [39, 32, 65,  9, 57],
       [32, 31, 74, 23, 35]])

In [80]:
X = (A - A.mean(axis=0)) / A.std(axis=0)
X

array([[-0.02206157,  0.        ,  0.13173823,  0.72539252,  0.10755798],
       [-1.56637126,  1.61579632, -1.48676006, -0.33034307,  0.96802178],
       [ 1.12513992,  1.84021247,  1.03508612, -1.14768676, -0.27965074],
       [ 0.90452425, -0.35906585,  0.99744662,  0.0102168 ,  1.01104497],
       [ 1.6104944 , -0.44883231, -1.33620208,  1.0659524 ,  0.32267393],
       [-1.56637126, -1.21184724,  0.73397016,  0.7935045 ,  0.62383626],
       [ 0.11030784,  0.76301493,  0.80924915,  1.81518411,  1.01104497],
       [ 0.1985541 , -0.80789816, -1.56203905, -0.90929485, -2.17267111],
       [-0.24267724, -0.67324847,  0.16937773, -1.24985473, -0.32267393],
       [-0.55153918, -0.7181317 ,  0.50813319, -0.77307091, -1.26918412]])

In [82]:
# La moyenne de chaque colonne tend vers 0
X.mean(axis=0)

array([-2.22044605e-17, -4.44089210e-17,  0.00000000e+00, -1.22124533e-16,
       -4.44089210e-17])

In [83]:
# L'écart-type de chque colonne est égal à 1
X.std(axis=0)

array([1., 1., 1., 1., 1.])

#### Une autre méthode de résoudre cet exercice : créer une fonction de standardisation

In [84]:
# La fonction de standardisation utilisant la technique de standardisation
def standardisation(A):
    
    # Standardisee colonne par colonne
    moy_col = A.mean(axis=0)
    # Ecart-type par colonne
    ecar_col = A.std(axis=0)
    
    return (A - moy_col)/ecar_col

In [85]:
standardisation(A)

array([[-0.02206157,  0.        ,  0.13173823,  0.72539252,  0.10755798],
       [-1.56637126,  1.61579632, -1.48676006, -0.33034307,  0.96802178],
       [ 1.12513992,  1.84021247,  1.03508612, -1.14768676, -0.27965074],
       [ 0.90452425, -0.35906585,  0.99744662,  0.0102168 ,  1.01104497],
       [ 1.6104944 , -0.44883231, -1.33620208,  1.0659524 ,  0.32267393],
       [-1.56637126, -1.21184724,  0.73397016,  0.7935045 ,  0.62383626],
       [ 0.11030784,  0.76301493,  0.80924915,  1.81518411,  1.01104497],
       [ 0.1985541 , -0.80789816, -1.56203905, -0.90929485, -2.17267111],
       [-0.24267724, -0.67324847,  0.16937773, -1.24985473, -0.32267393],
       [-0.55153918, -0.7181317 ,  0.50813319, -0.77307091, -1.26918412]])

## Broadcasting
### NB :  Cette technique fonctionne uniquement si les tableaux ont le même nombre de lignes ou la différence est de 1

In [72]:
np.random.seed(0)
B = np.random.randint(0, 10, [2, 3])
C = np.ones((2, 3))

In [73]:
B

array([[5, 0, 3],
       [3, 7, 9]])

In [74]:
C

array([[1., 1., 1.],
       [1., 1., 1.]])

In [75]:
# Différent avec les langages C/C++, les fonctions d'itérations ont déjà été créées
B + C

array([[ 6.,  1.,  4.],
       [ 4.,  8., 10.]])

In [76]:
D = np.ones((2, 1))

In [78]:
# Même nombre de lignes mais des colonnes différentes
B + D

array([[ 6.,  1.,  4.],
       [ 4.,  8., 10.]])