# méthode ndarray (tableau de numpy)

In [18]:
import numpy as np
A = np.random.randint(0, 10 ,[3,3])
print(A)

[[6 6 3]
 [8 0 6]
 [0 8 8]]


In [19]:
# faire la somme de tous les éléments de ce tableau
sumA = A.sum()
print(sumA)
# faire la somme colonne par colonne de tous les éléments de ce tableau
B = sum(A)
C = A.sum(axis=0)
print(B)
print(C)
# faire la somme ligne par ligne de tous les éléments de ce tableau
D = A.sum(axis=1)
print(D)
# on peut faire exactement la même chose avec la méthode prod()
D = A.prod(axis=1)
print(D)

45
[14 14 17]
[14 14 17]
[15 14 16]
[108   0   0]


In [20]:
# somme cumulé avec un chiffre pour chaque pas
print(A.cumsum())

[ 6 12 15 23 23 29 29 37 45]


In [21]:
# ça marche avec min() pour les axes ou max() exemple
print(A.min())
print(A.min(axis=0))
print(A.min(axis=1))
# trouver la position du minimum leurs indices
print(A.argmin(axis=0))
print(A.argmin(axis=1))

0
[0 0 3]
[3 0 0]
[2 1 0]
[2 1 0]


In [39]:
# trier du plus petit au plus grand
B = np.array([8,1,10,9,3])
C = np.sort(B)
# récupérer les keys des valeurs trié du plus petit au plsu grand
D = np.argsort(B)
print(C)
print(D)

[ 1  3  8  9 10]
[1 4 0 3 2]
[[ 3  1  1  8  3]
 [ 8  7  2  9  4]
 [18 11 10  9 18]]
[[2 0 1 1 0]
 [0 2 2 0 2]
 [1 1 0 2 1]]


In [42]:
# en fonction des axes

F = np.array([[8,1,10,9,3], [18,11,1,8,18], [3,7,2,9,4]])
# le premier tableau sera les valeurs les plus petites de chaque lignes
# le deuxième les deuxième etc..
G = np.sort(F, axis=0)
H = np.argsort(F, axis=0)
print(G)
print(H)

[[ 3  1  1  8  3]
 [ 8  7  2  9  4]
 [18 11 10  9 18]]
[[2 0 1 1 0]
 [0 2 2 0 2]
 [1 1 0 2 1]]


# la doc des fonctions mathématique

https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.math.html

# Statistiques

In [43]:
# min(), max() et moyenne -> mean()
A = np.random.randint(0, 10, [3,3])
print(A)
print(A.min())
print(A.max())
print(A.mean())

[[4 8 4]
 [6 8 2]
 [9 3 8]]
2
9
5.777777777777778


In [44]:
# moyenne selon l'axe
print(A.mean(axis=0))

[6.33333333 6.33333333 4.66666667]


In [45]:
# calculer l'écart type
print(A.std())

2.439388711122239


In [46]:
# calculer la variance
print(A.var())

5.950617283950618


![image.png](attachment:image.png)

## routine pour les statistiques (méthodes)

https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.statistics.html

### la corrélation

![image.png](attachment:image.png)

In [49]:
print(np.corrcoef(A))
print(np.corrcoef(A)[0, 1])

[[ 1.          0.75592895 -0.98782916]
 [ 0.75592895  1.         -0.64490202]
 [-0.98782916 -0.64490202  1.        ]]
0.7559289460184544


In [51]:
# avoir le nombre de répétitions pour chacun de nos éléments et aussi pour suppr toutes les rep
# 2 fois l'élément 4 et 3 fois l'élément 8
print(np.unique(A, return_counts=True))

(array([2, 3, 4, 6, 8, 9]), array([1, 1, 2, 1, 3, 1]))


In [52]:
# créer deux tableaux, l'un égale au premier tableau et l'autre au deuxième
values, count_values = np.unique(A, return_counts=True)
print(values)
print(count_values)

[2 3 4 6 8 9]
[1 1 2 1 3 1]


In [54]:
# trié les nombres de celui qui apparaît le moins souvent à celui qui apparaît le plus souvent
values[count_values.argsort()]

array([2, 3, 6, 9, 4, 8])

In [58]:
# présenter ça un peu mieux
# le tableau values trié de celui qui apparait les moins au plus
# le tableau count_values avec les values en rapport avec le tableau values
# cette boucle permet de faire une boucle sur deux tableaux en même temps
for i, j in zip(values[count_values.argsort()], count_values[count_values.argsort()]):
    #le f avant permet d'afficher les variables
    print(f'valeur {i} apparait {j}')

valeur 2 apparait 1
valeur 3 apparait 1
valeur 6 apparait 1
valeur 9 apparait 1
valeur 4 apparait 2
valeur 8 apparait 3


# régler les problèmes nan

In [70]:
A = np.random.randn(5,5)
A[1, 2] = np.nan
A[2, 4] = np.nan
print(A)

[[-0.16935288  0.93012972  1.12249041 -0.57695714  0.1958109 ]
 [-0.1850715   0.50552244         nan  1.11036986  0.12330016]
 [-1.41726509 -0.34765946 -0.61084489 -0.71262681         nan]
 [-0.80664083 -0.57156817 -1.16871612  0.38300683  0.1115186 ]
 [-0.2826552   0.86377501 -1.37214782 -1.04427826  0.4641942 ]]


In [73]:
# les opérations de base ne marche pas donc on peut faire ceci pour somme ...
print(np.sum(A))
print(np.nansum(A))
print(np.mean(A))
print(np.nanmean(A))

nan
-3.455666019087184
nan
-0.15024634865596453


In [76]:
# savoir quelle valeur de notre tableau est nan:
print(np.isnan(A))
# savoir combien on en a:
print(np.isnan(A).sum())
# savoir combien de valeur de notre tableau ne sont pas des nombres, ici 8%
print(np.isnan(A).sum() / A.size)

[[False False False False False]
 [False False  True False False]
 [False False False False  True]
 [False False False False False]
 [False False False False False]]
2
0.08


In [77]:
# maintenant on réinjecte notre max comme si c'était une condition pour modifier ces valeurs nan:
A[np.isnan(A)] = 0
print(A)

[[-0.16935288  0.93012972  1.12249041 -0.57695714  0.1958109 ]
 [-0.1850715   0.50552244  0.          1.11036986  0.12330016]
 [-1.41726509 -0.34765946 -0.61084489 -0.71262681  0.        ]
 [-0.80664083 -0.57156817 -1.16871612  0.38300683  0.1115186 ]
 [-0.2826552   0.86377501 -1.37214782 -1.04427826  0.4641942 ]]


# algebre linéaire

![image.png](attachment:image.png)

https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.linalg.html

# Exercice

![image.png](attachment:image.png)

# méthode de normalisation que l'on nomme standardization

In [107]:
# la formule veut dire tableau - moyenne / écarttype du tableau
# spécificité, le faire sur chaque colonnes
# donc on fait la moyenne de chaque collonnes et l'écartype de chaque collonne
np.random.seed(0)
A = np.random.randint(0, 100, [10, 5])
print(A)

[[44 47 64 67 67]
 [ 9 83 21 36 87]
 [70 88 88 12 58]
 [65 39 87 46 88]
 [81 37 25 77 72]
 [ 9 20 80 69 79]
 [47 64 82 99 88]
 [49 29 19 19 14]
 [39 32 65  9 57]
 [32 31 74 23 35]]


In [108]:
#for i, j in enumerate(A):
A = A[:].astype(np.float64)
print(A)
for i in range(len(A[0])):
    meanColumn = A[i].mean()
    ecartTypeColumn = A[i].std()
for keys, value in enumerate(A):
    for key_sub_value, sub_value in enumerate(value):
        A[keys][key_sub_value] = (sub_value-meanColumn)/ecartTypeColumn

print(A)
        

[[44. 47. 64. 67. 67.]
 [ 9. 83. 21. 36. 87.]
 [70. 88. 88. 12. 58.]
 [65. 39. 87. 46. 88.]
 [81. 37. 25. 77. 72.]
 [ 9. 20. 80. 69. 79.]
 [47. 64. 82. 99. 88.]
 [49. 29. 19. 19. 14.]
 [39. 32. 65.  9. 57.]
 [32. 31. 74. 23. 35.]]
[[-0.62964396 -0.49846813  0.24486154  0.37603736  0.37603736]
 [-2.16002858  1.07564176 -1.63532528 -0.97944616  1.25054286]
 [ 0.50721319  1.29426814  1.29426814 -2.02885275 -0.01749011]
 [ 0.28858681 -0.84827033  1.25054286 -0.54219341  1.29426814]
 [ 0.98819121 -0.93572088 -1.46042418  0.81329011  0.59466374]
 [-2.16002858 -1.67905056  0.94446594  0.46348791  0.90074066]
 [-0.49846813  0.24486154  1.03191649  1.77524616  1.29426814]
 [-0.41101758 -1.28552308 -1.72277583 -1.72277583 -1.9414022 ]
 [-0.84827033 -1.15434726  0.28858681 -2.16002858 -0.06121538]
 [-1.15434726 -1.19807253  0.68211429 -1.54787473 -1.02317143]]


# Correction

In [109]:
np.random.seed(0)
B = np.random.randint(0, 100, [10, 5])
print(B)

[[44 47 64 67 67]
 [ 9 83 21 36 87]
 [70 88 88 12 58]
 [65 39 87 46 88]
 [81 37 25 77 72]
 [ 9 20 80 69 79]
 [47 64 82 99 88]
 [49 29 19 19 14]
 [39 32 65  9 57]
 [32 31 74 23 35]]


In [111]:
C = (B - B.mean(axis=0)) / B.std(axis=0)
print(C)

[[-0.02206157  0.          0.13173823  0.72539252  0.10755798]
 [-1.56637126  1.61579632 -1.48676006 -0.33034307  0.96802178]
 [ 1.12513992  1.84021247  1.03508612 -1.14768676 -0.27965074]
 [ 0.90452425 -0.35906585  0.99744662  0.0102168   1.01104497]
 [ 1.6104944  -0.44883231 -1.33620208  1.0659524   0.32267393]
 [-1.56637126 -1.21184724  0.73397016  0.7935045   0.62383626]
 [ 0.11030784  0.76301493  0.80924915  1.81518411  1.01104497]
 [ 0.1985541  -0.80789816 -1.56203905 -0.90929485 -2.17267111]
 [-0.24267724 -0.67324847  0.16937773 -1.24985473 -0.32267393]
 [-0.55153918 -0.7181317   0.50813319 -0.77307091 -1.26918412]]


In [None]:
# maintenant les colonnes ont été stadardisé donc la moyenne de chaque colonne est égale à 1
# et l'écart type de chaque colonne est égale à zéro
# donc les valeurs suivent les valeurs de la loi normal