# Python pour la Data Science

## 1) Les tableaux Numpy

#### Documentation NumPy : 
[Numpy](https://numpy.org/)

[Doc Numpy](https://docs.scipy.org/doc/numpy/user/index.html)

 NumPy est une bibliothèque de calcul scientifique dédié à la manipulation de matrices et de tableaux en multiple dimensions. L’utilisation de fonctionnalités de NumPy commence par l’importation de cette librairie.

Le type de base dans NumPy est le tableau unidimensionnel ou multidimensionnel composé d’éléments de même type. La classe correspondante est ndarray, à ne pas confondre avec la classe Python array.array qui gère seulement des tableaux unidimensionnels (et présente des fonctionalités comparativement limitées).

#### Principaux attributs de ndarray :

ndarray.ndim | dimension du tableau (nombre d’axes)
ndarray.shape | tuple d’entiers indiquant la taille dans chaque dimension (ex : une matrice à n lignes et m colonnes : (n,m))
ndarray.size | nombre total d’éléments du tableau
ndarray.dtype | type de (tous) les éléments du tableau ; il est possible d’utiliser les types prédéfinis comme numpy.int64 ou numpy.float64 ou définir de nouveaux types
ndarray.data | les données du tableau ; en général, pour accéder aux données d’un tableau on passe plutôt par les indices.

#### Création de tableaux
De nombreuses méthodes de création de tableaux sont disponibles. D’abord, un tableau peut être créé à partir d’une liste (ou d’un tuple) Python, à condition que tous les éléments soient de même type (le type des éléments du tableau est déduit du type des éléments de la liste ou tuple). NumPy infère automatiquement le type des éléments de la matrice à partir du types des objets Python.

In [1]:
import numpy as np
# 1) Les constructeurs de tableaux numpy
A=np.array([1,2,3,4,5,6])
A

array([1, 2, 3, 4, 5, 6])

In [2]:
# shape, ndim et size // (nbElement,tailleElement) _ len(A) _ sum(len(A[0]))
print(A.shape,A.ndim,A.size)

(6,) 1 6


In [3]:
type (A.shape)

tuple

In [4]:
B=np.array([[1,2],[3,4],[5,6]])
B

array([[1, 2],
       [3, 4],
       [5, 6]])

In [5]:
print(B.shape,B.ndim,B.size)

(3, 2) 2 6


In [6]:
C=np.zeros((3,2))
C

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [7]:
print(C.shape,C.ndim,C.size)

(3, 2) 2 6


In [8]:
C2=np.ones((3,2))
C2

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [36]:
C3=np.full((3,2),4)
C3

array([[4, 4],
       [4, 4],
       [4, 4]])

In [10]:
C4=np.random.randn(3,2)
C4

array([[-0.55227929, -1.3295586 ],
       [ 0.13882119,  0.37210191],
       [-0.01542532, -0.67244084]])

In [11]:
C4=np.random.randint(0,10,[3,2])
C4

array([[5, 0],
       [0, 5],
       [5, 6]])

In [14]:
D=np.linspace(0,10,30)
D

array([ 0.        ,  0.34482759,  0.68965517,  1.03448276,  1.37931034,
        1.72413793,  2.06896552,  2.4137931 ,  2.75862069,  3.10344828,
        3.44827586,  3.79310345,  4.13793103,  4.48275862,  4.82758621,
        5.17241379,  5.51724138,  5.86206897,  6.20689655,  6.55172414,
        6.89655172,  7.24137931,  7.5862069 ,  7.93103448,  8.27586207,
        8.62068966,  8.96551724,  9.31034483,  9.65517241, 10.        ])

In [15]:
E=np.arange(0,10,0.4)
E

array([0. , 0.4, 0.8, 1.2, 1.6, 2. , 2.4, 2.8, 3.2, 3.6, 4. , 4.4, 4.8,
       5.2, 5.6, 6. , 6.4, 6.8, 7.2, 7.6, 8. , 8.4, 8.8, 9.2, 9.6])

In [16]:
# types numpy
F=np.linspace(0,10,20,dtype=np.float16)
F

array([ 0.    ,  0.5264,  1.053 ,  1.579 ,  2.105 ,  2.63  ,  3.158 ,
        3.684 ,  4.21  ,  4.74  ,  5.26  ,  5.79  ,  6.316 ,  6.844 ,
        7.367 ,  7.895 ,  8.42  ,  8.945 ,  9.48  , 10.    ],
      dtype=float16)

In [17]:
# Opérations entre tableaux //colle C[1].append(C2[1]) ...pour chaque ligne
G=np.hstack((C,C2))
G

array([[0., 0., 1., 1.],
       [0., 0., 1., 1.],
       [0., 0., 1., 1.]])

In [18]:
# Opérations entre tableaux // C.append(C2)
H=np.vstack((C,C2))
H

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

In [20]:
H2=np.concatenate((C,C2),axis=1)
print(H2)

[[0. 0. 1. 1.]
 [0. 0. 1. 1.]
 [0. 0. 1. 1.]]


In [21]:
H3=np.concatenate((C,C2),axis=0)
print(H3)

[[0. 0.]
 [0. 0.]
 [0. 0.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]


In [22]:
H3.reshape((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 1., 1.],
       [1., 1., 1., 1.]])

In [23]:
A=np.array([1,2,3])
print(A)
print(A.shape,A.ndim)

[1 2 3]
(3,) 1


In [24]:
A=A.reshape((1,A.shape[0]))
print(A)
print(A.shape,A.ndim)

[[1 2 3]]
(1, 3) 2


In [26]:
A=A.squeeze()
print(A)
print(A.shape,A.ndim)

[1 2 3]
(3,) 1


In [27]:
C

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [28]:
C=C.ravel()
C

array([0., 0., 0., 0., 0., 0.])

In [29]:
print(C.shape,C.ndim)

(6,) 1


### 2) Les méthodes générales des  ndarray de numpy

In [30]:
# voir la doc numpy.ndarray
# sort, sum, max, min, mean...

In [31]:
A=np.random.randint(0,10,[2,3])
A

array([[8, 0, 3],
       [9, 9, 6]])

In [32]:
A.sum()

35

In [33]:
A.sum(axis=0)

array([17,  9,  9])

In [34]:
A.sum(axis=1)

array([11, 24])

In [35]:
A.prod()

0

In [36]:
A.min()

0

In [37]:
A.min(axis=1)

array([0, 6])

In [38]:
A.max(axis=0)

array([9, 9, 6])

In [39]:
A.argmin(axis=1)

array([1, 2])

In [40]:
A.sort(axis=0)
A

array([[8, 0, 3],
       [9, 9, 6]])

In [41]:
A.sort(axis=1)
A

array([[0, 3, 8],
       [6, 9, 9]])

In [42]:
np.unique(A,return_counts=True) #les valeurs du tableau et leurs répétitions 

(array([0, 3, 6, 8, 9]), array([1, 1, 1, 1, 2]))

### 3) Les fonctions mathématiques usuelles et les statistiques

In [43]:
# voir la doc numpy, mathematical functions

In [48]:
print(A)
print(np.log(A))

[[0 3 8]
 [6 9 9]]
[[      -inf 1.09861229 2.07944154]
 [1.79175947 2.19722458 2.19722458]]


  print(np.log(A))


In [None]:
# Quelques statistiques voir la doc numpy statistics

In [49]:
A.mean()

5.833333333333333

In [50]:
A.var()

11.138888888888888

In [51]:
A.std()

3.337497399083464

In [52]:
np.corrcoef(A) # matrice de corrélation entre les lignes de A

array([[1.        , 0.78571429],
       [0.78571429, 1.        ]])

### 4) Un peu d'algèbre linéaire sur les ndarrays

In [53]:
# voir numpy.linalg

In [54]:
A=np.random.randint(0,10,[2,3])
A

array([[1, 3, 4],
       [1, 9, 4]])

In [55]:
A.T #transposée

array([[1, 1],
       [3, 9],
       [4, 4]])

In [66]:
B=np.random.randint(0,10,[3,2])
B

array([[5, 3],
       [2, 1],
       [4, 0]])

In [67]:
A.dot(B) # produit matriciel

array([[27,  6],
       [39, 12]])

In [68]:
B.dot(A)

array([[ 8, 42, 32],
       [ 3, 15, 12],
       [ 4, 12, 16]])

In [69]:
B=np.random.randint(0,10,[2,2])
np.linalg.det(B)

-13.999999999999996

In [70]:
np.linalg.eig(B)

(array([ 8.62347538, -1.62347538]),
 array([[ 0.77640358, -0.22592838],
        [ 0.63023605,  0.97414391]]))