# Arrays

## Usage

Les objets list et dict ne sont pas dédiés aux calculs sur de grands volumes de données, ou tout simplement le calcul matriciel.
Pour ce faire, il faut utiliser l'objet array qui permet l'usage de tableaux de données sous plusieurs dimensions.

La meilleure implémentation est celle proposée par la librairie Numpy. Cette librairie est utilisée de façon générale par l'ensemble des librairies Python en calcul scientifique.

https://numpy.org/doc/stable/reference/

## Chargement

In [1]:
import numpy as np

## Création de vecteurs et matrices

Numpy propose un large panel de constructeurs de matrices

In [2]:
print("constructeur zeros")
Azeros = np.zeros( (4,5) ) #crée une matrice 5 lignes, 6 colonnes remplie de 0 
print(Azeros)
print("constructeur ones")
Aones = np.ones( (4,3) ) #crée une matrice 4 lignes, 3 colonnes remplie de 1 
print(Aones)
print("constructeur empty")
Aempty = np.empty((2,2)) # crée un tableau non initialisé de 2 lignes et 2 colonnes
print(Aempty) 
print("constructeur full")
Afull = np.full((2, 3, 4), 14.72)# crée un tableau initialisé de 2x3x4
print(Afull)
print("constructeur identity")
Aidentity = np.identity(3) #crée une matrice identité 3x3
print(Aidentity)
print("Constructeur généraliste array")
Aarray = np.ndarray((1,6))
print(Aarray)

constructeur zeros
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
constructeur ones
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
constructeur empty
[[3.11522563e-307 9.45708168e-308]
 [2.78148153e-307 2.22521306e-307]]
constructeur full
[[[14.72 14.72 14.72 14.72]
  [14.72 14.72 14.72 14.72]
  [14.72 14.72 14.72 14.72]]

 [[14.72 14.72 14.72 14.72]
  [14.72 14.72 14.72 14.72]
  [14.72 14.72 14.72 14.72]]]
constructeur identity
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
Constructeur généraliste array
[[0. 0. 0. 0. 0. 0.]]


## Paramètres

In [3]:
print(Aones.ndim)
print(Aones.shape)
print(Aones.dtype)

2
(4, 3)
float64


## Typage

Par défaut, les typages des matrices sont en float64 (double précision). 
Un des avantages de Numpy est de laisser à l'utilisateur le choix du typage. Les typages disponibes sont disponibles ici : https://numpy.org/devdocs/user/basics.types.html


In [4]:
Aones = np.ones( (4,3) , np.int8) # créer un tableau d'entiers codés sur 8bits
print(Aones.dtype)

int8


In [5]:
var_tmp1 = 50.0
var_tmp2 = np.int16(50.6)
print(type(var_tmp1), type(var_tmp2))
print(var_tmp2)

<class 'float'> <class 'numpy.int16'>
50


## Accès aux données

In [6]:
Aones[1,0] = 5
Aones[2,2] = 7
print(Aones)

[[1 1 1]
 [5 1 1]
 [1 1 7]
 [1 1 1]]


In [7]:
Aones[1:4,:]  #interrogation d'ensembles

array([[5, 1, 1],
       [1, 1, 7],
       [1, 1, 1]], dtype=int8)

In [8]:
Aones[:,2:3]  #interrogation d'ensembles

array([[1],
       [1],
       [7],
       [1]], dtype=int8)

## Calculs sur les matrices

In [9]:
print(Aones + 2) #ajout d'un scalaire à toutes les cases


[[3 3 3]
 [7 3 3]
 [3 3 9]
 [3 3 3]]


In [10]:
print(Aones * 2) #multiplication par un scalaire à toutes les cases


[[ 2  2  2]
 [10  2  2]
 [ 2  2 14]
 [ 2  2  2]]


In [11]:
print(Aones / 2)  #division par un scalaire à toutes les cases


[[0.5 0.5 0.5]
 [2.5 0.5 0.5]
 [0.5 0.5 3.5]
 [0.5 0.5 0.5]]


In [12]:
print(Aones + Aones)  #addition case par case


[[ 2  2  2]
 [10  2  2]
 [ 2  2 14]
 [ 2  2  2]]


In [13]:
print(Aones[:,0] + Aones[:,2])

[2 6 8 2]


In [14]:
print(Aones * Aones)  #multiplication case par case

[[ 1  1  1]
 [25  1  1]
 [ 1  1 49]
 [ 1  1  1]]


In [15]:
B = Aones * Aones
C = np.ones(3)
print(B.dot(C))    #produit matriciel

[ 3. 27. 51.  3.]


## Routines

https://numpy.org/doc/stable/reference/routines.html

### Algèbre linéaire

In [16]:
np.linalg.eigvals(Aones[0:3,0:3])# Compute the eigenvalues 

array([-1.1914825 ,  2.68252642,  7.50895608])

In [17]:
np.linalg.det(Aones[0:3,0:3]) # computes the determinant

-23.999999999999993

In [18]:
# résoudre le système d'equations 3 * x0 + x1 = 9 and x0 + 2 * x1 = 8

a = np.array([[3,1], [1,2]])

b = np.array([9,8])

print( np.linalg.solve(a, b))

[2. 3.]


### Logique

In [19]:
print(np.equal(Aones,1)) # vrai pour les cases à 1

[[ True  True  True]
 [False  True  True]
 [ True  True False]
 [ True  True  True]]


In [20]:
np.greater_equal(Aones,2) # vrai pour les cases >=2

array([[False, False, False],
       [ True, False, False],
       [False, False,  True],
       [False, False, False]])

### Statistique
#### Mean

In [21]:
print(Aones)
print("\nMean selon dimension 0 : selon les lignes:")
print(Aones.mean(0))
print("\nMean selon dimension 1 : selon les colonnes:")
print(Aones.mean(1))
print("\nMean de l'ensemble des valeurs:")
print(Aones.mean())
#les notations np.mean(Aones,0)  ,  np.mean(Aones,1)  ,  np.mean(Aones) sont également valides


[[1 1 1]
 [5 1 1]
 [1 1 7]
 [1 1 1]]

Mean selon dimension 0 : selon les lignes:
[2.  1.  2.5]

Mean selon dimension 1 : selon les colonnes:
[1.         2.33333333 3.         1.        ]

Mean de l'ensemble des valeurs:
1.8333333333333333


#### Standard deviation

In [22]:
print(Aones)
print("\nDeviation standard selon dimension 0 : selon les lignes:")
print(Aones.std(0))
print("\nDeviation standard selon dimension 1 : selon les colonnes:")
print(Aones.std(1))
print("\nDeviation standard de l'ensemble des valeurs:")
print(Aones.std())

[[1 1 1]
 [5 1 1]
 [1 1 7]
 [1 1 1]]

Deviation standard selon dimension 0 : selon les lignes:
[1.73205081 0.         2.59807621]

Deviation standard selon dimension 1 : selon les colonnes:
[0.         1.88561808 2.82842712 0.        ]

Deviation standard de l'ensemble des valeurs:
1.9075871903765995


#### bincount

In [23]:
Aex = np.array([0, 1, 1, 3, 2, 1, 7])

print("\nbincounts:")
print(np.bincount(Aex))



bincounts:
[1 3 1 1 0 0 0 1]


#### Sum

In [24]:
print(Aones)
print("\nSum selon dimension 0 : selon les lignes:")
print(Aones.sum(0))
print("\nSum selon dimension 1 : selon les colonnes:")
print(Aones.sum(1))
print("\nSum de l'ensemble des valeurs:")
print(Aones.sum())

[[1 1 1]
 [5 1 1]
 [1 1 7]
 [1 1 1]]

Sum selon dimension 0 : selon les lignes:
[ 8  4 10]

Sum selon dimension 1 : selon les colonnes:
[3 7 9 3]

Sum de l'ensemble des valeurs:
22


<b>Exercice</b>

In [25]:
import pandas as pd
data = pd.read_csv("https://github.com/dbendet/coursera_machine_learning/raw/master/kc_house_data.csv")

In [26]:
data

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.00,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.00,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.00,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.00,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,263000018,20140521T000000,360000.0,3,2.50,1530,1131,3.0,0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,6600060120,20150223T000000,400000.0,4,2.50,2310,5813,2.0,0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,1523300141,20140623T000000,402101.0,2,0.75,1020,1350,2.0,0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,291310100,20150116T000000,400000.0,3,2.50,1600,2388,2.0,0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287


In [27]:
data = data.to_numpy()
data

array([[7129300520, '20141013T000000', 221900.0, ..., -122.257, 1340,
        5650],
       [6414100192, '20141209T000000', 538000.0, ..., -122.319, 1690,
        7639],
       [5631500400, '20150225T000000', 180000.0, ...,
        -122.23299999999999, 2720, 8062],
       ...,
       [1523300141, '20140623T000000', 402101.0, ...,
        -122.29899999999999, 1020, 2007],
       [291310100, '20150116T000000', 400000.0, ..., -122.069, 1410,
        1287],
       [1523300157, '20141015T000000', 325000.0, ...,
        -122.29899999999999, 1020, 1357]], dtype=object)

<b><i>1/ Calculer le z-score du prix des prix des appartements</i></b>



La formule est la suivante: z = ( x - μ) / σ

avec:

     x est la valeur de notre variable
     μ est la valeur moyenne de la population.
     σ est la valeur de l’écart-type de la population.
     z est la z -Score.



In [28]:
avg = data[:,2].mean()
sig = data[:,2].std()
price_zscore = (data[:,2]-avg)/sig

<b><i>2/ Identifier les outliers : les 5% des valeurs les plus extrêmes </i></b>
    
    Pour décomposer la question:
    - ordonner les valeurs dans un autre tableau
    - identifier les valeurs correspondant à 5% des valeurs minimales et 5% des valeurs maximales
    - test logique dans le tableau initial

In [29]:
price_zscore_copy = price_zscore.copy()
price_zscore_copy.sort()
effectif_total = price_zscore_copy.shape[0]
effectif_5percent = np.int64(effectif_total*5/100)
val_min = price_zscore_copy[effectif_5percent]
val_max = price_zscore_copy[effectif_total-effectif_5percent]

answer = (price_zscore<val_min) | (price_zscore>val_max)

In [30]:
answer

array([False, False,  True, ..., False, False, False])