# Chapter 4. NumPy Basics: Arrays and Vectorized Computation

NumPy, short for Numerical Python e' una libreria fondamentale in quanto molte delle funzioni di base per il calcolo numerico vengono da utilizzate da molte altre librerie

- Array 
- Funzioni di calcolo, Algebra lineare
- API per C++

Il motivo principale del successo di numpy e' dovuto all'efficienza delle sue operazioni. Spesso le funzioni sono ottimizzate per essere vettoriali e non necessitano dei for loop.
Inoltre a livello piu' basso Numpy alloca un blocco di memoria per ogni oggetto a cui C puo' accedere senza controlli e rallentamenti per via della sua API.

RK = in numpy le sotto selezioni di un array sono solo delle "viste", questo significa che modificare le viste significa modificare anche l'array di provenienza. Questo e' un potenziale side effect della gestione efficiente della memoria di Numpy (sarebbe complesso copiare ogni oggetto, soprattutto se di grandi dimensioni)

- axis 0 = rows
- axis 1 = columns


## Basics (Creazione, Slicing)

In [1]:
import numpy as np

data = np.random.randn(2, 3)

print(data.shape)

(2, 3)


In [3]:
# ndarray con n = 1
data1 = [6, 7.5, 8, 0, 1]

arr1 = np.array(data1)

print(arr1)

# ndarray con n = 2
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

arr2 = np.array(data2)

print(arr2)

[6.  7.5 8.  0.  1. ]
[[1 2 3 4]
 [5 6 7 8]]


In [9]:
# gli array contengono solo elementi dello stesso tipo che viene inferito automaticamente (oppure puo' essere specificato)
print(arr1.dtype)
print(arr2.dtype)

float64
int32


In [8]:
# ci sono poi funzioni comode per creare array di zero, uno e vuoti
print(np.zeros(10))
print(np.ones(10))
print(np.empty((2, 3, 2))) # -> non restituisce sempre degli zero
print(np.eye(4))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[[[1.02345468e-311 2.47032823e-322]
  [0.00000000e+000 0.00000000e+000]
  [0.00000000e+000 8.60952352e-072]]

 [[7.11577534e-091 6.11525890e+169]
  [8.26131303e-072 5.15360957e-062]
  [3.99910963e+252 1.24561223e-047]]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [11]:
# e' possibile modificare 
arr = np.array([1, 2, 3, 4, 5])

print(arr.dtype)

float_arr = arr.astype(np.float64)

print(float_arr.dtype)

int32
float64


In [13]:
# vectorization
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

print(arr * arr)

print(arr - arr)

print(arr > 1)

[[ 1.  4.  9.]
 [16. 25. 36.]]
[[0. 0. 0.]
 [0. 0. 0.]]
[[False  True  True]
 [ True  True  True]]


In [16]:
# index slicing identico a R
# boolean slicing
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)

print(names == 'Bob')

print(data[names == 'Bob'])

# negazione
print(names != 'Bob')

print(data[~(names == 'Bob')])

[ True False False  True False False False]
[[-1.18901837  1.46558426  1.57967519 -0.23738962]
 [ 0.49659807  1.07907458  0.80307205 -0.51656715]]
[False  True  True False  True  True  True]
[[-0.18324268  0.34240293  0.4932045  -0.28348884]
 [-1.0345055  -0.51979503  0.74210713  0.25857283]
 [ 0.26528695 -0.59426004 -1.80611096  0.2546663 ]
 [ 0.34850383  0.98580015 -0.52776956  0.18478134]
 [-0.51784086 -0.26788411 -1.3416049   0.34699733]]


In [18]:
# utile ~ perche' puo' ribaltare ogni condizione
cond = names == 'Bob'

data[~cond]

array([[-0.18324268,  0.34240293,  0.4932045 , -0.28348884],
       [-1.0345055 , -0.51979503,  0.74210713,  0.25857283],
       [ 0.26528695, -0.59426004, -1.80611096,  0.2546663 ],
       [ 0.34850383,  0.98580015, -0.52776956,  0.18478134],
       [-0.51784086, -0.26788411, -1.3416049 ,  0.34699733]])

In [19]:
# universal function (element-wise)
arr = np.arange(10)

print(np.sqrt(arr))

print(np.exp(arr))

[0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]
[1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
 5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
 2.98095799e+03 8.10308393e+03]


In [20]:
# element-wise utile
x = np.random.randn(8)

y = np.random.randn(8)

np.maximum(x, y)

array([ 0.08408241,  1.56749928,  1.45828463, -0.08171239,  0.92485867,
        1.00374153,  0.48858679,  0.04795574])

In [22]:
# ancora vectorization (ifelse concettualmente)
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])

yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])

cond = np.array([True, False, True, True, False])

result = np.where(cond, xarr, yarr)

print(result)

[1.1 2.2 1.3 1.4 2.5]


In [26]:
# statistiche aggregate
arr = np.random.randn(5, 4)

print(arr.mean())
print(arr.sum())

# possibile fare anche somma colonna / riga
print(arr.mean(axis=1))
print(arr.mean(axis=0))

-0.23143896518020274
-4.6287793036040545
[ 0.29986957 -0.81023633 -0.01337353 -0.51194027 -0.12151428]
[-0.34567535  0.04556204  0.14102386 -0.7666664 ]


In [28]:
# somma di booleani
arr = np.random.randn(100)
(arr > 0).sum()

50

In [30]:
arr = np.random.randn(6)

arr.sort()

print(arr)

[-0.753565    0.60348224  0.69320153  0.74576178  1.44506259  1.67365674]


In [31]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

## Algebra Lineare

In [32]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])

x.dot(y)

array([[ 28.,  64.],
       [ 67., 181.]])

In [33]:
from numpy.linalg import inv, qr
X = np.random.randn(5, 5)
mat = X.T.dot(X)
print(inv(mat))
mat.dot(inv(mat))

array([[ 27061.72447445,  29301.71111414,  -4024.39428684,
          6461.9752763 , -34037.59931858],
       [ 29301.71111414,  31728.06378318,  -4357.39771623,
          6996.78963338, -36855.41145686],
       [ -4024.39428684,  -4357.39771623,    598.76980754,
          -960.66857188,   5061.75990041],
       [  6461.9752763 ,   6996.78963338,   -960.66857188,
          1543.77753242,  -8127.72978534],
       [-34037.59931858, -36855.41145686,   5061.75990041,
         -8127.72978534,  42812.07878568]])