# Introduzione a NumPy

## Indice

# 1. NumPy <a id=numpy> </a>

Dal [sito ufficiale](http://www.numpy.org/) di NumPy:
> NumPy is the fundamental package for scientific computing with Python. It contains among other things:
* a powerful N-dimensional array object
* sophisticated (broadcasting) functions
* tools for integrating C/C++ and Fortran code
* useful linear algebra, Fourier transform, and random number capabilities

>Besides its obvious scientific uses, NumPy can also be used as an efficient multi-dimensional container of generic data. Arbitrary data-types can be defined. This allows NumPy to seamlessly and speedily integrate with a wide variety of databases.

Tutorial ufficiale: [Quickstart tutorial](https://docs.scipy.org/doc/numpy/user/quickstart.html).

In [1]:
import numpy as np

%load_ext autoreload
%autoreload 2

# 2. `ndarray`

# 2.1 Creare un array <a id=creare_array> </a>

### `numpy.array()`

In [2]:
a = np.array(
    [[1, 2, 3], 
     [4, 5, 6]]
)

print("Tipo: {}".format(type(a)))
print("Contenuto della variabile:")
print(a)

Tipo: <class 'numpy.ndarray'>
Contenuto della variabile:
[[1 2 3]
 [4 5 6]]


### `numpy.arange()`

In [3]:
a = np.arange(6)

print("Contenuto della variabile:")
print(a)

Contenuto della variabile:
[0 1 2 3 4 5]


### `numpy.zeros()`

In [4]:
a = np.zeros((2, 3))

print("Contenuto della variabile:")
print(a)

Contenuto della variabile:
[[0. 0. 0.]
 [0. 0. 0.]]


### `numpy.ones()`

In [5]:
a = np.ones((2, 3))

print("Contenuto della variabile:")
print(a)

Contenuto della variabile:
[[1. 1. 1.]
 [1. 1. 1.]]


### `numpy.random.random()`

In [6]:
a = np.random.random((3, 2))

print("Contenuto della variabile:")
print(a)

Contenuto della variabile:
[[0.71410196 0.70361092]
 [0.58091536 0.80311831]
 [0.48358404 0.58964205]]


### `numpy.empty()`

In [7]:
a = np.empty((2, 3))

print("Contenuto della variabile:")
print(a)

Contenuto della variabile:
[[0.71410196 0.70361092 0.58091536]
 [0.80311831 0.48358404 0.58964205]]


### Esercizio

Ottenere il seguente array utilizzando esclusivamente `numpy.arange()`:
```python
[10, 20, 30, 40, 50, 60, 70, 80, 90]
```

## 2.2 Caratteristiche di un `ndarray` <a id=caratteristiche_array> </a>

### `numpy.ndarray.ndim`

In [8]:
a = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print("Numero di dimensioni: {}".format(a.ndim))

Numero di dimensioni: 2


### `numpy.ndarray.shape`

In [9]:
a = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print("Dimensioni: {}".format(a.shape))

Dimensioni: (2, 3)


### `numpy.ndarray.size`

In [10]:
a = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print("Numero di elementi: {}".format(a.size))

Numero di elementi: 6


### `numpy.ndarray.itemsize`

In [11]:
a = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print("Dimensione in bytes di ogni elemento dell'array: {}".format(a.itemsize))

Dimensione in bytes di ogni elemento dell'array: 8


###  `numpy.ndarray.dtype `

In [12]:
a = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print("Tipo degli elmenti dell'array: {}".format(a.dtype))

Tipo degli elmenti dell'array: int64


### Esercizio

Sapendo che il tipo degli elementi è `int64`, avremmo potuto prevedere la dimensione in bytes? Motivare la risposta.

## 2.3 Cambiare la forma di un array <a id=cambiare_forma_array> </a>

###  `numpy.ndarray.reshape() `

In [13]:
a = np.arange(6)

print("Contenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

print("\nModificare le dimensioni dell'array:")
a = a.reshape(3, 2)
print("a = a.reshape(3, 2)")

print("\nContenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

Contenuto della variabile:
[0 1 2 3 4 5]

Dimensioni: (6,)

Modificare le dimensioni dell'array:
a = a.reshape(3, 2)

Contenuto della variabile:
[[0 1]
 [2 3]
 [4 5]]

Dimensioni: (3, 2)


###  `numpy.diag() `

In [14]:
a = np.ones(2)

print("Contenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

print("\nCreare una matrice diagonale a partire da un vettore:")
print("a = np.diag(a)")
a = np.diag(a)

print("\nContenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

Contenuto della variabile:
[1. 1.]

Dimensioni: (2,)

Creare una matrice diagonale a partire da un vettore:
a = np.diag(a)

Contenuto della variabile:
[[1. 0.]
 [0. 1.]]

Dimensioni: (2, 2)


### Esercizio

Creare il seguente array usando `numpy.arange()` e `numpy.diag()`:
```python
[[0 0 0]
 [0 1 0]
 [0 0 2]]
 ```

###  `numpy.ndarray.T `

In [15]:
a = np.ones((2, 3))

print("Contenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

print("\nTrasporre la matrice:")
print("a = a.T")
a = a.T

print("\nContenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

Contenuto della variabile:
[[1. 1. 1.]
 [1. 1. 1.]]

Dimensioni: (2, 3)

Trasporre la matrice:
a = a.T

Contenuto della variabile:
[[1. 1.]
 [1. 1.]
 [1. 1.]]

Dimensioni: (3, 2)


### `numpy.newaxis`

In [16]:
a = np.arange(5)

print("Contenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

print("\nAggiungere una dimensione all'array:")
print("a = a[:, np.newaxis]")
a = a[:, np.newaxis] # equivalente a: a[:, None]

print("\nContenuto della variabile:")
print(a)
print("\nDimensioni: {}".format(a.shape))

Contenuto della variabile:
[0 1 2 3 4]

Dimensioni: (5,)

Aggiungere una dimensione all'array:
a = a[:, np.newaxis]

Contenuto della variabile:
[[0]
 [1]
 [2]
 [3]
 [4]]

Dimensioni: (5, 1)


## 3. Algebra lineare <a id=algebra_lineare> </a>

### Operazioni di base con scalari

In [17]:
a = np.arange(20, 60, 10).reshape(2, -2)

print("Contenuto della variabile:")
print(a)

print("\nDivido per 10 e aggiungo 5:")
print("a = (a / 10) + 5")
a = (a / 10) + 5

print("\nContenuto della variabile:")
print(a)

Contenuto della variabile:
[[20 30]
 [40 50]]

Divido per 10 e aggiungo 5:
a = (a / 10) + 5

Contenuto della variabile:
[[ 7.  8.]
 [ 9. 10.]]


### Esercizio

Studiare il concetto di [broadcasting](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html). 

Se
```python
a = np.empty((2, 1, 2, 2))
b = np.empty((5, 1, 1))
c = a * b
```
qual'è la dimensione di `c`? provare a rispondere e, solo sucessivamente, verificarlo scrivendo l'opportuno codice.

### `*` ([prodotto di Hadamard](https://it.wikipedia.org/wiki/Moltiplicazione_di_matrici#Costruzioni_alternative) o prodotto puntuale)

In [24]:
a = np.array(
    [[2, 1], 
     [0, 3]]
)
b = np.array(
    [[2, 0], 
     [1, 3]]
)

print('Contenuto della variabile "a":')
print(a)

print('\nContenuto della variabile "b":')
print(b)

print('\nProdotto di Hadamard tra "a" e "b":')
print("c = a * b")
c = a * b

print('\nContenuto della variabile "c":')
print(c)

Contenuto della variabile "a":
[[2 1]
 [0 3]]

Contenuto della variabile "b":
[[2 0]
 [1 3]]

Prodotto di Hadamard tra "a" e "b":
c = a * b

Contenuto della variabile "c":
[[4 0]
 [0 9]]


### `numpy.dot()` ([prodotto scalare](https://it.wikipedia.org/wiki/Prodotto_scalare) o [prodotto matriciale](https://it.wikipedia.org/wiki/Moltiplicazione_di_matrici) se `ndim` è uguale a 2)

In [58]:
a = np.array(
    [[2, 1], 
     [0, 3]]
)
b = np.array(
    [[2, 0], 
     [1, 3]]
)

print('Contenuto della variabile "a":')
print(a)

print('\nContenuto della variabile "b":')
print(b)

print('\nProdotto scalare tra "a" e "b":')
print("c = np.dot(a, b)")
c = np.dot(a, b) # equivalente a: c = a.dot(b)

print('\nContenuto della variabile "c":')
print(c)

Contenuto della variabile "a":
[[2 1]
 [0 3]]

Contenuto della variabile "b":
[[2 0]
 [1 3]]

Prodotto scalare tra "a" e "b":
c = np.dot(a, b)

Contenuto della variabile "c":
[[5 3]
 [3 9]]


In [None]:
  m=∑i=1n(xi−X⎯⎯⎯)(yi−Y⎯⎯⎯)∑i=1n(xi−X⎯⎯⎯)2

In [60]:
import sklearn

In [65]:
from  sklearn.datasets import load_iris

In [85]:
X, y = load_iris(return_X_y=True)
X = X[:, 0]

In [86]:
m = np.sum((X - X.mean()) * (y - y.mean())) / np.sum((X - X.mean()) ** 2)

In [89]:
i = y.mean() - m * X.mean()

In [90]:
i

-3.5239816642469126

In [91]:
from sklearn.linear_model import LinearRegression

In [109]:
lr = LinearRegression()
lrs = RegressioneLineareSemplice()

In [110]:
lr.fit(X.reshape(-1, 1), y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [111]:
lrs.fit(X, y)

<__main__.RegressioneLineareSemplice at 0x1a16c18b70>

In [112]:
lr.fit(X.reshape(-1, 1), y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [113]:
lrs.coef_

array(0.77421249)

In [117]:
lrs.intercept_

-3.5239816642469126

In [116]:
lr.intercept_

-3.5239816642469144

In [115]:
lr.coef_

array([0.77421249])

In [118]:
class RegressioneLineareSemplice:
    def __init__(self, fit_intercept=True):
        self.fit_intercept = fit_intercept

    def fit(self, X, y):
        self.coef_ = np.array(np.sum((X - X.mean()) * (y - y.mean())) / np.sum((X - X.mean()) ** 2))
        
        if self.fit_intercept:
            self.intercept_ = y.mean() - self.coef_ * X.mean()
        return self

    def predict(self, X):
        if self.fit_intercept:
            y_hat = np.dot(X, self.coef_) + self.intercept_
        else: 
            y_hat = np.dot(X, self.coef_)
        return y_hat

## Esercizio

Completare la funzione `minimi_quadrati` definita in lab_00.py.

Si ricorda che la stima ai minimi quadrati di $\beta$ è data da:
$$
\hat{\beta}=(X^TX)^{-1}X^Ty
$$

*Suggerimento*: leggere la documentazione di `numpy.linalg.inv`.

*Extra*: Implementare anche la versione che utilizza la decomposizione QR, vedi pagina del libro B. Scarpa e A. Azzalini, Data Analysis and Data Mining.

In [None]:
beta = np.array([[2], 
                 [5]])
print("beta:")
print(beta)

num_oss = 100

np.random.seed(42)

X = np.hstack([np.ones((num_oss, 1)), np.random.random((num_oss, 1))])
print("\nPrime cinque righe di X:")
print(X[:5])

y = X.dot(beta) + np.random.normal(0, 0.5, (num_oss, 1))
print("\nPrimi cinque valori di y:")
print(y[:5])

plt.scatter(X[:, 1], y)
plt.xlabel("X[:, 1]")
plt.ylabel("y")
plt.grid()
plt.show()

### Verifica dell'implementazione

In [None]:
beta_mq = minimi_quadrati(X, y)
print("beta:")
print(beta)
print("\nStima minimi quadrati di beta:")
print(beta_mq.round(2))

## Funzioni matematiche

In [None]:
a = np.arange(1, 5).reshape((2, 2))
print('a:')
print(a)

### numpy.sin

In [None]:
print("np.sin(a):")
np.sin(a)

### numpy.cos

In [None]:
print("np.cos(a):")
np.cos(a)

### Esercizio

Siano
```python
a = np.array([np.cos(np.pi / 6), 0.5])
b = np.array([0.5, np.cos(np.pi / 6)])
```
1. Disegnare $a$ e $b$, qual'è l'angolo $\theta$ in radianti tra i due vettori?
2. Verificare che $a \cdot b = |a| \times |b| \times \cos(\theta)$.

> Suggerimento: per $|\cdot|$ vedere `np.linalg.norm()`.

### numpy.exp

In [None]:
print("np.exp(a):")
np.exp(a)

### numpy.log

In [None]:
print("np.log(a):")
np.log(a)

### numpy.sqrt

In [None]:
print("np.sqrt(a):")
np.sqrt(a)

**D:** Identificare almeno un'altra funzione matematica fornita da NumPy.

## Operazioni su un asse specifico

In [None]:
a = np.arange(12).reshape((3, 4))
print('a:')
print(a)

### Su tutti gli assi

In [None]:
print("a.max():")
a.max()

### Sulle righe

In [None]:
print("a.max(axis=0):")
a.max(axis=0)

### Sulle colonne

In [None]:
print("a.max(axis=1):")
a.max(axis=1)

## Esercizio

Calcolare il valor medio di ogni colonna.

## Accedere agli elementi di un array

In [None]:
a = np.arange(12).reshape((4, 3))
print('a:')
print(a)

In [None]:
print("Elemento della seconda riga, terza colonna, a[1, 2]:")
print(a[1, 2])
print("\nPrima riga, a[0, :]:")
print(a[0, :])
print("\nSeconda colonna, a[:, 1]:")
print(a[:, 1])
print("\nSeconda e terza riga, a[1:3, :]:")
print(a[1:3, :])
print("\nUltime due colonna, a[:, -2:]:")
print(a[:, -2:])
print("\nRighe in ordine inverso, a[::-1, :]:")
print(a[::-1, :])

## Esercizo

Creare l'array
```python
[[ 0,  1,  2,  3],
 [ 4,  5,  6,  7],
 [ 8,  9, 10, 11],
 [12, 13, 14, 15]]
```
Selezionare gli elementi della seconda e terza riga, seconda, terza e quarta colonna:

```python
[[ 5,  6,  7],
 [ 9, 10, 11]]
```

## Unire più array

In [None]:
a = np.arange(4).reshape((2, 2))
b = np.arange(4, 8).reshape((2, 2))

print('a:')
print(a)
print("\nb:")
print(b)

### numpy.hstack (orizzontalmente)

In [None]:
np.hstack([a, b])

### numpy.vstack (verticalmente)

In [None]:
np.vstack([a, b])

## Copie e viste

### Vista (view)

In [None]:
a = np.arange(5)
b = a
print('a:')
print(a)

print("\nb:")
print(b)

print("\nb è a?")
print(b is a)

print("\nModifico b...")
b[2] = -1

print("\nb:")
print(b)

print("\na:")
print(a)

### Copia (copy)

In [None]:
a = np.arange(5)
b = a.copy()
print('a:')
print(a)

print("\nb:")
print(b)

print("\nb è a?")
print(b is a)

print("\nModifico b ...")
b[2] = -1

print("\nb:")
print(b)

print("\na:")
print(a)

## Esercizio

Completare la funzione `minimi_quadrati_ricorsivi` nel file lab_00.py implementando il punto 2. dell'algoritmo ricorsivo dei minimi quadrati semplificato (vedi sotto).

**Algoritmo ricorsivo dei minimi quadrati (semplificato):**
1. $\hat{\beta} = 0_{p\times1}$, $V = I_{p\times p}$ (matrice identità $p\times p$)
2. Ciclo per $n = 0, 1, \dots$
    1. $h = 1 / (1 + x_n^{\top}Vx_n)$
    2. $e = y_n - x_n^{\top}\hat{\beta}$
    3. $\hat{\beta} = \hat{\beta} + hVx_ne$
    4. $V = V - hVx_nx_n^{\top}V$
    
    
Per ulteriori dettagli consultare pagina 33 e 34 del libro B. Scarpa e A. Azzalini, Data Analysis and Data Mining.

**Extra 1:** Modificare l'algoritmo in modo da ottenere ad ogni iterazione lo errore standard della stima.

**Extra 2:** Ottenere i valori iniziali di beta e V implementando i punti da 1. a 4. di pagina 34.

In [None]:
beta = np.array([[2], 
                 [5]])
print("beta:")
print(beta)

num_oss = 1000

X = np.hstack([np.ones((num_oss, 1)), np.random.random((num_oss, 1))])
print("\nprime cinque righe di X:")
print(X[:5])

y = X.dot(beta) + np.random.normal(0, 1.5, (num_oss, 1))
print("\nprimi cinque valori di y:")
print(y[:5])

Inizializzare $\beta$ e V come nel punto 1. dell'algoritmo semplificato o come nel punto **Extra 2**. Nel secondo caso è necessario modificare anche la cella sotto per non utilizzare più volte le stesse osservazioni.

In [None]:
print("Inizializzo beta e V:")

beta_iniz = np.zeros((2, 1)) # TODO
print("\nbeta:")
print(beta_iniz)

V_iniz = np.diag(np.ones(2)) # TODO
print("\nV:")
print(V_iniz)

In [None]:
import numpy
from numpy.linalg import inv

def minimi_quadrati_ricorsivi(xn, yn, beta, V):
    h=1/(1+numpy.dot(numpy.dot(xn.T,V),xn))
    e=yn-numpy.dot(xn.T, beta)
    beta=beta+h*e*numpy.dot(V, xn)
    V=V-h*numpy.dot(numpy.dot(V,xn), numpy.dot(xn.T,V))
    return beta, V

def minimi_quadrati(X, y):
    return numpy.dot(inv(numpy.dot(X.T,X)),numpy.dot(X.T,y))

In [None]:
Implementazione usando

In [None]:
def minimi_quadrati_ricorsivi(xn, yn, beta, V):
    h = 1 / (1 + numpy.dot(numpy.dot(xn.T, V), xn))
    e = yn - numpy.dot(xn.T, beta)
    beta += h * e * numpy.dot(V, xn)
    V -= h * numpy.dot(numpy.dot(V, xn), numpy.dot(xn.T, V))
    return beta, V

def minimi_quadrati(X, y):
    return numpy.dot(inv(numpy.dot(X.T,X)),numpy.dot(X.T,y))

In [None]:
np.random.seed(42)
x = np.linspace(0, 1, 100)

beta_mqr = beta_iniz
V_mqr = V_iniz

for ii, (xi, yi) in enumerate(zip(X, y)):
    beta_mqr, V_mqr = minimi_quadrati_ricorsivi(xi[:, np.newaxis], yi, beta_mqr, V_mqr)
    if (((ii + 1) % 20 == 0) & (ii < 100)) or ((ii + 1) % 200 == 0):
        print("\nStima di beta dopo {} osservazioni:".format(ii + 1))
        print(beta_mqr.round(2))
        plt.scatter(X[:ii + 1, 1], y[:ii + 1], alpha=0.9)
        plt.ylim([0, 8])
        plt.xlabel("x")
        plt.ylabel("y")
        plt.plot(x, x*beta_mqr[1] + beta_mqr[0], lw=2, ls='--', c='red')
        plt.grid()
        plt.show()
        comando = input("Premere Enter per continuare, q per terminare. ")
        if comando == 'q':
            break   

print("\nbeta:")
print(beta)

beta_mq = minimi_quadrati(X, y)
print("\nStima minimi quadrati di beta:")
print(beta_mq.round(2))

print("\nStima minimi quadrati ricorsivi di beta:")
print(beta_mqr.round(2))

**D:** Come mai le stime minimi quadrati e minimi quadrati ricorsivi non coincidono?

**R:** ...