<img src="mioti.png" style="height: 100px">
<center style="color:#888">Data Science with Python </center>

# DSPy2. NumPy "advanced"

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Vectorization" data-toc-modified-id="Vectorization-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Vectorization</a></span></li><li><span><a href="#Broadcasting" data-toc-modified-id="Broadcasting-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Broadcasting</a></span></li><li><span><a href="#Boolean-indexing-(máscaras)" data-toc-modified-id="Boolean-indexing-(máscaras)-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Boolean indexing (máscaras)</a></span></li><li><span><a href="#Operaciones" data-toc-modified-id="Operaciones-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Operaciones</a></span></li></ul></div>

In [2]:
import numpy as np

## Vectorization

Es la expresión de operaciones en lotes sin escribir bucles `for`. Por ejemplo, si quisiéramos multiplicar por 2 un conjunto de 1 millón de enteros:

In [3]:
import numpy as np 
num_samples = 1000000
my_list = list(range(num_samples))
my_arr = np.arange(num_samples)

En Python tendríamos que escribir un bucle `for` para ello:


In [3]:
%%timeit
my_list2 = [x * 2 for x in my_list]

72.2 ms ± 1.93 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Mientras que en NumPy, como en algunos ejemplos que hemos visto:

In [5]:
%%timeit 
my_arr2 = my_arr * 2

797 µs ± 11.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


No solo obtenemos más eficiencia en la escritura de código... también en la ejecución.

Further reading: [Vectorization](https://towardsdatascience.com/why-you-should-forget-for-loop-for-data-science-code-and-embrace-vectorization-696632622d5f)

## Broadcasting

**Pregunta:** ¿Qué esperarías que pasara con el siguiente código?

In [4]:
np.array([0,1,2]) + 1

array([1, 2, 3])

**Pregunta:** ¿Qué esperarías que pasara con el siguiente código?

In [5]:
arr2d = np.array([[0,0,0],
                  [1,1,1],
                  [2,2,2],
                  [3,3,3]])
arr2d

array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]])

In [7]:
arr1d = np.array([1,2,3])
arr1d

array([1, 2, 3])

In [8]:
arr2d + arr1d 

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

<div class="alert alert-block alert-success">
Se pueden realizar operaciones entre arrays de distintos tamaños, cumpliendo la siguiente regla: empezando por el final, la longitud de cada dimensión de los arrays han de coincidir o ser igual a 1. El array se "expande" copiándose a lo largo de la dimensión que falta o que es 1.
</div>


Broadcasting a lo largo de la dimensión 0:
<img src="broadcast1.png" style="height: 200px">


Broadcasting sobre la dimensión 1:
<img src="broadcast2.png" style="height: 200px">


## Boolean indexing (máscaras)

In [3]:
np.set_printoptions(precision=2)
kms_per_day = np.random.random_sample((4,7)) * 1000
kms_per_day

array([[ 16.45, 289.72, 349.56, 154.61, 517.72, 904.09, 842.21],
       [312.7 , 644.79, 287.11, 707.73,  77.66, 778.01, 860.21],
       [632.86, 404.14, 398.31, 224.04, 452.56, 695.54, 595.49],
       [664.51, 924.36, 573.39, 233.62, 156.17, 998.81, 535.21]])

In [4]:
extreme_values = kms_per_day[(kms_per_day > 500) | (kms_per_day < 200)]
extreme_values

array([ 16.45, 154.61, 517.72, 904.09, 842.21, 644.79, 707.73,  77.66,
       778.01, 860.21, 632.86, 695.54, 595.49, 664.51, 924.36, 573.39,
       156.17, 998.81, 535.21])

In [5]:
extreme_values.shape

(19,)

Imaginemos, por ejemplo, que queremos truncar los valores extremos a esos rangos:

In [6]:
kms_per_day[(kms_per_day > 500)] = 500
kms_per_day[(kms_per_day < 200)] = 200
kms_per_day

array([[200.  , 289.72, 349.56, 200.  , 500.  , 500.  , 500.  ],
       [312.7 , 500.  , 287.11, 500.  , 200.  , 500.  , 500.  ],
       [500.  , 404.14, 398.31, 224.04, 452.56, 500.  , 500.  ],
       [500.  , 500.  , 500.  , 233.62, 200.  , 500.  , 500.  ]])

**Pregunta:** ¿Qué imprimirá `kms_per_day` tras...?

In [7]:
kms_per_day = np.random.random_sample((4,7)) * 1000
kms_per_day

array([[436.69, 739.24, 377.  ,  13.5 , 156.82, 873.59, 431.58],
       [980.5 , 881.06, 641.16,  72.94, 376.73, 822.4 , 407.27],
       [908.92, 133.27, 300.21,  16.44, 872.11, 664.59, 930.66],
       [252.4 , 307.86, 369.67, 329.61, 620.18, 533.76, 226.89]])

In [None]:
non_extreme_kms = kms_per_day[(kms_per_day < 500) & (kms_per_day > 200)]
non_extreme_kms

In [None]:
non_extreme_kms[0] = 0
non_extreme_kms

In [None]:
kms_per_day






**Pregunta:** ¿Qué imprimirá kms_per-day tras... ?

In [None]:
monday_kms_per_day = kms_per_day[0,:]
monday_kms_per_day

In [None]:
monday_kms_per_day[0] = 0
monday_kms_per_day

In [None]:
kms_per_day







<div class="alert alert-block alert-danger">

**WARNING.** Boolean indexing devuelve copias de los datos, no vistas (es decir, modificar la selección del array original no modifica el array original. Al contrario de lo que sucede en el indexado por enteros, que devuelve vistas de los datos (es decir, modificar la seleccion del array original no modifica el array original).

</div>

## Operaciones

NumPy ofrece una colección amplia de funciones rápidas vectorizadas para operaciones element-wise:

In [None]:
arr = np.arange(10)
np.sqrt(arr)

[Full list (docu oficial)](https://docs.scipy.org/doc/numpy/reference/ufuncs.html)

NumPy por si mismo no provee funciones avanzadas de algebra lineal, matemáticas, ingeniería... Cuando necesitamos un uso avanzado de esas herramientas, recurrimos a `SciPy`:
<img src="Scipy.png" style="width: 400px">

[Link a la docu](https://docs.scipy.org/doc/scipy-1.3.0/reference/index.html)

Pero, en cualquier caso, Scipy opera con los arrays de NumPy como una de sus estructuras de datos principales. Y, NumPy sí que ofrece funciones básicas de álgebra lineal, como por ejemplo el producto escalar, necesario por ejemplo para una regresión lineal:

<img src="Linear_regression.svg" style="width: 400px">


$$ \hat{y} = \theta_0 + \theta_1x_1 $$

En forma vectorizada:
$$
\begin{equation}
\hat{y} = \theta^T \cdot \mathbf{x}
\end{equation}
$$

donde "$\cdot$" es el producto escalar:

In [None]:
theta0 = 5
theta1 = 0.1
theta = np.array([theta0, theta1])

x0 = 1
x1 = 10
X = np.array([x0, x1])
pred_y = np.dot(theta, X)
pred_y

También provee de funciones básicas de estadística:

In [None]:
scores = np.array([5,8,3,9])
scores.sum()

Notad que estas operaciones pueden hacerse globalmente con el array, o según una determinada dirección:


In [None]:
scores = np.array([
    [100,200,500],
    [1,2,5]
])
scores

In [None]:
scores.sum()

In [None]:
scores.sum(axis=0)

In [None]:
scores.sum(axis=1)