## Porque Numpy?

- ``list`` no tiene buen manejo para los indices cuando se trabaja con **listas de datos de más de dos dimensiones**.
- ``list`` no posee metodos de algebra lineal, ni de transformaciones de datos.
- En otros lenguajes encontramos estructuras de datos altamente optimizadas para poder hacer operaciones algebraicas sobre arrays.

Por sobre Numpy se erige todo un ecosistema de librerias muy utiles que iremos viendo en el recorrido de este curso.

## Crear Arrays

In [1]:
#Importar la librería
import numpy as np

In [2]:
a1 = np.array([1,2,3])                 # con una lista
type(a1)

numpy.ndarray

In [3]:
a2 = np.arange(10)                 # np.arange es un metodo similar al range del tipo list

In [4]:
a2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
a3 =  np.zeros((2,3))                 # crear un lista de dos dimensiones, pre-rellenada con zeros
a4 =  np.ones((2,3))                 # crear un lista de dos dimensiones, pre-rellenada con unos

In [6]:
from IPython.display import display
display(a3);display(a4)

array([[0., 0., 0.],
       [0., 0., 0.]])

array([[1., 1., 1.],
       [1., 1., 1.]])

<div class="alert alert-block alert-info" style="margin-top: 20px">
  <code>np.linspace(a,b,n)</code> es una función que permite crear arrays de una dimensión, de largo n, y que contienen puntos entre a y b, distanciados de forma regular. La distancia entre cada punto sera de $(b-a)/(n-1)$.
</div>



In [7]:
a5 = np.linspace(0,1,11)
display(a5)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [8]:
# Dtypes
a5.dtype

dtype('float64')

## Dimensión de un Array

In [9]:
display(a1)

array([1, 2, 3])

In [10]:
a1.shape                 # dimensión

(3,)

In [11]:
display(a3)

array([[0., 0., 0.],
       [0., 0., 0.]])

In [12]:
a3.shape                   # dimensión

(2, 3)

In [13]:
a1D = np.array([1,2,3])
a2D = np.array([[1,2,3]])
display(a1D.shape)
display(a2D.shape)

(3,)

(1, 3)

In [14]:
# Son los dos arrays iguales?
np.array_equal(a1D,a2D)

False

In [15]:
# Reshaping
new_dims = (1,a1D.shape[0])
a = a1D.reshape(new_dims)

In [16]:
np.array_equal(a,a2D)

True

## Acceso a elementos y Slicing

In [17]:
a = np.array([[1,0,3],[4,3,5],[6,10,-1]])
a

array([[ 1,  0,  3],
       [ 4,  3,  5],
       [ 6, 10, -1]])

In [18]:
a[2,1]

10

<div class="alert alert-block alert-info" style="margin-top: 20px">
  Para acceder a un elemento de un array de dimensión n, la síntaxis es $array[i1, i2, i3,...iN]$. <br>
  En este curso y frecuentemente en ML trabajaremos con arrays de dimensión 1 o dimensión 2, por lo que:
<ul>
     <li>Para un array de 1D: $a[index]$
     <li>Para un array de 2D: $a[index1, index2]$
</ul>
</div>





In [19]:
a = np.arange(10)
b = np.eye(3)
display(a);display(b)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [20]:
a[:5]

array([0, 1, 2, 3, 4])

In [21]:
b[0:3,1]

array([0., 1., 0.])

In [22]:
b[2,0:3]

array([0., 0., 1.])

In [23]:
b[:,:]

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [24]:
# Slicing de arrays

                      # 5 primeros elementos del array a
                      # esta notación nos permite obtener la segunda línea del array b
                      # tercera columna del array b
                      # todo el array b.

## Operaciones sobre arrays

In [25]:
# Aritmetica
a = np.arange(4)

print("a     =", a)
print("a + 5 =", a + 5)
print("a - 5 =", a - 5)
print("a * 2 =", a * 2)
print("a / 2 =", a / 2)
print("a // 2 =", a // 2)  
print("-a     = ", -a)
print("a ** 2 = ", a ** 2)
print("a % 2  = ", a % 2)

a     = [0 1 2 3]
a + 5 = [5 6 7 8]
a - 5 = [-5 -4 -3 -2]
a * 2 = [0 2 4 6]
a / 2 = [0.  0.5 1.  1.5]
a // 2 = [0 0 1 1]
-a     =  [ 0 -1 -2 -3]
a ** 2 =  [0 1 4 9]
a % 2  =  [0 1 0 1]


| Operator	    | ufunc               |
|---------------|---------------------|
|``+``          |``np.add``           |
|``-``          |``np.subtract``      |
|``*``          |``np.multiply``      |

In [26]:
# Otras ufuncs interesantes
a = np.arange(4)
b = np.arange(1,5)

display(np.exp(a))         # exponencial
display(np.log(b))         # logaritmo natural
display(np.sqrt(a))        # raiz cuadrada
display(np.greater(a,b))   # superior o igual punto a punto

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692])

array([0.        , 0.69314718, 1.09861229, 1.38629436])

array([0.        , 1.        , 1.41421356, 1.73205081])

array([False, False, False, False])

In [27]:
a

array([0, 1, 2, 3])

In [28]:
b

array([1, 2, 3, 4])

## Rendimiento

<div class="alert alert-block alert-info" style="margin-top: 20px">
  Las ufuncs corren a velocidad de código compilado C. <br>
  De poder utilizarse se deberían preferir a el uso de for loops. <br>
Un código Numpy solo con funciones nativas, sin bucles, se le llama código "vectorizado".
</div>

In [29]:
import numpy as np

In [30]:
%%timeit
a = np.arange(1000000)
b = np.zeros(1000000)
i = 0
for el in a:
    b[i] = el+el
    i+=1

666 ms ± 62.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [31]:
%%timeit
a = np.arange(1000000)
a+a

8.79 ms ± 507 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [32]:
%%timeit
a+a

1.15 µs ± 45.4 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


## Estadística y aleatoridad

In [33]:
# Estadística
a = np.arange(10)

display(np.mean(a))           # promedio
display(np.median(a))         # mediana         

4.5

4.5

In [34]:
np.percentile(a,40)                  # percentil

3.6

In [35]:
np.random.random(10) # Aleatoridad

array([0.12860816, 0.08329671, 0.10940784, 0.03912067, 0.82596359,
       0.01749434, 0.51231349, 0.37265548, 0.59179391, 0.28545942])