# Porque Numpy?

- list no tiene buen manejo para los indices cuando se trabaja con listas de datos de más de dos dimensiones.
- list no posee metodos de algebra lineal, ni de transformaciones de datos.
- En otros lenguajes encontramos estructuras de datos altamente optimizadas para poder hacer operaciones algebraicas sobre arrays.

Por sobre Numpy se erige todo un ecosistema de librerias muy utiles que iremos viendo en el recorrido de este curso.

# # Crear Arrays

In [None]:
#importar la libreria
import numpy as np

In [4]:
a1 = np.array([1,2,3]) #lista
type(a1)

numpy.ndarray

In [5]:
a2 = np.arange(10) # rango de valores
a2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
a3 =  np.zeros((2,3))                 # crear un lista de dos dimensiones, pre-rellenada con zeros
a4 =  np.ones((2,3))                 # crear un lista de dos dimensiones, pre-rellenada con unos

In [8]:
from IPython.display import display

#print(a3);
display(a3);
display(a4)

[[0. 0. 0.]
 [0. 0. 0.]]


array([[0., 0., 0.],
       [0., 0., 0.]])

array([[1., 1., 1.],
       [1., 1., 1.]])

np.linspace(a,b,n) es una función que permite crear arrays de una dimensión, de largo n, y que contienen puntos entre a y b, distanciados de forma regular. La distancia entre cada punto sera de $(b-a)/(n-1)$.

In [10]:
a5 = np.linspace(0,1,11)
display(a5)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [11]:
# Dtypes
a5.dtype

dtype('float64')

# Dimensión de un Array

In [13]:
display(a1)

array([1, 2, 3])

(3,)

In [15]:
a1.shape                 # dimensión

(3,)

In [14]:
display(a3)

array([[0., 0., 0.],
       [0., 0., 0.]])

In [16]:
a3.shape   # dimensión

(2, 3)

In [17]:
a1D = np.array([1,2,3])
a2D = np.array([[1,2,3]])
display(a1D.shape)
display(a2D.shape)

(3,)

(1, 3)

In [19]:

# Son los dos arrays iguales?
np.array_equal(a1D,a2D)

False

In [24]:
# Reshaping
new_dims = (1,a1D.shape[0])
a = a1D.reshape(new_dims)
a

array([[1, 2, 3]])

In [21]:
np.array_equal(a,a2D)

array([[1, 2, 3]])

# Acceso a elementos y Slicing

In [25]:
a = np.array([[1,0,3],[4,3,5],[6,10,-1]])
a

array([[ 1,  0,  3],
       [ 4,  3,  5],
       [ 6, 10, -1]])

In [29]:
a[2,1]

10

Para acceder a un elemento de un array de dimensión n, la síntaxis es $array[i1, i2, i3,...iN]$.
En este curso y frecuentemente en ML trabajaremos con arrays de dimensión 1 o dimensión 2, por lo que:
-Para un array de 1D: $a[index]$
-Para un array de 2D: $a[index1, index2]$

In [28]:
# Son los dos arrays iguales?
np.array_equal(a1D,a2D)

False

In [31]:
a = np.arange(10)
b = np.eye(3)
display(a)
display(b)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [32]:
a[:5]  # 5 primeros elementos del array a

array([0, 1, 2, 3, 4])

In [41]:
b[0:3,1]   # esta notación nos permite obtener la segunda línea del array b

array([0., 1., 0.])

In [42]:
b[2,0:3]  # tercera columna del array b

array([0., 0., 1.])

In [43]:
b[:,:]  # todo el array b.

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

# Operaciones sobre arrays

In [44]:
# Aritmetica
a = np.arange(4)

print("a     =", a)
print("a + 5 =", a + 5)
print("a - 5 =", a - 5)
print("a * 2 =", a * 2)
print("a / 2 =", a / 2)
print("a // 2 =", a // 2)  
print("-a     = ", -a)
print("a ** 2 = ", a ** 2)
print("a % 2  = ", a % 2)

a     = [0 1 2 3]
a + 5 = [5 6 7 8]
a - 5 = [-5 -4 -3 -2]
a * 2 = [0 2 4 6]
a / 2 = [0.  0.5 1.  1.5]
a // 2 = [0 0 1 1]
-a     =  [ 0 -1 -2 -3]
a ** 2 =  [0 1 4 9]
a % 2  =  [0 1 0 1]



Operator	ufunc
+	np.add
-	np.subtract
*	np.multiply

In [45]:
a+a

array([0, 2, 4, 6])

In [46]:
# Otras ufuncs interesantes
a = np.arange(4)
b = np.arange(1,5)

display(np.exp(a))         # exponencial
display(np.log(b))         # logaritmo natural
display(np.sqrt(a))        # raiz cuadrada
display(np.greater(a,b))   # superior o igual punto a punto

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692])

array([0.        , 0.69314718, 1.09861229, 1.38629436])

array([0.        , 1.        , 1.41421356, 1.73205081])

array([False, False, False, False])

# Rendimiento

Las ufuncs corren a velocidad de código compilado C.
De poder utilizarse se deberían preferir a el uso de for loops.
Un código Numpy solo con funciones nativas, sin bucles, se le llama código "vectorizado".

In [47]:
%%timeit
a = np.arange(1000000)
b = np.zeros(1000000)
i = 0
for el in a:
    b[i] = el+el
    i+=1

239 ms ± 3.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [48]:
%%timeit
a = np.arange(1000000)
a+a

5.59 ms ± 228 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Estadística y aleatoridad

In [49]:

# Estadística
a = np.arange(10)

display(np.mean(a))           # promedio
display(np.median(a))         # mediana

4.5

4.5

In [50]:
np.percentile(a,40)                  # percentil

3.6

In [51]:
np.random.random(10) # Aleatoridad

array([0.1197622 , 0.59461379, 0.07541709, 0.46497318, 0.2559856 ,
       0.92881744, 0.35808948, 0.75768841, 0.98947763, 0.92986435])