# Crear Arrays




In [0]:
# Importar la librería
import numpy as np

In [3]:
a1 = np.array([1,2,3,4])    # Con una lista
type(a1)

numpy.ndarray

In [4]:
a2 = np.arange(10)     # np.arange es un método similar a list
a2

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [0]:
a3 = np.zeros((2,3))  # crear una listta de 2 dimensiones, pre-rellenada con zeros
a4 = np.ones((2,3))   # Crear una lista de dos dimensiones, pre-rellenada con unos

In [6]:
from IPython.display import display
display(a3); display(a4);

array([[0., 0., 0.],
       [0., 0., 0.]])

array([[1., 1., 1.],
       [1., 1., 1.]])


`np.linspace(a,b,n)` es una función que permite crear arrays de una dimensión, de largo n, y que contienen puntos entre a y b, distanciados de forma regular. La distancia entre cada punto sera de $(b-a)/(n-1)$.


In [7]:
a5 = np.linspace(0,1,10)
display(a5)

array([0.        , 0.11111111, 0.22222222, 0.33333333, 0.44444444,
       0.55555556, 0.66666667, 0.77777778, 0.88888889, 1.        ])

In [8]:
# Dtypes
a5.dtype

dtype('float64')

# Dimensión de un Array

In [9]:
display(a1)

array([1, 2, 3, 4])

In [10]:
a1.shape

(4,)

In [11]:
display(a3)

array([[0., 0., 0.],
       [0., 0., 0.]])

In [12]:
a3.shape

(2, 3)

In [13]:
a1D = np.array([1,2,3])
a2D = np.array([[1,2,3]])
display(a1D.shape)
display(a2D.shape)

(3,)

(1, 3)

In [14]:
# Son los dos arrays Iguales?
np.array_equal(a1D, a2D)

False

In [0]:
# Reshaping
new_dims = (1, a1D.shape[0])
a = a1D.reshape(new_dims)

In [16]:
np.array_equal(a, a2D)

True

# Acceso a Elementos y Slicing

In [17]:
a = np.array([[1,0,3],[4,3,5],[6,10,-1]])
a

array([[ 1,  0,  3],
       [ 4,  3,  5],
       [ 6, 10, -1]])

In [18]:
a[2,1]

10

Para acceder a un elemento de un array de dimensión n, la síntaxis es $array[i1, i2, i3,...iN]$.

En este curso y frecuentemente en ML trabajaremos con arrays de dimensión 1 o dimensión 2, por lo que:

- Para un array de 1D: $a[index]$
- Para un array de 2D: $a[index1, index2]$

In [19]:
a = np.arange(10)
b = np.eye(3)
display(a); display(b)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [20]:
a[:5] # 5 primeros elementos del array

array([0, 1, 2, 3, 4])

In [21]:
b[0:3, 1] # Obtiene los elementos de la segunda columna del array b(fila, columna)

array([0., 1., 0.])

In [22]:
b[2, 0:3] # Obtiene la 3ra fila del array b

array([0., 0., 1.])

In [23]:
b[:,:]  # Obtiene todo el array de b

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [24]:
a[::-1] # Seleeciona los vectores desde el último hasta el primero, en orden inverso
  

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

# Operaciones sobre arrays

In [25]:
# Aritmética
a = np.arange(4)

print("a  = ",a)
print("a + 5  = ", a + 5)
print("a - 5 = ", a - 5)
print("a * 5 = ", a * 5)
print("a / 2 = ", a / 2)
print("a // 2 = ", a // 2)
print("-a = ", -a)
print("a ** 2 = ", a ** 2)
print("a % 2 = ", a % 2)

a  =  [0 1 2 3]
a + 5  =  [5 6 7 8]
a - 5 =  [-5 -4 -3 -2]
a * 5 =  [ 0  5 10 15]
a / 2 =  [0.  0.5 1.  1.5]
a // 2 =  [0 0 1 1]
-a =  [ 0 -1 -2 -3]
a ** 2 =  [0 1 4 9]
a % 2 =  [0 1 0 1]



Operator	| ufunc
----------|---------
`+`	| np.add
`-`	| np.subtract
`*`	| np.multiply

`ufunc` quiere decir **universal functions**. Y las librerías de numpy corren en código de compilado de C, por lo que es más rápido en la ejecución que con el intérprete de python.

In [28]:
# Otras ufuncs interesantes
a = np.arange(4)
b = np.arange(1,5)

display(a); display(b)
display(np.exp(a))    # Exponencial
display(np.log(b))    # logaritmo natural
display(np.sqrt(a))   # raíz cuadrada
display(np.greater(a, b)) # superior o igual punto a punto

array([0, 1, 2, 3])

array([1, 2, 3, 4])

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692])

array([0.        , 0.69314718, 1.09861229, 1.38629436])

array([0.        , 1.        , 1.41421356, 1.73205081])

array([False, False, False, False])


# Rendimiento

Las `ufunc` corren a velocidad de código compilado C.

De poder utilizarse se deberían preferir al uso de for loops.

Un código Numpy solo con funciones nativas, sin bucles, se llama código vectorizado.

In [33]:
# Usando la suma nativa, de elemento a elemento mediante el bucle for
%%timeit
a = np.arange(1000000)
b = np.zeros(1000000)
i = 0
for item in a:
  b[i] = item+item
  i+=1

1 loop, best of 3: 326 ms per loop


In [34]:
# Usando la suma en Numpy
%%timeit
a+a

The slowest run took 52.52 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 512 ns per loop



# Estadística y aleatoriedad

In [36]:
# Estadística
a = np.arange(10)

display(np.mean(a))    # Promedio
display(np.median(a))  # Mediana

4.5

In [38]:
np.percentile(a,40)  # Percentil



3.6

In [39]:
np.random.random(10) # Aleatoriedad

array([0.39689985, 0.20872186, 0.36629375, 0.25756478, 0.4224997 ,
       0.2672212 , 0.18495401, 0.41865217, 0.76773385, 0.17030816])