# Práctica 3. Más sobre NumPy arrays: index, slice, reshape, broadcasting, etc.

In [1]:
import numpy as np

## [Array Indexing](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.indexing.html)

In [2]:
# índices en 1d-arrays
data = np.array([11, 22, 33, 44, 55])
# numeramos las componentes del array empezando desde **cero** 
# accedemos a los elementos con corchetes sobre el array
print(data[0])
print(data[4])

# print(data[5]) ## error pues no tenemos ningún elemento

# también podemos usar índices negativos:
# -1 es el último elemento del arrary, -2 el penúltimo, etc.
print(data[-1])
print(data[-5])


11
55
55
11


In [3]:
# índices en 2d-arrays
data = np.array(
    [[11, 22],
    [33, 44],
    [55, 66]]
    )
print(data)
# usamos el criterio usual de filas, columnas, pero empezando en cero
print(data[0, 0])  # dato en posisión [0, 0]
print(data[0, :])  # fila 0, todos los datos
print(data[:, 1])  # todos los datos de la columna 1
 

[[11 22]
 [33 44]
 [55 66]]
11
[11 22]
[22 44 66]


## [Array Slicing](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.indexing.html)

In [4]:
# cortar (slice) 1d-arrays
data = np.array([11, 22, 33, 44, 55])
print(data)
# data[from:to] el corte va desde el dato *from* y acaba justo antes de *to*
print(data[1:4])
# también con índices negativos
print(data[-2: ]) # desde -2 hasta el final

[11 22 33 44 55]
[22 33 44]
[44 55]


En Machine Learning es habitual separar todos  los datos en las llamadas
**features** (características, denotadas por X) y **labels** (etiquetas, y). 
Por ejemplo, las features pueden ser imágenes (números que asignan a cada pixel 
un tono de  color) y los labels la etiqueta de las imágenes (coche, moto, etc.).
Todos los datos aparecen dentro de una matriz y hay que cortar (slice) los datos.
Veamos cómo hacer esto.

In [5]:
# cortar (slice) 2d-arrays
data = np.array([
    [11, 22, 33],
    [44, 55, 66],
    [77, 88, 99]]
    )
print(data)

# las features X serán todas las filas y columnas excepto la última columna
# las labels serán todas las filas y la última columna

X, y = data[:, :-1], data[:, -1]
print(f"X =\n {X}")
print(f"y =\n {y}")


[[11 22 33]
 [44 55 66]
 [77 88 99]]
X =
 [[11 22]
 [44 55]
 [77 88]]
y =
 [33 66 99]


También es habitual en Machine Learning separar los datos en dos subconjuntos:
uno lo usaremos para entrenar un modelo **training dataset** y el otro para 
chequear la bondad del modelo **test dataset**.
Veamos un ejemplo.

In [6]:
data = np.array([
    [11, 22, 33],
    [44, 55, 66],
    [77, 88, 99]]
    )
print(data)
# training dataset serán todas las filas desde el principio hasta split
# test dataset serán todas las filas empezado desde split y hasta el final
split = 2
train, test = data[:split, :], data[split:, :]
print(f"train dataset =\n {train}")
print(f"test dataset =\n {test}")

[[11 22 33]
 [44 55 66]
 [77 88 99]]
train dataset =
 [[11 22 33]
 [44 55 66]]
test dataset =
 [[77 88 99]]


## [Array Reshape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html)

Después de cortar (slice) los datos es habitual tener que cambiar la forma de 
dichos datos para que se adapten a los requerimientos de algunas librerías de 
tratamiento de datos de Python (scikit-learn, keras, etc.).
Por ejemplo, estructurar los datos de un 1d-array como un 2d-array.
Veamos algunos ejemplos.

In [7]:
# Empezemos viendo algunas data shape (formas de datos)

data = np.array([11, 22, 33, 44, 55])
print(data)
print(data.shape) # devuelve una tupla con el número de elmentos del 1d-array

# introducimos una lista
data = [
    [11, 22], 
    [33, 44],
    [55, 66]
    ]
# convertimos la lista en un 2d-array
data = np.array(data)
print(data)
print(data.shape) # nos devuelve una tupla con el número de filas y de columnas

print(f"número de las filas = {data.shape[0]}")
print(f"número de columnas = {data.shape[1]}")

# fila = dimensión 0, columna = dimensión 1

[11 22 33 44 55]
(5,)
[[11 22]
 [33 44]
 [55 66]]
(3, 2)
número de las filas = 3
número de columnas = 2


In [8]:
# convertimos un 1d-array (vector fila) en un 2d-array (vector columna)
data = np.array([11, 22, 33, 44, 55])
print(data)
print(data.shape)
# reshape
data = data.reshape((data.shape[0], 1))
print(data)
print(data.shape)

[11 22 33 44 55]
(5,)
[[11]
 [22]
 [33]
 [44]
 [55]]
(5, 1)


In [9]:
# convertimos un 2d-array en un 3d-array
# un ejemplo de la utilidad de convertir un 2d-array en un 3d-array podría ser
# el siguiente: los datos representan la feature "fuerza". Cada fila contiene 
# un dato medido (sample) de la fuera (vector de 3 componentes). Reagrupamos 
# los datos guardándolos en un archivador (3d-array) que, de momento, sólo 
# contiene una carpeta (2d-array) donde guardamos los datos de la fuerza (1d-array) 

# lista de datos
data = [[11, 22, 3],
[33, 44, 46],
[55, 66, 76]]
# convertimos la lista en array
data = np.array(data)
print(data)
print(data.shape)
# convertimos el 2d-array en un 3d-array
data = data.reshape((data.shape[0], data.shape[1], 1))
print(data)
print(data.shape)

[[11 22  3]
 [33 44 46]
 [55 66 76]]
(3, 3)
[[[11]
  [22]
  [ 3]]

 [[33]
  [44]
  [46]]

 [[55]
  [66]
  [76]]]
(3, 3, 1)


## [Array Broadcasting](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html)

Podemos sumar dos vectores de la misma dimensión, pero no sumar una matriz a un 
vector. Sin embargo, en Ciencia de Datos, a menudo tenemos que sumar a una 
matriz un vector.

Por ejemplo, si A = (A_i,j) es una matriz y b = (b_j) un vector, entonces
 C = A + b, representa la matriz de entradas C_i,j = A_i,j + b_j, donde el 
 vector b se añade a cada fila de la matriz A. Esto elimina la necesidad de 
 definir una matriz donde el vector b se copia en cada fila de la nueva matriz.
 Este copiado implícito del vector b en varias localizaciones se llama
 **broadcasting** (algo sí como difusión, en español, y hace referencia a que el array de menor dimensión se "difunde" en el de mayor dimensión). Veamos algunos ejemplos. 

In [10]:
# broadcast escalar en un 1d-array
a = np.array([1, 2, 3])
print(a)
b = 2
print(b)
# broadcast
c = a + b
print(c)

[1 2 3]
2
[3 4 5]


In [11]:
# igual pero en un 2d-array
A = np.array([
    [1, 2, 3],
    [1, 1, 1]]
    )
print(A)

b = 2
print(b)
# broadcast
C = A + b
print(C)

[[1 2 3]
 [1 1 1]]
2
[[3 4 5]
 [3 3 3]]


In [12]:
# broadcast 1d array en 2d-array

A = np.array([ 
    [1, 2, 3], 
    [1, 1, 1]]
    )
print(A)

b = np.array([1, 2, 3])
print(b)
# broadcast
C = A + b
print(C)

[[1 2 3]
 [1 1 1]]
[1 2 3]
[[2 4 6]
 [2 3 4]]


In [13]:
# limitaciones del broadcasting
A = np.array([
[1, 2, 3],
[1, 2, 3]])
print(A.shape)
# define one-dimensional array
b = np.array([1, 2])
print(b.shape)
# attempt broadcast. Error: el 1d-array tiene 2 elementos y la matriz 3 columnas
C = A + b
print(C)

(2, 3)
(2,)


ValueError: operands could not be broadcast together with shapes (2,3) (2,) 