<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 7**

## **Contenido**

- <a href="#con"> Concatenación de arreglos</a><br> 
- <a href="#ind"> Indexación y segmentación</a><br>
- <a href="#enm"> Enmascaramiento
- <a href="#sof"> Indexación sofisticada</a><br></a><br>







# **Concatenación de arreglos**


La concatenación, o unión de dos arreglos en NumPy, se realiza principalmente a través de la función `concatenate`:

In [None]:
import numpy as np

In [None]:
x = [1 , 2 , 3]
y = [4 , 5 , 6]

print(x + y)

[1, 2, 3, 4, 5, 6]


In [None]:
arr1 = np.array(x)
arr2 = np.array(y)

np.concatenate((arr1, arr2))

array([1, 2, 3, 4, 5, 6])

In [None]:
np.concatenate((x, y))

array([1, 2, 3, 4, 5, 6])

Podemos concatenar más de dos arreglos al tiempo:

In [None]:
arr3 = np.array([7 , 8 , 9])
np.concatenate([arr1, arr2, arr3])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

`concatenate` también se puede usar para arreglos bidimensionales. Recuerde que las filas corresponden al eje 1 (axis = 1) y las columnas al eje 0 (axis = 0)


<p><img alt="Colaboratory logo" height="300px" src="https://i.imgur.com/KYPgvhf.png" align="left" hspace="10px" vspace="0px"></p>

In [None]:
arr = np.arange(8,14).reshape(3,2)
arr

array([[ 8,  9],
       [10, 11],
       [12, 13]])

In [None]:
np.concatenate([arr, arr], axis = 0)

array([[ 8,  9],
       [10, 11],
       [12, 13],
       [ 8,  9],
       [10, 11],
       [12, 13]])

Si queremos realizar la concatenación a lo largo del eje 1, debemos especificar el eje por medio de un argumento por palabra clave:

In [None]:
np.concatenate([arr, arr], axis = 1)

array([[ 8,  9,  8,  9],
       [10, 11, 10, 11],
       [12, 13, 12, 13]])

La función `vstack()` es equivalente a la concatenación a lo largo del primer eje (axis=0). Al igual que `concatenate()`, recibe como argumento una secuencia de arreglos que, en este caso, deben tener la misma forma a lo largo de todos los ejes, excepto el primero. Los arreglos unidimensionales deben tener la misma longitud:

In [None]:
a = arr1
b = np.arange(3,9).reshape(2,3)
print(a,"\n",b)
np.vstack((a,b))

[1 2 3] 
 [[3 4 5]
 [6 7 8]]


array([[1, 2, 3],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
a = np.array([[1],
              [2]])
b = np.array([[3],
             [4],
             [5]])
print(a,"\n",b)
np.vstack((a,b))

[[1]
 [2]] 
 [[3]
 [4]
 [5]]


array([[1],
       [2],
       [3],
       [4],
       [5]])

In [None]:
a = arr1
b = np.arange(4,8)

print(a,"\n",b)
try:
  np.vstack((a,b))
except Exception as e:
  print(e)

[1 2 3] 
 [4 5 6 7]
all the input array dimensions for the concatenation axis must match exactly, but along dimension 1, the array at index 0 has size 3 and the array at index 1 has size 4


Similarmente, la función `hstack()` realiza una concatenación a lo largo del segundo eje (axis=1), y los arreglos que toma como argumento deben coincidir en la forma a lo largo de este eje. Los arreglos unidimensionales pueden ser de cualquier longitud

In [None]:
a = np.array([[1, 2],
              [3, 4]])
b = np.arange(5,11).reshape(2,3)
print(a,"\n",b)
np.hstack((a,b))

[[1 2]
 [3 4]] 
 [[ 5  6  7]
 [ 8  9 10]]


array([[ 1,  2,  5,  6,  7],
       [ 3,  4,  8,  9, 10]])

In [None]:
a = arr1
b = np.arange(4,8)
print(a,"\n",b)
np.hstack((a,b))

[1 2 3] 
 [4 5 6 7]


array([1, 2, 3, 4, 5, 6, 7])

<p><a name="ind"></a></p>

# **Indexación y segmentación**

Los arreglos de NumPy tienen la misma semántica de indexación y segmentación que las listas de Python cuando se trata de acceder a elementos o subarreglos. 




In [None]:
a = np.arange(8)

print(f"a: {a}\n")
print(f"a[3]: {a[3]}\n")
print(f"a[2:6]: {a[2:6]}")

a: [0 1 2 3 4 5 6 7]

a[3]: 3

a[2:6]: [2 3 4 5]


Debido a que los arreglos de NumPy son n-dimensionales, podemos segmentar a lo largo de todos y cada uno de los ejes. Consideremos la siguiente lista de listas en Python

In [None]:
L = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

Por ejemplo, si queremos crear una lista de Python que contenga todas las filas y las primeras dos columnas de la lista L podríamos escribir

In [None]:
[l[:2] for l in L]

[[1, 2], [4, 5], [7, 8]]

El número de ciclos `for` anidados que se necesita para segmentar listas de listas es igual al número de dimensiones menos uno (en este caso $2-1=1$). 

En NumPy, en lugar de indexar por un segmento, podemos indexar por una tupla de segmentos, cada uno de los cuales actúa en sus propias dimensiones. Definamos el arreglo `L` con NumPy y realicemos la segmentación anterior:


In [None]:
L = np.arange(1,10).reshape(3,3)
L

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
L[:,:2]

array([[1, 2],
       [4, 5],
       [7, 8]])

Los ciclos `for` para la segmentación multidimensional son manejados implícitamente por NumPy. Esto hace que realizar segmentaciones complejas sea mucho más rápido que escribir los ciclos `for` explícitamente en Python. Veamos algunos ejemplos:

In [None]:
a = np.arange(16).reshape(4,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [None]:
#Seleccionar la primera fila
#a[0]
a[0,:]

array([0, 1, 2, 3])

In [None]:
#Seleccionar la primera columna
a[:,0]

array([ 0,  4,  8, 12])

In [None]:
#Segmentar por filas pares y columnas impares
a[::2,1::2]

array([[ 1,  3],
       [ 9, 11]])

In [None]:
#Segmentar la matriz interna
a[1:3,1:3]

array([[ 5,  6],
       [ 9, 10]])

In [None]:
#Invertir las primeras 3 filas, tomando solo las primeras 3 columnas
a[-2::-1,:3]

array([[ 8,  9, 10],
       [ 4,  5,  6],
       [ 0,  1,  2]])

**Ejercicio 1**: Escriba un programa para crear un nuevo arreglo que sea el promedio de cada triplete consecutivo de elementos del siguiente arreglo

<p><img alt="Colaboratory logo" height="70px" src="https://i.imgur.com/XoHovZd.png" align="left" hspace="10px" vspace="0px"></p>

In [None]:
np.mean((1,2,3))

2.0

In [None]:
H = np.array([1, 2, 3, 2, 4, 6, 1, 2, 12, 0, -12, 6])
Ma = H.reshape(4,3)
np.mean(Ma, axis = 1)

array([ 2.,  4.,  5., -2.])

<p><a name="enm"></a></p>

## **Enmascaramiento**

El enmascaramiento aparece cuando deseamos extraer, modificar, o manipular valores en un arreglo de acuerdo con algún criterio.

Ya vimos cómo utilizar ufuncs para operaciones aritméticas básicas y otro tipo de operaciones más complejas. NumPy implementa también operadores de comparación como ufuncs:

In [None]:
x = np.random.uniform(0,10,size=30).reshape(6,5)
print(x, x.ndim)

[[4.43506828 0.02472941 7.81287746 5.50080933 1.65365696]
 [8.74595873 7.29551347 5.33745059 7.44730089 5.39492398]
 [3.23035817 3.61498086 5.97329131 7.08498729 3.05148415]
 [9.75479203 4.69014788 7.38680013 1.92843188 8.63459404]
 [7.31088807 8.22043596 5.93811379 1.35682995 2.06597679]
 [8.93446477 5.95106065 0.20213716 9.90746581 7.33064163]] 2


In [None]:
a = np.arange(1,10).reshape(3,3)
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
x < 5

array([[ True, False, False, False,  True],
       [ True,  True,  True,  True,  True],
       [False,  True, False, False,  True],
       [ True, False, False, False, False],
       [ True, False, False,  True, False],
       [ True, False,  True,  True,  True]])

El resultado es un arreglo booleano. Dado un arreglo booleano, hay una serie de operaciones útiles que podemos implementar. 

Podemos utilizar la función `np.sum` junto con los operadores de comparación para realizar conteos dentro del arreglo:

In [None]:
np.sum(x < 5)

16

Con `np.sum` podemos realizar este tipo de conteos a lo largo de las filas o columnas, utilizando el argumento por palabra clave `axis`:

In [None]:
np.sum(x < 5, axis = 1)

array([2, 5, 2, 1, 2, 4])

In [None]:
np.sum(x < 5, axis = 0)

array([2, 3, 1, 2, 3])

Podemos también tener múltiples condiciones en un conteo, utilizando los operadores lógicos `&` (and) y `|` (or)

In [None]:
np.sum((x > 2.5) & (x < 7.5))

17

In [None]:
print(np.sum((x > 6)| (x < 2)))
print(x)
(x > 6) | (x < 2)

18
[[4.43506828 0.02472941 7.81287746 5.50080933 1.65365696]
 [8.74595873 7.29551347 5.33745059 7.44730089 5.39492398]
 [3.23035817 3.61498086 5.97329131 7.08498729 3.05148415]
 [9.75479203 4.69014788 7.38680013 1.92843188 8.63459404]
 [7.31088807 8.22043596 5.93811379 1.35682995 2.06597679]
 [8.93446477 5.95106065 0.20213716 9.90746581 7.33064163]]


array([[False,  True,  True, False,  True],
       [ True,  True, False,  True, False],
       [False, False, False,  True, False],
       [ True, False,  True,  True,  True],
       [ True,  True, False,  True, False],
       [ True, False,  True,  True,  True]])

Una herramienta muy poderosa es usar los arreglos booleanos como máscaras, para seleccionar subconjuntos particulares de los datos mismos. 

Volviendo a nuestra arreglo `x` anterior, supongamos que queremos un arreglo de todos los valores en `x` que sean menores que, digamos, 5. Para seleccionar estos valores del arreglo, simplemente podemos indexar con este arreglo booleano; esto se conoce como una operación de enmascaramiento:

In [None]:
x[ (x > 6) | (x < 2) ]

array([0.02472941, 7.81287746, 1.65365696, 8.74595873, 7.29551347,
       7.44730089, 7.08498729, 9.75479203, 7.38680013, 1.92843188,
       8.63459404, 7.31088807, 8.22043596, 1.35682995, 8.93446477,
       0.20213716, 9.90746581, 7.33064163])

Lo que se devuelve es un arreglo unidimensional con todos los valores que cumplen la condición; en otras palabras, todos los valores en las posiciones en las que el arreglo de máscara es `True`.

**Ejercicio 2:** Escriba una función que, dado un número entero `n`, muestre:

* Un arreglo con los primeros números pares hasta `n`.
* Un arreglo con los primeros números múltiplos de tres hasta `n`.

In [None]:
def Pares_y_Mul3(n):
  a = np.arange(1,n+1)
  pares = a[a % 2 == 0]
  mult3 = a[a % 3 == 0]
  print(f"Los pares hasta {n} son {pares}")
  print(f"Los multimplos de 3 hasta {n} son {mult3}")


Pares_y_Mul3(21)

Los pares hasta 21 son [ 2  4  6  8 10 12 14 16 18 20]
Los multimplos de 3 hasta 21 son [ 3  6  9 12 15 18 21]


**Ejercicio 3:** Escribir un programa que lea `n` números enteros, calcule y muestre la suma de los pares y el producto de los impares.

In [None]:
n = 10
N = np.array([int(input()) for i in range(n)])

1
15
17
2
4
6
9
12
15
6


In [None]:
N.dtype

dtype('int64')

In [None]:
n = int(input("Ingrese la cantidad de números que va a ingresar\n"))
N = np.array([int(input()) for i in range(n)])

par = N[N % 2 == 0]
SU = np.sum(par)

Impar = N[N % 2 != 0]
MUT = np.product(Impar)
print(f"La suma de los pares es {SU}\nLa suma de los impares es {MUT}")

Ingrese la cantidad de números que va a ingresar
5
1
2
3
4
5
La suma de los pares es6
La suma de los impares es15


<p><a name="sof"></a></p>

# **Indexación sofisticada**

Anteriormente vimos cómo acceder y modificar porciones de arreglos usando índices simples (por ejemplo, `arr[0]`), segmentos (por ejemplo, `arr[: 5]`) y máscaras booleanas (por ejemplo, `arr[arr> 0]`). Veremos ahora otro estilo de indexación de arreglos, conocido como *indexación sofisticada*, la cual nos permite acceder y modificar muy rápidamente subconjuntos complicados de los valores de un arreglo.

La indexación sofisticada es conceptualmente simple: significa pasar una lista de índices en lugar de un entero, para acceder a múltiples elementos del arreglo a la vez. Veamos un ejemplo:

In [None]:
a = np.arange(10,20)
a

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [None]:
np.array([a[1], a[3], a[7]])

array([11, 13, 17])

In [None]:
l = [1, 3, 7]
a[l]

array([11, 13, 17])

Con el indexado sofisticado, la forma del resultado refleja la forma del arreglo de índices más que la forma del arreglo que se está indexando:

In [None]:
a = np.arange(0,91,10)
a

array([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90])

In [None]:
indi = np.array([[3, 7],
                 [4, 5]])

a[indi]

array([[30, 70],
       [40, 50]])

El indexado sofisticado funciona también en múltiples dimensiones. Veámoslo en el siguiente ejemplo:

In [None]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Como en la indexación estándar, el primer índice hace referencia a las filas y el segundo a las columnas:

In [None]:
fila = [0, 1, 2]
colu = [2, 1, 3]

a[fila, colu]

array([ 2,  5, 11])

Los valores el en arreglo corresponden a `a[0,2]`, `a[1,1]` y `a[2,3]` respectivamente. 