# 1. Arreglos de Numpy

Maneja matrices y sirve para realizar operaciones matriciales. Sirve para hacer clustering, agrupar entidades para identificar grupos de entidades que tienen ciertas características en común.

Es una biblioteca de python sumamente importante pues de esta se desprenden muchas otras bibliotecas importantes más complejas como:
- Pandas
- Tensor Flow
- SciPy
- Matplotlib
- SciKitLearn

El elemento básico de trabajo de Numpy es el arreglo, puede ser de una o más dimensiones

In [1]:
import numpy as np

In [2]:
lista1 = [1,2,3,4,5]
arreglo1 = np.array(lista1)
type(arreglo1)

numpy.ndarray

In [3]:
lista2 = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
arreglo2 = np.array(lista2)
arreglo2

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [4]:
""" Una de las principales limitaciones de los arreglos de Numpy es que todo el arreglo tiene que contener elementos con un solo tipo de datos. Numpy automáticamente transformará los
elementos dentro del arreglo al tipo en el que todos pueden ser procesados"""

# En el siguiente ejemplo, todos los datos son convertidos a cadena
np.array(['Vargas', True, 0])


array(['Vargas', 'True', '0'], dtype='<U11')

In [5]:
# Operaciones de generacíón de arreglos
np.zeros((5,4))
np.random.random((3,2))     # Valores aleatorios entre 0 y 1
np.arange(-2,7)             # Arreglo unidimensional con números que van dentro de un rango

array([-2, -1,  0,  1,  2,  3,  4,  5,  6])

In [6]:
# Ejercicio

arreglo1  = np.array([[1,2],[5,7]])
arreglo2 = np.array([[8,9], [5,7]])
arreglo3 = np.array([[1,2],[5,7]])

arreglo_final = np.array([arreglo1, arreglo2, arreglo3])
arreglo_final.shape


(3, 2, 2)

In [7]:
# Conversiones de arreglos
arreglo_final.flatten()     # Aplana el arreglo a una sola dimensión
arreglo_final.reshape(4,3)  # Cambia la forma del arreglo, el número total de elementos tiene que coincidir

array([[1, 2, 5],
       [7, 8, 9],
       [5, 7, 1],
       [2, 5, 7]])

In [8]:
# numpy puede utilizar más tipos de datos: int de 32 y 64 bits, floats de 32 y 64, esto optimiza memoria
arreglo4 = np.array([1.25,2.43,200.88], dtype=np.float32)

#se puede cambiar el tipo de dato con el que trabaja el arreglo, nota que en este caso no sería conveniente porque pedrería la parte decimal de los elementos del arreglo
arreglo4 = arreglo4.astype(np.int32)
arreglo4

array([  1,   2, 200])

## Métodos de Numpy

In [24]:
# Ejercicio: Considere los siguientes datos

arreglo_ejercicio1 = np.array(
    [[0,1,1],
    [1,0,1],
    [1,3,2],
    [2,2,0]]
)

#El arreglo representa el número de accidentes en 3 área (columnas) en 4 años (renglo9nes)
arreglo_ejercicio1

array([[0, 1, 1],
       [1, 0, 1],
       [1, 3, 2],
       [2, 2, 0]])

In [10]:
# Suma de accidentes
print(arreglo_ejercicio1.sum())

# El número total de accidentes por área (columna)
print(arreglo_ejercicio1.sum(axis=0))

# El número total de accdientes por año (renglón)
print(arreglo_ejercicio1.sum(axis=1, keepdims=True))

# El número máximo y mínomo de accidentes por área y año
print(arreglo_ejercicio1.max(axis=0))
print(arreglo_ejercicio1.max(axis=1, keepdims=True))
print(arreglo_ejercicio1.min(axis=0))
print(arreglo_ejercicio1.min(axis=1, keepdims=True))


# El número promedio de accidentes por área y año
print(arreglo_ejercicio1.mean(axis=0))
print(arreglo_ejercicio1.mean(axis=1, keepdims=True))

14
[4 6 4]
[[2]
 [2]
 [6]
 [4]]
[2 3 2]
[[1]
 [1]
 [3]
 [2]]
[0 0 0]
[[0]
 [0]
 [1]
 [0]]
[1.  1.5 1. ]
[[0.66666667]
 [0.66666667]
 [2.        ]
 [1.33333333]]


In [15]:
# Operaciones vectorizadas: permiten realizar operaciones rápidamente. Como .sum, .mean, .max, .min, etc.
import time

# Ejercicio con np
inicio = time.time()
arreglo5 = np.array([[1,2,3],[4,5,6]])
arreglo5 + 3

fin = time.time()

print('El tiempo final es de:', fin-inicio)

El tiempo final es de: 0.0


## Broadcasting

El broadcasting permite replicar el elemento de numpy para poder hacer la operación deseada, eso es lo que permite sumar tres a todos los números del ejercicio pasado, hace que ese 3 se vuelva una matriz completa llena de 3 que se pueda sumar con la matriz 4x3

La condición para que se pueda dar el broadcasting es que por lo menos una de las dimensiones del arreglo sea 1. Por ejemplo, para la matriz 4x3 del ejercicio, puedo yo sumar una matriz 1x3 la cual se va a replicar para formar una matriz 4x3 en donde cada uno de los renglones sea esa matriz  1x3:


In [17]:

arreglo_ejercicio1 + np.array([1,2,3])


array([[1, 3, 4],
       [2, 2, 4],
       [2, 5, 5],
       [3, 4, 3]])

In [26]:
# Al hacerlo con la segunda dimensión se vuelve un poco mas complejo pues hay que ajustar para que las dimensiones coincidan
arreglo_ejercicio1 + np.array([1,2,3,4]).reshape(4,1)

array([[1, 2, 2],
       [3, 2, 3],
       [4, 6, 5],
       [6, 6, 4]])

In [27]:
# También se pueden hacer transposiciones de matriz
arreglo_ejercicio1.transpose()

array([[0, 1, 1, 2],
       [1, 0, 3, 2],
       [1, 1, 2, 0]])

## Indexación y asignaciones con Numpy

El objetivo es aprender a indexar, extrar, cortar y unir arreglos en numpy

In [29]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [33]:
print(x[2])            # Se extraen de la misma manera que las listas
print(x[-2])

2
8


In [36]:
x.shape = (2,5)
x

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [41]:
print(x[1,3])
print(x[1][3])
print(x[0,-1])
print(x[0])

8
8
4
[0 1 2 3 4]


In [44]:
# Cortes / Slicing
print(x[::,1:3])

[[1 2]
 [6 7]]


In [48]:
# Extracción por indices - Dándole una lista de los índices que queremos obtener
x = np.arange(10)
x[[0,4,8,1]]

array([0, 4, 8, 1])

In [49]:
# Extraccion en pares
y = np.arange(35).reshape(5,7)
y

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34]])

In [51]:
y[np.array([0,2,3]),np.array([4,5,1])]          # Se extraen los elementos (0,4), (2,5) y (3,1)

array([ 4, 19, 22])

### Unión de arreglos

In [53]:
z = np.concatenate(([1,2,3],[4,5,6]))
z

array([1, 2, 3, 4, 5, 6])

In [54]:
# tambien se pueden apilar sobre una nueva diemnsion
np.stack(([1,2,3],[4,5,6]))

array([[1, 2, 3],
       [4, 5, 6]])