# Introducción a Data Science con Python 

Este notebook es acompañado de un curso em video, que puede ser encontrado [aqui]()

Aproveche el material!


## NumPy

NumPy es una biblioteca para manipular vectores y matrices, con muchas funciones para tratar estos datos. La biblioteca es muy eficiente y se utiliza como base para varias otras bibliotecas de ciencia de datos en Python. Vamos a repasar el material de base importante de NumPy, pero es muy recomendable consultar la documentación oficial en https://numpy.org/doc/, donde se pueden encontrar ejemplos de uso para todas las características de la biblioteca. 


In [3]:
# Es comun importar numpy llamandolo de np 
import numpy as np

### Arrays

Las matrices son una generalización de los vectores y las matrices con cualquier número de dimensiones. Los `np.array` son el elemento central de NumPy, y es con ellos con los que tenemos que saber trabajar.

Como he dicho, un array de numpy puede tener cualquier número de dimensiones, así que veamos los ejemplos de la siguiente imagen:

<img src="https://www.oreilly.com/library/view/elegant-scipy/9781491922927/assets/elsp_0105.png">

([Referencia de la imagem](https://www.oreilly.com/library/view/elegant-scipy/9781491922927/ch01.html))

Bien, así que puedes ver que los arrays tienen una dimensión y un tamaño en cada una de esas dimensiones. Cada dimensión se identifica con un eje (*eje*) como podemos ver en la imagen.

Trabajemos con un ejemplo sencillo:

In [5]:
# Vamos crear nuestro primer array
a = np.array([2, 3, 5, 7, 11])
a

In [None]:
# El atributo ndim del array guarda su número de dimensiones
a.ndim

In [None]:
# El shape (formato) del array es un atributo aun mas importante
a.shape

In [None]:
# Podemos accesar una entrada del array como hicimos con las listas
a[2]

In [None]:
# Podemos también alterar una entrada del array
a[3] = 42
a

Todo que hicimos aqui funciona para cualquier número de dimensiones, vamos a ver:

In [None]:
# Creando una matriz
b = np.array([[10, 20], 
              [30, 40], 
              [50, 60]])
b

In [None]:
# Visualizando número de dimensiones y forma
print(b.ndim)
print(b.shape)

In [None]:
# Ahora necesitamos informar la posición en cada eje para accesar elementos
b[2, 1]

In [None]:
# También podemos cambiar entradas
b[1, 0] = 23
b

**Pregunta:** ¿Cuál es la forma de una imagen en escala de grises de 200x200? ¿Y una imagen RGB del mismo tamaño?
![image.png](imgs/img_array.png)

### Generando arrays
Hasta aqui creamos todos nuestros arrays definiendo valores en la mano utilizando listas en Python. Sin embargo NumPy tiene funciones convenientes para crear nuevas matrices

In [None]:
# Crea un array solo con ceros con shape (2,2)
a = np.zeros((2,2))
a

In [None]:
# Crea un array solo con unos con shape (2,2)
a = np.ones((2,2))
a

In [None]:
# Crea un array de shape (3,2) comn valores aleatórios
a = np.random.random((3,2))
a

In [None]:
# Crea un array con valores aleatorios enteros (20 es el valor maxímo)
a = np.random.randint(20, size=(3,2))
a

In [None]:
# Crea un vector de 0 a 4
a = np.arange(5)
a

No tenemos tiempo de ver todas las funciones de este tipo que existen, intente dar una vista en `np.zeros_like`, `np.full`, `np.linspace`, entre otras.

### Operaciones matemáticas

Hasta ahora puede no haber quedado muy claro el motivo de que estemos usando arrays de NumPy en vez de usar simplemente listas nativas de Python. La vantaja está justamente en las varias operaciones soportadas por arrays. Vamos a ver algunos ejemplos

In [None]:
# Vamos a crear un vector aleatorio que iremos usar
a = np.random.randint(10, size=(5,))
a

In [None]:
# Podemos realizar varias operaciones

print(a + 10) # Suma

print(a - 4) # Substracción

print(a * 3) # Multiplicación

print(a / 2) # División

print(a ** 2) # Exponenciación

print(a < 5) # Comparación

También podemos realizar operaciones entre arrays

In [None]:
# Vamos a crear dos vectores aleatorios que iremos usar
a = np.random.randint(10, size=(5,))
b = np.random.randint(10, size=(5,))

print(a)
print(b)

In [None]:
# Podemos realizar suma (o substracción) elemento a elemento
print(a + b)

In [None]:
# También podemos realizar multiplicación (o división) elemento a elemento
print(a * b)

In [None]:
# Para esto  es muy importante que los shapes sean iguales
c = np.random.randint(10, size=(7,))
print(a + c)

In [None]:
# También tenemos operaciones como el producto escalar entre los vectores
np.dot(a, b)

Recuerde que todo esto también vale para matrices

In [None]:
# Vamos a crear dos matrices aleatorias que iremos usar
a = np.random.randint(10, size=(3,4))
b = np.random.randint(10, size=(3,4))

print(a)
print('-----')
print(b)

In [None]:
# Operaciones con escalares
print(a + 100)
print('-----')
print(a * 3)

In [None]:
# Sumando matrices elemento a elemento
print(a + b)

In [None]:
# Podemos transpor una matriz
print(b.T)

In [None]:
# Podemos multiplicar matrices
# (con np.dot, np.multiply es multiplicación elemento a elemento)
c = np.random.randint(10, size=(4, 2))
print('Shapes:', a.shape, c.shape)
print(np.dot(a, c))

Podemos hacer operaciones entre vectores y matrices. De forma general esto es llamado de *broadcasting*, pero nos vamos limitar a un caso simple

In [None]:
# Creando nuestro vector y nuestra matriz
a = np.random.randint(10, size=(4,))
b = np.random.randint(20, size=(3,4))

print(a)
print() # Imprime linea en blanco entre ellos
print(b)

In [None]:
# EsTo tiene el efecto de substraer cada linea de la matriz por el vector
b - a

### Funciones importantes

#### Funciones de agregación

In [None]:
# Vamos a crear un vector que iremos a usar
a = np.random.randint(20, size=(5,))
print(a)

In [None]:
# Suma
np.sum(a) # o a.sum()

In [None]:
# Média
np.mean(a) # o a.mean()

Tenemos várias otras como `np.median`, `np.std`, `np.max`, `np.min`,...

Esto también funciona con matrices normalmente, pero también tenemos la opción de agregar por eje

In [None]:
# Vamos a crear una matriz que iremos usar
a = np.random.randint(10, size=(3, 4))
print(a)

In [None]:
# Podemos sumar toda la matriz
np.sum(a)

In [None]:
# Podemos sumar las lineas
np.sum(a, axis=1)

In [None]:
# Podemos sumar las columnas
np.sum(a, axis=0)

#### Reshape
Esta es una función que nos permite alterar la shape de arrays

In [None]:
# Vamos a crear un vector que iremos usar
a = np.random.randint(20, size=(18,))
print(a)

In [None]:
# Tranformar en matriz 9 por 2
b = a.reshape(9, 2)
b

In [None]:
# Tranformar en matriz 3 por 6
c = a.reshape(3, 6)
c

In [None]:
# Tranformar en tensor 3D 3 por 2 por 3
d = a.reshape(3, 2, 3)
d

### Indexación

#### Arrays 1D

In [None]:
# Vamos a crear un vector que iremos usar
a = np.random.randint(20, size=(10,))
print(a)

In [None]:
# Como ya vimos podemos indexar exactamente como en el Python puro
print(a[4])
print(a[5:8])

In [None]:
# Podemos indexar usando una lista de los valores que queremos
print(a[[0, 2, 3]])

In [None]:
# Podemos también indexar usando valores booleanos
print(a[[False, True, False, False, False, True, True, False, True, True]])

In [None]:
# La indexación con booleanos es muy util combinado con comparación
mayor_que_10 = a > 10
print(mayor_que_10)
b = a[mayor_que_10]
print(b)

#### Arrays 2D

In [None]:
a = np.random.randint(50, size=(4,6))
print(a)

In [None]:
# Podemos accesar elementos unicos informando la posición en cada eje
print(a[2, 4])

In [None]:
# Podemos rebanar un pedazo de la matriz cortando en cada eje
print(a[1:3, 2: 5])

In [None]:
# Utilizar : solo significa que queremos todos los valores del eje en cuestión
print(a[:, 2]) # Todas las lineas de la columna 2
print(a[1, :]) # Todas las columnas de la linea 1
print(a[1, 2:4]) # Columnas 2 e 3 de la linea 1 

In [None]:
# Podemos realizar la indexación por booleanos también (pero se convierte en 1D)
a[a > 25]

Estos conceptos son totalmente iguales para cualquier número de dimensiones.

**Pregunta:** Cómo podemos extraer apenas el canal verde de una imagem RGB?

### Velocidad

In [None]:
a = [[j for j in range(10000)] for _ in range(1000)]
b = np.array(a)

In [None]:
%%time
for i in range(len(a)):
    for j in range(len(a[0])):
        a[i][j] *= 10

In [None]:
%%time
b *= 10