<img src="img/Marca-ITBA-Color-ALTA.png" width="200">

# Programación para el Análisis de Datos

## Clase 2 - parte 1 - Numpy


### Referencias y bibliografía de consulta:

- Python for Data Analysis by Wes McKinney (O’Reilly) 2018 - capítulo 4

- https://numpy.org/

- [Documentación de numpy](https://devdocs.io/numpy~1.16/)


## 1 - Definición

Numpy (Numerical Python) es un módulo desarrollado por Travis Oliphant en 2006, aunque el proyecto comenzó en 1995.
Este módulo es ampliamente usado por usuarios y otros módulos, principalmente por el manejo eficiente de información.
En este módulo se agregan nuevos tipos de datos y operaciones para hacer realizar operaciones matriciales.

Las principales caracteristicas que se integran en este módulo son:
- `ndarray`: un eficiente array multidimensional que proporciona rápidas operaciones aritméticas y capacidades de broadcasting flexibles.
- Funciones matemáticas para operaciones rápidas en matrices enteras de datos sin tener que escribir bucles.
- Herramientas para integrar el código C / C ++ y Fortran
- Herramientas de álgebra lineal y estadísticas


El primer paso para utilizar este módulo es importarlo.
Es una convención utilizar el alias `np` para referirse a este módulo

In [None]:
import os
import numpy as np

print("Se está utilizando la versión {} de numpy".format(np.__version__))

Una de las razones por las que `NumPy` es tan importante para los cálculos numéricos en Python es porque está diseñado para ser **eficiente en grandes arrays de datos**. Hay un número de razones para esto:

- `NumPy` almacena internamente los datos en un bloque contiguo de memoria.

- Las operaciones de `NumPy` realizan cálculos complejos en arrays enteros sin necesidad de bucles.

Para evaluar la diferencia de rendimiento, consideremos un array de `NumPy` de un millón de enteros, y la lista Python equivalente:

In [2]:
my_arr = np.arange(1000000)
my_list = list(range(1000000))

Para evaluar la velocidad de ejecución se utiliza un comando de jupyter, *%time*. que devuelve el tiempo de ejecución de un bloque de código

In [None]:
%time my_arr2 = my_arr * 2
%time my_list2 = [x * 2 for x in my_list]

Los algoritmos basados en NumPy son generalmente de 10 a 100 veces más rápidos (o más) que sus contrapartes Python puras y usan significativamente menos memoria.

Vamos a explorar el motivo por el que numpy es mas eficiente que python

<img src="img/array_vs_lista.png">

En la imagen se puede ver que la principal diferencia ente una lista y un Numpy Array. Los arrays utilizan memoria contigua para almacenarse, en cambio, las listas almacenan los punteros hacia la información que almacenan.

Otra gran diferencia es que las variables, y en particular cada dato de una lista, de python almacenan información en el header. Esto disminuye la performance a la hora de leer un dato, pero da una mayor flexibilidad

### 1.1 - ND Array
Un `ndarray` es una estructura de datos que permite agrupar elementos en una única variable.

A diferencia de las listas de Python, los elementos de un array son todos del mismo tipo. Esto contribuye significativamente a la eficiencia de Numpy

###### Dimensiones de un array
- Los arrays de 1 dimensión representan **vectores** 
- Los arrays de 2 dimensiones representan **matrices**
- Los arrays de 3 o más dimensiones representan **tensores**.  

<img src="img/numpy_arrays.jpg" width="450">

Numpy agrega varios tipo de dato y además integra un objeto especial **dtype** que contiene la información (o metadata) que el ndarray necesita para interpretar un trozo de memoria como un tipo particular de datos.

Los tipos de dato mas utilizados son:
- 'float8'
- 'float16'
- 'float32'
- 'float64'
- 'int8'
- 'int16'
- 'int32'
- 'int64'
- 'uint8'
- 'uint16'
- 'uint32'
- 'uint64'
 

In [None]:
array = np.array([1, 2, 3], dtype=np.float64)
array.dtype

In [None]:
print(array)

In [None]:
type(array)

## 2 - Operaciones básicas

### 2.1 - Inicialización
La forma más fácil de crear un array es usar la función **numpy.array()**. Ésta acepta cualquier objeto de tipo secuencia (incluyendo otros arrays) y produce un nuevo array de NumPy que contiene los datos que le pasamos.

Por ejemplo, una lista es un buen candidato para la conversión:

In [None]:
lista1 = [6, 7.5, 8, 0, 1]
array1 = np.array(lista1)
print("array1 es un {} que contiene los elementos: {}".format(type(array1), array1))


Notar que el tipo de dato de todos los componentes del array son iguales.

In [None]:
lista1 = [6, 7.5, '8', 0, 1]
array1 = np.array(lista1)
print("array1 es un {} que contiene los elementos: {}".format(type(array1), array1))


Se puede ver en el ejemplo anterior que todos los componentes son de tipo string.
Numpy realiza la conversión del tipo de dato para que sea compatible.

Secuencias anidadas, como por ejemplo una lista de listas de la misma longitud, serán convertidas en un array multidimensional de dimensión NxM (N filas y M columnas).
En el siguiente ejemplo se muestra como se puede crear una matriz de 2x4 

In [None]:
lista2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
array2 = np.array(lista2)
array2

Dado que lista2 es una lista de listas, el array de Numpy array2 tiene 2 dimensiones.

El atributo ndim de un array nos indica la cantidad de dimensiones del array. El atributo shape nos indica la longitud (cantidad de elementos) para cada dimensión.

In [None]:
array2.ndim

In [None]:
array2.shape

A menos que se especifique explícitamente `np.array()` trata de inferir un buen tipo de datos para el array que crea. El tipo de datos se almacena en un objeto de metadatos `dtype`; por ejemplo, en los dos ejemplos anteriores que tenemos: 

In [None]:
print(array1.dtype)
print(array2.dtype)

Además de la función array(), Numpy provee funciones para crear e inicializar arrays con determinadas características.

Podemos crear arrays vacíos, de ceros, de unos, de valores aleatorios, de valores que sigan determinada distribución, entre otras posibilidades.

#### zeros
Para generar arrays de ceros usamos la función `numpy.zeros(shape, dtype=float)`. Debemos indicar el shape del array y el dtype y devuelve un array con dichas características cuyos elementos son todos ceros.

In [None]:
np.zeros((5,), dtype=int)

#### ones
Para generar arrays de unos usamos la función `numpy.ones(shape, dtype=float)`. Debemos indicar el shape del array y el dtype y devuelve un array con dichas características cuyos elementos son todos ceros.

In [None]:
np.ones((2,4), dtype=int)

#### identity
Para generar la matriz identidad de 2 dimensiones usamos la función `numpy.identity(n, dtype=None)`

In [None]:
np.identity(3)

#### arange
La función `numpy.arange()` es una versión basada en arrays de la función range() de Python.

In [None]:
np.arange(2, 100, step=25)

#### linspace
La función `numpy.linspace()` es similar a `numpy.arange()`, con la diferencia que se le puede indicar la cantidad de elementos que posee.

In [None]:
np.linspace(2, 100, num=10)

### 2.2 -  Indexing

Frecuentemente vamos a necesitar seleccionar algunos elementos de un array, de acuerdo a algún criterio según las necesidades de nuestro problema. La operación mediante la cual accedemos a un determinado subconjunto de los datos del array se denomina `indexing`. 

Existen tres tipos de indexing en `Numpy`:

- `Array Slicing`: accedemos a los elementos con los parámetros start,stop,step. 

- `Fancy Indexing`: accedemos a los elementos mediante una lista de índices.

- `Boolean Indexing`: creamos una "máscara booleana" para acceder a ciertos elementos.

#### Slicing

El slicing es similar al de las listas de Python [start:stop:step].

<img src="img/slicing.jpg" width="350">

Veamos algunos ejemplos:

In [None]:
array6 = np.arange(10)
array6

In [None]:
array6[5] 

In [None]:
array6[5:8]

In [None]:
array6[5:8] = 12
array6

In [None]:
lista = [0,1,2,3,4,5,6]
lista

In [None]:
try:
    lista[1:4] = 10
except TypeError as e:
    print(e)


In [24]:

lista[1:4] = [10,10,10]

In [None]:
lista

Como podemos ver, si asignamos un valor escalar a un slice, como en: 

```Python
array6[5:8] = 12

``` 
el valor se propaga a toda la selección. 

Una primera distinción importante respecto a las listas de Python es que los slices de arrays son vistas del array original. Esto significa que los datos no se copian, y cualquier modificación de la vista se reflejará en el array de origen.

Para dar un ejemplo de esto, primero creo un slice array6:

In [None]:
arr_slice = array6[5:8]
arr_slice

In [None]:
array6

Ahora, cuando cambio los valores en arr_slice, las mutaciones se reflejan en el array original array6:

In [None]:
arr_slice[1] = 12345
array6

El slice [:] selecciona todos los elementos del array:

In [None]:
arr_slice[:] = 64
array6

Esta característica de `Numpy` (el hecho de no copiar los datos por default) se debe a que `NumPy` ha sido diseñado para poder trabajar con matrices muy grandes y por lo tanto busca optimizar el rendimiento y el uso de memoria. 

Cuando tenemos más de una dimensión, podemos hacer slicing sobre cada una de ellas separándolas con una coma. 

Veamos un ejemplo creando un array de 2D con la función `np.random.randn()` que genera los elementos a partir de una distribución normal estándar.  

In [None]:
array2D = np.random.randn(3,4)
array2D

Los dos puntos `:` indican que accedemos a todos los elementos de cada fila y el cero después de la coma indica que sólamente lo hacemos para la columna 0 (la primera):

In [None]:
array2D[:, 0]

Accedemos a la segunda fila

In [None]:
array2D[1, :]

Otra forma de acceder a la segunda fila

In [None]:
array2D[1]

Todas la filas, un slice de la segunda y tercer columna (índices 1 y 2)

In [None]:
array2D[:, 1:3]

Todas las filas, todas las columnas listadas en orden inverso

In [None]:
array2D

In [None]:
array2D[:, ::-1]

#### Fancy Indexing


Esta técnica consiste en generar listas que contienen los índices de los elementos que queremos seleccionar y utilizar estas listas para indexar.

Veamos algunos ejemplos:

In [None]:
array2D

Nos quedamos con todas las columnas y las filas 1, 3, 2 y repetimos la 2 (índices 0,2,1,1)

In [None]:
lista_indices_filas = [0, 2, 1, 1]
array2D[lista_indices_filas]

Nos quedamos con todas las filas y las columnas 3, 4, 2, y repetimos la 3 (índices 2,3,1,2)

In [None]:
lista_indices_columnas = [2, 3, 1, 2]
array2D[:, lista_indices_columnas]

Combinando filas y columnas:

In [None]:
array2D[lista_indices_filas, lista_indices_columnas]

#### Boolean Indexing

Esta técnica consiste en crear una "máscara booleana", que es una lista de valores True y False que sirve para seleccionar sólo los elementos cuyo índice coincide con un valor True.

Veamos algunos ejemplos sobre array2D:

In [None]:
array2D

In [None]:
mayor0 = array2D > 0
mayor0

La máscara tiene valor True en aquellos elementos de array2D con valor mayor a 0, y False en los que tienen valor menor o igual a 0.

Ahora usemos esa máscara para seleccionar los elementos que cumplen esa condición, o sea los que tienen valor True en la máscara:

In [None]:
array2D[mayor0]

Definamos ahora una condición más compleja: vamos a seleccionar los elementos que sean mayores a 0 y menores 0.75:

In [None]:
mayor0_menor075 = (array2D > 0) & (array2D < 0.75)
mayor0_menor075

Ahora usemos esa máscara para seleccionar los elementos que cumplen esa condición, o sea los que tienen valor True en la máscara:

In [None]:
array2D[mayor0_menor075]

### 2.3 - Modificación de las dimensiones

De forma similar a las listas, los objetos en numpy son mutables. Una funcionalidad útil en matrices, es la modificación de dimensiones.

Algunos ejemplos podrían ser, transponer una matriz, modificar el tamaño de una imagen o serializar datos.

#### Reshape

Esta función permite modificar las dimensiones de un narray sin modificar la información que contiene.

Supongamos que se quiere obtener una matriz de *M*x*N* a partir de una lista de números.


In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

arr

In [None]:
arr.reshape(5, 2)

En ejemplo se utilizan M=5 para obtener 5 filas y N=2 para obtener 2 columnas.

Supongamos que queremos serializar una matriz convirtiéndola en un ndarray de una única fila, pero no se conoce la cantidad de componentes que tiene la matriz.

Reshape posibilita dejar como incognita una de las dimensiones para que el módulo realice el cálculo.


In [None]:
arr = np.array(range(15)).reshape(3 , -1)
print(arr.shape)
print(arr)

In [None]:
arr_reshape = arr.reshape(1, -1)

print(arr_reshape.shape)
print(arr_reshape)

#### Concatenate

La función concatenate permite concatenar matrices, siempre y cuando sean compatibles las dimensiones de las mismas.

Esta funcionalidad puede ser utilizada para hacer un append a una tabla.

In [None]:
array2D_1 = np.arange(0,9).reshape((3,3))
array2D_2 = np.arange(10,19).reshape(3,3)

display('array2D_1 = ', array2D_1)
print('\n')
display('array2D_2 = ', array2D_2)

Concatemanos las columnas (axis=1):

In [None]:
np.concatenate((array2D_1, array2D_2), axis=1)

Concatemanos las filas (axis=0):

In [None]:
np.concatenate((array2D_1, array2D_2), axis=0)

## 3 - Métodos matemáticos y estadísticos

La clase array dispone de un conjunto de funciones matemáticas que calculan estadísticas sobre los elementos de los arrays. 

Se pueden utilizar agregaciones (a menudo llamadas reducciones) como la suma, la media y la std (desviación estándar) ya sea llamando al método de la clase de array o utilizando la función NumPy de nivel superior.

Veamos algunos ejemplos sobre una matriz (array 2D) generado a partir de números aleatorios.

In [None]:
array7 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
array7

Si no especificamos el axis sobre el cual realizar la operación, el método `mean()` va a calcular la media de todos los elementos del array:

In [None]:
array7.mean()

In [None]:
type(array7)

Podemos obtener el mismo resultado utilizando la función de Numpy `numpy.mean()`.

In [None]:
np.mean(array7)

veamos como realizar la suma de los elementos:

In [None]:
array7.sum()

Las funciones como la media y la suma toman un argumento de eje opcional que calcula la estadística sobre el eje dado, dando como resultado un array con una dimensión menos.

El `axis 0` es el primer eje, es decir las filas. En este caso la operación se realiza iterando en las filas (sumando los valores de las filas) por lo que obtendremos un valor para cada columna. 

In [None]:
array7

In [None]:
array7.sum(axis=0)

In [None]:
array7.sum(axis=1)

El `axis 1` es el segundo eje, es decir las columnas. En este caso la operación se realiza iterando en las columnas (sumando los valores de las columnas) por lo que obtendremos un valor para cada fila. 

In [None]:
array7.mean(axis=1)

Métodos como `cumsum()` (cumulative sum) o `cumprod()` (cumulative product) no reducen los datos, sino que operan de acuerdo al eje definido con el argumento axis pero devuelven un array con el mismo `shape` que el original: 

In [None]:
array8 = np.array([0, 1, 2, 3, 4, 5, 6, 7])
array8.cumsum()

In [None]:
array9 = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
array9

In [None]:
array9.cumsum(axis=0)

In [None]:
array9.cumprod(axis=1)

## 4 - Broadcasting

Numpy puede manejar operaciones en matrices de diferentes dimensiones. La matriz más pequeña se extenderá para que coincida con la forma de la más grande. 

Veamos un ejemplo:

$$
\begin{bmatrix}
    A_{1,1} & A_{1,2} \\\\
    A_{2,1} & A_{2,2} \\\\
    A_{3,1} & A_{3,2}
\end{bmatrix}+
\begin{bmatrix}
    B_{1,1} \\\\
    B_{2,1} \\\\
    B_{3,1}
\end{bmatrix}
$$

es equivalente a:

$$
\begin{bmatrix}
    A_{1,1} & A_{1,2} \\\\
    A_{2,1} & A_{2,2} \\\\
    A_{3,1} & A_{3,2}
\end{bmatrix}+
\begin{bmatrix}
    B_{1,1} & B_{1,1} \\\\
    B_{2,1} & B_{2,1} \\\\
    B_{3,1} & B_{3,1}
\end{bmatrix}=
\begin{bmatrix}
    A_{1,1} + B_{1,1} & A_{1,2} + B_{1,1} \\\\
    A_{2,1} + B_{2,1} & A_{2,2} + B_{2,1} \\\\
    A_{3,1} + B_{3,1} & A_{3,2} + B_{3,1}
\end{bmatrix}
$$


Numpy puede manejar operaciones en matrices de diferentes dimensiones. La matriz más pequeña se extenderá para que coincida con la forma de la más grande. 

Veamos un ejemplo en código:

In [None]:
A = np.array([[1, 2], [3, 4], [5, 6]])
A

In [None]:
A.shape

In [None]:
B = np.array([[2], [4], [6]])
B

In [None]:
B.shape

In [None]:
# Broadcasting
C=A+B
C

In [None]:
C.shape

#### Reglas del Broacasting: 

El broadcasting en NumPy sigue un conjunto estricto de reglas para determinar la interacción entre las dos arrays:

Regla 1: si los dos arrays difieren en su número de dimensiones, la forma de la que tiene menos dimensiones se rellena con unos en su lado delantero (izquierdo).


Regla 2: si la forma de los dos arrays no coincide en alguna dimensión, el array  con forma igual a 1 en esa dimensión se estira para que coincida con la otra.

Regla 3: si en alguna dimensión los tamaños son diferentes y ninguno es igual a 1, se genera un error.

<img src="img/broad1.png" width="400">
<div class='epigraph' align="center"><i>Broadcasting ejemplo 1</i></div><br>

<img src="img/broad2.png" width="400">
<div class='epigraph' align="center"><i>Broadcasting ejemplo 2</i></div><br>

#### Ejemplo 1

In [72]:
M = np.ones((2,3))
a = np.arange(3)

In [None]:
print('M = {}'.format(M))
print('Shape M:', M.shape)

In [None]:
print('a = {}'.format(a))
print('Shape a:', a.shape)

Por regla 1:
- M.shape -> (2,3)
- a.shape -> (1,3)

Por regla 2:
- M.shape -> (2,3)
- a.shape -> (2,3)

In [None]:
print('M + a = {}'.format(M + a))
print('Shape M + a:', (M+a).shape)

#### Ejemplo 2

In [76]:
a = np.arange(3).reshape((3,1))
b = np.arange(3)

In [None]:
print('a = {}'.format(a))
print('Shape a:', a.shape)

In [None]:
print('b = {}'.format(b))
print('Shape b:', b.shape)

Por regla 1:
- a.shape -> (3,1)
- b.shape -> (1,3)

Por regla 2:
- a.shape -> (3,3)
- b.shape -> (3,3)

In [None]:
print('a + b = {}'.format(a + b))
print('Shape a + b:', (a+b).shape)

#### Ejemplo 3

In [80]:
M = np.ones((3,2))
a = np.arange(3)

In [None]:
print('M = {}'.format(M))
print('Shape M:', M.shape)

In [None]:
print('a = {}'.format(a))
print('Shape a:', a.shape)

Por regla 1:
- a.shape -> (3,2)
- b.shape -> (1,3)

Por regla 2:
- a.shape -> (3,2)
- b.shape -> (3,3)

In [None]:
try:
    print('M + a = {}'.format(M + a))
except Exception as e:
    print("Error:", e)

Es importante ser cuidadoso con las operaciones matemáticas, ya que existen casos en los que el resultado de una operación no es el deseado

En la siguiente parte comenzaremos a analizar un módulo que permite la manipulación de datos a alto nivel **PANDAS**.


<span style="font-size:2em">¡Muchas gracias por su atención!</span>