[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/repos-especializacion-UdeA/fundamendos-de-programacion-DS/blob/main/clase2_10-08-2024/Numpy_I.ipynb)


## **Contenido**
  
- <a href="#num"> NumPy</a><br>
- <a href="#arr"> Arreglos en NumPy</a><br>
- <a href="#ope"> Operaciones sobre los arreglos</a><br>
- <a href="#apeA"> Apéndice A: Iteradores útiles</a><br>













La implementación estándar de Python está escrita en C. Esto significa que cada objeto de Python es simplemente una estructura de C, que contiene no solo su valor, sino también otra información. Ya hemos visto que cuando definimos una variable, esta es en realidad un puntero a una estructura compuesta de C, que contiene ciertos valores diferentes: referencia, tipo, tamaño, valor, etc.

![variables in C](https://i.imgur.com/0RQOTQ0.png)

![](https://i.imgur.com/F3IQqwE.png)

In [1]:
x = 18
id(x)

138373844763408

Recordemos que en Python, al ser un lenguaje de tipado dinámico, podemos generar listas donde cada uno de sus elementos pueden ser de cualquier tipo

In [2]:
l = [1, 2.0, 3+0j, "cuatro", [5], {6}]
type(l)

list

Esta flexibilidad tiene un costo: cada elemento de la lista debe contener su propia información, es decir, cada elemento es un objeto completo de Python. En el caso especial en que todas las variables sean del mismo tipo, gran parte de esta información es redundante: puede ser mucho más eficiente almacenar datos en una lista de tipo homogéneo. Python ofrece diferentes opciones para almacenar datos de esta manera (por ejemplo a través del módulo `array`). Sin embargo, la mejor manera de generar este tipo de objetos es a través de la libreria NumPy.



In [5]:
#dir(l)[3]
for elemento in l:
  print(dir(elemento)[3])

__bool__
__ceil__
__class__
__delattr__
__contains__
__contains__


<p><a name="num"></a></p>

# **NumPy** (Numerical Python)

En el núcleo de la mayoría de los problemas encontramos un **arreglo**. Desde el punto de vista computacional, un arreglo es un bloque contiguo de memoria donde cada elemento tiene el mismo tipo.

Los diferentes lenguajes de programación utilizados en computación científica tienen alguna noción de manejo de datos basado en arreglos, ya sea integrado en el lenguaje propio o a través de paquetes proporcionados por terceros.

NumPy es el paquete fundamental para la computación científica en Python. Es una libreria de Python que proporciona herramientas para la generación de arreglos y una variedad de funcionalidades para realizar operaciones sobre estos, que generalmente se realizan de una manera más eficiente que lo que se puede lograr con funcionalidades propias de Python. NumPy sirve como bloque básico para una gran cantidad de paquetes científicos y de análisis de datos.

En el núcleo de NumPy, está el objeto `ndarray` (n-dimensional array). Este encapsula arreglos n-dimensionales de tipos de datos homogéneos, con muchas operaciones que se realizan en código compilado, con lo cual se mejora el rendimiento significativamente. La diferencia entre una lista de tipo dinámico y un arreglo de tipo fijo (al estilo NumPy) se ilustra en la siguiente figura:



<p><img alt="Colaboratory logo" height="350px" src="https://i.imgur.com/8EbyB0c.png" align="left" hspace="10px" vspace="0px"></p>

Al nivel de implementación, el arreglo contiene esencialmente un puntero único a un bloque contiguo de datos. La lista de Python, por otro lado, contiene un puntero a un bloque de punteros, cada uno de los cuales a su vez apunta a un objeto completo de Python como el entero de Python que vimos anteriormente.

En resumen, estas son las diferencias más importantes entre los arreglos de NumPy y las secuencias estándar de Python:

* Todos los elementos en un arreglo de NumPy deben ser del mismo tipo de dato y, por lo tanto, tendrán el mismo tamaño en memoria.
* Los arreglos de NumPy tienen un tamaño fijo en la creación, a diferencia de las listas de Python (que pueden crecer dinámicamente). Cambiar el tamaño de un `ndarray` creará un nuevo arreglo y eliminará el original.
* Los arreglos de NumPy facilitan operaciones avanzadas matemáticas y de otro tipo en grandes cantidades de datos. Típicamente, tales operaciones se ejecutan de manera más eficiente que usando las secuencias integradas de Python.



<p><a name="arr"></a></p>

# **Arreglos en Numpy**

Por convención, la librería NumPy se import con el alias `np`

In [6]:
import numpy as np
#from numpy import ndarray
#from numpy import * NO USAR POR FAVOR

Podemos construir un objeto `ndarray`, a partir de una lista de Python, mediante el constructor `array`:


In [43]:
arr = np.array([1, 2, 3])
print(arr)


[1 2 3]


In [8]:
type(arr)

numpy.ndarray

El objeto `ndarray` representa efectivamente un bloque de memoria de tamaño fijo, el cual contiene una serie de atributos y métodos que definen su estructura. Veamos algunos de los atributos más importantes de este objeto:

### **dtype:**

El tipo de dato (data type) es el atributo más importante. Este determina el tamaño y el significado de cada elemento del arreglo. El sistema predeterminado de dtypes que proporciona NumPy (ver siguiente imagen) es más preciso y más amplio para los tipos básicos que el sistema de tipos que implementa el lenguaje Python. Podemos ver el data type como `arreglo.dtype`

In [9]:
arr.dtype

dtype('int64')

<p><img alt="Colaboratory logo" height="400px" src="https://i.imgur.com/2RpU9w1.png" align="left" hspace="10px" vspace="0px"></p>

In [10]:
arr = np.array([1, 2, 3], dtype='int32')
arr.dtype

dtype('int32')

In [15]:
!ls

sample_data


### **shape:**

Atributo que devuelve una tupla de enteros que representa el rango a lo largo de cada dimensión de los arreglos n-dimensionales.

In [18]:
l = [[1, 2], [4, 5]]
len(l)

2

In [22]:
arr = np.array([1, 2, 3, 4], dtype = 'float64')
arr.shape

(4,)

La forma `(4,)`, nos dice que `l` es un arreglo unidimensional, donde la dimensión tiene un rango 4. La dimensión y el número de elementos del arreglo se pueden obtener mediante los atributos `ndim` y `size`, respectivamente:

In [23]:
arr.ndim

1

In [24]:
arr.size

4

In [25]:
arr.shape = (2, 2)
arr

array([[1., 2.],
       [3., 4.]])

In [26]:
arr.shape

(2, 2)

In [27]:
arr.ndim

2

In [28]:
arr.size

4

Podemos modificar la forma del arreglo modificando el atributo shape:

In [29]:
arr.reshape(1,4)

array([[1., 2., 3., 4.]])

In [30]:
arr.reshape(4,1)

array([[1.],
       [2.],
       [3.],
       [4.]])

Alternativamente, NumPy proporciona el método `reshape`, con el cual podemos cambiar la forma de un arreglo. Este toma como argumento el arreglo a modificar y un entero o tupla que represente la nueva forma.

Esta nueva forma debe ser compatible con el número de elementos que tenga el arreglo. Cambiemos la forma de `l` para tener un vector fila:

In [36]:
l = [i for i in range(12)]
arr = np.array(l).reshape(2,6)
arr

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

NumPy nos permite pasar una de las dimensiones como `-1`. De esta manera, Numpy se encargará de que el rango en esa dimensión sea compatible con el arreglo original y con el rango de la dimensión que se fijó:

In [37]:
arr.reshape(1,-1)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]])

In [38]:
arr[-1]

array([ 6,  7,  8,  9, 10, 11])

## **Formas alternativas de construir arreglos:**

NumPy proporciona formas alternativas de crear arreglos. Las funciones más comunes son `arange`, `linspace` `zeros`, `ones`, `full` y `empty`.

* La función `arange()` toma un inicio, final y un paso como la función `range()` de Python, excepto que devuelve un `ndarray` y que el paso puede ser un número real.

In [41]:
arr = np.arange(0, 12, 2)
arr

array([ 0,  2,  4,  6,  8, 10])

- La función `linspace` crea una serie de puntos uniformemente entre un límite inferior y superior que incluye ambos extremos. Su sintáxis es de la forma:

>
    linspace(inicio, final, numero de puntos)

In [47]:
np.linspace(0, 10, 6)

array([ 0.,  2.,  4.,  6.,  8., 10.])

In [48]:
np.linspace(0, 10, 6, endpoint= False)

array([0.        , 1.66666667, 3.33333333, 5.        , 6.66666667,
       8.33333333])

In [49]:
np.linspace(0, 10, 6, endpoint= False, retstep= True)

(array([0.        , 1.66666667, 3.33333333, 5.        , 6.66666667,
        8.33333333]),
 1.6666666666666667)

In [50]:
1.6666666666666667 + 8.33333333

9.999999996666666

- Las funciones `zeros()` y `ones()` toman un entero o una tupla de enteros como argumento y devuelven un `ndarray` cuya forma coincide con la de la tupla y cuyos elementos son cero o uno:

In [51]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [52]:
np.ones((4,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

- La función `full()` funciona de manera similar a `zeros()` y `ones()`, solo que podemos llenar el arreglo con cualquier valor:

In [53]:
np.full((3,2), np.pi )

array([[3.14159265, 3.14159265],
       [3.14159265, 3.14159265],
       [3.14159265, 3.14159265]])

- La función `empty()`, por otro lado, asignará memoria sin asignarle ningún valor. Esto significa que el contenido de un arreglo vacío será lo que esté en la memoria en ese momento. Esto es particularmente útil cuando creamos un arreglo cuyos valores serán modificados posteriormente.

In [1]:
import numpy as np

In [2]:
np.empty((5,4))

array([[0. , 0. , 0.3, 1. ],
       [0. , 0. , 1. , 1. ],
       [1. , 1. , 1. , 1. ],
       [1. , 0. , 0. , 1. ],
       [0.5, 0. , 0. , 1. ]])

<p><a name="ope"></a></p>

# **Operaciones sobre los arreglos**

Ahora que hemos visto cómo definir arreglos de NumPy, podemos discutir cómo realizar operaciones sobre los arreglos. La clave para hacer estas operaciones de una forma rápida y eficiente es usar operaciones **vectorizadas**, implementadas a través de las funciones universales de NumPy (ufuncs).

Recordemos que la operación de sumar dos listas de Python resulta en la concatenación de dichas listas:



In [10]:
lista1 = [1, 2, 3]
lista2 = [4, 5, 6]
lista1 + lista2, lista2 + lista1

([1, 2, 3, 4, 5, 6], [4, 5, 6, 1, 2, 3])

Si quisieramos sumar elemento a elemento, debemos hacer explícito un ciclo `for` con la función `zip()` para dos variables de la siguiente manera (ver **Apéndice A**):

In [8]:
#forma1
for i in range(len(lista1)):
  print(lista1[i] + lista2[i])

5
7
9


In [9]:
#forma2
for i, j in zip(lista1, lista2):
  print(i + j)

5
7
9


Si realizamos esta misma operación con arreglos de Numpy, obtendremos otra salida:

In [11]:
arr1 = np.array(lista1)
arr2 = np.array(lista2)
arr1 + arr2

array([5, 7, 9])

In [12]:
np.add(arr1, arr2)

array([5, 7, 9])

In [13]:
np.add(lista1, lista2)

array([5, 7, 9])

Como los arreglos son de NumPy, se está realizando lo que se conoce como una operación **vectorizada**, la cual es una operación sobre los arreglos que se realiza **elemento a elemento**, mediante lo que conocemos como funciones universales (ufuncs) de Numpy.

Las ufuncs de NumPy se sienten muy naturales de usar porque hacen uso de los operadores aritméticos nativos de Python.

La siguiente tabla nos muestra algunas de las funciones universales disponibles en Numpy (ver [documentación](https://numpy.org/doc/stable/reference/ufuncs.html#ufunc))







![picture](https://i.imgur.com/8HaZzxg.png)

Note que estas se muestran en dos versiones: mediante un operador y su correspondiente función universal. Por ejemplo `+` y `np.add`. Como en el ejemplo anterior, si los arreglos son de NumPy, el operador que utilicemos para realizar las operaciones representará la función universal. Si el arreglo no se define como uno de NumPy, y si queremos aplicar una función universal, debemos utilizar la forma explícita de la función universal

En el caso de la multiplicacion en Python, la multiplicación de un número entero $n$ por una lista $l$, nos arroja una lista que contiene los elementos de $l$ $n$ veces:



In [14]:
n = 3

lista1 * n

[1, 2, 3, 1, 2, 3, 1, 2, 3]

Si quisieramos multiplicar el entero por cada uno de los elementos de la lista $l$ debemos incluir un ciclo for:

In [18]:
np.multiply(n ,lista1)

array([3, 6, 9])

In [16]:
n * arr1

array([3, 6, 9])

Además, la operación de multiplicación entre listas no está definida:

In [19]:
lista1 * lista2

TypeError: can't multiply sequence by non-int of type 'list'

En NumPy, ambas operaciones se hacen de forma vectorizada:

In [22]:
np.multiply(lista1, lista2)

array([ 4, 10, 18])

Note que ambas operaciones se hacen elemento a elemento, caracteriztica de las operaciones vectorizadas implementadas a través de ufuncs. Note además, que en el caso de la multiplicación de arreglos, la salida no corresponde a lo que conocemos como producto punto. Para realizar esta operación, tanto en arreglos unidimensionales como n-dimensionales, podemos utilizar la función universal `np.dot` o su operador asociado `@`:

In [23]:
np.dot(lista1, lista2)

32

In [24]:
arr1 @ arr2

32

Es importante mencionar que el uso de operaciones vectorizadas no solo significa la utilización de funciones universales para la realización de las operaciones elemento a elemento.

En el contexto de lenguajes de alto nivel como Python, el término **vectorización** representa el uso de código optimizado y precompilado escrito en lenguajes de bajo nivel (por ejemplo C) para realizar operaciones matemáticas en una secuencia de datos. Esto se realiza en lugar de una iteración explicita escrita en código nativo, como ya vimos en el ejemplo de la multiplicacion, que hace que las operaciones sean más eficientes.

**Ejercicio**

Veamos un ejemplo con el cual se ilustra la eficiencia computacional que se alcanza con las operaciones vectorizadas de NumPy: Construyamos una función que calcule el recíproco de una lista

In [25]:
def lista_reciproco(lista):
  salida = []
  for elemento in lista:
    salida.append(1/elemento)
  return salida

lista_reciproco([1, 2, 3])

[1.0, 0.5, 0.3333333333333333]

In [26]:
a = list(range(1,1000000))

In [27]:
%timeit lista_reciproco(a)

120 ms ± 26.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


La operación equivalente en NumPy, utilizando ufuncs, será:

In [28]:
R = np.arange(1,1000000)

%timeit 1 / R

2.08 ms ± 50.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Note que hay tres ordenes de magnitud de diferencia en el tiempo de computo en ambas versiones.

Resulta que el cuello de botella aquí no son las operaciones en sí mismas, sino la verificación de tipos y demás que Python debe hacer en cada ciclo. Cada vez que se calcula el recíproco, Python primero examina el tipo de objeto y realiza una búsqueda dinámica de la función correcta que se utilizará para ese tipo. Si estuviéramos trabajando en código compilado, esta especificación de tipo se conocería antes de que se ejecute el código y el resultado podría calcularse de manera mucho más eficiente.

Los cálculos que usan vectorización a través de ufuncs son casi siempre más eficientes que su contraparte implementada a través de ciclos, especialmente a medida que los arreglos crecen en tamaño. Cada vez que se vea un ciclo de este tipo en Python, debe considerarse si este puede reemplazarse con una expresión vectorizada.

**Ejercicio:**  La serie de Leibniz  $$\frac{\pi}{4}=1-\frac{1}{3}+\frac{1}{5}-\frac{1}{7} +\frac{1}{9}+ \cdot \cdot \cdot=\sum_{n=0}^{\infty} \frac{(-1)^n}{2n+1}$$ La serie de Leibniz permite obtener un valor aproximado para el número $\pi$. Escriba un programa en el que dado el número de términos de la sumatoria, se calcule y muestre el valor aproximado de $\pi$.

 $$\pi=4\sum_{n=0}^{\infty} \frac{(-1)^n}{2n+1}$$

$$\sum_{n = 1}^{i} 2n+1$$

In [33]:
def suma_gauss(i):
  return sum(2*n+1 for n in range(1, i+1))

suma_gauss(100)

5050

In [48]:
def leibniz(max_val):
  piCuart = []
  for n in range(0,max_val+1):
    piCuart.append((-1)**n/(2*n+1))
  return 4*sum(piCuart)

leibniz(1000000)

3.1415916535897743

In [38]:
def suma_leib(i):
    return 4*(sum((((-1)**n)/((2*n)+1)) for n in range(0, i+1)))

suma_leib(1000000)

3.1415936535887745

In [41]:
def suma_leibniz(i):
    return 4*(sum((((-1)**n)/((2*n)+1)) for n in range(0,i+1)))
print('la suma de leibniz evaluada en 100.000 es ',suma_leibniz(1000000))

la suma de leibniz evaluada en 100.000 es  3.1415936535887745


In [46]:
def pi_leib(m):
  n = np.arange(m+1)
  return 4*np.sum(((-1)**n)/(2*n+1))

In [42]:
%timeit leibniz(1000000)

750 ms ± 200 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [44]:
%timeit suma_leib(1000000)

490 ms ± 4.79 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [47]:
%timeit pi_leib(1000000)

81.4 ms ± 8.16 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


<p><a name="apeA"></a></p>

# **Apéndice A: Iteradores útiles**

A menudo vamos a necesitar iterar los diferentes objetos de diversas formas, por lo que vamos a requerir de iteradores que nos permitan tener más libertad a la hora de definir las iteracions. Veamos algunos de estos iteradores disponibles en Python.

Por ejemplo, si quisieramos iterar sobre una lista de manera que la variable de iteración corra de forma ordenada sobre los elementos, es decir, no sobre los elementos de acuerdo a su posición en la lista sino de acuerdo a su valor numérico, podemos utilizar el método `sorted` sobre la lista:

In [None]:
l1 = [1,2,3,4]
l2 = [5,6,7,8]

In [None]:
print(list(zip(l1,l2)))

In [None]:
for i, j in zip(l1, l2):
  print(i ,j)

In [None]:
for i in range(1, 5):
  for j in range(5, 9):
    print( i+ j)

In [None]:
L = [5, 2, 7, 1]

for i in sorted(L):
  print(i)

Ahora, supongamos que necesitamos iterar sobre los elementos de una lista y además tener registro del índice del elemento. Podríamos escribir algo como:


In [None]:
L = range(4,8)

for i in range(len(L)):
  print(f"indice: {i} valor: {L[i]}")

Podemos realizar esta iteración utilizando el iterador `enumerate`, que produce un generador de tuplas con los índices y valores de la lista:

In [None]:
list(enumerate(L))

In [None]:
for i, valor in enumerate(L):
  print(f"indice: {i} valor: {valor}")

En otras ocaciones, vamos a querer iterar sobre varias listas simultáneamente. Una forma directa de hacerlo sería iterando sobre el índice de las listas


In [None]:
l = range(2,4)
r = range(6,8)

for i in range(len(l)):
  print(f"l_val: {l[i]}, r_val: {r[i]}")

Si, por ejemplo, cambiaramos la longitud de `l`, obtendríamos un error

In [None]:
l = range(2,5)
r = range(6,8)

for i in range(len(l)):
  print(f"l_val: {l[i]}, r_val: {r[i]}")

esta iteración se puede llevar a cabo mediante el iterador `zip`, que permite iterar sobre varios objetos iterables simultáneamente:

In [None]:
type(range(10))

In [None]:
list(zip(l, r))

In [None]:
for lval, rval in zip(l, r):
  print(f"l_val: {lval}, r_val: {rval}")

`zip` produce un generador de tuplas obtenidas a partir de los objetos iterables que pasemos como argumento. Tenga en cuenta que el iterador admite diferentes objetos para la iteración

In [None]:
for i,j in zip(range(3), "abc"):
  print(i,j)

así como objetos de tamaños diferentes

In [None]:
for i,j,k in zip((1,2,3), "abc", [4,5,6,7]):
  print(i,j,k)

Note que las tuplas se producen con una longitud tal que coincida con el número de elementos del objeto de menor longitud.