# **Obtención y preparación de datos**
# OD01. Introducción a Numpy

### <font color='orange'>**¿Porqué aprenderemos Numpy?**</font>

Para poder crear y manipular vectores y matrices... y luego **aplicar estos conocimientos para realizar operaciones de álgebra lineal**.

### <font color='orange'>**¿Porqué necesitamos conocer las bases del algebra lineal?**</font>

Porque **el álgebra lineal forma una línea de aprendizaje esencial para el machine learning**. Las áreas de las matemáticas, como las estadísticas y el cálculo, requieren un conocimiento previo del álgebra lineal, lo que les ayudará a entender los modelos de machine learning en profundidad.

### <font color='orange'>**Finalmente, ¿Qué haremos con Numpy y algebra lineal?**</font>

Construiremos un **modelo epidemiológico básico para el Covid 19** que nos permita visualizar la evolución de la enfermedad en el tiempo en distintos escenarios de contagio (como las curvas de la figura).

<img src='https://drive.google.com/uc?export=view&id=1JEQuOy062yyASrdO3xmNtCO25nITmvWW' width="400" align="center" style="margin-right: 20px">

## <font color='blue'>**Librería NumPy**</font>

**NumPy** es la librería por excelencia para computación científica en Python. Integra muchas funciones de cálculo matricial de N dimensiones, y una variedad de rutinas para operaciones rápidas con matrices, que incluyen manipulación matemática, lógica, de tamaño y forma, clasificación, selección, I/O, transformada de Fourier, algebra lineal, operaciones estadísticas, simulación aleatoria y muchas otras.

<img src='https://drive.google.com/uc?export=view&id=1_foOq3ZJE-GKzm9hDpuTDrT8c_YxkorY' width="400" align="center" style="margin-right: 20px">

En el núcleo del paquete NumPy está el objeto `ndarray`. Éste encapsula matrices n-dimensionales de tipos de datos homogéneos, con muchas operaciones que se realizan en código compilado (en lenguaje C) para mejorar el rendimiento. Es la librería de cálculo más popular debido a su facilidad de uso y la rapidez de sus cálculos.

Existen varias diferencias importantes entre las matrices de NumPy y las secuencias estándar de Python:

* Las matrices NumPy tienen un tamaño fijo al momento de la creación, a diferencia de las listas de Python (que pueden crecer dinámicamente). Cambiar el tamaño de un `ndarray` creará una nueva matriz y eliminará la original.


* Se requiere que todos los elementos de una matriz NumPy correspondan al mismo tipo de datos y, por lo tanto, tendrán el mismo tamaño en la memoria. La excepción: uno puede tener matrices de objetos (Python, incluido NumPy), lo que permite matrices de elementos de diferentes tamaños.


* Las matrices NumPy facilitan las operaciones matemáticas avanzadas en grandes cantidades de datos. Por lo general, estas operaciones se ejecutan de manera más eficiente y con menos código que al usar las secuencias integradas de Python.


* Una multitud de paquetes científicos y matemáticos basados en Python utilizan matrices NumPy; aunque estos paquetes suelen admitir la entrada de secuencias estándar de Python, convierten dicha entrada en matrices NumPy antes del procesamiento y, a menudo, generan matrices NumPy. En otras palabras, para usar de manera eficiente gran parte (quizás incluso la mayoría) del software científico/matemático basado en Python de hoy en día, simplemente saber cómo usar los tipos de secuencia incorporados de Python es insuficiente; uno también necesita saber cómo usar las matrices NumPy.

## <font color='blue'>**Instalando NumPy**</font>

Para instalar NumPy, se recomienda utilizar una distribución científica de Python. Las instrucciones completas para instalar NumPy en sus sistemas operativos, las pueden encontrar en <a href="https://www.scipy.org/install.html">https://www.scipy.org/install.html</a>.

Si ya tienes Python, puedes instalar NumPy con:



```
conda install numpy
```



o

```
!pip install numpy
```

In [4]:
!pip install numpy

Collecting numpy
  Downloading numpy-1.25.2-cp39-cp39-win_amd64.whl (15.6 MB)
Installing collected packages: numpy
Successfully installed numpy-1.25.2


You should consider upgrading via the 'C:\Users\javie\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip' command.


Si aún no tiene Python instalado &#128544; &#128544; &#128544;, se recomienda utilizar **Anaconda**. Es la forma más sencilla de empezar. Lo bueno de obtener esta distribución es el hecho de que no necesita preocuparse demasiado por instalar NumPy por separado o cualquiera de los paquetes principales que utilizará para sus análisis de datos, como pandas, Scikit-Learn, entre otras.

Puede encontrar todos los detalles de instalación en la sección Instalación en <a href="https://www.scipy.org/install.html">SciPy</a>. 

### <font color='blue'>**¿Cómo importar NumPy?**</font>

Siempre que desee utilizar un paquete o una biblioteca en su código, **primero debe hacerlo accesible**.

Para comenzar a usar NumPy y todas las funciones disponibles en NumPy, necesitará importarlo. Esto se puede hacer fácilmente con esta declaración de importación:

In [6]:
import numpy as np

Acortamos el nombre `numpy` con el alias  `np` para ahorrar tiempo y para mantener el código legible.

### <font color='blue'>**¿Cuál es la diferencia entre una lista y un matriz NumPy?**</font>

NumPy ofrece una enorme variedad de formas rápidas y eficientes de crear matrices y manipular datos numéricos. Si bien una lista de Python puede contener diferentes tipos de datos dentro de una sola lista, todos los elementos de una matriz NumPy deben ser homogéneos. Las operaciones matemáticas que deben realizarse en matrices serían extremadamente ineficaces si las matrices no fueran homogéneas.

#### <font color='blue'>**¿Por qué usar NumPy?**</font>

Las matrices NumPy son más rápidas y compactas que las listas de Python. Una matriz consume menos memoria. NumPy usa mucha menos memoria para almacenar datos y proporciona un mecanismo para especificar los tipos de datos. Esto permite optimizar aún más el código.

In [1]:
import sys

S = range(10000)
print('Resultado de memoria asignada a la lista de Python:')
print(sys.getsizeof(5) * len(S))
print()
D = np.arange(10000)
print('Resultado de memoria asignada a NumPy array:')
print(D.size * D.itemsize)

Resultado de memoria asignada a la lista de Python:
280000



NameError: name 'np' is not defined

In [9]:
import time
SIZE = 10000

L1 = range(SIZE)
L2 = range(SIZE)
A1 = np.arange(SIZE)
A2 = np.arange(SIZE)

start = time.time()
result = [(x,y) for x,y in zip(L1, L2)]
print('Resultado test de velocidad para lista de Python [ms]:')
print((time.time() - start) * 1000)
print()

start = time.time()
result = A1 + A2
print('Resultado test de velocidad para NumPy array [ms]:')
print((time.time() - start) * 1000)


Resultado test de velocidad para lista de Python [ms]:
1710.9508514404297

Resultado test de velocidad para NumPy array [ms]:
551.0413646697998
