# Introducción a NumPy

**¿Qué es NumPy?**
* NumPy es una biblioteca para el lenguaje de programación Python, que soporta la creación y manipulación de arrays y matrices multidimensionales.
* Es una abreviatura de "Numerical Python".

**Importancia de NumPy en Data Science**
* Eficiencia en operaciones numéricas y manipulación de datos.
* Facilita la realización de cálculos matemáticos complejos
* Ampliamente utilizado para tareas de análisis de datos, debido a su velocidad y recursos de memoria optimizados.

**Importación de NumPy**
* NumPy se importa a nuestros cuadernos con el comando `import numpy as np`

In [7]:
import pandas as pd
import numpy as np

**NumPy** nos da acceso a una amplia gama de algoritmos matemáticos, y además nos proporciona un nuevo objeto, es decir, un nuevo tipo de datos, que son los **arrays**.

Por ahora nos vamos a concentrar en algunas cosas que podemos hacer con NumPy en nuestros datos de Pandas.

El principal aporte de NumPy a la ciencia de datos es su capacidad para realizar operaciones que van desde simples hasta muy complejas, y vamos a comenzar, por supuesto, por las simples. Incluso vamos a ver algunas operaciones que ya hemos visto cómo se realizan con Pandas, pero esta vez, será con NumPy.

In [9]:
ruta = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos/Ciudades_Visitadas_Latinoamerica_2023.csv'

df = pd.read_csv(ruta)
df

Unnamed: 0,Ciudad,País,Población,Visitantes
0,Ciudad de México,México,9265833,21000000
1,Buenos Aires,Argentina,3059574,15000000
2,Río de Janeiro,Brasil,6748314,13000000
3,Lima,Perú,9756020,9000000
4,Bogotá,Colombia,7181663,8000000
5,Santiago de Chile,Chile,6199241,7500000
6,São Paulo,Brasil,12333146,20000000
7,La Habana,Cuba,2164182,4000000
8,Cancún,México,888124,5000000
9,Cartagena,Colombia,1036671,3000000


Imagina que quieres saber el **promedio de habitantes** que tienen todas estas ciudades sumadas. Eso ya lo sabes hacer con Pandas.

In [11]:
df['Población'].mean()

5863276.8

El problema es que este número tiene decimales, y yo quisiera que sea un número redondo. Numpy me puede ayudar con esto.

In [13]:
np.round(df['Población'].mean())

5863277.0

Numpy tambien puede ayudarme a encontrar el **valor mínimo** o **máximo** de una columna de mi DataFrame.

In [15]:
np.min(df['Visitantes'])

3000000

In [17]:
np.max(df['Visitantes'])

21000000

NumPy posee muchos métodos interesantes.

In [19]:
print(dir(np))



# Arrays

Además de brindarnos herramientas de algoritmos matemáticos muy poderosas, **NumPy** nos brinda un **nuevo tipo de datos** que es una estructura de datos, en realidad, y que se llama **array**.

In [21]:
array_1 = np.array([1, 2, 3, 4, 5])
array_1

array([1, 2, 3, 4, 5])

In [23]:
type(array_1)

numpy.ndarray

Puede que en este momento estés pensando "*Eso es una lista*". Bueno, la verdad que es muy parecido, pero el array de NumPy es **mucho más rápido** y **más poderoso**.

Para comparar la *velocidad* de un **array** versus una **lista**, tenemos que trabajar con objetos más grandes y pesados, donde la velocidad va a ser más evidente.

Para eso vamos a crear dos objetos nuevos (una lista y un array) que contengan **un millón de elementos**:

In [25]:
lista_millon = list(range(1000000))
array_millon = np.array(lista_millon)

In [27]:
type(lista_millon)

list

In [29]:
type(array_millon)

numpy.ndarray

In [31]:
import time

Para medir el tiempo, hemos tenido que importar en la primera celda de este cuaderno, una librería de python llamada `time`, que nos brinda algunas herramientas para medir el tiempo que toma en ejecutarse un determinado código.

Imaginemos que quiero obtener el **cuadrado** de cada número que hay en mis nuevos objetos. Estamos hablando de multiplicar al cuadrado un millón de números en cada uno de ellos. El objetivo de hacer esto, es para medir cuánto tiempo tarda la *lista*, y cuánto tarda el *array*, para ver **cuál es más eficiente**.

Para lograr eso, `time` me va a permitir crear marcas de tiempo antes y después de ejecutar mi código, y así poder ver cuánto ha durado su ejecución:

In [33]:
inicio_lista = time.time()

for i in lista_millon:
    i**2
    
fin_lista = time.time()

print("Tiempo de ejecución: ", fin_lista - inicio_lista)

Tiempo de ejecución:  0.1831190586090088


In [35]:
inicio_array = time.time()

array_millon ** 2
    
fin_array = time.time()

print("Tiempo de ejecución: ", fin_array - inicio_array)

Tiempo de ejecución:  0.0019996166229248047
