#  Introducción a [NumPy](https://numpy.org/doc/)

**Objetivos:**
- Comprender qué es NumPy y por qué es fundamental en ciencia de datos.
- Aprender sobre estructuras clave como `ndarray`.
- Manipular datos usando operaciones y funciones NumPy.
- Aplicar NumPy en un dataset real.
---

# Arrays

Los arrays de NumPy ofrecen varias ventajas en comparación con las listas de Python:

1. **Eficiencia en Memoria**: Los arrays ocupan menos espacio en memoria que las listas, ya que almacenan datos de un solo tipo y en posiciones contiguas.
2. **Mayor Velocidad**: Operaciones sobre arrays son más rápidas debido a su implementación en C y la optimización en cálculos vectorizados.
3. **Facilidad de Manipulación**: NumPy proporciona funciones avanzadas para realizar operaciones matemáticas, estadísticas y lógicas con facilidad.
4. **Broadcasting**: Permite realizar operaciones aritméticas sin necesidad de usar bucles explícitos.
5. **Compatibilidad con Librerías de Ciencia de Datos**: Es fundamental para trabajar con librerías como Pandas, Scikit-learn y TensorFlow.

---

## ¿Qué es un Array en NumPy?

Un **array** en NumPy es una estructura de datos que permite almacenar múltiples valores del mismo tipo en una sola variable. Se representa con la clase `numpy.ndarray`.

Ejemplo de un array 1D:

```python
import numpy as np

arr = np.array([1, 2, 3, 4, 5])
print(arr)


## Diferencias entre arrays y listas

| Característica        | Listas de Python  | Arrays de NumPy |
|----------------------|------------------|----------------|
| **Tipo de Datos**    | Pueden contener diferentes tipos | Solo un tipo de dato |
| **Uso de Memoria**   | Más consumo de memoria | Más eficiente |
| **Velocidad**        | Más lento en operaciones numéricas | Más rápido gracias a optimización en C |
| **Operaciones Matemáticas** | Requiere bucles (`for`) | Soporta operaciones vectorizadas |
| **Soporte de Funciones** | Funcionalidad limitada | Funciones avanzadas para álgebra, estadística, etc. |

### Optimización en Numpy:

In [1]:
import time
import numpy as np

# Lista en Python
lista = list(range(1000000))
start = time.time()
lista = [x * 2 for x in lista]
end = time.time()
print(f"Tiempo con listas: {end - start:.5f} segundos")

# Array de NumPy
arr = np.arange(1000000)
start = time.time()
arr = arr * 2  # Operación vectorizada
end = time.time()
print(f"Tiempo con NumPy: {end - start:.5f} segundos")

Tiempo con listas: 0.04374 segundos
Tiempo con NumPy: 0.00000 segundos


In [2]:
# Instalación e importación
import numpy as np  
import pandas as pd

In [3]:
# Vector 1D
a = np.array([1, 2, 3, 4])  # Crear un array unidimensional
a

array([1, 2, 3, 4])

In [4]:
# Matriz 2D
b = np.array([
    [1, 2, 3], 
    [4, 5, 6]])  # Crear una matriz bidimensional
b

array([[1, 2, 3],
       [4, 5, 6]])

In [67]:
# Matriz de ceros
c = np.zeros((3, 3))  # Crear una matriz 3x3 llena de ceros
c

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [68]:
# Matriz de unos
d = np.ones((2, 4))  # Crear una matriz 2x4 llena de unos
d

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [69]:
# Valores equidistantes
e = np.linspace(0, 10, 5)  # Crear un array con 5 valores equidistantes entre 0 y 10
e

array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [70]:
# Otras funciones útiles
doble = np.full((2, 3), 7)  # Crear una matriz 2x3 llena de valores 7
doble

array([[7, 7, 7],
       [7, 7, 7]])

In [71]:
identidad = np.eye(4)  # Crear una matriz identidad de 4x4
identidad

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [72]:
random_ints = np.random.randint(1, 100, (3, 3))  # Crear una matriz 3x3 con valores aleatorios entre 1 y 100
random_ints

array([[28, 46, 38],
       [10, 30, 51],
       [30, 41, 51]])

In [73]:
# Ejercicio: Matriz aleatoria
random_matrix = np.random.rand(3,3)  # Crear una matriz 3x3 con valores aleatorios entre 0 y 1
random_matrix

array([[0.40699189, 0.19732849, 0.39928022],
       [0.09754338, 0.04491782, 0.85098714],
       [0.94053685, 0.17115082, 0.82162192]])

# Aplicación a nuestro df poblacional

In [6]:
url = "https://raw.githubusercontent.com/datasets/population/master/data/population.csv"
data = pd.read_csv(url)  # Cargar los datos en un DataFrame
df = data.copy()

In [7]:
df.head()

Unnamed: 0,Country Name,Country Code,Year,Value
0,Aruba,ABW,1960,54922.0
1,Aruba,ABW,1961,55578.0
2,Aruba,ABW,1962,56320.0
3,Aruba,ABW,1963,57002.0
4,Aruba,ABW,1964,57619.0


In [14]:
# Convertimos a NumPy para operaciones numéricas
df = df.to_numpy()  # Convertir el DataFrame a un array de NumPy
df

array([['Aruba', 'ABW', 1960, 54922.0],
       ['Aruba', 'ABW', 1961, 55578.0],
       ['Aruba', 'ABW', 1962, 56320.0],
       ...,
       ['Zimbabwe', 'ZWE', 2021, 15797210.0],
       ['Zimbabwe', 'ZWE', 2022, 16069056.0],
       ['Zimbabwe', 'ZWE', 2023, 16340822.0]], dtype=object)

In [15]:
# Exploración de Datos
dim = df.shape  # Obtener la dimensión del dataset
dim

(16930, 4)

In [16]:
df[:5]  # Mostrar las primeras 5 filas

array([['Aruba', 'ABW', 1960, 54922.0],
       ['Aruba', 'ABW', 1961, 55578.0],
       ['Aruba', 'ABW', 1962, 56320.0],
       ['Aruba', 'ABW', 1963, 57002.0],
       ['Aruba', 'ABW', 1964, 57619.0]], dtype=object)

In [18]:
years = np.unique(df[:,0])  # Obtener los años únicos en la columna 'Year'7
years

array(['Afghanistan', 'Africa Eastern and Southern',
       'Africa Western and Central', 'Albania', 'Algeria',
       'American Samoa', 'Andorra', 'Angola', 'Antigua and Barbuda',
       'Arab World', 'Argentina', 'Armenia', 'Aruba', 'Australia',
       'Austria', 'Azerbaijan', 'Bahamas, The', 'Bahrain', 'Bangladesh',
       'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin', 'Bermuda',
       'Bhutan', 'Bolivia', 'Bosnia and Herzegovina', 'Botswana',
       'Brazil', 'British Virgin Islands', 'Brunei Darussalam',
       'Bulgaria', 'Burkina Faso', 'Burundi', 'Cabo Verde', 'Cambodia',
       'Cameroon', 'Canada', 'Caribbean small states', 'Cayman Islands',
       'Central African Republic', 'Central Europe and the Baltics',
       'Chad', 'Channel Islands', 'Chile', 'China', 'Colombia', 'Comoros',
       'Congo, Dem. Rep.', 'Congo, Rep.', 'Costa Rica', "Cote d'Ivoire",
       'Croatia', 'Cuba', 'Curacao', 'Cyprus', 'Czechia', 'Denmark',
       'Djibouti', 'Dominica', 'Dominican Repub

In [20]:
cantidad_years = len(years)# Contar cuántos años únicos hay
cantidad_years

265

In [21]:
# Estadísticas Básicas
populations = df[:,3].astype(np.float64)  # Extraer la columna de población y convertir a float
populations

array([   54922.,    55578.,    56320., ..., 15797210., 16069056.,
       16340822.])

In [None]:
poblacion_media = np.mean(populations)  # Calcular el promedio de población
poblacion_min = np.min(populations)  # Encontrar la menor población registrada
poblacion_max = np.max(populations)  # Encontrar la mayor población registrada
desviacion_std = np.std(populations)  # Calcular la desviación estándar
mediana_poblacion = np.median(populations)  # Calcular la mediana
suma_poblacion = np.sum(populations)  # Calcular la suma total de la población

In [23]:
percentiles = np.percentile(populations, [25, 50, 75])  # Calcular los percentiles 25, 50 y 75
percentiles

array([ 1009540. ,  6748606.5, 46785187. ])

In [24]:
# Ejercicio: País más poblado en 2020
mask_2021 = df[:,2] == 2022 # Crear una máscara booleana para filtrar el año 2020
max_idx = np.argmax(populations[mask_2021])  # Encontrar el índice de la población máxima en 2020
max_idx

258

In [25]:
df

array([['Aruba', 'ABW', 1960, 54922.0],
       ['Aruba', 'ABW', 1961, 55578.0],
       ['Aruba', 'ABW', 1962, 56320.0],
       ...,
       ['Zimbabwe', 'ZWE', 2021, 15797210.0],
       ['Zimbabwe', 'ZWE', 2022, 16069056.0],
       ['Zimbabwe', 'ZWE', 2023, 16340822.0]], dtype=object)

In [83]:
# Tasa de crecimiento poblacional
years = df[:,2].astype(int)  # Extraer los años como enteros
growth = np.diff(populations) / populations[:-1] * 100  # Calcular el porcentaje de crecimiento entre años
crecimiento_medio = np.mean(growth)  # Calcular el crecimiento promedio
max_crecimiento = np.max(growth)  # Encontrar el año con mayor crecimiento poblacional
min_crecimiento = np.min(growth)  # Encontrar el año con menor crecimiento poblacional
varianza_crecimiento = np.var(growth)  # Calcular la varianza del crecimiento

In [84]:
# Ejercicio: Crecimiento anual de un país específico
country = "India"
mask = df[:,0] == country  # Filtrar el país específico
pop_india = df[mask,2].astype(float)  # Extraer la población del país
growth_india = np.diff(pop_india) / pop_india[:-1] * 100  # Calcular el crecimiento anual de la población en India

In [85]:
# Otras funciones útiles en análisis de datos
mediana_crecimiento = np.median(growth)  # Calcular la mediana del crecimiento
suma_crecimiento = np.sum(growth)  # Calcular la suma total del crecimiento
top_crecimientos = np.sort(growth)[-5:]  # Obtener los 5 años con mayor crecimiento poblacional
percentiles_crecimiento = np.percentile(growth, [25, 50, 75])  # Calcular los percentiles del crecimiento

In [86]:
data

Unnamed: 0,Country Name,Country Code,Year,Value
0,Aruba,ABW,1960,54922.0
1,Aruba,ABW,1961,55578.0
2,Aruba,ABW,1962,56320.0
3,Aruba,ABW,1963,57002.0
4,Aruba,ABW,1964,57619.0
...,...,...,...,...
16925,Zimbabwe,ZWE,2019,15271368.0
16926,Zimbabwe,ZWE,2020,15526888.0
16927,Zimbabwe,ZWE,2021,15797210.0
16928,Zimbabwe,ZWE,2022,16069056.0


In [87]:
# Ejercicio: Encontrar el año con la menor población global
sum_poblacion_por_anio = data.groupby("Year")["Value"].sum().to_numpy()  # Sumar la población por año
años = np.unique(df[:,2])
año_menor_poblacion = años[np.argmin(sum_poblacion_por_anio)]  # Encontrar el año con menor población total

In [88]:
año_menor_poblacion

1960

In [89]:
# Ejercicio: ¿Cuántos países tienen datos en cada año?
paises_por_anio = data.groupby("Year")["Country Name"].nunique().to_numpy()  # Contar cuántos países tienen datos en cada año

In [90]:
paises_por_anio

array([264, 264, 264, 264, 264, 264, 264, 264, 264, 264, 264, 264, 264,
       264, 264, 264, 264, 264, 264, 264, 264, 264, 264, 264, 264, 264,
       264, 264, 264, 264, 265, 265, 265, 265, 265, 265, 265, 265, 265,
       265, 265, 265, 265, 265, 265, 265, 265, 265, 265, 265, 265, 265,
       265, 265, 265, 265, 265, 265, 265, 265, 265, 265, 265, 265],
      dtype=int64)

# Otras funciones Numpy

| Función                 | Descripción                                     | Ejemplo de uso |
|-------------------------|-----------------------------------------------|---------------|
| `np.array()`            | Crea un array de NumPy a partir de una lista. | `np.array([1, 2, 3])` |
| `np.arange()`           | Genera un array con valores en un rango.      | `np.arange(0, 10, 2)` → `[0 2 4 6 8]` |
| `np.linspace()`         | Genera un array de valores equidistantes.     | `np.linspace(0, 1, 5)` → `[0.   0.25 0.5  0.75 1. ]` |
| `np.zeros()`            | Crea un array de ceros.                       | `np.zeros((2,3))` → `[[0. 0. 0.] [0. 0. 0.]]` |
| `np.ones()`             | Crea un array de unos.                        | `np.ones((3,2))` → `[[1. 1.] [1. 1.] [1. 1.]]` |
| `np.eye()`              | Genera una matriz identidad.                  | `np.eye(3)` → `[[1. 0. 0.] [0. 1. 0.] [0. 0. 1.]]` |
| `np.random.rand()`      | Genera números aleatorios uniformes entre 0 y 1. | `np.random.rand(3,3)` |
| `np.random.randint()`   | Genera enteros aleatorios en un rango.        | `np.random.randint(1, 10, (2,2))` |
| `np.shape`              | Devuelve la forma del array.                   | `arr.shape` |
| `np.reshape()`          | Cambia la forma de un array.                   | `arr.reshape(2,5)` |
| `np.flatten()`          | Convierte un array multidimensional en 1D.    | `arr.flatten()` |
| `np.sum()`              | Suma todos los elementos o por eje.           | `np.sum(arr, axis=0)` |
| `np.mean()`             | Calcula la media.                             | `np.mean(arr)` |
| `np.median()`           | Calcula la mediana.                           | `np.median(arr)` |
| `np.std()`              | Calcula la desviación estándar.               | `np.std(arr)` |
| `np.min()` / `np.max()` | Encuentra el mínimo y el máximo.              | `np.min(arr)` / `np.max(arr)` |
| `np.argmin()` / `np.argmax()` | Índice del mínimo y máximo.         | `np.argmin(arr)` / `np.argmax(arr)` |
| `np.unique()`           | Devuelve valores únicos del array.            | `np.unique(arr)` |
| `np.sort()`             | Ordena los elementos del array.               | `np.sort(arr)` |
| `np.dot()`              | Producto escalar entre dos matrices o vectores. | `np.dot(A, B)` |
| `np.transpose()`        | Transpone una matriz.                         | `A.T` o `np.transpose(A)` |
| `np.linalg.inv()`       | Calcula la inversa de una matriz.             | `np.linalg.inv(A)` |
| `np.linalg.det()`       | Calcula el determinante de una matriz.        | `np.linalg.det(A)` |
| `np.where()`            | Encuentra posiciones donde se cumple una condición. | `np.where(arr > 5)` |
| `np.cumsum()`           | Calcula la suma acumulada.                    | `np.cumsum(arr)` |
| `np.diff()`             | Calcula las diferencias entre elementos.      | `np.diff(arr)` |
| `np.clip()`             | Limita los valores entre un mínimo y un máximo. | `np.clip(arr, 0, 10)` |