<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/2_preprocesamiento/clase_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Guía completa: ¿Por qué usamos NumPy en Python?

## 1. Python y la ausencia de arrays nativos
Python fue diseñado como un lenguaje de propósito general, sencillo de leer y muy flexible.  
En su versión base ofrece **listas (`list`)**, que permiten guardar distintos tipos de datos en una sola colección.  

Sin embargo:
- No existe un **tipo de array numérico nativo** optimizado como en C (`int[]`) o Java (`double[]`).
- Las listas son estructuras versátiles, pero **ineficientes para cálculos numéricos de gran escala**.
- Procesar grandes volúmenes de datos en ciencia, estadística o machine learning era muy lento y costoso en memoria.

**Ejemplo con listas de Python:**
```python
lista = [1, 2, 3, 4, 5]
lista_doble = [x*2 for x in lista]
print(lista_doble)  # [2, 4, 6, 8, 10]
```

Aunque funciona, detrás de escena hay mucho procesamiento innecesario.

---

## 2. ¿Qué es NumPy?
**NumPy (Numerical Python)** es una librería de código abierto que introduce:

- Un nuevo tipo de dato: **ndarray** (N-dimensional array).
- Funciones optimizadas para **cálculo numérico, álgebra lineal y estadísticas**.
- Operaciones vectorizadas que reemplazan bucles explícitos en Python.
- Integración con librerías en C y Fortran, lo que le da un gran rendimiento.

El **array de NumPy** es:
- Homogéneo: todos los elementos son del mismo tipo (`int32`, `float64`, etc.).
- Contiguo: los datos se guardan en bloques continuos de memoria.
- Multidimensional: permite vectores, matrices y tensores.

---

## 3. Breve historia
- Años 90: surge **Numeric**, la primera librería para cálculos numéricos en Python.
- Luego aparece **Numarray**, pensada para arrays grandes.
- En 2005, **Travis Oliphant** unifica ambos proyectos creando **NumPy**.
- Hoy es la **base del ecosistema científico y de IA en Python**, usado por:
  - **pandas** (análisis de datos),
  - **scikit-learn** (machine learning),
  - **TensorFlow y PyTorch** (deep learning).

---

## 4. Ejemplo básico con NumPy
```python
import numpy as np

# Crear un array
arr = np.array([1, 2, 3, 4, 5])

# Operaciones rápidas
print(arr * 2)     # [ 2  4  6  8 10]
print(arr + 10)    # [11 12 13 14 15]
print(arr ** 2)    # [ 1  4  9 16 25]
print(arr.mean())  # 3.0
```

Diferencia clave: no se necesitan bucles, todo es **vectorizado**.

---

## 5. Comparación de memoria
```python
import sys
import numpy as np

lista = list(range(1000))
array = np.arange(1000)

print("Tamaño lista:", sys.getsizeof(lista))    # más grande
print("Tamaño array:", array.nbytes)           # más compacto
```

**Resultado típico:**
- Lista: ~8,000 bytes  
- Array NumPy: ~4,000 bytes  

👉 NumPy usa menos memoria.

---

## 6. Comparación de velocidad
```python
import time
import numpy as np

# Lista de Python
lista = list(range(1_000_000))
start = time.time()
[x*2 for x in lista]
print("Tiempo lista:", time.time() - start)

# Array NumPy
array = np.arange(1_000_000)
start = time.time()
array * 2
print("Tiempo NumPy:", time.time() - start)
```

**Resultado típico:**
- Lista: ~0.2 segundos  
- NumPy: ~0.01 segundos  

👉 NumPy puede ser hasta **20 veces más rápido**.

---

## 7. Operaciones vectorizadas
```python
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

print(arr + 100)     # [101 102 103 104 105]
print(arr - 1)       # [0 1 2 3 4]
print(arr * arr)     # [ 1  4  9 16 25]
print(arr / 2)       # [0.5 1.  1.5 2.  2.5]
```

Esto se llama **vectorización**:  
- Código más corto.  
- Ejecución más rápida.  
- Sintaxis más matemática.  

---

## 8. Analogía para estudiantes
- **Listas de Python**: repartir libros mesa por mesa (un bucle manual).  
- **NumPy**: llegar con una caja con todos los libros ya ordenados y dejarla en la sala (operación en bloque).  

👉 Menos trabajo, más eficiencia.

---

## 9. Recursos oficiales
- Sitio web: [https://numpy.org](https://numpy.org)  
- Documentación: [https://numpy.org/doc](https://numpy.org/doc)  
- Repositorio en GitHub: [https://github.com/numpy/numpy](https://github.com/numpy/numpy)  
- Historia: [https://numpy.org/history/](https://numpy.org/history/)

---

## 10. Resumen final
1. Python no incluye arrays numéricos eficientes de forma nativa.  
2. NumPy introduce **ndarray**, un tipo optimizado para cálculos científicos.  
3. Nace en 2005 al unificar Numeric y Numarray.  
4. Sus ventajas: **menos memoria, mayor velocidad, operaciones vectorizadas**.  
5. Hoy es la base de gran parte de la ciencia de datos e inteligencia artificial.  

**Frase para recordar:**  
*"Si Python es el lenguaje, NumPy es la herramienta que lo hace apto para la ciencia de datos y la inteligencia artificial."*
