<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/2_preprocesamiento/clase_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Guía completa: ¿Por qué usamos NumPy en Python?

## 1. Python y la ausencia de arrays nativos
Python fue diseñado como un lenguaje de propósito general, sencillo de leer y muy flexible.  
En su versión base ofrece **listas (`list`)**, que permiten guardar distintos tipos de datos en una sola colección.  

Sin embargo:
- No existe un **tipo de array numérico nativo** optimizado como en C (`int[]`) o Java (`double[]`).
- Las listas son estructuras versátiles, pero **ineficientes para cálculos numéricos de gran escala**.
- Procesar grandes volúmenes de datos en ciencia, estadística o machine learning era muy lento y costoso en memoria.

**Ejemplo con listas de Python:**
```python
lista = [1, 2, 3, 4, 5]
lista_doble = [x*2 for x in lista]
print(lista_doble)  # [2, 4, 6, 8, 10]
```

Aunque funciona, detrás de escena hay mucho procesamiento innecesario.

---

## 2. ¿Qué es NumPy?
**NumPy (Numerical Python)** es una librería de código abierto que introduce:

- Un nuevo tipo de dato: **ndarray** (N-dimensional array).
- Funciones optimizadas para **cálculo numérico, álgebra lineal y estadísticas**.
- Operaciones vectorizadas que reemplazan bucles explícitos en Python.
- Integración con librerías en C y Fortran, lo que le da un gran rendimiento.

El **array de NumPy** es:
- Homogéneo: todos los elementos son del mismo tipo (`int32`, `float64`, etc.).
- Contiguo: los datos se guardan en bloques continuos de memoria.
- Multidimensional: permite vectores, matrices y tensores.

---

## 3. Breve historia
- Años 90: surge **Numeric**, la primera librería para cálculos numéricos en Python.
- Luego aparece **Numarray**, pensada para arrays grandes.
- En 2005, **Travis Oliphant** unifica ambos proyectos creando **NumPy**.
- Hoy es la **base del ecosistema científico y de IA en Python**, usado por:
  - **pandas** (análisis de datos),
  - **scikit-learn** (machine learning),
  - **TensorFlow y PyTorch** (deep learning).

---

## 4. Ejemplo básico con NumPy
```python
import numpy as np

# Crear un array
arr = np.array([1, 2, 3, 4, 5])

# Operaciones rápidas
print(arr * 2)     # [ 2  4  6  8 10]
print(arr + 10)    # [11 12 13 14 15]
print(arr ** 2)    # [ 1  4  9 16 25]
print(arr.mean())  # 3.0
```

Diferencia clave: no se necesitan bucles, todo es **vectorizado**.

---

## 5. Comparación de memoria
```python
import sys
import numpy as np

lista = list(range(1000))
array = np.arange(1000)

print("Tamaño lista:", sys.getsizeof(lista))    # más grande
print("Tamaño array:", array.nbytes)           # más compacto
```

**Resultado típico:**
- Lista: ~8,000 bytes  
- Array NumPy: ~4,000 bytes  

👉 NumPy usa menos memoria.

---

## 6. Comparación de velocidad
```python
import time
import numpy as np

# Lista de Python
lista = list(range(1_000_000))
start = time.time()
[x*2 for x in lista]
print("Tiempo lista:", time.time() - start)

# Array NumPy
array = np.arange(1_000_000)
start = time.time()
array * 2
print("Tiempo NumPy:", time.time() - start)
```

**Resultado típico:**
- Lista: ~0.2 segundos  
- NumPy: ~0.01 segundos  

👉 NumPy puede ser hasta **20 veces más rápido**.

---

## 7. Operaciones vectorizadas
```python
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

print(arr + 100)     # [101 102 103 104 105]
print(arr - 1)       # [0 1 2 3 4]
print(arr * arr)     # [ 1  4  9 16 25]
print(arr / 2)       # [0.5 1.  1.5 2.  2.5]
```

Esto se llama **vectorización**:  
- Código más corto.  
- Ejecución más rápida.  
- Sintaxis más matemática.  

---

## 8. Analogía para estudiantes
- **Listas de Python**: repartir libros mesa por mesa (un bucle manual).  
- **NumPy**: llegar con una caja con todos los libros ya ordenados y dejarla en la sala (operación en bloque).  

👉 Menos trabajo, más eficiencia.

---

## 9. Recursos oficiales
- Sitio web: [https://numpy.org](https://numpy.org)  
- Documentación: [https://numpy.org/doc](https://numpy.org/doc)  
- Repositorio en GitHub: [https://github.com/numpy/numpy](https://github.com/numpy/numpy)  
- Historia: [https://numpy.org/history/](https://numpy.org/history/)

---

## 10. Resumen final
1. Python no incluye arrays numéricos eficientes de forma nativa.  
2. NumPy introduce **ndarray**, un tipo optimizado para cálculos científicos.  
3. Nace en 2005 al unificar Numeric y Numarray.  
4. Sus ventajas: **menos memoria, mayor velocidad, operaciones vectorizadas**.  
5. Hoy es la base de gran parte de la ciencia de datos e inteligencia artificial.  

**Frase para recordar:**  
*"Si Python es el lenguaje, NumPy es la herramienta que lo hace apto para la ciencia de datos y la inteligencia artificial."*


In [1]:
# Tipos de datos

entero = 1

print(type(entero))

<class 'int'>


In [2]:
pi = 3.14

print(type(pi))

<class 'float'>


In [3]:
entero_uno = 1.0

print(type(entero_uno))

<class 'float'>


In [5]:
cadena = "Hola mundo!"

print(type(cadena))

<class 'str'>


In [6]:
boleano = True

print(type(boleano))

<class 'bool'>


In [9]:
import pandas as pd

df = pd.read_csv("/content/20250708_Asistencia_JUNIO_2025_20250707_PUBL.csv", sep=";")

In [10]:
df

Unnamed: 0,AGNO,MES_ESCOLAR,RBD,DGV_RBD,NOM_RBD,COD_REG_RBD,NOM_REG_RBD_A,COD_PRO_RBD,COD_COM_RBD,NOM_COM_RBD,...,MRUN,GEN_ALU,FEC_NAC_ALU,COD_NAC_ALU,COD_ETNIA_ALU,COD_COM_ALU,NOM_COM_ALU,DIAS_ASISTIDOS,DIAS_TRABAJADOS,ASIS_PROMEDIO
0,2025,6,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,...,5981391.0,2.0,197304.0,C,0.0,15101.0,ARICA,0.0,20.0,0
1,2025,6,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,...,8523172.0,1.0,198309.0,C,0.0,15101.0,ARICA,6.0,20.0,",3"
2,2025,6,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,...,9715496.0,2.0,199909.0,C,1.0,15101.0,ARICA,0.0,20.0,0
3,2025,6,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,...,17833318.0,2.0,196406.0,N,1.0,15101.0,ARICA,0.0,20.0,0
4,2025,6,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,...,19226474.0,2.0,200612.0,C,0.0,15101.0,ARICA,18.0,20.0,",9"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1365633,2025,6,8666,5,COLEGIO SANTA ISABEL,13,RM,131,13101,SANTIAGO,...,26968839.0,1.0,201701.0,E,0.0,13101.0,SANTIAGO,11.0,12.0,",916666666666667"
1365634,2025,6,8666,5,COLEGIO SANTA ISABEL,13,RM,131,13101,SANTIAGO,...,27672086.0,1.0,201703.0,E,0.0,13108.0,INDEPENDENCIA,0.0,12.0,0
1365635,2025,6,8666,5,COLEGIO SANTA ISABEL,13,RM,131,13101,SANTIAGO,...,27982440.0,1.0,201612.0,E,0.0,13120.0,ÑUÑOA,11.0,12.0,",916666666666667"
1365636,2025,6,8666,5,COLEGIO SANTA ISABEL,13,RM,131,13101,SANTIAGO,...,1794926.0,2.0,201505.0,C,0.0,13101.0,SANTIAGO,12.0,12.0,1


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1365638 entries, 0 to 1365637
Data columns (total 31 columns):
 #   Column           Non-Null Count    Dtype  
---  ------           --------------    -----  
 0   AGNO             1365638 non-null  int64  
 1   MES_ESCOLAR      1365638 non-null  int64  
 2   RBD              1365638 non-null  int64  
 3   DGV_RBD          1365638 non-null  int64  
 4   NOM_RBD          1365638 non-null  object 
 5   COD_REG_RBD      1365638 non-null  int64  
 6   NOM_REG_RBD_A    1365638 non-null  object 
 7   COD_PRO_RBD      1365638 non-null  int64  
 8   COD_COM_RBD      1365638 non-null  int64  
 9   NOM_COM_RBD      1365638 non-null  object 
 10  COD_DEPROV_RBD   1365637 non-null  float64
 11  NOM_DEPROV_RBD   1365637 non-null  object 
 12  RURAL_RBD        1365637 non-null  float64
 13  NOMBRE_SLEP      1365637 non-null  object 
 14  COD_DEPE         1365637 non-null  float64
 15  COD_DEPE2        1365637 non-null  float64
 16  COD_ENSE         1

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1365638 entries, 0 to 1365637
Data columns (total 31 columns):
 #   Column           Non-Null Count    Dtype  
---  ------           --------------    -----  
 0   AGNO             1365638 non-null  int64  
 1   MES_ESCOLAR      1365638 non-null  int64  
 2   RBD              1365638 non-null  int64  
 3   DGV_RBD          1365638 non-null  int64  
 4   NOM_RBD          1365638 non-null  object 
 5   COD_REG_RBD      1365638 non-null  int64  
 6   NOM_REG_RBD_A    1365638 non-null  object 
 7   COD_PRO_RBD      1365638 non-null  int64  
 8   COD_COM_RBD      1365638 non-null  int64  
 9   NOM_COM_RBD      1365638 non-null  object 
 10  COD_DEPROV_RBD   1365637 non-null  float64
 11  NOM_DEPROV_RBD   1365637 non-null  object 
 12  RURAL_RBD        1365637 non-null  float64
 13  NOMBRE_SLEP      1365637 non-null  object 
 14  COD_DEPE         1365637 non-null  float64
 15  COD_DEPE2        1365637 non-null  float64
 16  COD_ENSE         1

In [13]:
lista = [0, 1, 2, 3]

In [14]:
print(type(lista))

<class 'list'>


In [15]:
lista[0]

0

In [16]:
lista[1]

1

In [17]:
lista2 = [1, 2, 3, 4]

In [18]:
lista2[0]

1

In [19]:
colores = ['blue', 'yellow', 'red']

In [20]:
colores[1]

'yellow'

In [21]:
colores.append('green')

In [22]:
colores

['blue', 'yellow', 'red', 'green']

In [23]:
colores[3]

'green'

In [25]:
# imprimir version de numpy instalado
import numpy as np
print(np.__version__)

2.0.2


https://platzi.com/blog/numpy/

![Dimensiones de arrays](https://static.platzi.com/media/user_upload/Escalar%20%281%29%20%281%29-7a433511-a4b7-4cff-a55c-17aa4ff92729.jpg)

In [26]:
import sys
import numpy as np

lista = list(range(1000))
array = np.arange(1000)

print("Tamaño lista:", sys.getsizeof(lista))    # más grande
print("Tamaño array:", array.nbytes)           # más compacto

Tamaño lista: 8056
Tamaño array: 8000


In [27]:
print(lista)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221,

In [28]:
print(array)

[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233
 234 235 236 237 238 239 240 241 242 243 244 245 24

In [29]:
import time
import numpy as np

# Lista de Python
lista = list(range(1_000_000))
start = time.time()
[x*2 for x in lista]
print("Tiempo lista:", time.time() - start)

# Array NumPy
array = np.arange(1_000_000)
start = time.time()
array * 2
print("Tiempo NumPy:", time.time() - start)

Tiempo lista: 0.07516360282897949
Tiempo NumPy: 0.001537322998046875


In [30]:
# Crear una lista de números del 0 al 999 sin usar range()
lista_manual = []
i = 0
while i < 1000:
    lista_manual.append(i)
    i += 1

print(lista_manual)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221,

In [31]:
# Como usar Numpy

import numpy

In [32]:
numpy.__version__

'2.0.2'

In [34]:
import numpy as esteesunnombremaslargo

In [35]:
esteesunnombremaslargo.__version__

'2.0.2'

In [37]:
# Regularmente vamos a importar Numpy con el alias de np

import numpy as np

# Sobre como instalar numpy https://numpy.org/install/

In [38]:
# Ejemplo de análisis de documentación

# https://numpy.org/doc/2.3/reference/generated/numpy.arange.html

np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [40]:
np.arange(1,11)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [41]:
np.arange(2,11,2)

array([ 2,  4,  6,  8, 10])

In [42]:
np.arange(1,11,2)

array([1, 3, 5, 7, 9])

# `numpy.arange([start, ] stop, [step, ] dtype=None, *, device=None, like=None)`

TEXTO DESDE: https://numpy.org/doc/2.3/reference/generated/numpy.arange.html


Devuelve valores espaciados uniformemente dentro de un intervalo dado.

`arange` se puede llamar con distintos números de argumentos
posicionales:

-   `arange(stop)`: Se generan valores dentro del intervalo semiabierto
    `[0, stop)` (es decir, incluyendo "start" pero excluyendo "stop").
-   `arange(start, stop)`: Se generan valores dentro del intervalo
    semiabierto `[start, stop)`.
-   `arange(start, stop, step)`: Se generan valores dentro del intervalo
    semiabierto `[start, stop)`, con espacios entre valores dados por
    `step`.

Para argumentos enteros, la función es aproximadamente equivalente al
builtin de Python `range`, **pero** retorna un `ndarray` en lugar de una
instancia de `range`.

Cuando uses un `step` no entero, como `0.1`, suele ser mejor usar
`numpy.linspace`.

------------------------------------------------------------------------

## Parámetros

  -------------------------------------------------------------------------
  Nombre     Tipo                     Opcional / defecto   Qué significa
  ---------- ------------------------ -------------------- ----------------
  `start`    entero o real            opcional ---         Inicio del
                                      defecto: `0`         intervalo. Este
                                                           valor **se
                                                           incluye**.

  `stop`     entero o real            *requerido*          Final del
                                                           intervalo. Este
                                                           valor **no se
                                                           incluye**, salvo
                                                           casos especiales
                                                           si `step` no es
                                                           entero y
                                                           problemas de
                                                           redondeo.

  `step`     entero o real            opcional ---         Separación entre
                                      defecto: `1`         valores
                                                           consecutivos. Si
                                                           se especifica
                                                           `step`, también
                                                           debe darse
                                                           `start`.

  `dtype`    tipo de dato de NumPy    opcional             Tipo de dato del
                                                           arreglo de
                                                           salida. Si no se
                                                           da, se infiere.

  `device`   cadena (str)             opcional --- nuevo   Dispositivo en
                                      desde v2.0.0         el que se
                                                           colocará el
                                                           arreglo creado
                                                           ("cpu", etc.).

  `like`     objeto array-like        opcional --- desde   Objeto de
                                      v1.20.0              referencia para
                                                           crear arrays que
                                                           no sean
                                                           necesariamente
                                                           de NumPy.
  -------------------------------------------------------------------------

------------------------------------------------------------------------

## Retorno

-   Devuelve un **ndarray** con valores espaciados uniformemente.\
-   Cuando los argumentos sean en punto flotante, la longitud del
    resultado es `ceil((stop - start)/step)`. Por overflow, el último
    elemento puede ser mayor que `stop` en algunos casos.

------------------------------------------------------------------------

## Advertencias

1.  **Estabilidad numérica**\
    El largo del arreglo puede no ser estable. Internamente se calcula
    como `dtype(start + step) - dtype(start)`.

2.  **Conversión de floats a enteros**\
    Si usas `dtype=int` con `step` flotante, todos los valores se
    convierten a enteros:

    ``` python
    np.arange(0, 5, 0.5, dtype=int)
    # array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
    ```

3.  **Diferencias con `range`**

    -   `range` usa enteros arbitrarios, `arange` enteros fijos
        (`int32`/`int64`).
    -   Puede dar resultados distintos para cálculos con números muy
        grandes.

------------------------------------------------------------------------

## Véase también

-   `numpy.linspace` --- números espaciados uniformemente con
    tratamiento cuidadoso de los extremos.\
-   `numpy.ogrid`, `numpy.mgrid` --- generación de arreglos con números
    espaciados en N dimensiones.

------------------------------------------------------------------------

## Ejemplos

``` python
import numpy as np

np.arange(3)
# array([0, 1, 2])

np.arange(3.0)
# array([0., 1., 2.])

np.arange(3, 7)
# array([3, 4, 5, 6])

np.arange(3, 7, 2)
# array([3, 5])
```
