# **Obtención y preparación de datos**
# OPD01. Introducción a Numpy

### <font color='orange'>**¿Porqué aprenderemos Numpy?**</font>

Para poder crear y manipular vectores, matrices, arreglos y tensoers ... y luego **aplicar estos conocimientos para realizar operaciones de álgebra lineal**.

### <font color='orange'>**¿Porqué necesitamos conocer las bases del algebra lineal?**</font>

Porque **el álgebra lineal forma una línea de aprendizaje esencial para el machine learning**. Las áreas de las matemáticas, como las estadísticas y el cálculo, requieren un conocimiento previo del álgebra lineal, lo que les ayudará a entender los modelos de machine learning en profundidad.

## <font color='blue'>**Librería NumPy**</font>

**NumPy** es la librería por excelencia para computación científica en Python. Integra muchas funciones de cálculo matricial de N dimensiones, y una variedad de rutinas para operaciones rápidas con matrices, que incluyen manipulación matemática, lógica, de tamaño y forma, clasificación, selección, I/O, transformada de Fourier, algebra lineal, operaciones estadísticas, simulación aleatoria y muchas otras.

<img src='https://drive.google.com/uc?export=view&id=1_foOq3ZJE-GKzm9hDpuTDrT8c_YxkorY' width="400" align="center" style="margin-right: 20px">

<img src='IMG_1522.png' width="400" align="center" style="margin-right: 20px">

In [3]:
from IPython.display import Image
Image(filename = 'IMG_1522.png', width=400)

FileNotFoundError: [Errno 2] No such file or directory: 'IMG_1522.png'

In [10]:
import os
print("Directorio de trabajo actual:", os.getcwd())
print("Todos los archivos (incluyendo ocultos):")
print(os.listdir('.'))

Directorio de trabajo actual: /workspaces/Taller_obtencion_y_preparacion_datos_2024
Todos los archivos (incluyendo ocultos):
['.git', 'LICENSE', 'README.md', '.gitignore', '01 - Intro Numpy']


In [14]:

import os
file_path = '01 - Intro Numpy/IMG_1522.png'
   
if os.path.exists(file_path):
    print(f"El archivo {file_path} existe.")
    print("Tamaño:", os.path.getsize(file_path), "bytes")
    print("Última modificación:", os.path.getmtime(file_path))
else:
    print(f"El archivo {file_path} no se encuentra.")

El archivo 01 - Intro Numpy/IMG_1522.png no se encuentra.


In [15]:
import os
   
print("Contenido del directorio actual:")
print(os.listdir('.'))
print("\nContenido de '01 - Intro Numpy':")
print(os.listdir('01 - Intro Numpy'))

Contenido del directorio actual:
['.git', 'LICENSE', 'README.md', '.gitignore', '01 - Intro Numpy']

Contenido de '01 - Intro Numpy':
['OPD03_Creacion_de_Array.ipynb', 'OPD02_Numpy_Array.ipynb', 'OPD04_Operaciones_con_Array.ipynb', 'OPD01_Introduccion_a_Numpy.ipynb']


In [16]:
import os
   
def find_file(name, path):
   for root, dirs, files in os.walk(path):
       if name in files:
           return os.path.join(root, name)
   return None
   
result = find_file('IMG_1522.png', '.')
if result:
    print(f"Archivo encontrado en: {result}")
else:
    print("Archivo no encontrado.")

Archivo no encontrado.


In [17]:
import os
   
dir_path = '01 - Intro Numpy'
file_path = '01 - Intro Numpy/IMG_1522.png'
   
print(f"Permisos del directorio {dir_path}:", oct(os.stat(dir_path).st_mode)[-3:])
if os.path.exists(file_path):
    print(f"Permisos del archivo {file_path}:", oct(os.stat(file_path).st_mode)[-3:])

Permisos del directorio 01 - Intro Numpy: 777


In [8]:
import os
print(os.listdir('01 - Intro Numpy'))
print (os.access('/01 - Intro Numpy/IMG_1522.png', os.R_OK)) 

['OPD03_Creacion_de_Array.ipynb', 'OPD02_Numpy_Array.ipynb', 'OPD04_Operaciones_con_Array.ipynb', 'OPD01_Introduccion_a_Numpy.ipynb']
False


En el núcleo del paquete NumPy está el objeto `ndarray`. Éste encapsula matrices n-dimensionales de tipos de datos homogéneos, con muchas operaciones que se realizan en código compilado (en lenguaje C) para mejorar el rendimiento. Es la librería de cálculo más popular debido a su facilidad de uso y la rapidez de sus cálculos.

Existen varias diferencias importantes entre las matrices de NumPy y las secuencias estándar de Python:

* Las `ndarray` NumPy tienen un tamaño fijo al momento de la creación, a diferencia de las listas de Python (que pueden crecer dinámicamente). Cambiar el tamaño de un `ndarray` creará un nueva *arreglo* y eliminará la original.

* Nos referimos usando el concepto de  *arreglo* para diferenciarlo de una matriz (que en numpy corresponde a la clase `matrix`). El primero es más general, incluyendo n-dimensiones, mientras que el segundo solamente está restringido a 2-dimensiones y operadores como multiplicación actúan con la convención matricial.

* Se requiere que todos los elementos de un arreglo NumPy correspondan al mismo tipo de datos y, por lo tanto, tendrán el mismo tamaño en la memoria. La excepción: uno puede tener matrices de objetos (Python, incluido NumPy), lo que permite matrices de elementos de diferentes tamaños.


* Los arreglos NumPy facilitan las operaciones matemáticas avanzadas en grandes cantidades de datos. Por lo general, estas operaciones se ejecutan de manera más eficiente y con menos código que al usar las secuencias integradas de Python.


* Una multitud de paquetes científicos y matemáticos basados en Python utilizan arreglos NumPy; aunque estos paquetes suelen admitir la entrada de secuencias estándar de Python, convierten dicha entrada en arreglos NumPy antes del procesamiento y, a menudo, generan matrices NumPy. En otras palabras, para usar de manera eficiente gran parte (quizás incluso la mayoría) del software científico/matemático basado en Python de hoy en día, simplemente saber cómo usar los tipos de secuencia incorporados de Python es insuficiente; uno también necesita saber cómo usar los arreglos NumPy.

## <font color='blue'>**Instalando NumPy**</font>

Para instalar NumPy, se recomienda utilizar una distribución científica de Python. Las instrucciones completas para instalar NumPy en sus sistemas operativos, las pueden encontrar en <a href="https://www.scipy.org/install.html">https://www.scipy.org/install.html</a>.

Si ya tienes Python, puedes instalar NumPy con:



```
conda install numpy
```



o

```
pip install numpy
```

Si aún no tiene Python instalado &#128544; &#128544; &#128544;, se recomienda utilizar **Anaconda**. Es la forma más sencilla de empezar. Lo bueno de obtener esta distribución es el hecho de que no necesita preocuparse demasiado por instalar NumPy por separado o cualquiera de los paquetes principales que utilizará para sus análisis de datos, como pandas, Scikit-Learn, entre otras.

Puede encontrar todos los detalles de instalación en la sección **Instalación** en <a href="https://www.scipy.org/install.html">SciPy</a>.

### <font color='blue'>**¿Cómo importar NumPy?**</font>

Siempre que desee utilizar un paquete o una biblioteca en su código, **primero debe hacerlo accesible**.

Para comenzar a usar NumPy y todas las funciones disponibles en NumPy, necesitará importarlo. Esto se puede hacer fácilmente con esta declaración de importación:

In [None]:
import numpy as np

Acortamos el nombre `numpy` con el alias  `np` para ahorrar tiempo y para mantener el código legible.

### <font color='blue'>**¿Cuál es la diferencia entre una lista y un arreglo NumPy?**</font>

NumPy ofrece una enorme variedad de formas rápidas y eficientes de crear arreglos y manipular datos numéricos. Si bien una lista de Python puede contener diferentes tipos de datos dentro de una sola lista, todos los elementos de un arreglo NumPy deben ser homogéneos. Las operaciones matemáticas que deben realizarse en matrices serían extremadamente ineficaces si las matrices no fueran homogéneas.

#### <font color='blue'>**¿Por qué usar NumPy?**</font>

Los arreglo NumPy son más rápidos y compactos que las listas de Python. Una matriz consume menos memoria. NumPy usa mucha menos memoria para almacenar datos y proporciona un mecanismo para especificar los tipos de datos. Esto permite optimizar aún más el código.

In [None]:
import sys

S = range(10000)
print('Resultado de memoria asignada a la lista de Python:')
print(sys.getsizeof(5) * len(S))
print()
D = np.arange(10000)
print('Resultado de memoria asignada a NumPy array:')
print(D.size * D.itemsize)

In [None]:
import time
SIZE = 1000000

L1 = range(SIZE)
L2 = range(SIZE)
A1 = np.arange(SIZE)
A2 = np.arange(SIZE)

start = time.time()
result1 = [x+y for x,y in zip(L1, L2)]
print('Resultado test de velocidad para lista de Python [ms]:')
print((time.time() - start) * 1000)
print()

start = time.time()
result = A1 + A2
print('Resultado test de velocidad para NumPy array [ms]:')
print((time.time() - start) * 1000)
