<font size=6>

<b>Paper example No. 1</b>
</font>

<font size=4>
    
Laboratorio de Datos de América <br/>
Panamá, mayo 14, 2024

Samuel Saldaña Valenzuela
</font>

https://github.com/samuelsaldanav/paper1/

<br/>

# Tema 1 - El ecosistema Python: librería estándar y otros paquetes populares

## Objetivos

- Conocer algunos módulos de la librería estándar

  - Interacción con el propio intérprete
  - Interacción con el sistema operativo
  - Gestión del sistema de ficheros
  - Gestión de procesos y concurrencia
  - Desarrollo, depuración y perfilado
  - Números y matemáticas
  - Acceso y funcionalidad de red
  - Utilidades para manejo avanzado de funciones e iteradores

- Introducir el ecosistema de librerías científicas de Python 

  - La pila Numpy/SciPY
  - Gráficos
  - Matemáticas y estadística
  - Aprendizaje automático
  - Procesamiento del lenguaje natural
  - Biología
  - Física

## La librería estándar

Uno de los eslóganes de Python es _batteries included_. Se refiere a la cantidad de funcionalidad disponible en la instalación Python básica, sin necesidad de recurrir a paquetes externos.

En esta sección revisamos brevemente algunos de los módulos disponibles. Para muchas más información: https://docs.python.org/3/library/

### Interacción con el intérprete de Python: `sys`

Ofrece tanto información, como capacidad de manipular diversos aspectos del propio entorno de Python.

- `sys.argv`: Lista con los argumentos pasados al programa en ejecución.
- `sys.version`: String con la versión actual de Python.
- `sys.stdin/out/err`: Objetos fichero usados por el intérprete para entrada, salida y error.
- `sys.exit`: Función para acabar el programa.


### Interacción con el sistema operativo: `os`

Interfaz _portable_ para funcionalidad que depende del sistema operativo.

Contiene funcionalidad muy variada, a veces de muy bajo nivel.

- `os.environ`: diccionario con variables de entorno (modificable)
- `os.getuid`, `os.getgid`, `os.getpid`...: Obtener UID, GID, process ID, etc. (Unix)
- `os.uname`: información sobre el sistema operativo 
- `os.getcwd`, `os.chdir`, `os.mkdir`, `os.remove`, `os.stat`...: operaciones sobre el sistema de ficheros
- `os.exec`, `os.fork`, `os.kill`... : gestión de procesos

Para algunas de estas operaciones es más conveniente utilizar módulos más específicos, o de más alto nivel.

### Operaciones sobre el sistema de ficheros

- Para manipulación de _paths_, borrado, creación de directorios, etc.: `pathlib` (moderno), o `os.path` (clásico)
- Expansión de _wildcards_ de nombres de fichero (Unix _globs_): `glob`
- Para operaciones de copia (y otros) de alto nivel: `shutil`
- Para ficheros y directorios temporales (de usar y tirar): `tempfile`

### Gestión de procesos

- `threading`: interfaz de alto nivel para gestión de _threads_.

  - Padece el problema del _Global Interpreter Lock_, de Python: es un _lock_ global, que asegura que solo un thread se está ejecutando en Python en un momento dado (excepto en pausas por I/O). Impide mejorar el rendimiento con múltiples CPUs.

  - `queue`: implementa colas multi-productor, multi-consumidor para un intercambio seguro de información entre múltiples _threads_.


- `multiprocessing`: interfaz que imita al the `threading`, pero utiliza multi-proceso, en lugar de threads (evita el problema del GIL). Soporta Unix y Windows. Ofrece concurrencia local y remota.

  - El módulo `multiprocessing.shared_memory`: facilita la asignación y gestión de memoria compartida entre varios procesos.


- `subprocess`: Permite lanzar y gestionar subprocesos (comandos externos) desde Python.

  - Para Python >= 3.5, se recomienda usar la función `run`, salvo casos complejos.


In [None]:
from subprocess import run, PIPE

def myrun(cmd, shell=False, out=True, check=False):
    
    if not out:
        # Use 'run' without capturing stdout/err
        res = run(cmd, shell=shell, check=check)        
    else:
        # Use 'run' with stdout/err text
        res = run(cmd, shell=shell, check=check, stdout=PIPE, stderr=PIPE, universal_newlines=True)        

    # Show results
    print('------- ret code:', res.returncode, '; err:', res.stderr)
    if res.stdout:  print('\n'.join(res.stdout.splitlines()[:3]))
    print('\n')

In [None]:
# Without shell, we must split command name and args
print('NO SHELL')
myrun(['ls', '-l'])

# With shell, we may just pass a string
print('WITH SHELL')
myrun('ls -l', shell=True)

print('NO OUTPUT')
myrun(['ls', '-l'], out=False)

In [None]:
cmd = 'ls -l XXXX'.split()

print('ERROR NO-CHECK')
myrun(cmd)

print('ERROR CHECK')
try:
    myrun(cmd, check=True)
except Exception as ex:
    print(f'--- Error of type {type(ex)}:\n    {ex}\n    {ex.stderr}\n')

print('NO OUTPUT')
myrun(cmd)

### Números y matemáticas

- `math`: operaciones matemáticas definidas por el estándar de C (`cmath`, para números complejos)
- `random`: generadores de números pseudo-aleatorios para varias distribuciones
- `statistics`: estadísticas básicas 

### Manejo avanzado de funciones e iteradores

- `itertools`: útiles para crear iteradores de forma eficiente.
- `functools`: funciones de alto nivel que manipulan otras funciones
- `operators`: funciones correspondientes a los operadores intrínsicos de Python

In [None]:
import operator
operator.add(3, 4)

### Red 

- `socket`: operaciones de red de bajo nivel
- `asyncio`: soporte para entornos de entrada/salida asíncrona
- Existen varias librerías para interacción HTTP, pero se recomienda la librería externa `requests`.

### Desarrollo, depuración y perfilado

- `pydoc`: generación de documentación (HTML), a partir de los docstrings
- Depuración

  - Muchos IDEs, y Jupyterlab, incluyen facilidades de depuración en sus entornos.
  - `pdb`: _Debugger_ oficial de Python
  
    - Correr scripts como `python3 -m pdb myscript.py`
    - Introducir un _break point_ con `import pdb; pdb.set_trace()`


- `cProfile`: _Profiler_

- `timeit`:  Medición de tiempos de ejecución de código/scripts

```python
$ python3 -m timeit '"-".join(str(n) for n in range(100))'
10000 loops, best of 5: 30.2 usec per loop

>>> import timeit
>>> timeit.timeit('"-".join(str(n) for n in range(100))', number=10000)
0.3018611848820001
 
%timeit "-".join(str(n) for n in range(100))   # Jupyter line mode 

%%timeit ...   # Jupyter cell mode
```


- `unittest`: creación de tests para validación de código (_test-driven programming_)

  - La librería externa `pytest` simplifica algunas tareas, y es muy popular

### Números y matemáticas

- `math`: operaciones matemáticas definidas por el estándar de C (`cmath`, para números complejos)
- `random`: generadores de números pseudo-aleatorios para varias distribuciones
- `statistics`: estadísticas básicas 

### Otros
- `argparse`: procesado de argumentos y opciones por línea de comando
  - Mi recomendación es crearse un _esqueleto_ tipo como base para futuros scripts.
- `re`: procesado de expresiones regulares
- `time`, `datetime`: manipulación de fechas y tiempo (medición y representación del tiempo, deltas de tiempo, etc.)

## La pila NumPy/Scipy

Este conjunto de librerías de código abierto constituye la base numérica, matemática, y de visualización sobre la que se construye el universo matemático/científico en Python.

- **NumPy**: Paquete de propósito general para procesamiento de objetos _array_ (vectores y matrices), de altas prestaciones.

  - Sirve de base para la mayoría de los demás paquetes matemáticos.
  - Permite realizar operaciones matriciales eficientes (sin usar bucles explícitos) 
  - Utiliza librerías compiladas (C y Fortran), con un API Python, para conseguir mejor rendimiento.


- **SciPy**: Construida sobre NumPy, y como base de muchas de las siguientes, ofrece múltiples utilidades para integración numérica, interpolación, optimización, algebra lineal, procesado de señal y estadística.

  - No confundir la _librería SciPy_, con el proyecto o pila SciPy, que se refiere a todas las de esta sección.


- **Matplotlib**: Librería de visualización (gráficos 2D) de referencia de Python.

  - También sirve de base para otras librerías, como _Seaborn_ o _Pandas_.


- **Pandas**: Manipulación de datos de manera ágil y eficiente.

  - Utiliza un objeto _DataFrame_, que representa la información en columnas etiquetadas e indexadas.
  - Ofrece funcionalidades para buscar, filtrar, ordenar, transformar o extraer información.


- **SymPy**: Librería de matemáticas simbólicas (al estilo de _Mathematica_)


## Gráficos

- **Seaborn**: Construida sobre Matplotlib ofrece un interfaz de alto nivel, para construir, de forma sencilla, gráficos avanzados para modelos estadísticos.

- **Bokeh**: Librería para visualización interactiva de gráficos en web, o en Jupyter notebooks.

- **Plotly**: Gráficos interactivos para web. Es parte de un proyecto mayor **_Dash_**, un entorno para construir aplicaciones web para análisis de datos en Python (sin escribir _javascript_).

- **Scikit-image**: Algoritmos para _procesado_ de imágenes (diferente propósito que los anteriores).

- Otras: **ggplot2/plotnine** (basadas en la librería _ggplot2_ de R), **Altair** (librería declarativa, basada en _Vega-Lite_), `Geoplotlib` y `Folium` (para construir mapas).


## Matemáticas y estadística

- **Statsmodel**: Estimación de modelos estadísticos, realización de tests y exploración de datos estadísticos.
- **PyStan**: Inferencia Bayesiana.
- **NetworkX**: Creación, manipulación y análisis de redes y grafos.

## Machine Learning

- **Scikit-learn**: Librería de aprendizaje automático de propósito general, construida sobre NumPy. Ofrece múltiples algoritmos de ML, como _support vector machines_, o _random forests_, así como muchas utilidades para pre- y postprocesado de datos.

- **TensorFlow** y **PyTorch**: son dos librerías para programación de redes neuronales, incluyendo optimización para GPUs, muy extendidas.

  - **Keras**: Es un interfaz simplificado (de alto nivel) para el uso de TensorFlow.

## Otros

### Procesamiento del Lenguaje Natural

Las siguientes librerías ofrecen funcionalidades de análisis sintáctico y semántico de textos libres: 

- **GenSim**
- **SpaCy** 
- **NLTK**

### Datos HDF5

- **h5py**: Interfaz a datos HDF5 que trata de ofrecer toda la funcionalidad del interfaz C de HDF5 en Python, integrado con el los objetos y tipos NumPy, por lo que puede usarse en código Python de manera sencilla.

- **pytables**: Otro interfaz a datos HDF5 con un interfaz a más alto nivel que `h5py`, y que ofrece funcionalidades adicionales al estilo de una base de datos (consultas complejas, indexado avanzado, optimización de computación con datos HDF5, etc.)