# Introducción

- Crear entornos reproducibles en Python no es del todo sencillo.
- Existen diversas opciones que han ido evolucionando en el tiempo.
- La importancia del entorno reproducible es lograr que una aplicación se ejecute con las mismas versiones de librerías que utilizaba el desarrollador u otros usuarios que creen un nuevo entorno para ejecutar la aplicación.
- A lo largo de los años han surgido distintas maneras de hacerlo.

## `requirements.txt`

- El primero en usarse fue el archivo `requirements.txt`.
- En él se escribía en cada línea cada una de las librerías que ibas a necesitar.
- Bastaba con un simple comando para instalar los paquetes necesarios:

  ```bash
  pip install -r requirements.txt

    El primer problema que apareció es que pip instala la última versión posible para cada paquete, lo que lleva a un entorno no reproducible.

Ejemplo de requirements.txt:

tensorflow
uvicorn
fastapi

    Sin embargo, podemos bloquear la versión de un paquete poniéndole la versión deseada al lado:

Ejemplo de requirements.txt con versiones especificadas:

makefile

tensorflow==2.3.1
uvicorn==0.12.2
fastapi==0.63.0

    Para crear el archivo requirements.txt, se haría con algo como esto:

    bash

    pip freeze > requirements.txt

    En este archivo aparecen todas las librerías, las instaladas a mano y las dependencias.

Problemas con las actualizaciones de librerías y su gestión
conda env files

    Conda es genial para crear entornos independientes de Python.

    Con el archivo environment.yml se pueden crear entornos con los paquetes que queremos.

    Basta con un simple comando para instalar los paquetes necesarios:

    bash

    conda env create -f environment.yml

Ejemplo de environment.yml:

yaml

name: machine-learning-env
dependencies:
  - ipython
  - matplotlib
  - pandas
  - pip
  - python
  - scikit-learn

    Conda es lento y consume mucha memoria, pero existe mamba como alternativa.
    Instala la última versión de cada paquete, pero se puede indicar la versión:

Ejemplo de environment.yml con versiones especificadas:

yaml

name: machine-learning-env
dependencies:
  - ipython=7.13
  - matplotlib=3.1
  - pandas=1.0
  - pip=20.0
  - python=3.6
  - scikit-learn=0.22

    El problema ahora se encuentra en dos puntos:
        Las versiones de las dependencias, que se podría solucionar añadiendo explícitamente las dependencias con su versión.
        Las actualizaciones de versiones.

    Puede crear un archivo de entorno a partir de uno existente:

    bash

conda env export --name machine-learning-env --file environment.yml

Estos archivos de entorno creados de este modo tienen el problema de la compatibilidad con otros sistemas operativos. Es muy probable que como dependencia entre algún paquete dependiente del sistema operativo. Si intentas crear el entorno en otro SO, fallará.

Existe una actualización de conda que lo que hace es actualizar el entorno virtual a partir de un environment.yml. Habría que actualizar el archivo manualmente las versiones en el environment.yml y luego hacer la actualización:

bash

    conda env update --file environment.yml --prune

pyproject.toml

    Hay varios PEPs que hablan de cómo gestionar la información de un proyecto Python.
    El PEP 508 parece que es el ganador y el que más está recibiendo soporte.

Ejemplo de pyproject.toml con dependencias especificadas:

toml

[tool.poetry]
name = "app-proba"
version = "0.1.0"
description = "Bla bla bla"
authors = ["Isaac Rincon"]
license = "MIT"
readme = "README.md"

[tool.poetry.dependencies]
python = "^3.11"
jinja2 = "^3.1.3"
pandas = "^2.2.0"
babel = "^2.14.0"
opencv-python = "^4.9.0.80"
pytesseract = "^0.3.10"
thefuzz = "^0.22.1"
pyzbar = "^0.1.9"

Poetry

    Poetry es una herramienta para gestionar las dependencias de un proyecto, con la intención de sustituir a requirements.txt.
    Simplifica el control de versiones, la instalación de paquetes y la resolución de dependencias.

css


Este formato Markdown debería ayudarte a estudiar y comprender mejor el tema en un entorno como Jupyter Notebook.

# Xestión de contornos e poetry

![Logo do Ministerio de Educación](imagen/ministerio_educacion.png)
Fondos NextGeneration

## Introdución

- Crear entornos reproducibles en Python no es del todo sencillo.
- Existen diversas opciones que han ido evolucionando en el tiempo.
- La importancia del entorno reproducible es lograr que una aplicación se ejecute con las mismas versiones de librerías que usaba el desarrollador u otros usuarios que creen una nueva contorna para ejecutar la aplicación.
- A lo largo de los años han surgido distintos modos de hacerlo.

## `requirements.txt`

- El primero en usarse fue el archivo `requirements.txt`.
- En él se escribía en cada línea cada una de las librerías que ibas a necesitar.
- Bastaba con un simple comando para instalar los paquetes necesarios:

  ```bash
  pip install -r requirements.txt

    El primer problema que apareció es que pip instala la última versión posible para cada paquete, lo que lleva a un entorno no reproducible.

Ejemplo de requirements.txt:

tensorflow
uvicorn
fastapi

    Sin embargo, podemos bloquear la versión de un paquete poniéndole la versión deseada al lado:

Ejemplo de requirements.txt con versiones especificadas:

makefile

tensorflow==2.3.1
uvicorn==0.12.2
fastapi==0.63.0

    Para crear el archivo requirements.txt, se haría con algo como esto:

    bash

    pip freeze > requirements.txt

    En este archivo aparecen todas las librerías, las instaladas a mano y las dependencias.

Problemas con las actualizaciones de librerías y su gestión
Conda env files

    Conda es genial para crear contornas independientes de Python.

    Con el archivo environment.yml se pueden crear contornas con los paquetes que queremos.

    Basta con un simple comando para instalar los paquetes necesarios:

    bash

    conda env create -f environment.yml

Ejemplo de environment.yml:

yaml

name: machine-learning-env
dependencies:
  - ipython
  - matplotlib
  - pandas
  - pip
  - python
  - scikit-learn

    Conda es lento y consume mucha memoria, pero existe mamba como alternativa.
    Instala la última versión de cada paquete, pero se puede indicar la versión:

Ejemplo de environment.yml con versiones especificadas:

yaml

name: machine-learning-env
dependencies:
  - ipython=7.13
  - matplotlib=3.1
  - pandas=1.0
  - pip=20.0
  - python=3.6
  - scikit-learn=0.22

    El problema ahora se encuentra en dos puntos:
        Las versiones de las dependencias, que se podría solucionar añadiendo explícitamente las dependencias con su versión.
        Las actualizaciones de versiones.

    Puede crear un archivo de entorno a partir de uno existente:

    bash

conda env export --name machine-learning-env --file environment.yml

Estos archivos de entorno creados de este modo tienen el problema de la compatibilidad con otros sistemas operativos. Es muy probable que como dependencia entre algún paquete dependiente del sistema operativo. Si intentas crear el entorno en otro SO, fallará.

Existe una actualización de conda que lo que hace es actualizar el entorno virtual a partir de un environment.yml. Habría que actualizar el archivo manualmente las versiones en el environment.yml y luego hacer la actualización:

bash

    conda env update --file environment.yml --prune

pyproject.toml

    Hay varios PEPs que hablan de cómo gestionar la información de un proyecto Python.
    El PEP 508 parece que es el ganador y el que más está recibiendo soporte.

Ejemplo de pyproject.toml con dependencias especificadas:

toml

[tool.poetry]
name = "app-proba"
version = "0.1.0"
description = "Bla bla bla"
authors = ["Isaac Rincon"]
license = "MIT"
readme = "README.md"

[tool.poetry.dependencies]
python = "^3.11"
jinja2 = "^3.1.3"
pandas = "^2.2.0"
babel = "^2.14.0"
opencv-python = "^4.9.0.80"
pytesseract = "^0.3.10"
thefuzz = "^0.22.1"
pyzbar = "^0.1.9"

Poetry

    Poetry es una herramienta para gestionar las dependencias de un proyecto, con la intención de sustituir a requirements.txt.
    Simplifica el control de versiones, la instalación de paquetes y la resolución de dependencias.

Iniciar un proyecto

    Si el proyecto aún no existe se puede iniciar con:

    bash

    poetry new nuevo_programa

    Esto generará una estructura básica, con el pyproject, README, el paquete principal y los tests.
    A partir de ahí toca ir ampliando.

Poetry en un proyecto ya iniciado

    Esto significa que ya tenemos código y archivos en el proyecto y se quiere empezar a gestionar las dependencias con poetry.

    Ejecutamos dentro de la carpeta del proyecto:

    bash

    poetry init

    Similar al anterior, pero solo generará el archivo pyproject.toml y el lock.

Añadir dependencias

    Para añadir dependencias se puede modificar el archivo pyproject.toml a mano.

    Es mejor hacerlo con un comando:

    bash

    poetry add cowsay

    Con eso, se buscará el paquete, se instalará y se modificará el pyproject.toml y el lock para reflejar el cambio.

Grupos de dependencias

    Las dependencias se pueden agrupar para distintas funcionalidades.

    No son las mismas dependencias las que se utilizan para ejecutar el programa que las que se usan cuando se está haciendo el programa.
    Por ejemplo, si se necesita pytest para ejecutar el programa.

    Los grupos de dependencias permiten separar las dependencias que son opcionales.

    Para agregar una dependencia dentro de un grupo:

    bash

poetry add pytest --group dev

El grupo se crea cuando se introduce la primera dependencia en él.
Se puede hacer un grupo opcional, añadiendo optional = true:

toml

    [tool.poetry.group.docs]
    optional = true

Instalar dependencias

    Se pueden instalar todas las dependencias mediante:

    bash

poetry install

Esto instalaría los grupos de dependencia principal y todos los grupos restantes que no fueran marcados como opcionales.
Se pueden no instalar ciertos grupos:

bash

poetry install --without test,docs

O se pueden instalar grupos opcionales:

bash

    poetry install --with test,docs

Actualizar

    Una vez que se agrega una dependencia en el archivo de lock se bloquea la versión.

    Se puede hacer una actualización hasta la última versión con:

    bash

poetry update

Esto buscaría todas las dependencias y actualizaría hasta la última versión que cumpla las reglas.
Se podría hacer una actualización de un único paquete:

bash

    poetry update jinja2

Conda + Poetry

    Conda y poetry tienen funciones superpuestas y algunas exclusivas.
    Conda permite crear virtualenvs con la versión de Python que se quiera, pero presenta algún problema con la gestión de librerías.
    Poetry gestiona bien las librerías y cuando se ejecuta dentro de una contorna virtual respeta su existencia.

Solución

    Crear la contorna virtual con conda, con la versión que se quiera de Python.
    Con poetry se gestionan las dependencias dentro de la contorna virtual.
    Algunas de las librerías de IA, con dependencias con librerías en Python se pueden instalar mediante conda también y se ahorra la compilación.