# 4. ESTRUCTURA Y DISTRIBUCIÓN DEL PAQUETE

Capítulo 3: Cómo empaquetar un paquete de Python,  proporcionó una descripción general práctica de cómo crear, instalar y distribuir un paquete de Python. Este capítulo ahora analiza con más detalle qué es realmente un paquete de Python y profundiza en cómo se estructuran, instalan y distribuyen los paquetes.

# 4.1 Fundamentos del empaquetado

Todos los datos de un programa Python están representados por objetos((números enteros, funciones...)) o por relaciones entre objetos. Podemos encontrar el tipo de un objeto Python usando la función type().

El objeto Python importante para nuestra discusión sobre los paquetes es el objeto “módulo”. Un módulo es un objeto que sirve como unidad organizativa del código Python. Normalmente, el código Python que desea reutilizar se almacena en un archivo con un sufijo .py y se importa mediante la declaración import. Este proceso crea un objeto módulo con el mismo nombre que el archivo importado (excluyendo el sufijo .py ) y desde este objeto, podemos acceder al contenido del archivo.

Por ejemplo, imaginemos que tenemos un módulo greetings.py en nuestro directorio actual que contiene funciones para imprimir “¡Hola mundo!” en inglés y en squamish

```python
def hello_world():
    print("Hello World!")


def hello_world_squamish():
    print("I chen tl'iḵ!")

>>> import greetings
>>> type(greetings)

module

```

Llamamos al objeto módulo una “unidad organizativa de código” porque se puede acceder al contenido del módulo (en este caso, las dos funciones “hola mundo”) a través del nombre del módulo y la “notación de puntos”. Por ejemplo:

```python
>>> greetings.hello_world()
"Hello World!"
>>> greetings.hello_world_squamish()
"I chen tl'iḵ!"
```

Un “namespace” en Python es una asignación de nombres a objetos. La dir()función se puede usar para inspeccionar un espacio de nombres. Cuando se llama sin argumentos, dir()devuelve una lista de nombres definidos en el espacio de nombres actual: 

```python 
>>> dir()
['__annotations__', '__builtins__', '__doc__', '__loader__',
 '__name__', '__package__', '__spec__', 'hello_world',
 'greetings']
 ```
Los otros nombres delimitados por guiones bajos dobles son objetos que se inicializaron automáticamente cuando iniciamos el intérprete de Python y son detalles de implementación que no son importantes para nuestra discusión.

El punto importante que hay que destacar aquí es que cuando se importa un módulo mediante la import declaración, se crea un objeto de módulo y tiene su propio espacio de nombres que contiene los nombres de los objetos de Python definidos en los módulos y a los que podemos acceder mediante la notación de puntos.



```python 
>>> dir(greetings)
['__annotations__', '__builtins__', '__doc__', '__loader__',
 '__name__', '__package__', '__spec__', 'hello_world',
 'hello_world_squamish']

Un punto importante que hay que destacar aquí es que no existe relación entre los nombres de los diferentes espacios de nombres. Esto significa que podemos tener objetos con exactamente el mismo nombre en una sesión de Python si existen en diferentes espacios de nombres. Por ejemplo, si ahora definimos una función llamada hello_world en nuestro intérprete de python:
```python
>>> def hello_world(name:str):
        response="Hello World! My name is {name}"
        return print(response)
>>> hello_world("Tom")
"Hello world! My name is Tom."
>>> greetings.hello_world()
"Hello World!"

Ahora que tenemos una comprensión básica de los módulos, podemos seguir hablando de los paquetes. Los paquetes son simplemente una colección de uno o más módulos. Normalmente están estructurados como un directorio (el paquete) que contiene uno o más archivos .py (los módulos) y/o subdirectorios (a los que llamamos subpaquetes). __init__.pySe utiliza un archivo especial llamado para indicarle a Python que un directorio es un paquete (en lugar de un simple directorio común y corriente en su computadora).
```bash
pkg
├── __init__.py
├── module1.py
└── subpkg
    ├── __init__.py
    └── module2.py

Independientemente de si se trata de importar un módulo único e independiente (es decir, un archivo .py ) o de un paquete (es decir, un directorio), Python creará un objeto de módulo en el namespace actual.

```python 
>>> import pycounts
>>> type(pycounts)
module
```
Tenga en cuenta que, a pesar de importar nuestro pycounts paquete (que contiene dos módulos), Python creó un único objeto de módulo. Al igual que antes, podemos acceder al contenido de nuestro paquete mediante la notación de puntos.

```python
>>> from pycounts.plotting import plot_words
>>> type(plot_words)
function
```

Si bien obtenemos un objeto de módulo independientemente de si importamos un solo módulo (un solo archivo .py ) o un paquete (un directorio que contiene uno o más archivos .py ), una diferencia técnica entre un módulo y un paquete en Python es que los paquetes se importan como objetos de módulo que tienen un __path__ atributo.

Al importar un paquete o módulo, Python lo busca en la lista predeterminada de directorios definidos en sys.path:

```python 
>>> import sys
>>> sys.path
['',
 '/opt/miniconda/base/envs/pycounts/lib/python39.zip',
 '/opt/miniconda/base/envs/pycounts/lib/python3.9',
 '/opt/miniconda/base/envs/pycounts/lib/python3.9/lib-dynload',
 '/opt/miniconda/base/envs/pycounts/lib/python3.9/site-packages']
```
La cadena vacía al comienzo de la lista representa el directorio actual.

Pero al importar algo de un paquete, Python usa el __path__atributo del paquete para buscar ese algo, en lugar de las rutas en sys.path. Por ejemplo, verifiquemos el __path__atributo del pycounts objeto:

```python 
>>> pycounts.__path__
['/Users/tomasbeuzen/pycounts/src/pycounts']
```

Nótese que el módulo pycounts lo habíamos importado del paquete pycounts haciendo

```python
>>> from pycounts import pycounts


**Nota**: 

Cuando se dice que Poetry instala paquetes en "modo editable", significa que los paquetes se instalan de tal manera que cualquier cambio en el código fuente se refleja inmediatamente sin necesidad de reinstalar el paquete. Esto es particularmente útil durante el desarrollo de un proyecto. 

Cuando hacemos poetry install:

1.  Poetry no copia los archivos del paquete al directorio de paquetes instalados. En su lugar, crea un enlace simbólico o referencia al código fuente en tu directorio de desarrollo. Esto significa que la ubicación real del código es la carpeta de tu proyecto, no en el directorio de paquetes instalados del entorno.

Ruta del paquete:
Sigue siendo la misma que la del directorio de tu proyecto. Si tu proyecto está en /ruta/al/proyecto/, esa será la ruta en la que se mantiene el código.

2. Esto permite que los cambios que hagas en los archivos del proyecto se vean reflejados de inmediato cuando ejecutas el código, sin necesidad de volver a ejecutar el proceso de instalación.

En modo no editable, cuando instalas un paquete (ya sea construyéndolo con poetry build y luego usando pip install, o directamente usando poetry install --no-dev si es una instalación desde un paquete externo), los archivos se copian en el directorio de paquetes del entorno virtual de Conda.

Generalmente, en un entorno Conda, los paquetes instalados se guardan en una ruta similar a:
```bash
/ruta/al/entorno_conda/lib/pythonX.X/site-packages/tu_paquete/
```

Todo esto significa que cuando escribes import pycounts.plotting, Python primero busca un módulo o paquete llamado pycounts en la lista de rutas de búsqueda definidas por sys.path. Si pycounts es un paquete, entonces python busca un módulo o subpaquete llamado plotting usando pycounts.__path__p

En definitiva, el mensaje más importante de esta sección es que los paquetes son una colección de módulos de Python. Nos ayudan a organizar y acceder mejor a nuestro código, así como a distribuirlo a otros, como veremos en la Sección 4.3 .

# 4.2 Estructura del paquete

## 4.2.1 Contenido del paquete

Como comentamos en la Sección 4.1 , los paquetes son una forma de organizar y acceder a una colección de módulos. Básicamente, un paquete se identifica como un directorio que contiene un ``` __init__.py``` archivo, y un módulo es un archivo con extensión .py que contiene código Python.
```bash
pkg
├── __init__.py
├── module1.py
└── subpkg
    ├── __init__.py
    └── module2.py
```
La estructura anterior satisface los criterios de un paquete Python y podría acceder al ```import``` contenido de este paquete en su computadora local si estuviera en el directorio de trabajo actual (o si su ruta se hubiera agregado manualmente a ```sys.path```). Pero este paquete carece del contenido necesario para que sea instalable.

Para crear un paquete instalable, necesitamos una herramienta capaz de instalar y construir paquetes(p ej:```poetry```). Independientemente de la herramienta que utilice, se basará en uno o más archivos de configuración que definen los metadatos y las instrucciones de instalación para su paquete. En un proyecto administrado por ```poetry```, ese archivo es ```pyproject.toml```. También es una buena práctica incluir un README en el directorio raíz de su paquete para proporcionar información de alto nivel sobre el paquete y colocar el código Python de su paquete en un directorio src/. Por lo tanto, la estructura de un paquete instalable se parece más a esto:
```bash
pkg
├── src
│   └── pkg
│       ├── __init__.py
│       ├── module1.py
│       └── subpkg
│           ├── __init__.py
│           └── module2.py
├── README.md
└── pyproject.toml
```

La estructura anterior es adecuada para un paquete simple o uno destinado únicamente para uso personal. El paquete pycounts que creamos en el chap3 es un ejemplo más típico de una estructura de paquete de Python:
```bash
pycounts
├── .readthedocs.yml
├── CHANGELOG.md
├── CONDUCT.md
├── CONTRIBUTING.md
├── docs
│   └── ...
├── LICENSE
├── README.md
├── pyproject.toml
├── src
│   └── pycounts
│       ├── __init__.py
│       ├── plotting.py
│       └── pycounts.py
└── tests
    └── ...
```

## 4.2.2 Nombres de paquetes y módulos

Las pautas fundamentales son:

- Los paquetes y módulos deben tener un nombre único, corto y completamente en minúsculas.

- Se pueden usar guiones bajos para separar palabras en un nombre si esto mejora la legibilidad, pero generalmente se desaconseja su uso.

En términos del nombre real elegido para un módulo o paquete, puede ser útil considerar las siguientes “tres M” (en inglés):

1. Significativo : el nombre debe reflejar la funcionalidad del paquete.

2. Memorable : el nombre debe ser fácil de encontrar, recordar y relacionar con otros paquetes relevantes para los usuarios.

3. Manejable : recuerda que los usuarios de tu paquete accederán a su contenido/espacio de nombres mediante notación de puntos. Haz que sea lo más rápido y fácil posible para ellos hacer esto manteniendo tus nombres breves y concisos.

Por último, siempre debes verificar PyPI y otros sitios de alojamiento populares como GitHub, GitLab, BitBucket, etc., para asegurarte de que el nombre de paquete elegido no esté ya en uso.


## 4.2.3 Referencias dentro del paquete

Al crear paquetes de varios módulos, es habitual querer utilizar el código de un módulo en otro. Por ejemplo, considere la siguiente estructura de paquete:

```bash
src
└── package
    ├── __init__.py
    ├── moduleA.py
    ├── moduleB.py
    └── subpackage
        ├── __init__.py
        └── moduleC.py
```

Un desarrollador puede querer importar código desde moduleA en el moduleB .Esta es una “referencia dentro del paquete” y se puede lograr mediante una importación “absoluta” o “relativa”.

Las importaciones absolutas utilizan el nombre del paquete en un contexto absoluto. Las importaciones relativas utilizan puntos para indicar desde dónde debe comenzar la importación relativa. Un solo punto indica una importación relativa al paquete (o subpaquete) actual; se pueden utilizar puntos adicionales para avanzar en la jerarquía de empaquetado, un nivel por punto después del primer punto.

Ejemplos:
- Módulo A en módulo B (y viceversa):
    - absoluta:
    ```python
    from package.moduleA import XXX 
    ```
    - relativa:
    ```python
    from .moduleA import XXX 
    ```

- Módulo A en módulo C: 
    - absoluta: 
    ```python
    from package.moduleA import XXX 
    ```
    - relativa:
    ```python
    from ..moduleA import XXX 
    ```

- Módulo C en Módulo A:
    - absoluta:
    ```python
    from package.subpackage.moduleC import XXX 
    ```
    - relativa:
    ```python
    from .subpackage.moduleC import XXX 
    ```


Se recomienda utilizar importaciones absolutas porque son explícitas.



## 4.2.4 El archivo init

Anteriormente, analizamos cómo ```__init__.py``` se utiliza un archivo para indicar a Python que el directorio que contiene el ```__init__.py``` archivo es un paquete. El ```__init__.py``` archivo se puede dejar vacío (y a menudo se deja vacío) y solo se utiliza con el fin de identificar un directorio como un paquete. Sin embargo, también se puede utilizar para agregar objetos al espacio de nombres del paquete, proporcionar documentación o ejecutar otro código de inicialización.

Para ver esto utilizaremos nuestro paquete pycounts
```bash
pycounts
├── .readthedocs.yml
├── CHANGELOG.md
├── CONDUCT.md
├── CONTRIBUTING.md
├── docs
│   └── ...
├── LICENSE
├── pyproject.toml
├── README.md
├── src
│   └── pycounts
│       ├── __init__.py  <--------
│       ├── plotting.py
│       └── pycounts.py
└── tests
    └── ...
```
Cuando se importa un paquete, se ejecuta el archivo ```__init__.py``` y todos los objetos que define se vinculan al espacio de nombres del paquete. Por ejemplo, en el empaquetado de Python, la convención es definir la versión de un paquete en dos lugares:

1. En el archivo de configuración del paquete, ```pyproject.toml``` como vimos en la Sección 3.5.2 .

2. En el archivo ```__init__.py``` usando el atributo ```__version__```, para que los usuarios puedan verificar rápidamente la versión del paquete que están usando, con un código como el siguiente:
```python
>>> import pycounts
>>> pycounts.__version__
0.1.0
```
Pero esto significa que tienes que recordar actualizar la versión en dos lugares cada vez que quieras hacer una nueva versión de tu paquete. En cambio, es mejor tener la versión de tu paquete definida solo en ```pyproject.toml``` y después actualizarla automáticamente en el archivo ```__init__.py``` usando la función ```importlib.metadata.version()``` que lee la versión de un paquete desde sus metadatos instalados (i.e., the ```pyproject.toml``` file).

El código py-pkgs-cookiecutter que usamos para crear nuestro pycounts paquete ( Sección 3.2.2 ) ya completó nuestro ```__init__.py```archivo con este código para nosotros:
```python
# read version from installed package
from importlib.metadata import version
__version__ = version("pycounts")
```
Otro caso de uso común del``` __init__.py```archivo es controlar el comportamiento de importación de un paquete. Por ejemplo, actualmente solo hay dos funciones principales que los usuarios usarán comúnmente de nuestro pycounts paquete: ```pycounts.count_words()```y ```plotting.plot_words()```. Los usuarios deben escribir la ruta completa a estas funciones para importarlas:
```python
from pycounts.pycounts import count_words
from pycounts.plotting import plot_words
```
Podríamos facilitarles la vida a nuestros usuarios importando estas funciones básicas en el archivo  ```__init__.py```, lo que las vincularía al espacio de nombres del paquete.

```python
# read version from installed package
from importlib.metadata import version
__version__ = version(__name__)

# populate package namespace
from pycounts.pycounts import count_words
from pycounts.plotting import plot_words
```
Las funciones ahora están vinculadas al pycounts espacio de nombres, por lo que los usuarios pueden acceder a ellas de esta manera:
```python
>>> import pycounts
>>> pycounts.count_words
<function count_words>

## 4.2.5 Inclusión de archivos que no son de código en un paquete

Consideremos nuevamente la estructura completa de nuestro pycounts paquete:

```bash
pycounts
├── .readthedocs.yml
├── CHANGELOG.md
├── CONDUCT.md
├── CONTRIBUTING.md
├── docs
│   ├── changelog.md
│   ├── conduct.md
│   ├── conf.py
│   ├── contributing.md
│   ├── example.ipynb
│   ├── index.md
│   ├── make.bat
│   ├── Makefile
│   └── requirements.txt
├── LICENSE
├── README.md
├── poetry.lock
├── pyproject.toml
├── src
│   └── pycounts
│       ├── __init__.py
│       └── pycounts.py
└── tests
    ├── einstein.text
    └── test_pycounts.py
```
La versión instalable del paquete que distribuyes a otros normalmente solo contendrá el código Python en el src/directorio. El resto del contenido existe para respaldar el desarrollo del paquete y los usuarios no lo necesitan para utilizarlo. El desarrollador suele compartir este contenido por otros medios, como GitHub, para que otros desarrolladores puedan acceder a él y contribuir a él si lo desean.

Sin embargo, es posible incluir contenido adicional arbitrario en su paquete que será instalado por los usuarios, junto con el código Python habitual.

Con poetry, puede especificar el contenido adicional que desea incluir en su paquete utilizando el ```include``` parámetro debajo de la ```[tool.poetry]``` tabla en ```pyproject.toml```. Por ejemplo, si quisiéramos incluir nuestro tests/directorio y CHANGELOG.md archivo en nuestra distribución de paquetes instalables, agregaríamos lo siguiente a ```pyproject.toml```:

```python
[tool.poetry]
name = "pycounts"
version = "0.1.0"
description = "Calculate word counts in a text file!"
authors = ["Tomas Beuzen"]
license = "MIT"
readme = "README.md"
include = ["tests/*", "CHANGELOG.md"]

...rest of file hidden...
```
La mayoría de los desarrolladores no enviarán contenido adicional con su paquete de esta manera, prefiriendo compartirlo a través de un servicio como GitHub, pero ciertamente hay casos de uso para hacerlo; por ejemplo, si está compartiendo un paquete de forma privada dentro de una organización, es posible que desee enviar todo con su paquete (documentación, pruebas, etc.).


## 4.2.6 Inclusión de datos en un paquete

