# Master en Python Avanzado por Asociación AEPI

## Trabajar con imágenes

### Pillow

Pillow es un gran amigo del proyecto PIL, que ha permitido, entre otros, su migración a Python 3. PIL es el acrónimo de Python Imaging Library. Se trata, como su propio nombre indica, de una librería de manipulación de imágenes matriciales para Python y soporta los formatos BMP, GIF, JPG, PNG y TIFF, entre otros.

Dispone de una documentación oficial interesante (http://www.pythonware.com/libra ry/pil/handbook/) y muchos otros recursos en Internet que permiten trabajar de manera sencilla con las imágenes.

Los dispositivos fotográficos digitales actuales permiten realizar fotografías de muy buena calidad y, por tanto, de grandes dimensiones. Una de las funcionalidades esenciales es poder redimensionar una fotografía. Por ejemplo, si imaginamos un sitio web que muestre galerías de imágenes, la representación de 20 fotos por página, a 15 MB por fotografía, sería un error monumental. La solución ideal es proporcionar tres imágenes por cada fotografía: una de tamaño fijo de 100 o 150 píxeles, para la miniatura que se muestra en la galería, una fotografía de 600 píxeles de ancho para mostrar la fotografía en una pantalla y un vínculo hacia la imagen en formato original para su descarga.

La librería se instala de la siguiente manera: pip install pillow

EFECTOS EN IMÁGENES

A continuación, un pequeño código de fuente que hace uso de algunas de las posibilidades de efectos que provee la librería.


In [23]:
from PIL import Image, ImageChops, ImageEnhance, ImageOps

path = r"C:\Users\ManuBenito\Documents\GitHub\aepi_master_python_MBENITO\Temario\image.jpg"

def main():
    image = Image.open(path)

    # Invertir colores.
    new_image = ImageChops.invert(image)
    new_image.save("image_1.png")

    # Escala de grises.
    new_image = ImageOps.grayscale(image)
    new_image.save("image_2.png")

    # Resaltar luces.
    new_image = ImageEnhance.Brightness(image).enhance(2)
    new_image.save("image_3.png")

    # Contraste.
    new_image = ImageEnhance.Contrast(image).enhance(4)
    new_image.save("image_4.png")

    # Espejo.
    new_image = ImageOps.mirror(image)
    new_image.save("image_5.png")

    # Cambiar tamaño.
    new_image = image.resize((320, 240))
    new_image.save("image_6.png")

    # Diminuir nitidez.
    new_image = ImageEnhance.Sharpness(image).enhance(-4)
    new_image.save("image_7.png")

    # Redimensionar imagenes
    w, h = image.size
    image.thumbnail((150, int(150. *h/w)), Image.ANTIALIAS)
    image.save("image_8.png")


#if __name__ == "__main__":
main()


In [24]:
main()

#### Recucperar la información de la imagen

Cuando se trabaja una imagen, conviene conocer la información relativa, de manera que podamos determinar cómo se va a manipular, o incluso para realizar transformaciones previas. Para abrir una imagen, basta con una línea (además del import):

```
from PIL import Image 

im Image.open (filename)
```

El método open determina el formato de la imagen y a partir de él es capaz de representar la imagen en el formato adecuado. La información relativa a su representación se obtiene de la siguiente manera: 


In [16]:
from PIL import Image, ImageDraw, ImageFont

#im Image.open (filename)

In [17]:
def informacion_imagen(path):
    image = Image.open(path)
    print(image.format)
    print(image.format_description)
    print(image.tile)
    print(image.getbbox())
    print(image.size)
    print(image.mode)
    print(image.getbands())
    print(image.getextrema())
    print(image.info)
    print(image.getexif())


In [18]:
informacion_imagen(path)

JPEG
JPEG (ISO 10918)
[('jpeg', (0, 0, 390, 218), 0, ('RGB', ''))]
(0, 0, 390, 218)
(390, 218)
RGB
('R', 'G', 'B')
((2, 255), (10, 255), (5, 255))
{'jfif': 258, 'jfif_version': (1, 2), 'dpi': (300, 300), 'jfif_unit': 1, 'jfif_density': (300, 300), 'comment': b'LEADTOOLS v20.0\x00'}
{}


#### Agregar texto a la imagen

Después de abrir la imagen que deseamos editar, creamos una instancia de ImageDraw para dibujar sobre la misma. Antes de añadir un texto es necesario crear la fuente. PIL utiliza su propio formato de archivos para fuentes de texto, aunque también soporta TrueType y OpenType. Usuarios de Microsoft Windows pueden utilizar, por ejemplo, Arial.



In [21]:
def texto_en_imagenes(path):
    image = Image.open(path)
    draw = ImageDraw.Draw(image)
    font = ImageFont.truetype("arial.ttf", 60)


In [22]:
texto_en_imagenes(path)

El primer argumento indica la ubicación del archivo de fuente. En Windows, si no se especifica una ruta, el archivo será buscado en la carpeta de fuentes del sistema (usualmente C:\Windows\Fonts). El segundo argumento establece el tamaño.

En sistemas basados en Unix deberá especificarse la ruta completa. Por ejemplo:


In [None]:
def texto_en_imagenes():
    image = Image.open("image.png")
    draw = ImageDraw.Draw(image)
    # font = ImageFont.truetype("C:\Windows\Fonts\arial.ttf", 60) Para windows
    font = ImageFont.truetype("/usr/share/fonts/truetype/ttf-dejavu/DejaVuSerif.ttf", 60) # Para linux y Mac


Una vez cargada la fuente, la función ImageDraw.Draw.text inserta el texto en una posición y con un color específicos:

In [None]:
draw.text((50, 50), "CURSO DE HTML 5 Y CSS3", font=font, fill="white")

El primer argumento establece la posición (x, y) del texto en la imagen. Las coordenadas (0, 0) corresponden a la esquina superior izquierda.

El parámetro fill especifica el color, que bien puede ser una tupla con el formato RGBA. Por ejemplo, (255, 255, 255, 255) es equivalente a "white". El cuarto elemento es el valor del canal alpha (255 es totalmente opaco, 0 totalmente transparente). La funcionalidad de agregar contorno al texto no es soportada.

Guardamos el archivo como image_2.png.



In [None]:
def texto_en_imagenes():
    image = Image.open("image.png")
    draw = ImageDraw.Draw(image)
    # font = ImageFont.truetype("C:\Windows\Fonts\arial.ttf", 60) Para windows
    font = ImageFont.truetype("/System/Library/Fonts/Supplemental/Chalkboard.ttc", 60) # Para linux y Mac
    draw.text((5, 150), "CURSO DE HTML5", font=font, fill="black")
    image.save("image_2.png")



#### Rotando imágenes

Mientras trabaja en imágenes utilizando la biblioteca de procesamiento de imágenes de Python, hay casos en los que necesita voltear una imagen existente para obtener más información o mejorar su visibilidad. El módulo de imágenes de la biblioteca de Pillow nos permite voltear una imagen muy fácilmente. Vamos a utilizar la función de transposición (método) del módulo Imagen para voltear las imágenes. Algunos de los métodos más utilizados compatibles con 'transpose ()' son: 

•	Image.FLIP_LEFT_RIGHT: para voltear la imagen horizontalmente 
•	Image.FLIP_TOP_BOTTOM: para voltear la imagen verticalmente 
•	Image.ROTATE_90: para rotar la imagen especificando el grado



In [None]:

def rotando_imagenes_horizontal():
    image = Image.open("spiderman.png")
    # Haz un giro de izquierda a derecha
    hori_flippedImage = image.transpose(Image.FLIP_LEFT_RIGHT)
    hori_flippedImage.show()


In [None]:
def rotando_imagenes_vertical():
    image = Image.open("spiderman.png")
    # Haz un giro de izquierda a derecha
    verti_flippedImage = image.transpose(Image.FLIP_TOP_BOTTOM)
    verti_flippedImage.show()


## Trabajando con PDF

Aquí hay una lista de bibliotecas que se pueden usar para manejar archivos PDF:

•	PDFMiner: esta biblioteca se utiliza para extraer información útil de los documentos PDF. A diferencia de otras herramientas, el objetivo de este paquete es obtener y analizar los datos.
•	PyPDF2: esta es una biblioteca PDF hecha de Python puro que puede recolectar, dividir, transformar y combinar archivos PDF. También hay opciones disponibles para agregar datos personalizados, contraseñas y opciones de visualización a archivos PDF. Puede combinar archivos PDF completos y recuperar metadatos y texto de PDF.
•	Tabula-py: es el contenedor Python de tabula-java que se puede usar para leer las tablas presentes en PDF. También puede convertirlos en DataFrame of Pandas. También hay una opción para convertir el archivo PDF en un archivo JSON / TSV / CSV.
•	Slate: es la implementación del contenedor de PDFMiner.
•	PDFQuery: es la envoltura ligera de pyquery, lxml y pdfminer. Con esto, puede extraer los datos de archivos PDF de manera confiable sin escribir códigos largos.
•	Xpdf: es el contenedor de Python que actualmente ofrece solo la utilidad para convertir PDF a texto.






Casi todos estos paquetes lo hacen al mismo tiempo. Sin embargo, hay una diferencia importante entre PyPDF2 + y el pyPDF original, que es que el primero es compatible con Python 3.

El primer paso para trabajar con un PDF en Python es instalar el paquete. Puede usar pip (si está usando Python normal) para instalar PyPDF2. Esto es lo que debe hacer para instalar PyPDF2 usando pip:

pip install pypdf2

El proceso de instalación no lleva mucho tiempo ya que el paquete PyPDF2 no tiene dependencias. 

Cómo extraer información de un documento de un PDF en Python 

Puede usar PyPDF2 para extraer metadatos y algo de texto de un PDF. Esto puede ser útil cuando realiza ciertos tipos de automatización en sus archivos PDF preexistentes. Estos son los tipos actuales de datos que se pueden extraer:

•	Author
•	Creator
•	Producer
•	Subject
•	Title
•	Number of pages


### Leyendo atributos del pdf

Para aprender a leer los atributos de un pdf, usaremos el pdf suministrado en la carpeta del proyecto.

Escribamos algo de código usando ese PDF y aprendamos cómo puede obtener acceso a estos atributos:


In [None]:
from PyPDF2 import PdfFileReader


def extract_information(pdf_path):
    with open(pdf_path, 'rb') as f:
        pdf = PdfFileReader(f)
        information = pdf.getDocumentInfo()
        number_of_pages = pdf.getNumPages()

    txt = f"""
    Information about {pdf_path}: 

    Author: {information.author}
    Creator: {information.creator}
    Producer: {information.producer}
    Subject: {information.subject}
    Title: {information.title}
    Number of pages: {number_of_pages}
    """

    print(txt)
    return information


if __name__ == '__main__':
    path = 'info.pdf'
    extract_information(path)


Aquí importa PdfFileReader desde el paquete PyPDF2. PdfFileReader es una clase con varios métodos para interactuar con archivos PDF. En este ejemplo, llama a getDocumentInfo(), que devolverá una instancia de Document Information. Contiene la mayor parte de la información que le interesa. También llama a getNumPages() en el objeto del lector, que devuelve el número de páginas del documento.

La variable de información tiene varios atributos de instancia que puede usar para obtener el resto de los metadatos que desea del documento. Usted imprime esa información y también la devuelve para un posible uso futuro. 
Si bien PyPDF2 tiene extractText(), que se puede usar en sus objetos de página (no se muestra en este ejemplo), no funciona muy bien. Algunos archivos PDF devolverán texto y otros devolverán una cadena vacía.



### ROTANDO PAGINAS PDF

De vez en cuando, recibirá archivos PDF que contienen páginas que están en modo horizontal en lugar de modo vertical. O tal vez incluso están al revés. Esto puede suceder cuando alguien escanea un documento a PDF o correo electrónico. Puede imprimir el documento y leer la versión en papel o puede usar el poder de Python para rotar las páginas ofensivas. Para este ejemplo, puede elegir un artículo de Real Python e imprimirlo en PDF. Aprendamos cómo rotar algunas de las páginas de ese artículo con PyPDF2:


In [None]:
from PyPDF2 import PdfFileReader, PdfFileWriter


def rotate_pages(pdf_path):
    pdf_writer = PdfFileWriter()
    pdf_reader = PdfFileReader(pdf_path)
    # Rotate page 90 degrees to the right
    page_1 = pdf_reader.getPage(0).rotateClockwise(90)
    pdf_writer.addPage(page_1)
    # Rotate page 90 degrees to the left
    page_2 = pdf_reader.getPage(1).rotateCounterClockwise(90)
    pdf_writer.addPage(page_2)
    # Add a page in normal orientation
    pdf_writer.addPage(pdf_reader.getPage(2))

    with open('rotate_info.pdf', 'wb') as fh:
        pdf_writer.write(fh)


if __name__ == '__main__':
    path = 'info.pdf'
    rotate_pages(path)


Para este ejemplo, debe importar PdfFileWriter además de PdfFileReader porque necesitará escribir un nuevo PDF. "rotate_pages()" toma la ruta al PDF que deseas modificar. Dentro de esa función, deberá crear un objeto de escritor al que puede llamar pdf_writer y un objeto de lector llamado pdf_reader. 
A continuación, puede usar GetPage() para obtener la página deseada. 
Aquí tomas la página cero, que es la primera página. Luego llama al método rotateClockwise() del objeto de la página y pasa 90 grados. Luego, para la página dos, llame a rotateCounterClockwise() y páselo 90 grados también.

Después de cada llamada a los métodos de rotación, llama a addPage(). Esto agregará la versión girada de la página al objeto de escritor. La última página que agrega al objeto escritor es la página 3 sin que se le haya hecho ninguna rotación. Finalmente, escribe el nuevo PDF usando write(). Toma un objeto similar a un archivo como su parámetro. Este nuevo PDF contendrá tres páginas. Los dos primeros se girarán en direcciones opuestas entre sí y estarán en formato horizontal, mientras que la tercera página es una página normal. Ahora aprendamos cómo puede fusionar varios archivos PDF en uno.


### CÓMO COMBINAR ARCHIVOS PDF 

Hay muchas situaciones en las que querrá tomar dos o más archivos PDF y fusionarlos en un solo PDF. Por ejemplo, es posible que tenga una portada estándar que deba continuar con muchos tipos de informes. Puedes usar Python para ayudarte a hacer ese tipo de cosas. Para este ejemplo, puede abrir un PDF e imprimir una página como un PDF separado. Luego hazlo de nuevo, pero con una página diferente. Eso le dará un par de entradas para usar con fines de ejemplo. Avancemos y escribamos un código que pueda usar para fusionar archivos PDF:


In [None]:
from PyPDF2 import PdfFileReader, PdfFileWriter


def merge_pdfs(paths, output):
    pdf_writer = PdfFileWriter()

    for path in paths:
        pdf_reader = PdfFileReader(path)
        for page in range(pdf_reader.getNumPages()):
            # Add each page to the writer object
            pdf_writer.addPage(pdf_reader.getPage(page))

    # Write out the merged PDF
    with open(output, 'wb') as out:
        pdf_writer.write(out)

if __name__ == '__main__':
    paths = ['info.pdf', 'info2.pdf']
    merge_pdfs(paths, output='merged.pdf')

Puede usar merge_pdfs() cuando tiene una lista de archivos PDF que desea fusionar. También necesitará saber dónde guardar el resultado, por lo que esta función toma una lista de rutas de entrada y una ruta de salida. 



Luego recorre las entradas y crea un objeto de lector de PDF para cada una de ellas. A continuación, iterará sobre todas las páginas del archivo PDF y usará addPage() para agregar cada una de esas páginas a sí misma. 

Una vez que haya terminado de iterar sobre todas las páginas de todos los archivos PDF en su lista, escribirá el resultado al final. Un elemento que me gustaría señalar es que podría mejorar un poco este script agregando un rango de páginas para agregar si no desea fusionar todas las páginas de cada PDF. 


### CÓMO DIVIDIR ARCHIVOS PDF 

Hay momentos en los que puede tener un PDF que necesita dividir en varios PDF. Esto es especialmente cierto en el caso de los archivos PDF que contienen una gran cantidad de contenido escaneado, pero hay una gran cantidad de buenas razones para querer dividir un PDF. Así es como puede usar PyPDF2 para dividir su PDF en varios archivos:


In [None]:
from PyPDF2 import PdfFileReader, PdfFileWriter


def split(path, name_of_split):
    pdf = PdfFileReader(path)
    for page in range(pdf.getNumPages()):
        pdf_writer = PdfFileWriter()
        pdf_writer.addPage(pdf.getPage(page))

        output = f'{name_of_split}{page}.pdf'
        with open(output, 'wb') as output_pdf:
            pdf_writer.write(output_pdf)


if __name__ == '__main__':
    path = 'info.pdf'
    split(path, 'info_page')


En este ejemplo, una vez más crea un objeto de lector de PDF y recorre sus páginas. Para cada página del PDF, creará una nueva instancia de escritor de PDF y le agregará una sola página. Luego, escribirá esa página en un archivo con un nombre único. 
Cuando la secuencia de comandos termine de ejecutarse, debería tener cada página del PDF original dividida en PDF separados. Ahora tomemos un momento para aprender cómo puede agregar una marca de agua a su PDF.


### CÓMO AGREGAR MARCAS DE AGUA 

Las marcas de agua identifican imágenes o patrones en documentos impresos y digitales. Algunas marcas de agua solo se pueden ver en condiciones de iluminación especiales. La razón por la que la marca de agua es importante es que le permite proteger su propiedad intelectual, como sus imágenes o archivos PDF. Otro término para marca de agua es superposición. Puede usar Python y PyPDF2 para marcar con agua sus documentos. Debe tener un PDF que solo contenga su imagen o texto de marca de agua. Aprendamos cómo agregar una marca de agua ahora:



In [None]:
from PyPDF2 import PdfFileWriter, PdfFileReader


def create_watermark(input_pdf, output, watermark):
    watermark_obj = PdfFileReader(watermark)
    watermark_page = watermark_obj.getPage(0)

    pdf_reader = PdfFileReader(input_pdf)
    pdf_writer = PdfFileWriter()

    # Watermark all the pages
    for page in range(pdf_reader.getNumPages()):
        page = pdf_reader.getPage(page)
        page.mergePage(watermark_page)
        pdf_writer.addPage(page)

    with open(output, 'wb') as out:
        pdf_writer.write(out)


if __name__ == '__main__':
    create_watermark(
        input_pdf='info.pdf',
        output='watermarked_info.pdf',
        watermark='info2.pdf')


create_watermark() acepta tres argumentos: 
•	input_pdf: la ruta del archivo PDF para la marca de agua 
•	output: la ruta en la que desea guardar la versión con marca de agua del PDF. 
•	watermark: un PDF que contiene su imagen o texto de marca de agua 
En el código, abre el PDF de la marca de agua y toma solo la primera página del documento, ya que es donde debe residir su marca de agua. Luego, crea un objeto lector de PDF utilizando input_pdf y un objeto pdf_writer genérico para escribir el PDF con marca de agua. El siguiente paso es iterar sobre las páginas en input_pdf. Aquí es donde ocurre la magia. Deberá llamar a mergePage() y pasarle la página de marca de agua. Cuando lo haga, se superpondrá la página de marca de agua en la parte superior de la página actual. Luego agrega esa página recién fusionada a su objeto pdf_writer. Finalmente, escribe el PDF con la marca de agua nueva en el disco, 

### Proteger con contraseña

PyPDF2 actualmente solo admite agregar una contraseña de usuario y una contraseña de propietario a un PDF preexistente. En PDF land, una contraseña de propietario básicamente le otorgará privilegios de administrador sobre el PDF y le permitirá establecer permisos en el documento. Por otro lado, la contraseña de usuario solo le permite abrir el documento. Por lo que puedo decir, PyPDF2 en realidad no le permite establecer ningún permiso en el documento, aunque sí le permite establecer la contraseña de propietario. Independientemente, así es como puede agregar una contraseña, que también encriptará el PDF de forma inherente:


In [None]:
from PyPDF2 import PdfFileWriter, PdfFileReader


def add_encryption(input_pdf, output_pdf, password):
    pdf_writer = PdfFileWriter()
    pdf_reader = PdfFileReader(input_pdf)

    for page in range(pdf_reader.getNumPages()):
        pdf_writer.addPage(pdf_reader.getPage(page))

    pdf_writer.encrypt(user_pwd=password, owner_pwd=None, use_128bit=True)

    with open(output_pdf, 'wb') as fh:
        pdf_writer.write(fh)


if __name__ == '__main__':
    add_encryption(input_pdf='info.pdf',
                   output_pdf='info-encrypted.pdf',
                   password='aepi')



add_encryption() toma las rutas de PDF de entrada y salida, así como la contraseña que desea agregar al PDF. Luego abre un escritor de PDF y un objeto lector, como antes. Dado que querrá cifrar todo el PDF de entrada, deberá recorrer todas sus páginas y agregarlas al escritor. El paso final es llamar a encrypt(), que toma la contraseña del usuario, la contraseña del propietario y si se debe agregar o no el cifrado de 128 bits. El valor predeterminado es que el cifrado de 128 bits esté activado. Si lo establece en Falso, se aplicará en su lugar el cifrado de 40 bits.


### LEYENDO EL CONTENIDO DE UN PDF

Cuando desee extraer texto de un PDF, debe consultar el proyecto PDFMiner en su lugar. PDFMiner es mucho más robusto y fue diseñado específicamente para extraer texto de archivos PDF. Para instalar PDFMiner, debemos usar el siguiente comando:

pip install pdfminer

Vamos a extraer el texto de un archivo PDF y guardarlo en una variable de python:


In [None]:
from io import StringIO

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser

output_string = StringIO()
with open('info.pdf', 'rb') as in_file:
    parser = PDFParser(in_file)
    doc = PDFDocument(parser)
    rsrcmgr = PDFResourceManager()
    device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.create_pages(doc):
        interpreter.process_page(page)

print(output_string.getvalue())


## Regular expressions

## Programación asincrona

### Proceso, tarea de proceso y corrutina

#### Proceso

Un proceso es la ejecución de un conjunto de instrucciones mediante el uso de recursos físicos: los dos principales la memoria RAM, en la que se almacena su entorno de ejecución, y el procesador, que se utiliza para modificarlo. Se trata de una operación extremadamente compleja, en la que intervienen conceptos de programación de sistema muy avanzados. El proceso lo gestiona un planificador de tareas, que depende del sistema operativo. Este último se encarga de exponer recursos (memoria, tiempo de procesador...) y de velar por que cada proceso acceda a sus recursos de manera equitativa. Si existen varios procesadores, los procesos se distribuyen, también, de manera equitativa. 

Un programa ejecutado por el usuario puede corresponderse con un único proceso o con varios. 

Un programa se denomina multiproceso cuando crea varios procesos. Pero conviene tener en mente que cada proceso posee su propio entorno de ejecución independiente del resto de los procesos. Este tipo de tecnología es ideal cuando se dispone de varios procesadores.

#### Tarea de proceso

Presentan las mismas características que un proceso desde el punto de vista del usuario, Una tarea permite ejecutar instrucciones, con la salvedad de que todas utilizan el contexto de ejecución del proceso al que pertenecen, aunque poseen su propia pila de llamadas, vinculada a la ejecución de sus instrucciones.

Entre tareas, el paralelismo no es tan real, sino que, por el contrario, es posible concebir una delegación de trabajo hacia tareas secundarias para dar fluidez a la tarea principal y gestionar mejor el tiempo de espera de ciertas tareas, organizándolas. Así las gestiona el sistema operativo.

En comparación con el proceso, la tarea es menos costosa, pero más dependiente.

#### Corrutina

La corrutina se corresponde con una tarea, como una tarea se corresponde con un proceso, como un proceso se corresponde con un núcleo de la CPU. Si en un núcleo de la CPU pueden habitar muchos procesos, en un proceso pueden habitar muchas tareas concurrentes y en una tarea pueden habitar muchas rutinas concurrentes o corrutinas.

En comparación con la tarea de un proceso, la corrutina es menos costosa, pero más dependiente.


### Creación de corrutina

Para crear una rutina concurrente se utiliza la sintaxis específica de async/await.

In [None]:
import asyncio

async def routine():

    print("Hello")
    await asyncio.sleep(3)
    print("async world!")

asyncio.run(routine())


Nota bene: para que una corrutina se ejecute no es suficiente con invocar la función que la define. Python te ofrece varias formas para que una corrutina se ejecute:

•	La función asyncio.run()
•	Esperar una corrutina a través de “await”
•	Encapsular las corrutinas en tareas asíncronas con asyncio.create_task() para que se ejecuten concurrentemente al esperarlas.





### Creación de una tarea de proceso

Para crear una tarea, se utiliza el modulo de alto nivel Thread:

In [None]:
from threading import Thread
from time import time, ctime, sleep


class Worker(Thread):

    def __init__(self, name, delay):
        self.delay = delay
        Thread.__init__(self, name=name)

    def run(self):
        for i in range(5):
            print("%s: Llamada %s, %s" % (self.getName(), i, ctime(time())))
            sleep(self.delay)


try:
    t1 = Worker("T1", 2)
    t2 = Worker("T2", 3)
    t1.start()
    t2.start()
except:
    print("Error: unable to start threads")


Esta tarea realiza una escritura y se pone en espera durante un tiempo determinado. Dicho de otro modo, se crean dos tareas en paralelo, una de dos segundos y otra de tres segundos. 

Vemos cómo desde el arranque de las dos primeras tareas, toman el control para comenzar la escritura. En la tercera línea, la presencia de tres signos al principio de la línea muestra cómo ha terminado el programa principal y se retoma el control.

Por el contrario, las tareas se inician y siguen ejecutándose. Esta forma de operar no es adecuada, porque se crea una ruptura profunda entre las tareas y el flujo principal de instrucciones. 

Conviene tener en cuenta que, una vez lanzada, no es posible interrumpir una tarea. La única forma de terminarla es que finalice su función run.

Es posible experimentar para crear una forma de interrumpirlas, en particular para pedirles que se detengan.



### Interrupción de una tarea

He aquí la tarea anterior con un mecanismo que le permite interrumpirse:

In [None]:
from threading import Thread
from time import time, ctime, sleep


class Worker(Thread):

    def __init__(self, name, delay):
        self.delay = delay
        self.job_ended = False
        Thread.__init__(self, name=name)

    def run(self):
        for i in range(10):
            if self.job_ended:
                print('Deteccion forzada de: %s' % self.getName())
                return
            print("%s: Llamada %s, %s" % (self.getName(), i, ctime(time())))
            sleep(self.delay)
        print('Deteccion natural de: %s' % self.getName())


try:
    t1 = Worker("T1", 2)
    t2 = Worker("T2", 3)
    t1.start()
    t2.start()
except:
    print("Error: unable to start threads")


He aquí una nueva tarea, que tiene como objetivo realizar una interrupción tras un tiempo determinado, que recibe como parámetro la lista de tareas sobre las que puede interactuar, junto a un retardo:



In [None]:
from threading import Thread
from time import time, ctime, sleep


class Worker(Thread):

    def __init__(self, name, delay):
        self.delay = delay
        self.job_ended = False
        Thread.__init__(self, name=name)

    def run(self):
        for i in range(10):
            if self.job_ended:
                print('Deteccion forzada de: %s' % self.getName())
                return
            print("%s: Llamada %s, %s" % (self.getName(), i, ctime(time())))
            sleep(self.delay)
        print('Deteccion natural de: %s' % self.getName())


class Stopper(Thread):

    def __init__(self, threads, delay):
        print('Creacion del stopper')
        self.delay = delay
        self.threads = threads
        Thread.__init__(self)

    def run(self):
        sleep(self.delay)
        print('Solicitud de detencion de las tareas')
        for t in self.threads:
            t.job_ended = True


try:
    t1 = Worker("T1", 1)
    t2 = Worker("T2", 2)
    t3 = Worker("T3", 3)
    s = Stopper((t1, t2, t3), 15)
    t1.start()
    t2.start()
    t3.start()
    s.start()
except:
    print("Error: unable to start threads")


### Gestión de varias tareas

Crear varias tareas permite paralelizar diversos trabajos de manera que resulte más rápido que ejecutarlos de forma secuencial.

Por ejemplo, cuando se comunica con un servidor, a menudo existe cierta latencia, y la idea es aprovechar el tiempo de espera de una tarea para ejecutar alguna otra. Una vez se han gestionado las acciones, deberíamos ser capaces de retomar el hilo de ejecución principal. Para ello, se utiliza un hilo (Queue, en inglés), al que se vinculan nuestras tareas una vez arrancadas.

Por el contrario, si bien el hilo debe incluir las tareas, las tareas también deben apuntar a los hilos para informarles acerca de su trabajo y cuándo ha terminado.

Retomando el ejemplo anterior, he aquí cómo modificar nuestro trabajo:


In [None]:
from queue import Queue
from threading import Thread
from time import time, ctime, sleep


class Worker(Thread):

    def __init__(self, queue, name, delay):
        print("Creacion del worker %s" % name)
        self.queue = queue
        self.delay = delay
        self.job_ended = False
        Thread.__init__(self, name=name)

    def run(self):
        for i in range(5):
            if self.job_ended:
                print('Deteccion forzada de: %s' % self.getName())
                self.queue.task_done()
                return
            print("%s: Llamada %s, %s" % (self.getName(), i, ctime(time())))
            sleep(self.delay)
            print('Deteccion natural de: %s' % self.getName())


class Stopper(Thread):

    def __init__(self, threads, delay):
        print('Creacion del stopper')
        self.delay = delay
        self.threads = threads
        Thread.__init__(self)

    def run(self):
        sleep(self.delay)
        print('Solicitud de detencion de las tareas')
        for t in self.threads:
            t.job_ended = True


try:
    q = Queue(3)
    t1 = Worker(q, "T1", 1)
    t2 = Worker(q, "T2", 2)
    t3 = Worker(q, "T3", 3)
    t1.start()
    t2.start()
    t3.start()
    q.put(t1)
    q.put(t2)
    q.put(t3)
    s = Stopper((t1, t2, t3), 6)
    s.start()
    print("Espera a que terminen las tareas")
    q.join()
    print("Tareas terminadas, retomamos el flujo principal de instrucciones")
except:
    print("Error: unable to start threads")


### Sincronización


En algunos casos, es posible que un recurso o una serie de instrucciones estén compartidos entre varias tareas, pero que necesite estar dedicado a una única tarea cada vez. La resolución de esta problemática se basa en la sincronización de tareas en la sección crítica que se quiere proteger. 

Para poner de relieve este problema, he aquí un ejemplo que se ejecuta dos veces: la primera sin sincronización y la segunda con ella.

Para ello, necesitamos:



In [None]:
from threading import Thread, Lock
from queue import Queue
from time import time, sleep
from io import StringIO

# He aquí la función critica:

def critical_function(buffer, letter, lock=None):
    if lock is not None:
        lock.acquire()
    for i in range(10):
        buffer.write(letter)
        sleep(0.1)
    buffer.write('\n')
    if lock is not None:
        lock.release()


Se encarga de escribir en un buffer que se comparte entre todas las tareas, salvo que escribe poco a poco (simulando un tiempo de espera necesario para realizar posibles cálculos) y su trabajo termina escribiendo un salto de línea. El código está previsto para estar sincronizado o no, en función del caso de uso. Esta operación de sincronización se realiza utilizando un candado que se solicita y asigna, y a continuación se libera. 
Todo el código contenido entre estos dos eventos no puede ejecutarse más que una única vez cada vez.

He aquí el código correspondiente para la tarea que utiliza la función critica:



In [None]:
class Worker(Thread):

    def __init__(self, queue, buffer, letter, lock=None):
        self.queue = queue
        self.buffer = buffer
        self.letter = letter
        self.lock = lock
        Thread.__init__(self)

    def run(self):
        for i in range(5):
            critical_function(self.buffer, self.letter, self.lock)
            sleep(0.1)
        self.queue.task_done()


He aquí el código que crea las tareas, el hilo de espera y que gestiona el candado:

In [None]:
try:
    for lock in (None, Lock()):
        buffer = StringIO()
        q = Queue(3)
        t1 = Worker(q, buffer, "A", lock)
        t2 = Worker(q, buffer, "B", lock)
        t3 = Worker(q, buffer, "C", lock)
        t1.start()
        t2.start()
        t3.start()
        q.put(t1)
        q.put(t2)
        q.put(t3)
        q.join()
        print(buffer.getvalue())
except:
    print("Error: unable to start thread")


Este candado es, por tanto, un elemento conectado a las tareas y que puede pasarse como parámetro o utilizarse desde un espacio de nombres exterior. 

He aquí el resultado en el primer caso: 

ABCABCBACBACABCBACABCBACABCBAC

BACABCABCBACABCBACABCBACBACABC

Como existe un retardo de espera para cada tarea igual a una décima de segundo con cada operación, es decir, la escritura de una letra (lo cual supone mucho tiempo respecto a la duración de la ejecución de una instrucción), se pasa a la tarea siguiente.

Esto se corresponde exactamente con lo que se desea tener.

Es importante utilizar este tipo de candado en un contexto paralelo cuando se accede a recursos compartidos tales como un buffer. Incluso si pensamos que nuestro código es lo suficientemente rápido como para que no ocurra ningún problema, no está de más saber utilizar esta solución.

El desarrollador debe considerar que, si realiza un desarrollo paralelo, entonces no controla el paso de una tarea a la siguiente; las reglas son particularmente complejas y no necesariamente deterministas. 

El candado es, por tanto, una buena solución: sencilla, y que puede emplearse en muchos casos prácticos.

La sincronización como tal se ha realizado de manera sencilla. Cuando se utiliza el método acquire, se comprueba si el candado está libre. Si no fuera el caso, el método entra en un bucle de espera. Cuando el candado queda libre, entonces el método lo bloquea y toma el control. Esto permite ejecutar las instrucciones siguientes. Una vez terminadas, se libera el candado y sigue el flujo de instrucciones. Es en el cambio de tarea que sigue cuando, en el caso de que exista otra tarea que ya haya invocado al método, acquire terminará su bucle de espera. Existe también una sintaxis más sencilla que permite gestionar el candado:


In [None]:
def critical_funcion2(buffer, letter, lock):
    with lock:
        for i in range(10):
            buffer.write(letter)
            sleep(0.1)
        buffer.write('\n')


Esto permite simplificar la sintaxis y es idéntico al método que utiliza acquire y release. Para terminar, conviene destacar que, cuando se crea un candado, en cualquier caso, es necesario utilizar la menor cantidad de instrucciones posible y liberarlo antes de abordar cualquier otra instrucción, sea cual sea la situación.

### USO DE PROCESOS

GESTIÓN DE UN PROCESO

En varios aspectos, vista la interfaz de alto nivel provista por Python, la multitarea es similar al multiproceso. No obstante, las similitudes terminan con el listado de métodos pro puestos por los objetos. Las problemáticas que permiten resolver son más complejas. Su ventaja es que permiten ejecutar dos tareas al mismo tiempo sobre dos procesos distintos y, por tanto, disminuir su tiempo de ejecución.

Crear un proceso es relativamente sencillo. He aquí los módulos necesarios:


In [None]:
from multiprocessing import Process, freeze_support
from time import sleep

# He aquí cómo asociar un trabajo al proceso:

def work(name):
    print('Inicio del trabajo: %s' % name)
    for j in range(10):
        for i in range(10):
            sleep(0.01)
            print('.', sep='', end='')
        print('.')
    print('Final del trabajo: %s' % name)

# A continuación, basta con crear el proceso e iniciarlo:

if __name__ == '__main__':
    freeze_support()
    p = Process(target=work, args=('Test',))
    p.start()
    p.join()



### GESTIÓN DE VARIOS PROCESOS

SINCRONIZACION

Como hemos visto antes, el proceso dispone él mismo del método join, que permite realizar la sincronización.

Para crear varios procesos que accedan a un recurso protegido conviene, también, crear un candado, que nos provee el módulo multiprocessing. He aquí un ejemplo:


In [None]:
import sys
from multiprocessing.dummy import Process
from threading import Lock


def work(name, lock):
    with lock:
        print('Work with %s' % name)
        sys.stdout.flush()


lock = Lock()
for i in range(5):
    Process(target=work, args=(i, lock)).start()


### COMUNICACIÓN ENTRE PROCESOS

El módulo multiprocessing posee un objeto dedicado a intercambiar datos entre procesos. Este objeto se crea antes que los procesos. Devuelve dos objetos multiprocessing.Connection:

i, o = Pipe ()

Cuando uno envía un mensaje, el otro lo recibe:

i.send (42) 
o.recv()

42

i.send ('Hello') 
o.recv()

'Hello'

Si se envían dos mensajes, se reciben de manera secuencial:

i.send (42)
i.send('Hello')
o.recv()

42

o.recv() 

'Hello'

Cuando se inicia una recepción sin disponer de datos, se queda en espera:

o.recv()

^cTraceback (most recent call last): 
File "<stdin>", line 1, in <module>
KeyboardInterrupt

Esto es exactamente lo que vamos a hacer para iniciar un proceso que escribe y otro que lee. Este último se inicia antes y se queda esperando al segundo:



In [None]:
from multiprocessing import Pipe
from multiprocessing.dummy import Process


def reader(o):
    while True:
        data = o.recv()
        print(data)
        if data == '#':
            return


def writer(i):
    for data in ['Mensaje', 42, '#']:
        i.send(data)


i, o = Pipe()
pr = Process(target=reader, args=(o,))
pr.start()
pw = Process(target=writer, args=(i,))
pw.start()
pw.join()
pr.join()


### COMPARTIR DATOS ENTRE PROCESOS

Más allá de la comunicación entre procesos es necesario, en ocasiones, compartir datos entre varios procesos. Esta operación es muy particular y, por razones técnicas, deben utilizarse tipos C. 



In [None]:
import multiprocessing


def func(num):
    # El proceso hijo cambia el valor y el proceso principal cambia en consecuencia
    num.value = 10.78


if __name__ == "__main__":
    ''' d representa un valor, el proceso principal y el proceso hijo comparten este valor. 
    (El proceso principal y el proceso hijo usan el mismo valor)'''
    num = multiprocessing.Value("d", 10.0)
    print(num.value)
    p = multiprocessing.Process(target=func, args=(num,))
    p.start()
    p.join()
    print(num.value)



In [None]:
import multiprocessing
import ctypes


def func(num):
    # El proceso hijo cambia la matriz y el proceso principal cambia en consecuencia
    num[2] = 9999


if __name__ == "__main__":
    # El proceso principal y el proceso hijo comparten esta matriz
    num = multiprocessing.Array(ctypes.c_int, [1, 2, 3, 4, 5])
    print(num[:])

    p = multiprocessing.Process(target=func, args=(num,))
    p.start()
    p.join()

    print(num[:])



Los tipos de datos nativos admitidos por ctypes son los siguientes:

tipo de ctypes	Tipo C	Tipo de Python

c_char	char	1-character string

c_wchar	wchar_t	1-character unicode string

c_byte	char	int/long

c_ubyte	unsigned char	int/long

c_bool	bool	bool

c_short	short	int/long

c_ushort	unsigned short	int/long

c_int	int	int/long

c_uint	unsigned int	int/long

c_long	long	int/long

c_ulong	unsigned long	int/long

c_longlong	__int64 or longlong	int/long

c_ulonglong	unsigned __int64 or unsigned long long	int/long

c_float	float	float

c_double	double	float

c_longdouble	long double float	float

c_char_p	char *	string or None

c_wchar_p	wchar_t *	unicode or None

c_void_p	void *	int/long or None


### COMPARTIR DATOS ENTRE PROCESOS (DICT, LIST):

```
import multiprocessing


def func(mydict, mylist):
    # El proceso hijo cambia el dictado y el proceso principal cambia en consecuencia
    mydict["index1"] = "aaaaaa"
    mydict["index2"] = "bbbbbb"
    # El proceso hijo cambia la Lista y el proceso principal cambia en consecuencia
    mylist.append(11)
    mylist.append(22)
    mylist.append(33)


if __name__ == "__main__":
    with multiprocessing.Manager() as MG:  # Rebautizar
        # El proceso principal y el proceso hijo comparten este diccionario
        mydict = multiprocessing.Manager().dict()
        # El proceso principal y el proceso hijo comparten esta lista
        mylist = multiprocessing.Manager().list(range(5))

        p = multiprocessing.Process(target=func, args=(mydict, mylist))
        p.start()
        p.join()

        print(mylist)
        print(mydict
```