Leer el contenido de un curriculum PDF y crear un curriculum con el formato de Harvard
Se instala la librería PyPDF2 con el siguiente comando:
pip install PyPDF2

In [2]:
import ollama
import requests
import os
import PyPDF2
from IPython.display import Markdown, display
from dotenv import load_dotenv

In [3]:
MODEL = "llama3.2"
# Cargamos las variables del fichero .env

load_dotenv()
curriculum_path = os.getenv('PDF_PATH')

In [4]:
def read_pdf(file_path):
    """
    Lee el contenido de un archivo PDF y lo devuelve como una cadena de texto,
    respetando los saltos de línea.

    Args:
        file_path: La ruta al archivo PDF.

    Returns:
        Una cadena con el contenido del PDF o None si hay un error.
        Imprime un mensaje de error en caso de fallo.
    """
    try:
        with open(file_path, 'rb') as pdf_file:  # Abre el archivo en modo binario de lectura
            lector_pdf = PyPDF2.PdfReader(pdf_file)
            num_pages = len(lector_pdf.pages)
            complete_text = ""

            for num_page in range(num_pages):
                page = lector_pdf.pages[num_page]
                page_text = page.extract_text()
                complete_text += page_text + "\n"  # Añade un salto de línea después de cada página

            return complete_text

    except FileNotFoundError:
        print(f"Error: Archivo no encontrado en la ruta: {file_path}")
        return None
    except PyPDF2.errors.PdfReadError: #Captura errores de PyPDF2
        print(f"Error: No se pudo leer el archivo PDF. Podría estar corrupto o no ser un PDF válido: {file_path}")
        return None
    except Exception as e:
        print(f"Ocurrió un error inesperado: {e}")
        return None


In [5]:
class Curriculum:
    """
    Una clase de utilidad para representar un curriculum que hemos leído
    """

    def __init__(self, file_path):
        """
        Crea este objeto de Curriculum
        """
        self.file_path = file_path
        response = read_pdf(file_path)
        self.text = response

In [6]:
# Vamos a probar

# Una función que escribe un mensaje de usuario que solicita cartas de presentación de un curriculum:

def user_prompt_for(curriculum):
    user_prompt = f"Estás viendo el archivo PDF {curriculum.file_path}"
    user_prompt += "\nEl contenido de este curriculum es el siguiente; \
    genera una curriculum con el formato de Harvard a partir de la infomación contenida, \
    reliza los cambios necesarios en la redacción para que sea un curriculum que impacte \
    y sirva para obtener un buen trabajo y despliegalo en formato Markdown.\n\n"
    user_prompt += curriculum.text
    return user_prompt

In [7]:
def messages_for(curriculum):
    return [
        {"role": "user", "content": user_prompt_for(curriculum)}
    ]

In [8]:
def create_harvard(file_path):
    curriculum = Curriculum(file_path)
    response = ollama.chat(model=MODEL, messages=messages_for(curriculum))
    return response['message']['content']

In [9]:
def display_curriculum(file_path):
    letter = create_harvard(file_path)
    display(Markdown(letter))

In [10]:
display_curriculum(curriculum_path)

Aquí te presento el curriculum en formato Harvard Markdown:

# Resumen de mi perfil

*   **Nombre**: Miguel Angel López Monroy
*   **Correo electrónico**: miguel.lopezm.deven@gmail.com
*   **Teléfono**: +1 (052) 5536343913
*   **Lugar de residencia**: Ciudad de México, CP 09720

# Experiencia laboral

### Desarrollador Back-end (Python)

*   **El Buen Conejo** (Colima, México, Octubre 2023 - Marzo 2024)
    *   Colaboré en una organización Open Source llamada El Buen Conejo, junto a varios compañeros que conocí durante simulaciones de No-Country.
    *   Desarrollé el back-end con Python y Django Rest Framework, así como el despliegue de la API originalmente en AWS.
    *   Cambió a Railgun poco después debido a la granitud de la cuenta.

### Desarrollador Back-end (No-CountrY) (Online, Agosto 2023 - Octubre 2023)
*   Aprendí a trabajar en equipos multidisciplinarios y multi-región.
*   Desarrollé habilidades técnicas como investigación de documentación, programación con compañeros desarrolladores y aprendizaje de código de cero.
*   Desarrollamos una API en FastAPI con Python para la aplicación de búsqueda y adopción de mascotas (el repositorio es privado de ellos como Organización).

### Cloud Developer (Bootcamp Institute, México, Mayo 2023 - Julio 2023)
*   Aprendí a utilizar las tecnologías Serverless de AWS como son: Lambda Functions, DynamoDB, Step Functions, AWS EventBridge y Amazon Cognito.
*   Aprendí los servicios básicos de AWS en las áreas de computación, almacenamiento y redes, incluyendo EC2, S3, IAM, VPC, Lambda, CloudFormation, RDS y Route 53.

### Ingeniero en Computación (UNAM, México, 1991 - 1995)
*   Estudié ingeniería en computación en la UNAM.

# Perfil

*   **Idiomas**: Inglés.
*   **Habilidades**:
    *   Back-end
    *   Python
    *   Django
    *   Rest API
    *   Django Rest Framework, FastAPI, Flask
    *   Web Scraping
    *   Scrapy, Selenium
    *   Bases de datos
    *   PostgreSQL, MySQL, Queries
    *   Servicios AWS
    *   EC2, S3, IAM, VPC, Lambda, RDS, Eventbridge

# Certificaciones

*   **AWS Certified Cloud Practitioner** (Amazon Web Services, Mayo 2023)
*   **AWS** (Amazon Web Services)

# Proyectos personales y profesionales

*   **Eventos SAM disponibles**: Demo de app para levantar un pedido con arquitectura basada en eventos.
    *   [GitHub](https://github.com/mikelm2020/sam-events-advanced)
*   **API del Buen Conejo**: API para administrar la plataforma del Buen Conejo.
    *   [GitHub](https://github.com/el-buen-conejo/elbuenconejo-backend)

# Sueldo deseado
20,000 mensuales netos.

# Perfiles de usuario

*   **miguellopezmdev**: @miguel.lopezm.deven@gmail.com.
*   **mikelm2020**: @mikelm2020