# Desafío de Código en Python - Scraping e Ingesta

## Objetivo
Crear un trabajo en Google Cloud Run que realice scraping web, procesamiento de datos y tareas de despliegue utilizando Python.

## Requisitos

1. **Scraping Web con Selenium**
   - Raspar un portal de noticias: 
     - [https://www.yogonet.com/international/](https://www.yogonet.com/international/)
   - Obtener los siguientes detalles:
     - Título
     - Kicker (texto sobre el titular principal)
     - Imagen
     - Enlace

2. **Post-Procesamiento**
   - Realizar post-procesamiento en los datos raspados utilizando Pandas o Polar.
   - Incluir las siguientes métricas:
     - Conteo de palabras en el Título
     - Conteo de caracteres en el Título
     - Lista de palabras que comienzan con una letra mayúscula en el Título

3. **Integración con BigQuery**
   - Integrar la inserción de datos procesados en BigQuery dentro del script de Python dockerizado.

4. **Dockerización**
   - Dockerizar el script de Python, asegurando que incluya todas las dependencias y configuraciones necesarias para ejecutar el scraping web, el post-procesamiento y la integración con BigQuery.

5. **Automatización del Despliegue**
   - Crear un script bash para gestionar las siguientes tareas:
     - Construcción de Docker
     - Subida al repositorio de artefactos
     - Despliegue en Cloud Run

## Entregables

1. **Script de Python Dockerizado:**
   - Un script de Python dockerizado que realice las tareas de scraping web, post-procesamiento e integración con BigQuery.

2. **Script Bash:**
   - Un script bash que maneje la construcción de Docker, la subida al repositorio de artefactos y el despliegue en Cloud Run.

3. **Documentación:**
   - Instrucciones sobre cómo ejecutar el script dockerizado y el script bash.
   - Cualquier paso de configuración necesario.

## Criterios de Evaluación
- **Corrección:** La solución debe implementar correctamente las tareas de scraping, procesamiento y despliegue.
- **Calidad del Código:** El código debe ser limpio, bien documentado y seguir las mejores prácticas.
- **Eficiencia:** La solución debe manejar las tareas de manera eficiente y ser escalable.
- **Completitud:** Todos los entregables deben ser presentados y funcionales.

## Directrices Generales
- Se requiere que el código se implemente en Docker.
- Se puede usar cualquier versión de Selenium (incluso Selenium en Docker).
- Se requiere que el código esté alojado en un repositorio público en Github, Gitlab u otro servicio similar, con uso real del repositorio, con commits a medida que avanza el desarrollo, no solo un commit final.
- Se requiere que el repositorio tenga un archivo Readme que explique cómo compilar y lanzar el servicio.
- Se requiere que el código esté debidamente documentado e incluya comentarios que expliquen secciones clave.
- Se acepta el uso de herramientas de IA como ChatGPT, Gemini o Perplexity siempre que las conversaciones se proporcionen como enlaces compartidos o PDFs impresos.