# Propuesta de Proyecto: Pipeline y API de An√°lisis de Videojuegos con RAWG

## üë• Roles y Responsabilidades

### üèóÔ∏è Data Architect
- **Responsable del Dise√±o en AWS:** Definir y configurar la arquitectura en la nube, incluyendo el bucket S3 para el Data Lake, la base de datos PostgreSQL en RDS y los permisos necesarios para los servicios.

### ‚öôÔ∏è Data Engineer
- **Responsable del Pipeline de Datos:** Implementar las funciones AWS Lambda para la extracci√≥n masiva (con paginaci√≥n) y diaria (con filtro de fecha) de datos de la API de RAWG, y para la carga de estos datos desde S3 hacia la base de datos en RDS.

### üî¨ Data Scientist
- **Responsable del An√°lisis y Modelado:**
  - Analizar los datos en PostgreSQL para definir una m√©trica de "√©xito" para un videojuego.
  - Entrenar un modelo de clasificaci√≥n para predecir dicho √©xito.
  - Dise√±ar la l√≥gica para los endpoints de Q&A, seleccionando los modelos apropiados de Hugging Face.

### üöÄ ML Engineer
- **Responsable del Despliegue y la API:**
  - Envolver el modelo predictivo y la l√≥gica de los endpoints en una API robusta utilizando FastAPI.
  - Desplegar la aplicaci√≥n FastAPI en una instancia de AWS EC2, asegurando que todos los endpoints sean funcionales.

---

## üìù Fases del Proyecto

### **Fase 01: Infraestructura y Pipeline de Datos**
**Objetivo:** Construir un sistema automatizado que extraiga datos de la API de RAWG y los almacene de forma estructurada en una base de datos en la nube.

**Tareas Clave:**
1.  **Extracci√≥n de Datos (Data Engineer, Data Architect):**
    - Obtener una API Key de RAWG.
    - Crear una **AWS Lambda** para la extracci√≥n masiva inicial de todos los videojuegos y guardarlos en un **bucket S3**.
    - Configurar la Lambda con **EventBridge** para que se ejecute diariamente y obtenga solo los juegos actualizados recientemente.

2.  **Procesamiento y Carga (Data Engineer, Data Architect):**
    - Desarrollar una segunda **AWS Lambda** que se active mediante un **trigger de S3** al recibir nuevos datos.
    - Esta funci√≥n procesar√° los ficheros JSON y los cargar√° de forma estructurada en la base de datos **PostgreSQL en AWS RDS**.

**Entregables de esta fase:**
- Infraestructura en AWS (S3, RDS) configurada.
- Pipelines de datos autom√°ticos (masivo y diario) funcionando.
- Base de datos poblada y actualizada con los datos de RAWG.

### **Fase 02: Modelado, API y Despliegue**
**Objetivo:** Desarrollar una API multifuncional que prediga el √©xito de un videojuego y permita hacer consultas complejas.

**Tareas Clave:**
1.  **Desarrollo del Modelo (Data Scientist):**
    - Utilizar los datos de PostgreSQL para entrenar un modelo de Machine Learning (ej. con XGBoost) que prediga si un videojuego ser√° un "√©xito".

2.  **Desarrollo de la API (ML Engineer, Data Scientist):**
    - Crear una aplicaci√≥n con **FastAPI** que incluya los siguientes endpoints:
      - `/predict`: Recibe los datos de un videojuego y devuelve la predicci√≥n del modelo.
      - `/ask-text`: Recibe una pregunta en texto (ej. "¬øDesarrollador con la mejor puntuaci√≥n?"), la convierte a SQL usando un modelo de **Hugging Face**, consulta la base de datos y devuelve una respuesta en texto.
      - `/ask-visual`: Recibe una pregunta orientada a visualizaci√≥n (ej. "Top 10 g√©neros por n√∫mero de juegos"), consulta la base de datos y devuelve un gr√°fico generado con **Matplotlib/Seaborn**.

3.  **Despliegue (ML Engineer):**
    - Desplegar la aplicaci√≥n FastAPI completa en una instancia **AWS EC2** para que sea accesible p√∫blicamente.

**Entregables de esta fase:**
- Un modelo de clasificaci√≥n entrenado.
- API funcional desplegada en EC2 con los tres endpoints implementados.
- Documentaci√≥n de la API (generada por FastAPI).
