# üìä IMEDIA View
## Insights, Minds, Emotions, Data, Inference & Analytics

**Proyecto de Ingenier√≠a de Datos**

### üë• Integrantes del equipo
- Mariana Garc√≠a
- Isabel Valladolid
- Esteban Berumen
- Ivana Camerota

---

## üß† Descripci√≥n General

**IMEDIA View** es un proyecto de ingenier√≠a de datos que tiene como objetivo construir un sistema completo para la **extracci√≥n**, **an√°lisis** y **visualizaci√≥n de sentimientos** provenientes de comentarios en redes sociales.  
El proyecto incluye el desarrollo de un **pipeline automatizado** de procesamiento de datos y una **interfaz gr√°fica** interactiva para la exploraci√≥n de insights emocionales.

---

## 1. üì• Ingesta de Datos (0.5 pts)

La obtenci√≥n de datos se realiza a partir de diversas fuentes p√∫blicas:

- **Twitter API v2**: Extracci√≥n de tweets en tiempo real o hist√≥ricos.
- **Reddit API (PRAW)**: Obtenci√≥n de comentarios relevantes de comunidades espec√≠ficas.
- **Web Scraping** (opcional): Rese√±as de Amazon, TripAdvisor, u otras plataformas mediante `BeautifulSoup` o `Selenium`.

Los datos crudos son almacenados inicialmente en formato **JSON** para su procesamiento posterior.

---

## 2. üõ†Ô∏è Procesamiento y Transformaci√≥n (0.5 pts)

Se adopta un flujo de tipo **ELT (Extract, Load, Transform)**:

- **Extracci√≥n**: Recolecci√≥n de datos desde las APIs o sitios de inter√©s.
- **Carga**: Almacenamiento de datos en un **data lake** local o basado en la nube.
- **Transformaci√≥n**:
  - Limpieza de texto (remoci√≥n de menciones, enlaces, emojis).
  - Tokenizaci√≥n y lematizaci√≥n utilizando `spaCy` o `NLTK`.
  - Clasificaci√≥n de sentimiento mediante modelos NLP preentrenados (`DistilBERT` de Hugging Face).
  - Categorizaci√≥n de comentarios en **positivos**, **negativos** o **neutrales**.

---

## 3. üóÑÔ∏è Almacenamiento (0.5 pts)

La arquitectura de almacenamiento contempla:

- **Amazon S3** (o equivalente local): para los datos crudos (raw JSON).
- **PostgreSQL**: para almacenar datos transformados con las siguientes columnas:
  - ID del comentario
  - Texto limpio
  - Sentimiento detectado
  - Fecha de creaci√≥n
  - Fuente (Twitter, Reddit, etc.)
  - Metadatos adicionales

√çndices estrat√©gicos ser√°n creados para optimizar b√∫squedas y consultas anal√≠ticas.

---

## 4. üîÑ Orquestaci√≥n y Automatizaci√≥n (0.5 pts)

La orquestaci√≥n de flujos se gestionar√° mediante **Prefect 2.0**, incluyendo:

- **Scraping programado** para mantener el dataset actualizado.
- **Flujos de transformaci√≥n y carga** autom√°ticos.
- **Manejo de errores** robusto y reintentos configurados para garantizar la resiliencia del sistema.

Se prev√© el despliegue de los flujos en contenedores Docker, o en Prefect Cloud si se requiere.

---

## 5. üöÄ Escalabilidad y Eficiencia (0.5 pts)

El pipeline est√° dise√±ado para escalar:

- **Procesamiento en lotes** de 1000 comentarios para eficiencia.
- **Paralelizaci√≥n** de tareas utilizando `concurrent.futures` o `joblib`.
- **Formato Parquet** para almacenamiento intermedio de alta eficiencia.

Esta estructura permite el manejo de grandes vol√∫menes de datos sin sacrificar velocidad ni estabilidad.

---

## 6. üìä Visualizaci√≥n y Exposici√≥n de Datos (0.5 pts)

### üîç Interfaz Gr√°fica: IMEDIA View Dashboard

Una **interfaz web** interactiva permitir√°:

- Visualizar tendencias de sentimiento por fecha, fuente o palabra clave.
- Generar nubes de palabras para comentarios positivos y negativos.
- Aplicar filtros din√°micos por hashtags, usuarios o t√≥picos.
- Explorar m√©tricas agregadas y desglosadas.

El dashboard ser√° desarrollado utilizando **Streamlit**, **Plotly** o **Power BI**, dependiendo de la integraci√≥n m√°s eficiente.

### üåê API REST

Se implementar√° un **API REST** para exponer los resultados:

- **Endpoint `/sentiment`**: clasificaci√≥n en tiempo real de nuevos textos enviados por el usuario.
- Documentaci√≥n mediante **Swagger** para facilitar el consumo de la API.

---

## üèóÔ∏è Arquitectura General

```plaintext
[Twitter API]    [Reddit API]    [Web Scraping]
       ‚îÇ                  ‚îÇ                  ‚îÇ
       ‚ñº                  ‚ñº                  ‚ñº
    Ingesta --------> Almacenamiento Inicial (JSON en S3)
       ‚îÇ
       ‚ñº
    Transformaci√≥n (Limpieza + Clasificaci√≥n NLP)
       ‚îÇ
       ‚ñº
    Almacenamiento Estructurado (PostgreSQL)
       ‚îÇ
       ‚îú‚îÄ‚îÄ> Prefect: Automatizaci√≥n de Flujos
       ‚îÇ
       ‚îú‚îÄ‚îÄ> Streamlit/PowerBI: Dashboard Interactivo (IMEDIA View)
       ‚îÇ
       ‚îî‚îÄ‚îÄ> API REST: Clasificaci√≥n en tiempo real
