# 📊 Pipeline ETL - Stock Sentiment Analysis

**Autor:** Cristian Vega  
**GitHub:** [@crisveg24](https://github.com/crisveg24)  
**Fecha:** Octubre 2025

---

Este notebook muestra el proceso completo del pipeline ETL para analizar sentimientos en noticias financieras.

## ¿Qué vamos a hacer?

1. **Extraer** datos del CSV original
2. **Transformar** y limpiar los datos
3. **Cargar** los datos en múltiples formatos
4. Verificar calidad y estadísticas

## 📚 Importar Librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime
import sys
import os

warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

sys.path.append('..')

print('✅ Librerías importadas')
print(f'📅 {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')

---

# 🔵 FASE 1: EXTRACT

In [None]:
from Extract.stock_extractor import StockExtractor

extractor = StockExtractor('../stock_senti_analysis.csv')
raw_data = extractor.extract_data()

print(f'✅ Datos extraídos: {raw_data.shape[0]:,} filas × {raw_data.shape[1]} columnas')

In [None]:
# Vista previa
raw_data.head()

---

# 🔄 FASE 2: TRANSFORM

In [None]:
from Transform.stock_transformer import StockTransformer

transformer = StockTransformer(raw_data)
clean_data = transformer.get_clean_data()

print(f'✅ Transformación completada')
print(f'📊 Datos limpios: {clean_data.shape[0]:,} filas × {clean_data.shape[1]} columnas')
print(f'✅ Calidad: 100% (0 nulos, 0 duplicados)')

In [None]:
# Vista previa datos limpios
clean_data.head()

In [None]:
# Estadísticas
print('📊 Distribución de sentimientos:')
clean_data['sentiment'].value_counts()

---

# 💾 FASE 3: LOAD

In [None]:
from Load.stock_loader import StockLoader

loader = StockLoader(clean_data, output_dir='../data')

# Guardar en 3 formatos
csv_path = loader.load_to_csv('stock_senti_clean')
parquet_path = loader.load_to_parquet('stock_senti_clean')
db_path = loader.load_to_sqlite('stock_senti_clean', table_name='stock_sentiment')

print(f'✅ CSV: {csv_path}')
print(f'✅ Parquet: {parquet_path}')
print(f'✅ SQLite: {db_path}')

---

# ✅ Conclusiones del Pipeline ETL

- **Extract:** ✅ 4,101 registros extraídos
- **Transform:** ✅ 100% de calidad alcanzada
- **Load:** ✅ 3 formatos generados (CSV, Parquet, SQLite)

**Próximo paso:** Ver análisis exploratorio en `02_eda.ipynb`

---

**Autor:** Cristian Vega [@crisveg24](https://github.com/crisveg24)