# 🧭 Mapa paralelo: Herramientas Comerciales vs Open Source (Python)

| **Categoría** | **Comercial (muy usada)** | **Open Source / Python-friendly (equivalente)** | **Uso sugerido / Comparación para laboratorio** |
|----------------|----------------------------|--------------------------------------------------|------------------------------------------------|
| **BI / Dashboards** | Power BI, Tableau, Qlik | Streamlit, Plotly Dash, Voila + Jupyter, Bokeh, Altair | Mismo dashboard con KPIs, filtros y gráficos interactivos |
| **ML visual / AutoML** | Azure ML Designer, Vertex AI, SageMaker Studio, DataRobot | auto-sklearn, TPOT, H2O AutoML, PyCaret | Entrenar modelo (Iris/Titanic) y comparar métricas y facilidad de uso |
| **Plataforma ML (código + tracking)** | Databricks ML, SageMaker, Dataiku, SAS Viya | scikit-learn + MLflow + DVC/Git | Pipeline sklearn, registrar runs y versionar datos |
| **Orquestación / ETL-ELT (DTS)** | Azure Data Factory, AWS Glue, Informatica, Matillion | Apache Airflow, Prefect, Dagster | Flujo: extraer CSV → transformar (pandas) → cargar BD |
| **Ingesta gestionada (Data connectors)** | Fivetran, Stitch | Airbyte, Singer (taps/targets) | Conectar una fuente pública y cargar a Postgres/DuckDB |
| **Data prep / Wrangling** | Trifacta (Dataprep), Alteryx Designer | pandas, polars, Dask, pyjanitor | Limpieza y transformación del mismo dataset |
| **Big Data / Distribuido** | Databricks (Spark), EMR, Synapse | Apache Spark (PySpark), Dask, Ray | Agregación distribuida: dataset grande local vs cluster |
| **Data Warehouse / SQL analítico** | Snowflake, BigQuery, Redshift, Synapse | DuckDB, PostgreSQL (+ Timescale), ClickHouse | Ejecutar mismas consultas SQL en DWH comercial y local |
| **Pipelines de ML (producción)** | TFX (Vertex), SageMaker Pipelines | scikit-learn Pipelines, Kubeflow Pipelines, Metaflow | Encadenar preprocesamiento, modelo y evaluación |
| **MLOps: Serving / Despliegue** | SageMaker Endpoints, Vertex Endpoints | BentoML, Seldon Core, FastAPI + Uvicorn | Servir el mismo modelo vía REST y probar inferencias |
| **Tracking de experimentos** | Weights & Biases, Neptune.ai | MLflow, Sacred + Omniboard | Registrar hiperparámetros y métricas en runs |
| **Monitoreo de modelos / Data Drift** | Arize, Fiddler, WhyLabs | Evidently AI, whylogs | Simular drift y generar reporte comparativo |
| **Data Quality / Validación** | Monte Carlo, Talend DQ, Informatica DQ | Great Expectations, pandera | Definir y verificar reglas de calidad de datos |
| **Feature Store** | Tecton, SageMaker Feature Store | Feast | Registrar y consumir features entre entrenamiento e inferencia |
| **Etiquetado de datos** | Labelbox, Scale AI | Label Studio | Etiquetar dataset y entrenar clasificador simple |
| **Procesamiento NLP** | Azure Cognitive, Google NLP, AWS Comprehend | spaCy, Hugging Face Transformers | Pipeline NER o análisis de sentimiento |
| **Visión por computador (CV)** | Azure CV, Google Vision, AWS Rekognition | OpenCV, TorchVision, ultralytics/YOLO | Detección de objetos y comparación precisión-tiempo |
| **Series de tiempo / Forecasting** | Azure TS Insights, Amazon Forecast | Prophet, statsmodels, orbit | Pronóstico con mismo dataset y evaluación de error |

---

## ⚖️ Ejemplos de comparaciones directas para laboratorio

| **Objetivo de la práctica** | **Comercial** | **Open Source (Python)** | **Producto esperado** |
|------------------------------|----------------|---------------------------|------------------------|
| Dashboard rápido | Power BI Service (web) | Streamlit + Altair | 2 KPIs, 2 gráficos, 1 filtro |
| AutoML visual vs código | Azure ML Designer | sklearn + plotly | Modelo con métricas y tiempo de set-up |




