<div style="text-align: center">

# **Comparación de Herramientas para Implementación de Minería de Datos**

</div>

<br><br><br><br><br><br>

<div style="text-align: center">
Astrid Alexandra Pérez Pesca
</div>
<div style="text-align: center">
Andrés Felipe Jiménez Marin
</div>

<br><br><br><br><br><br>

<div style="text-align: center">
Universidad Católica de Colombia
</div>
<div style="text-align: center">
Especialización en Analítica de Datos
</div>
<div style="text-align: center">
2025
</div>

<br><br><br><br><br>

# Análisis de Herramientas de Minería de Datos
Se realizará una comparación entre WEKA, KNIME, Orange y RapidMiner, para generar un análisis de eficiencia y su aplicación real en 5 empresas.

---

## 1. Objetivos de la Actividad
- Elaborar un cuadro comparativo de herramientas de minería de datos.
- Crear un análisis de eficiencia.
- Asociar cada herramienta con 5 empresas reales.
- Publicar el contenido en una página web usando GitHub Pages.

## 2. Cuadro Comparativo de Herramientas
A continuación se muestra un cuadro comparativo conciso (licencias, facilidad, funciones y pros/contras) para WEKA, KNIME, Orange y RapidMiner. Las frases son sintetizadas desde los PDFs suministrados y documentación oficial.

Resumen (rápido):
- WEKA: academic-friendly, amplia colección de algoritmos; libre (GPL), no optimizada para Big Data.
- KNIME: fuerte en integración ETL y producción; open-source (GPL) con versión empresarial; alto grado de integraciones y escalabilidad.
- Orange: enfocado en visualización y enseñanza; GPL; ideal para prototipado y exploración visual interactiva.
- RapidMiner: plataforma end-to-end con versión gratuita limitada y ediciones comerciales; buen soporte para AutoML y despliegue.


In [2]:
import pandas as pd
herramientas = pd.DataFrame({
    'Herramienta': ['WEKA','KNIME','Orange','RapidMiner'],
    'Licencia': ['GPL (open-source)', 'GPLv3 (open-source) / Enterprise', 'GPLv3 (open-source)', 'AGPL (Free) / Comercial'],
    'Facilidad de uso': ['Moderada (GUI + CLI/API)', 'Alta (drag&drop, low-code)', 'Muy alta (widget visual)', 'Alta (visual + AutoML)'],
    'Funciones principales': [
        'Preprocesamiento, clasificación, regresión, clustering, reglas de asociación, visualización',
        'ETL, integración, modelado, reporting, BigData (Spark), scripting (Python/R)',
        'Exploración visual, clasificación, clustering, add-ons (NLP, imagen, bioinfo)',
        'ETL, AutoML, modelado, evaluación y despliegue (Studio/Server)',
    ],
    'Ventajas': [
        'Amplia colección de algoritmos, excelente para enseñanza e investigación, ligero',
        'Escalable, integraciones, preparado para producción, fuerte soporte empresarial',
        'Rápido prototipado, intuitivo, excelente para visualizaciones interactivas',
        'Plataforma completa de producción, AutoML y despliegue; comunidad empresarial',
    ],
    'Desventajas': [
        'Limitado en BigData y desplegado en producción, menos integraciones modernas',
        'Alto consumo de recursos en proyectos grandes; avanzadas funciones empresariales de pago',
        'No es óptimo para BigData y despliegues empresariales a gran escala',
        'La versión gratis es limitada (número de filas/procesadores); edición empresarial con costo',
    ]
})
herramientas

Unnamed: 0,Herramienta,Licencia,Facilidad de uso,Funciones principales,Ventajas,Desventajas
0,WEKA,GPL (open-source),Moderada (GUI + CLI/API),"Preprocesamiento, clasificación, regresión, cl...","Amplia colección de algoritmos, excelente para...",Limitado en BigData y desplegado en producción...
1,KNIME,GPLv3 (open-source) / Enterprise,"Alta (drag&drop, low-code)","ETL, integración, modelado, reporting, BigData...","Escalable, integraciones, preparado para produ...",Alto consumo de recursos en proyectos grandes;...
2,Orange,GPLv3 (open-source),Muy alta (widget visual),"Exploración visual, clasificación, clustering,...","Rápido prototipado, intuitivo, excelente para ...",No es óptimo para BigData y despliegues empres...
3,RapidMiner,AGPL (Free) / Comercial,Alta (visual + AutoML),"ETL, AutoML, modelado, evaluación y despliegue...","Plataforma completa de producción, AutoML y de...",La versión gratis es limitada (número de filas...


## 3. Análisis de Eficiencia
Comparación (rendimiento, facilidad y aplicabilidad):

- Prototipado rápido: Orange y WEKA (instalación ligera, EDA interactivo).
- Desarrollo de pipelines reproducibles: KNIME y RapidMiner (mejor gestión de flujos de trabajo, integración con APIs, despliegue).
- Escalabilidad y Big Data: KNIME (conectores Spark) y RapidMiner (AI Hub/Server) superan a WEKA/Orange en datasets grandes.
- Automatización / AutoML: RapidMiner destaca por AutoML y orquestación; KNIME permite automatización pero requiere configuraciones adicionales.
- Requerimientos de recursos: WEKA es más ligero; KNIME/RapidMiner pueden demandar más memoria/CPU y opciones servidor.

Recomendación por escenario:
- Educación/enseñanza o EDA: Orange o WEKA.
- Integración de procesos ETL y despliegue a producción: KNIME o RapidMiner.
- Proyectos de investigación con algoritmos abiertos: WEKA (fuerte historial académico).

Notas: los tiempos de ejecución dependen del algoritmo, la implementación (Java/Python), uso de paralelismo y tamaño de datos; para producción, priorizar KNIME/RapidMiner por gestión de procesos y soporte empresarial.

## 4. Empresas que Usan Cada Herramienta (ejemplos representativos)
Ejemplos de uso en 5 empresas:

- WEKA: University of Waikato (desarrollo/educación), Hitachi Vantara / Pentaho (integración), universidades y centros de investigación (varios), proveedores de soluciones educativas, Pymes de análisis de datos (soporte académico).
- KNIME: Roche (life sciences), Bayer (farmacéutica), Siemens (manufactura / data integration), BMW (manufactura / analytics), Deloitte (consultoría / analytics).
- Orange: Universidades e institutos de investigación (e.g., Baylor College of Medicine testimonios), laboratorios de sinchrotron, docentes y cursos universitarios, PYMES de análisis de datos que priorizan visual EDA, centros de bioinformática.
- RapidMiner: BMW (analytics), Intel (predictive analytics), Cisco (redes y patrones), GE (industrial analytics), Samsung (consumer analytics).

> Nota: algunas herramientas (KNIME y RapidMiner) publican listas y casos de éxito en sus webs; WEKA y Orange suelen tener presencia más fuerte en investigación académica y educación.

## 5. Relación con CRISP-DM
Cómo se alinean las herramientas con las etapas de CRISP-DM (conciso):

- Análisis del negocio: Cualquier herramienta puede ayudar a definir objetivos mediante visualización y dashboards; KNIME y RapidMiner sirven bien para traducción técnica a procesos (deployables).
- Análisis de datos : Orange y WEKA son excelentes para EDA interactivo y visualización; KNIME/ RapidMiner ofrecen vistas y exploración, además de integraciones con fuentes de datos.
- Preparación de los datos: KNIME y RapidMiner tienen fuertes capacidades ETL (transformaciones, workflows, conectores a BD). WEKA y Orange ofrecen filtros y transformaciones básicas.
- Modelado: WEKA (diversos algoritmos y paquetes), KNIME (integración con librerías externas: Weka, Keras, H2O), Orange (modelos básicos e interactivos) y RapidMiner (módulos avanzados y AutoML).
- Evaluación: Todas las herramientas ofrecen evaluación y validación; RapidMiner y KNIME tienen mejores opciones de orquestación de experimentos, WEKA es útil para comparaciones y Orange permite visualización intuitiva de métricas.
- Despliegue: RapidMiner (AI Hub, Server) y KNIME (KNIME Server/Business Hub) son ideales para producción y despliegue; WEKA puede usarse embed o con API; Orange es más para prototipos y educación.

Recomendación práctica: para proyectos end-to-end en empresas (CRISP-DM completo), usar KNIME o RapidMiner; para enseñanza/POC y exploración rápida, usar Orange o WEKA.

# Publicación en GitHub Pages
A continuación se explica el proceso para publicar este notebook como página web usando GitHub Pages.

## Paso 1: Crear un repositorio en GitHub
1. Ingrese a https://github.com
2. Haga clic en **New Repository**
3. Asigne un nombre (ej. *analitica-mineria*)
4. Marque la opción **Public**
5. Cree el repositorio

## Paso 2: Subir el Notebook
1. En el repositorio, haga clic en **Add file → Upload files**
2. Cargue el archivo `.ipynb`
3. Confirme con **Commit changes**

## Paso 3: Activar GitHub Pages
1. Entre en **Settings** del repositorio
2. En el menú lateral seleccione **Pages**
3. En *Source*, seleccione **GitHubActions** 
4. Guarde.
Tras unos segundos GitHub mostrará la URL pública del sitio.

## Paso 4: Convertir el Notebook a HTML (si lo desea)
Puede convertir el notebook a HTML ejecutando:
```bash
jupyter nbconvert --to html nombre_notebook.ipynb
```
Luego suba el archivo HTML al repositorio.

## Referencias y fuentes (lectura recomendada)
- WEKA: https://ml.cms.waikato.ac.nz/weka/ (sitio oficial)
- KNIME: https://www.knime.com/ (sitio oficial)
- Orange: https://orangedatamining.com/ (sitio oficial)
- RapidMiner: https://rapidminer.com/ (sitio oficial)
- Documentación y artículos académicos citados: Wikipedia y repositorios oficiales de cada herramienta.