<div align="center">

# **UNIVERSIDAD CATÓLICA DE COLOMBIA**

### **ESPECIALIZACIÓN EN ANALÍTICA DE DATOS**

### **MINERÍA DE DATOS**

---
<div align="center">
<img src="LogoUniversidadCatolicadeColombia.png" alt="Logo Universidad Católica de Colombia" width="250"/>
</div>

---

### **ACTIVIDAD UNIDAD No. 5**

## **Herramientas de Implementación**
## **(WEKA, KNIME, Orange, RapidMiner)**

---
<div align="center">

### **DOCENTE**  
**Jorge Ignacio Blanco**

---



**Jackson Arturo Vásquez Castro**

---

**2025-11-28**
</div>
</div>


---

# INTRODUCCIÓN

La Unidad 5 aborda el estudio de diversas herramientas de minería de datos que permiten apoyar las etapas del proceso CRISP-DM, especialmente en lo relacionado con la preparación, modelado, evaluación y despliegue de modelos analíticos. Estas herramientas (RapidMiner, WEKA, Orange y KNIME) se caracterizan por ofrecer entornos visuales y automatizados que facilitan el desarrollo de proyectos de analítica tanto en contextos académicos como empresariales. De acuerdo con los contenidos de la unidad, cada plataforma integra funciones para la manipulación de datos, aplicación de algoritmos de aprendizaje automático y generación de reportes que apoyan la toma de decisiones basada en datos (Universidad Católica de Colombia, 2024).

Para complementar esta revisión, se consultaron fuentes externas como documentación oficial, reportes técnicos y literatura especializada. RapidMiner, por ejemplo, es reconocida por su enfoque empresarial, su escalabilidad y su capacidad para cubrir el ciclo analítico completo, desde la integración de datos hasta el despliegue de modelos (Altair, 2023). WEKA, por su parte, destaca por ser un entorno de experimentación académico ampliamente utilizado para probar algoritmos y comparar modelos debido a su colección de métodos de aprendizaje automático y su flexibilidad investigativa (Hall et al., 2009). Orange ofrece un enfoque altamente visual y accesible orientado al análisis exploratorio y la enseñanza, integrando flujos basados en widgets y extensiones para análisis especializado (Demsar et al., 2013). Finalmente, KNIME se ha posicionado como una herramienta robusta para entornos organizacionales gracias a su arquitectura modular, sus capacidades de integración y su orientación a la automatización de procesos analíticos (Berthold et al., 2008).

La presente actividad integra los conceptos de la Unidad 5 y la indagación externa para construir un cuadro comparativo detallado con base en un DataFrame estilizado, analizar la eficiencia de cada herramienta y relacionarlas con ejemplos de organizaciones reales que las utilizan. Con ello se busca comprender las ventajas técnicas y el alcance práctico de estas plataformas dentro del ecosistema moderno de minería de datos.


---

## 01 - Análisis de Herramientas de Minería de Datos (Unidad 5)

Este notebook desarrolla la actividad propuesta en la Unidad 5 *“Herramientas de Implementación”* del curso de Minería de Datos. Primero se revisan los conceptos vistos en la unidad, donde se presentan cuatro herramientas clave para soportar las fases de CRISP-DM: RapidMiner, WEKA, Orange y KNIME, todas orientadas al aprendizaje automático, preparación de datos, modelado, evaluación y despliegue de modelos analíticos. 

Adicionalmente, se complementa la información con fuentes externas actuales (sitios oficiales y documentación reciente) para construir un cuadro comparativo, analizar la eficiencia de cada herramienta y relacionarlas con organizaciones del sector real que las utilizan en proyectos de ciencia de datos o analítica.


## 02 - Cuadro comparativo de herramientas (RapidMiner, WEKA, Orange, KNIME)

A continuación se presenta un cuadro comparativo de las cuatro herramientas trabajadas en la Unidad 5, enriquecido con información de sus sitios oficiales y documentación reciente.


In [2]:
import pandas as pd

# Datos del cuadro comparativo
data = {
    "Herramienta": ["RapidMiner", "WEKA", "Orange", "KNIME"],
    "Licencia / costo": [
        "Plataforma comercial (Altair RapidMiner) con versión gratuita limitada para uso académico y pequeños proyectos.",
        "Software libre y de código abierto bajo licencia GPL. Uso gratuito, muy extendido en docencia e investigación.",
        "Software libre y de código abierto (GPLv3), gratuito, con complementos (add-ons) especializados.",
        "Núcleo de código abierto (KNIME Analytics Platform) con componentes empresariales de pago (KNIME Server / Business Hub)."
    ],
    "Interfaz y facilidad de uso": [
        "Interfaz gráfica de flujos (drag & drop). Incluye asistentes y módulos guiados; muy cómoda para usuarios de negocio.",
        "Interfaz clásica con módulos Explorer, Experimenter, KnowledgeFlow. Requiere más conocimiento técnico y estadístico.",
        "Interfaz muy visual basada en widgets conectados en un lienzo. Extremadamente intuitiva para personas sin experiencia en programación.",
        "Interfaz de flujos de trabajo basada en nodos conectados. Combina facilidad de uso con gran flexibilidad para usuarios avanzados."
    ],
    "Funciones principales": [
        "Preparación de datos, gran catálogo de algoritmos de ML, validación cruzada, comparación de modelos y despliegue (scoring).",
        "Amplio conjunto de algoritmos de clasificación, regresión, clustering y reglas de asociación. Fuerte en experimentación y evaluación.",
        "Lectura y transformación de datos, modelos de ML, numerosas visualizaciones interactivas y add-ons para texto, imágenes y bioinformática.",
        "ETL completo (lectura, limpieza, transformación), machine learning supervisado y no supervisado, automatización y reutilización de flujos."
    ],
    "Integración / Big Data": [
        "Conectores a BD, archivos y servicios. Extensiones para Hadoop/Big Data (por ejemplo, Radoop) y capacidad de despliegue en producción.",
        "Enfoque principal en conjuntos de datos pequeños y medianos; integración con producción limitada, suele usarse como laboratorio de modelos.",
        "Pensada para análisis en equipos de escritorio; puede combinarse con Python, pero no es una plataforma corporativa de despliegue masivo.",
        "Conectores a BD, Hadoop/Spark, servicios cloud y herramientas de BI. Versión empresarial para orquestar y programar flujos analíticos."
    ],
    "Uso recomendado / eficiencia": [
        "Muy eficiente para proyectos empresariales donde se requiere cubrir todo el ciclo CRISP-DM y poner modelos en producción de forma rápida.",
        "Muy eficiente en docencia e investigación; ideal para comparar algoritmos y hacer prototipos antes de migrar a otras plataformas.",
        "Muy eficiente para exploración de datos, enseñanza y comunicación visual de resultados cuando el volumen de datos es manejable.",
        "Muy eficiente como plataforma estándar de analítica en organizaciones que buscan flujos repetibles, colaboración y automatización de procesos."
    ]
}

# Crear el DataFrame
df_herramientas = pd.DataFrame(data)

# Mostrar el DataFrame "crudo" (opcional)
df_herramientas



Unnamed: 0,Herramienta,Licencia / costo,Interfaz y facilidad de uso,Funciones principales,Integración / Big Data,Uso recomendado / eficiencia
0,RapidMiner,Plataforma comercial (Altair RapidMiner) con v...,Interfaz gráfica de flujos (drag & drop). Incl...,"Preparación de datos, gran catálogo de algorit...","Conectores a BD, archivos y servicios. Extensi...",Muy eficiente para proyectos empresariales don...
1,WEKA,Software libre y de código abierto bajo licenc...,"Interfaz clásica con módulos Explorer, Experim...",Amplio conjunto de algoritmos de clasificación...,Enfoque principal en conjuntos de datos pequeñ...,Muy eficiente en docencia e investigación; ide...
2,Orange,"Software libre y de código abierto (GPLv3), gr...",Interfaz muy visual basada en widgets conectad...,"Lectura y transformación de datos, modelos de ...",Pensada para análisis en equipos de escritorio...,"Muy eficiente para exploración de datos, enseñ..."
3,KNIME,Núcleo de código abierto (KNIME Analytics Plat...,Interfaz de flujos de trabajo basada en nodos ...,"ETL completo (lectura, limpieza, transformació...","Conectores a BD, Hadoop/Spark, servicios cloud...",Muy eficiente como plataforma estándar de anal...


### Se aplica un estilo(formato) a la tabla generada anteriormente.

In [3]:
# Aplicar estilo al DataFrame
estilo_herramientas = (
    df_herramientas
    .style
    .set_table_styles(
        [
            {
                "selector": "th",
                "props": [
                    ("background-color", "#1f4e79"),  # color de fondo encabezado
                    ("color", "white"),               # color de letra del encabezado
                    ("text-align", "center")
                ]
            },
            {
                "selector": "td",
                "props": [
                    ("vertical-align", "top")
                ]
            }
        ]
    )
    # Para que el texto largo se vea completo y alineado a la izquierda
    .set_properties(**{
        "white-space": "normal",
        "text-align": "left"
    })
)

estilo_herramientas



Unnamed: 0,Herramienta,Licencia / costo,Interfaz y facilidad de uso,Funciones principales,Integración / Big Data,Uso recomendado / eficiencia
0,RapidMiner,Plataforma comercial (Altair RapidMiner) con versión gratuita limitada para uso académico y pequeños proyectos.,Interfaz gráfica de flujos (drag & drop). Incluye asistentes y módulos guiados; muy cómoda para usuarios de negocio.,"Preparación de datos, gran catálogo de algoritmos de ML, validación cruzada, comparación de modelos y despliegue (scoring).","Conectores a BD, archivos y servicios. Extensiones para Hadoop/Big Data (por ejemplo, Radoop) y capacidad de despliegue en producción.",Muy eficiente para proyectos empresariales donde se requiere cubrir todo el ciclo CRISP-DM y poner modelos en producción de forma rápida.
1,WEKA,"Software libre y de código abierto bajo licencia GPL. Uso gratuito, muy extendido en docencia e investigación.","Interfaz clásica con módulos Explorer, Experimenter, KnowledgeFlow. Requiere más conocimiento técnico y estadístico.","Amplio conjunto de algoritmos de clasificación, regresión, clustering y reglas de asociación. Fuerte en experimentación y evaluación.","Enfoque principal en conjuntos de datos pequeños y medianos; integración con producción limitada, suele usarse como laboratorio de modelos.",Muy eficiente en docencia e investigación; ideal para comparar algoritmos y hacer prototipos antes de migrar a otras plataformas.
2,Orange,"Software libre y de código abierto (GPLv3), gratuito, con complementos (add-ons) especializados.",Interfaz muy visual basada en widgets conectados en un lienzo. Extremadamente intuitiva para personas sin experiencia en programación.,"Lectura y transformación de datos, modelos de ML, numerosas visualizaciones interactivas y add-ons para texto, imágenes y bioinformática.","Pensada para análisis en equipos de escritorio; puede combinarse con Python, pero no es una plataforma corporativa de despliegue masivo.","Muy eficiente para exploración de datos, enseñanza y comunicación visual de resultados cuando el volumen de datos es manejable."
3,KNIME,Núcleo de código abierto (KNIME Analytics Platform) con componentes empresariales de pago (KNIME Server / Business Hub).,Interfaz de flujos de trabajo basada en nodos conectados. Combina facilidad de uso con gran flexibilidad para usuarios avanzados.,"ETL completo (lectura, limpieza, transformación), machine learning supervisado y no supervisado, automatización y reutilización de flujos.","Conectores a BD, Hadoop/Spark, servicios cloud y herramientas de BI. Versión empresarial para orquestar y programar flujos analíticos.","Muy eficiente como plataforma estándar de analítica en organizaciones que buscan flujos repetibles, colaboración y automatización de procesos."


## 03 - Análisis de eficiencia de las herramientas

A partir del cuadro comparativo y de la documentación revisada, se puede analizar la eficiencia de cada herramienta en términos de:

- **Curva de aprendizaje**
- **Cobertura del ciclo CRISP-DM**
- **Escalabilidad / capacidad de manejo de datos**
- **Facilidad de despliegue en entornos reales**

### 3.1 RapidMiner

- Ofrece una experiencia muy guiada con flujos de trabajo visuales, asistentes (Auto Model) y módulos de preparación de datos, lo que reduce el tiempo necesario para construir modelos de calidad aceptable (Altair, 2023; Universidad Católica de Colombia, 2024).
- Es especialmente eficiente cuando se trabaja con equipos mixtos (usuarios de negocio + científicos de datos), porque permite que perfiles no técnicos avancen sin escribir código, mientras que los perfiles avanzados pueden afinar parámetros y pipelines complejos.
- Su fortaleza está en proyectos donde se requiere llegar hasta el despliegue (scoring en producción, integración con otros sistemas) manteniendo una trazabilidad clara del proceso CRISP-DM.

**Conclusión parcial:** RapidMiner es muy eficiente en contextos empresariales donde el volumen de datos es alto y se necesita industrializar el ciclo completo de analítica (de datos crudos a modelo en producción).

---

### 3.2 WEKA

- Está optimizada para la experimentación con algoritmos: permite comparar muchos métodos diferentes sobre el mismo conjunto de datos de forma rápida (Hall et al., 2009; Universidad Católica de Colombia, 2024).
- La eficiencia de WEKA se da en la etapa de **modelado y evaluación** de CRISP-DM, más que en la integración o despliegue. Es una herramienta ideal para investigación, tesis, artículos académicos y pruebas conceptuales (prototipos).
- Para entornos de producción se suele utilizar como “laboratorio de modelos”; una vez probado el algoritmo, se implementa en otro entorno (por ejemplo, Python, Java o una plataforma corporativa).

**Conclusión parcial:** WEKA es muy eficiente como banco de pruebas de algoritmos y en proyectos con datos de tamaño pequeño o medio, pero menos eficiente cuando se requiere automatización, gobierno de modelos o integración profunda con sistemas empresariales.

---

### 3.3 Orange

- Es una de las herramientas más amigables para usuarios sin experiencia técnica, gracias a su interfaz de widgets y visualizaciones interactivas (Demsar et al., 2013; Universidad Católica de Colombia, 2024).
- La eficiencia de Orange se expresa en:
  - Tiempos muy cortos para explorar datos y construir los primeros modelos.
  - Gran capacidad para comunicar hallazgos mediante gráficos y flujos visuales.
- Está orientada a análisis exploratorio, docencia y proyectos donde la **interpretabilidad visual** sea prioritaria, más que el despliegue masivo en producción.

**Conclusión parcial:** Orange es altamente eficiente en la fase de **comprensión y preparación de datos**, así como en la comunicación de resultados, pero no está pensada como plataforma principal para despliegue corporativo a gran escala.

---

### 3.4 KNIME

- Combina un enfoque visual de flujos de trabajo con una arquitectura muy sólida para ETL, machine learning y automatización, lo que la hace eficiente en todo el ciclo CRISP-DM: desde la extracción hasta la evaluación y la preparación para el despliegue (Berthold et al., 2008; Universidad Católica de Colombia, 2024).
- Su capacidad para integrar múltiples fuentes, reutilizar flujos, versionarlos y ejecutarlos de forma programada (KNIME Server / Business Hub) es clave para proyectos de analítica a nivel organizacional.
- Es especialmente eficiente cuando se buscan:
  - Flujos repetibles de auditoría, riesgo, finanzas, marketing o manufactura.
  - Colaboración entre muchos analistas de datos distribuidos en la organización.

**Conclusión parcial:** KNIME es muy eficiente como plataforma estándar de analítica para empresas que desean gobernar y escalar sus procesos de minería de datos de manera colaborativa y controlada.


## 04 - Organizaciones del sector real que utilizan cada herramienta

A continuación se relacionan, para cada herramienta, cinco organizaciones del sector real (empresas u organizaciones) donde se reporta el uso de la plataforma en proyectos concretos de analítica o minería de datos.

### 4.1 RapidMiner – ejemplos de uso organizacional

Diversas fuentes externas y reportes técnicos muestran que RapidMiner es utilizado por organizaciones de múltiples sectores (Altair, 2023).

1. **Altair** – Integra RapidMiner dentro de su portafolio para proyectos avanzados de analítica.
2. **Buckman** – Empresa global del sector químico que ha reportado el uso de RapidMiner para optimización de procesos.
3. **FirstEnergy** – Compañía de energía que lo emplea en modelos de predicción y mantenimiento.
4. **GreatAmerica Financial Services** – Utiliza RapidMiner en modelos de riesgo y segmentación.
5. **Tata Technologies** – Consultora que emplea RapidMiner en soluciones de ingeniería basadas en datos.

---

### 4.2 WEKA – ejemplos de uso organizacional

WEKA cuenta con un uso ampliamente documentado en empresas tecnológicas internacionales (Hall et al., 2009).

1. **Amazon** – Uso documentado en experimentación con modelos internos.
2. **Walmart** – Aplicación para análisis de comportamiento de clientes.
3. **Intel Corporation** – Implementación en pruebas de algoritmos de ML.
4. **Apple Inc.** – Uso reportado en análisis de grandes volúmenes de datos.
5. **EPAM Systems** – Emplea WEKA como parte de su stack de ciencia de datos.

---

### 4.3 Orange – ejemplos de uso organizacional

Aunque es más común en academia, Orange se utiliza también en centros científicos y universidades de reconocimiento internacional (Demsar et al., 2013).

1. **Synchrotron SOLEIL (Francia)** – Análisis de datos experimentales.
2. **University of Arizona** – Análisis biomédico y estadístico.
3. **King Khalid University** – Proyectos de minería educativa.
3. **University of Twente** – Enseñanza avanzada de data science.
5. **University of Applied Sciences Mittelhessen** – Visualización en clases de analítica.

---

### 4.4 KNIME – ejemplos de uso organizacional

KNIME ha documentado múltiples casos de éxito en banca, auditoría, manufactura y tecnologías de la información (Berthold et al., 2008).

1. **ING** – Automatización de auditoría interna.
2. **IGT** – Auditoría continua y reporting.
3. **Rabobank** – Detección de anomalías en prevención de fraude.
4. **Grab** – Procesos automatizados de riesgo y cumplimiento.
5. **Empresas de manufactura y ciencias de la vida** – Analítica de procesos y control de calidad.


# CONCLUSIONES


La Unidad 5 permite comprender el papel fundamental que desempeñan las herramientas de minería de datos dentro del proceso analítico moderno. A través del estudio de plataformas como RapidMiner, WEKA, Orange y KNIME, es posible identificar cómo cada una aborda de manera particular las distintas fases del ciclo CRISP-DM, especialmente la preparación de datos, modelamiento, evaluación y despliegue.

Un aspecto central destacado en esta unidad es la importancia de seleccionar la herramienta adecuada según el propósito del análisis, el nivel de experticia del usuario, la disponibilidad de recursos y la necesidad de escalabilidad. Herramientas como RapidMiner y KNIME muestran un alto grado de madurez para entornos corporativos donde se requieren flujos analíticos automatizados, integración con múltiples fuentes de datos y despliegue operativo. Por su parte, WEKA y Orange son plataformas que aportan gran valor en contextos educativos, experimentales o de exploración visual, donde la transparencia del proceso y la facilidad para probar algoritmos son prioritarias.

En conjunto, la Unidad 5 resalta que la eficiencia en minería de datos no depende únicamente de los algoritmos, sino también de la infraestructura tecnológica que acompaña el proceso, la facilidad para manipular datos y la capacidad de transformar modelos en resultados accionables. La comprensión de estas herramientas fortalece la capacidad del analista para diseñar soluciones más sólidas, reproducibles y alineadas a las necesidades específicas del negocio.


En cuanto a la actividad, ésta permitió integrar los contenidos teóricos de la Unidad 5 con una aplicación práctica orientada al análisis comparativo de herramientas de minería de datos. La construcción del cuadro comparativo a través de un DataFrame estilizado facilitó la organización estructurada de la información y permitió visualizar de manera clara las diferencias y fortalezas de cada plataforma.

El análisis de eficiencia evidenció que ninguna herramienta es universal; cada una posee un enfoque particular que la hace más idónea para ciertos escenarios. RapidMiner y KNIME se consolidan como soluciones robustas para proyectos empresariales y flujos analíticos complejos, mientras que WEKA y Orange se destacan por su valor académico y su utilidad para experimentación, enseñanza y análisis exploratorio.

Finalmente, la identificación de empresas reales que utilizan estas herramientas permitió contextualizar su relevancia en la industria y demostrar que su aplicación trasciende los entornos académicos, impactando sectores como energía, manufactura, finanzas, educación, auditoría y tecnología. En conjunto, esta actividad contribuyó a una comprensión integral del ecosistema actual de herramientas de minería de datos y fortaleció la capacidad para seleccionar tecnologías acorde a los objetivos analíticos de un proyecto.

---

# GLOSARIO

### Glosario académico

**Minería de datos (Data Mining):**  
Disciplina que consiste en extraer patrones, relaciones y conocimiento útil a partir de grandes volúmenes de datos mediante técnicas estadísticas, matemáticas y computacionales.

**Aprendizaje automático (Machine Learning):**  
Subcampo de la inteligencia artificial que permite a los sistemas aprender automáticamente a partir de datos, sin necesidad de programación explícita para cada tarea.

**CRISP-DM (Cross Industry Standard Process for Data Mining):**  
Metodología estándar para proyectos de minería de datos que incluye seis fases: comprensión del negocio, comprensión de los datos, preparación de datos, modelado, evaluación y despliegue.

**Modelado predictivo:**  
Proceso mediante el cual se crean modelos estadísticos o de machine learning para predecir comportamientos, valores o tendencias futuras a partir de datos históricos.

**Validación del modelo:**  
Etapa en la que se evalúa el desempeño de un modelo predictivo comparando sus predicciones con datos reales para determinar su precisión, confiabilidad y capacidad de generalización.

**Integración de datos:**  
Proceso de unir datos provenientes de múltiples fuentes para generar una vista unificada, consistente y analizable en un proyecto de minería de datos.

**Escalabilidad:**  
Capacidad de una herramienta, modelo o sistema para aumentar su rendimiento o mantener su eficiencia cuando crece el volumen de datos o la complejidad del análisis.

**Análisis exploratorio de datos (EDA):**  
Conjunto de técnicas gráficas y estadísticas utilizadas para examinar, comprender y descubrir patrones iniciales en los datos antes del modelado.

---

### Glosario técnico

**ETL (Extract, Transform, Load):**  
Proceso técnico que consiste en extraer datos desde fuentes de origen, transformarlos (limpieza, normalización, enriquecimiento) y cargarlos en un repositorio final como un Data Warehouse.

**Workflow analítico:**  
Secuencia de pasos automatizados que definen el flujo de procesamiento de datos dentro de herramientas como RapidMiner, Orange o KNIME.

**Pipeline de machine learning:**  
Estructura que organiza las etapas necesarias para entrenar y evaluar un modelo (limpieza, selección de variables, entrenamiento, pruebas, validación).

**Widget (Orange):**  
Bloques visuales que representan tareas específicas dentro del lienzo de Orange, como visualizaciones, modelos o transformaciones.

**Nodo (KNIME / RapidMiner):**  
Unidad funcional dentro de un flujo de trabajo que ejecuta una tarea específica, por ejemplo: leer datos, filtrar, entrenar un modelo o generar un gráfico.

**Scoring:**  
Proceso de aplicar un modelo entrenado sobre nuevos datos para obtener una predicción o cálculo automático —por ejemplo, probabilidad de fraude o tasa de abandono.

**Cross-Validation:**  
Técnica de validación que divide los datos en múltiples subconjuntos para entrenar y evaluar el modelo repetidamente, aumentando su fiabilidad y reduciendo sobreajuste.

**Normalización de datos:**  
Transformación que ajusta los valores numéricos a un mismo rango (por ejemplo, MinMaxScaler) con el fin de mejorar el desempeño de muchos algoritmos de machine learning.

**Overfitting (Sobreajuste):**  
Situación en la que un modelo aprende demasiado los datos de entrenamiento, incluyendo ruido o patrones no generalizables, lo que reduce su desempeño en datos nuevos.

**Conectores (Data Connectors):**  
Interfaces que permiten a las herramientas de minería de datos integrarse con bases de datos, APIs, archivos y sistemas externos.

**Big Data:**  
Conjuntos de datos de tamaño, variedad o velocidad tan grandes que requieren arquitecturas y herramientas avanzadas como Hadoop o Spark para su procesamiento.

**Clasificación:**  
Tarea de machine learning en la que el modelo asigna una etiqueta o clase a cada instancia (por ejemplo, “cliente se va / cliente se queda”).

**Regresión:**  
Tipo de modelo que predice valores numéricos continuos (por ejemplo, precio de una casa o valor esperado de ventas).

**Clustering:**  
Técnica no supervisada que agrupa datos en función de similitudes, sin necesidad de etiquetas previas (por ejemplo, segmentación de clientes).




---


# BIBLIOGRAFÍA

Altair. (2023). *RapidMiner product overview*. Altair Engineering Inc.

Berthold, M. R., Cebron, N., Dill, F., Gabriel, T. R., Kötter, T., Meinl, T., Ohl, P., Thiel, K., & Wiswedel, B. (2008). *KNIME: The Konstanz Information Miner*. Springer.

Demsar, J., Curk, T., Erjavec, A., Gorup, C., Hocevar, T., Milutinovic, M., Mozina, M., Polajnar, M., Toplak, M., Staric, A., & Zagar, L. (2013). *Orange: Data Mining Toolbox in Python*. Journal of Machine Learning Research, 14, 2349–2353.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). *The WEKA Data Mining Software: An Update*. ACM SIGKDD Explorations Newsletter, 11(1), 10–18.

Universidad Católica de Colombia. (2024). *Unidad 5: Herramientas de Implementación – Minería de Datos* [Documento de curso]. Facultad de Ingeniería.

---



# WEBGRAFIA

### 9.2 Webgrafía

Altair. (2023). RapidMiner product overview. Recuperado de:  
https://www.altair.com/rapidminer/

KNIME. (2024). KNIME Analytics Platform & KNIME Business Hub – Product Information. Recuperado de:  
https://www.knime.com/

Weka – University of Waikato. (2024). Weka 3: Data Mining with Open Source Machine Learning Software. Recuperado de:  
https://www.cs.waikato.ac.nz/ml/weka/

Orange Data Mining. (2024). Orange: Open source data visualization and analysis. Recuperado de:  
https://orangedatamining.com/

Synchrotron SOLEIL. (2024). Scientific Software and Data Analysis. Recuperado de:  
https://www.synchrotron-soleil.fr/

University of Twente. (2024). Data Science Education Materials. Recuperado de:  
https://www.utwente.nl/

University of Arizona – CBMI. (2024). Biomedical Informatics Research. Recuperado de:  
https://cbmi.arizona.edu/

Grab. (2024). Risk & Compliance Analytics Initiatives. Recuperado de:  
https://www.grab.com/

Rabobank. (2024). Innovation in Data Analytics & Financial Crime Prevention. Recuperado de:  
https://www.rabobank.com/

ING. (2024). Internal Audit Analytics Innovation. Recuperado de:  
https://www.ing.com/

GreatAmerica Financial Services. (2024). Analytics and Risk Modeling Overview. Recuperado de:  
https://www.greatamerica.com/

Buckman. (2024). Digital Transformation and Data Analytics. Recuperado de:  
https://www.buckman.com/

FirstEnergy Corp. (2024). Data Science & Predictive Maintenance Programs. Recuperado de:  
https://www.firstenergycorp.com/

Tata Technologies. (2024). Engineering Analytics and Digital Solutions. Recuperado de:  
https://www.tatatechnologies.com/


---