# ML models 
---- 

# Performance Evaluation methods
----

# Feature Selection Methods

## 1. Filter Methods

### 1.1 Parametric Methods (Univariants)

#### Discrete Predictors
- Mutual information  
- Gain ratio  
- Symmetrical uncertainty  
- Chi-squared  
- Odds ratio  
- Bi-normal separation  

#### Continuous Predictors
- t-test family  
- ANOVA  

### 1.2 Model-Free Methods (Univariants)
- Threshold number of misclassification (TNoM)  
- P-metric  
- Mann-Whitney test  
- Kruskal-Wallis test  
- Between-groups to within-groups sum of squares  
- Scores based on estimating density functions  


### 1.3 Multivariant

- RELIEF algorithm
- Correlation-based feature selection
- Conditional mutual information

---

## 2. Wrapper Methods

### 2.1 Deterministic Heuristics

#### Sequential Methods
- Sequential feature selection  
- Sequential forward feature selection  
- Sequential backward elimination  

#### Greedy and Best-First Approaches
- Greedy hill climbing  
- Best first  

#### Hybrid and Adaptive Methods
- Plus-L-Minus-r algorithm  
- Floating search selection  

#### Advanced Deterministic Search
- Tabu search  
- Branch and bound  

### 2.2 Non-Deterministic Heuristics

#### Single-Solution Metaheuristics
- Simulated annealing  
- Las Vegas algorithm  
- Greedy randomized adaptive search procedure (GRASP)  
- Variable neighborhood search  

#### Population-Based Metaheuristics
- Scatter search  
- Ant colony optimization  
- Particle swarm optimization  

#### Evolutionary Algorithms
- Genetic algorithms  
- Estimation of distribution algorithms  
- Differential evolution  
- Genetic programming  
- Evolution strategies

----



Tipo	Evaluadores

-Filtro univariante: 	InfoGainAttributeEval, GainRatioAttributeEval, SymmetricalUncertAttributeEval, OneRAttributeEval, CorrelationAttributeEval, ReliefFAttributeEval

-Filtro multivariante:     CfsSubsetEval, PrincipalComponents

-Wrapper:   	WrapperSubsetEval, ClassifierSubsetEval, ClassifierAttributeEval

# WEKA — Classification Models (Supervised Learning)

Guía completa de clasificadores de **WEKA** organizada por tipo de modelo y naturaleza estadística.  
Incluye las rutas de clase (`weka.classifiers...`) para su uso en **Experimenter** o **CLI**.

---

## ⚙️ Non-Probabilistic Models

### 🔹 KNN (K-Nearest Neighbors)
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| KNN clásico | **IBk** | `weka.classifiers.lazy.IBk` | No paramétrico | Basado en distancias (vecindad) |
| K* (versión basada en entropía) | **KStar** | `weka.classifiers.lazy.KStar` | No paramétrico | Basado en entropía y similitud probabilística |
| LWL (Locally Weighted Learning, variante ponderada) | **LWL** | `weka.classifiers.lazy.LWL` | No paramétrico | Basado en distancias ponderadas localmente |

---

### 🔹 Rule Induction (Inducción de Reglas)
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| Reglas tipo RIPPER | **JRip** | `weka.classifiers.rules.JRip` | No paramétrico | Basado en reglas lógicas (IF-THEN) |
| Reglas OneR (una regla por atributo) | **OneR** | `weka.classifiers.rules.OneR` | No paramétrico | Basado en reglas simples por atributo |
| Reglas PART (a partir de árboles) | **PART** | `weka.classifiers.rules.PART` | No paramétrico | Basado en reglas derivadas de árboles |
| Decision Table | **DecisionTable** | `weka.classifiers.rules.DecisionTable` | No paramétrico | Basado en tabla de decisiones (combinaciones de atributos) |

---

### 🔹 ANN (Artificial Neural Networks)
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| Multilayer Perceptron (MLP clásico, backpropagation) | **MultilayerPerceptron** | `weka.classifiers.functions.MultilayerPerceptron` | Paramétrico | No lineal, basado en capas neuronales |
| Red de base radial | **RBFNetwork** | `weka.classifiers.functions.RBFNetwork` | Paramétrico | No lineal, funciones de base radial |
| Variante moderna de RBF | **RBFClassifier** | `weka.classifiers.functions.RBFClassifier` | Paramétrico | No lineal, funciones de base radial |
| Simple Logistic (una capa logística, con boosting) | **SimpleLogistic** | `weka.classifiers.functions.SimpleLogistic` | Paramétrico | Lineal (regresión logística con boosting) |

---

### 🔹 SVM (Support Vector Machines)
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| SVM clásico (SMO = Sequential Minimal Optimization) | **SMO** | `weka.classifiers.functions.SMO` | Paramétrico | Lineal o no lineal (según kernel) |
| SVM con regresión (para tareas de regresión) | **SMOreg** | `weka.classifiers.functions.SMOreg` | Paramétrico | Lineal o no lineal (según kernel) |

---

### 🔹 Árboles de Decisión
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| ID3 (básico, sin pruning) | **Id3** | `weka.classifiers.trees.Id3` | No paramétrico | Basado en particiones de entropía (no lineal) |
| C4.5 (implementación mejorada: J48) | **J48** | `weka.classifiers.trees.J48` | No paramétrico | Basado en ganancia de información (no lineal) |
| Random Tree | **RandomTree** | `weka.classifiers.trees.RandomTree` | No paramétrico | Basado en árboles aleatorios (no lineal) |
| Random Forest | **RandomForest** | `weka.classifiers.trees.RandomForest` | No paramétrico | Ensamble de árboles, no lineal |
| REPTree (similar a CART) | **REPTree** | `weka.classifiers.trees.REPTree` | No paramétrico | Basado en reducción de error, no lineal |
| Decision Stump (un solo nodo, útil para boosting) | **DecisionStump** | `weka.classifiers.trees.DecisionStump` | No paramétrico | Lineal por tramos (una división) |
| Logistic Model Tree | **LMT** | `weka.classifiers.trees.LMT` | Híbrido | No lineal (árbol con regresión logística en hojas) |

---

## 🎲 Probabilistic Models

### 🔹 Bayesian — Discrete
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| Naive Bayes clásico (atributos discretos) | **NaiveBayes** | `weka.classifiers.bayes.NaiveBayes` | Paramétrico | Probabilístico clásico basado en independencia condicional |
| Naive Bayes Multinomial | **NaiveBayesMultinomial** | `weka.classifiers.bayes.NaiveBayesMultinomial` | Paramétrico | Para datos de texto o conteo (multinomial) |
| Complement Naive Bayes | **ComplementNB** | `weka.classifiers.bayes.ComplementNB` | Paramétrico | Variante robusta para clases desbalanceadas |
| Hidden Naive Bayes | **HNB** | `weka.classifiers.bayes.HNB` | Paramétrico | Extiende NB considerando dependencias entre atributos |
| Bayesian Network | **BayesNet** | `weka.classifiers.bayes.BayesNet` | Paramétrico | Modela relaciones de dependencia entre variables (grafo acíclico) |

---

### 🔹 Bayesian — Continuous
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| Naive Bayes para atributos continuos (asume normalidad) | **NaiveBayesSimple** | `weka.classifiers.bayes.NaiveBayesSimple` | Paramétrico | Supone distribución gaussiana de los atributos |
| Naive Bayes con estimación Kernel | **NaiveBayesKDE** | `weka.classifiers.bayes.NaiveBayesKDE` | Paramétrico | Estima densidades continuas mediante kernel |
| Naive Bayes KNN (versión mixta) | **NaiveBayesKNN** | `weka.classifiers.bayes.NaiveBayesKNN` | Paramétrico | Estima densidad con vecinos más cercanos |

---

### 🔹 Logistic / Probabilistic Regression
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| Regresión logística | **Logistic** | `weka.classifiers.functions.Logistic` | Paramétrico | Estima probabilidad con función logística (sigmoide) |
| Simple Logistic (con boosting) | **SimpleLogistic** | `weka.classifiers.functions.SimpleLogistic` | Paramétrico | Ensamble de regresiones logísticas simples |
| Linear Regression (para clasificación softmax) | **LinearRegression** | `weka.classifiers.functions.LinearRegression` | Paramétrico | Lineal, adaptable a clasificación binaria probabilística |

---

### 🔹 Discriminant Analysis
| Tipo general | Nombre en WEKA | Ruta / Clase | Tipo | Naturaleza del modelo |
|---------------|----------------|---------------|-------|------------------------|
| Linear Discriminant Analysis | **LinearDiscriminantAnalysis (LDA)** | `weka.classifiers.functions.LinearDiscriminantAnalysis` *(paquete externo)* | Paramétrico | Probabilístico lineal, asume covarianza igual entre clases |
| Quadratic Discriminant Analysis | **QuadraticDiscriminantAnalysis (QDA)** | `weka.classifiers.functions.QuadraticDiscriminantAnalysis` *(paquete externo)* | Paramétrico | Probabilístico cuadrático, covarianzas distintas por clase |

---



# Guía de Parámetros de Modelos para WEKA Experimenter

Esta es una guía de los hiperparámetros más importantes que puedes probar para los modelos listados en tu plan de análisis.

**Metodología:** Para probar diferentes parámetros de un mismo modelo (ej. RandomForest con 100 árboles y con 200 árboles), simplemente añade RandomForest dos veces a la lista de "Algorithms" en el Experimenter y configura cada instancia con los parámetros deseados.

---

## Experimento 1: Modelos Robustos (Grupo 1)

**Dataset:** `datos_train_grupo1.arff`

### Árboles de Decisión

**1. J48 (C4.5)**  
- **confidenceFactor (-C):** Umbral para la poda.  
  - Valores a probar: 0.1, 0.25 (default), 0.5  
- **minNumObj (-M):** Número mínimo de instancias por hoja.  
  - Valores a probar: 2 (default), 5, 10  

**2. Id3**  
- No tiene parámetros relevantes para tuning. Nota: tiende a sobreajustar.

**3. RandomTree**  
- **K (numFeatures):** Número de atributos a considerar aleatoriamente en cada división.  
  - Valores a probar: 0 (default, usa log2(N)+1), 3, 5  
- **maxDepth:** Profundidad máxima del árbol. 0 = sin límite.  
  - Valores a probar: 0 (default), 5, 10  

**4. RandomForest**  
- **numIterations (-I):** Número de árboles en el bosque.  
  - Valores a probar: 100 (default), 200, 500  
- **maxDepth:** Profundidad máxima de cada árbol.  
  - Valores a probar: 0 (default), 5, 10, 20  

**5. REPTree**  
- **minNum (-M):** Mínimo de instancias por hoja.  
  - Valores a probar: 2.0 (default), 5.0, 10.0  
- **maxDepth:** Profundidad máxima del árbol.  
  - Valores a probar: -1 (default, sin límite), 3, 5  

**6. DecisionStump**  
- No tiene parámetros. Nota: toma una sola decisión.

**7. LMT (Logistic Model Tree)**  
- **numBoostingIterations (-I):** Iteraciones de LogitBoost.  
  - Valores a probar: -1 (default, auto), 10, 30  

---

### Inducción de Reglas

**1. JRip (RIPPER)**  
- **minNo (-N):** Número mínimo de instancias que debe cubrir una regla.  
  - Valores a probar: 2.0 (default), 3.0, 5.0  
- **folds (-F):** Número de folds en la poda interna.  
  - Valores a probar: 3 (default), 5  

**2. OneR**  
- **minBucketSize (-B):** Mínimo de instancias por cubeta.  
  - Valores a probar: 6 (default), 10, 20  

**3. PART**  
- **confidenceFactor (-C):** Umbral de poda (igual que J48).  
  - Valores a probar: 0.1, 0.25 (default), 0.5  
- **minNumObj (-M):** Mínimo de instancias por hoja.  
  - Valores a probar: 2 (default), 5, 10  

**4. DecisionTable**  
- **search:** Algoritmo para buscar el mejor subconjunto de atributos.  
  - Valores a probar: BestFirst (default), GreedyStepwise  

---

## Experimento 2: Modelos Sensibles (Grupo 2)

**Dataset:** `datos_train_grupo2.arff`  

**Nota:** Aquí se usa `FilteredClassifier`. Hay dos niveles de parámetros: del filtro (SMOTE) y del clasificador (SMO, IBk, etc.).

### A. Parámetros del Filtro (weka.filters.supervised.instance.SMOTE)

- **percentage (-P):** Porcentaje de sobremuestreo.  
  - Valores a probar: 100.0 (default), 300.0, 500.0  
- **nearestNeighbors (-K):** Vecinos para generar instancias sintéticas.  
  - Valores a probar: 5 (default), 3  

---

### B. Parámetros de los Clasificadores

**1. IBk (KNN)**  
- **KNN (-K):** Número de vecinos.  
  - Valores a probar: 1, 3, 5, 7, 11  

**2. KStar**  
- **globalBlend (-B):** Controla la esfera de influencia.  
  - Valores a probar: 20 (default), 10, 40  

**3. LWL (Locally Weighted Learning)**  
- **KNN (-K):** Vecinos para ponderación local.  
  - Valores a probar: -1 (default, todos), 5, 10, 20  

**4. MultilayerPerceptron (ANN)**  
- **hiddenLayers (-H):** Arquitectura de la red.  
  - Valores a probar: `'a'` (default), `'5'`, `'10,5'`  
- **learningRate (-L):** Tasa de aprendizaje.  
  - Valores a probar: 0.3 (default), 0.1, 0.01  
- **trainingTime (-N):** Épocas de entrenamiento.  
  - Valores a probar: 500 (default), 1000, 2000  

**5. RBFClassifier**  
- **numClusters (-N):** Número de funciones de base radial.  
  - Valores a probar: 2 (default), 5, 10, 20  

**6. SimpleLogistic**  
- **numBoostingIterations (-I):** Iteraciones de LogitBoost.  
  - Valores a probar: 500 (default), 100, 1000  

**7. SMO (SVM)**  
- **C:** Regularización.  
  - Valores a probar: 0.1, 1.0 (default), 10.0  
- **kernel:** Función de kernel.  
  - Valores a probar:  
    - `weka.classifiers.functions.supportVector.PolyKernel` (default)  
    - `weka.classifiers.functions.supportVector.RBFKernel` (radial)  
- **gamma (-G) (solo RBFKernel):** Influencia de un ejemplo.  
  - Valores a probar: 0.01 (default), 0.1, 1.0  


# Guía de Parámetros de Modelos Probabilísticos para WEKA

Esta es una guía de los hiperparámetros más importantes que puedes probar para los modelos listados en tu plan de análisis probabilístico.

---

## Metodología

Para probar diferentes parámetros de un mismo modelo (por ejemplo, BayesNet con TAN y BayesNet con K2), simplemente añade BayesNet dos veces a la lista de *Algorithms* en el Experimenter y configura cada instancia con el `searchAlgorithm` deseado.

---

## Experimento 1: Modelos Robustos (Grupo 1)

**Dataset:** `datos_train_grupo1.arff`  
(Datos crudos, mixtos, sin anomalías)

### Modelos Bayesianos (Manejo Mixto)

#### 1. NaiveBayes — Tus modelos “Mixtos”

Aquí comparas cómo tratar los predictores continuos.  
Añade **NaiveBayes** dos veces:

##### Prueba A: “Kernel-Based”

- **Parámetro:** `useKernelEstimator (-K)` = `True`  
- **Parámetro:** `useSupervisedDiscretization (-D)` = `False`

##### Prueba B: “Discretized”

- **Parámetro:** `useKernelEstimator (-K)` = `False`  
- **Parámetro:** `useSupervisedDiscretization (-D)` = `True`

---

#### 2. SelectiveNaiveBayes

- **Parámetro:** `search`  
  - **Qué es:** Método de búsqueda para seleccionar los atributos.  
  - **Valores a probar:** `BestFirst (Default)`, `GreedyStepwise`

---

#### 3. AODE (Averaged One-Dependence Estimators, relacionado con SP-ODE)

- **Parámetro:** `frequencyLimit (-f)`  
  - **Qué es:** Frecuencia mínima de un “super-padre” para ser incluido.  
  - **Valores a probar:** `1 (Default)`, `5`, `10`

---

#### 4. KDB (k-dependence Bayesian Classifier)

- **Parámetro:** `k`  
  - **Qué es:** Nivel de dependencia (el “k”).  
  - **Valores a probar:** `2`, `3`  
  (Nota: `k=1` es equivalente a NaiveBayes).

---

#### 5. MarkovBlanketClassifier

- **Parámetro:** `search`  
  - **Qué es:** Algoritmo para encontrar la “manta de Markov” de la clase.  
  - **Valores a probar:** `BestFirst (Default)`, `GreedyStepwise`

---

#### 6. BayesNet — Red Bayesiana General y TAN

- **Parámetro:** `searchAlgorithm`  
  - **Qué es:** Algoritmo para aprender la estructura de la red.

**Valores a probar** (añade BayesNet 4 veces al experimento):

| Variante | searchAlgorithm | Descripción |
|-----------|----------------|--------------|
| TAN | `weka.classifiers.bayes.net.search.local.TAN` | Tree Augmented Naive Bayes |
| K2 | `weka.classifiers.bayes.net.search.local.K2` | Rápido, requiere orden de atributos |
| HillClimber | `weka.classifiers.bayes.net.search.local.HillClimber` | Clasificador no restringido |
| TabuSearch | `weka.classifiers.bayes.net.search.local.TabuSearch` | Clasificador no restringido, más lento y potente |

---

## Experimento 2: Modelos Sensibles (Grupo 2)

**Dataset:** `datos_train_grupo2.arff`  
(Datos 100% numéricos y normalizados)

Nota: Aquí se usa **FilteredClassifier**.  
Hay dos niveles de parámetros: del filtro (**SMOTE**) y del clasificador (**Logistic**, **LDA**, etc.).

---

### A. Parámetros del Filtro — `weka.filters.supervised.instance.SMOTE`

- **Parámetro:** `percentage (-P)`  
  - **Qué es:** Porcentaje de sobremuestreo.  
  - **Valores a probar:** `100.0 (Default)`, `300.0`, `500.0` (depende del desbalanceo)

- **Parámetro:** `nearestNeighbors (-K)`  
  - **Qué es:** Número de vecinos usados para generar instancias sintéticas.  
  - **Valores a probar:** `5 (Default)`, `3`

---

### B. Parámetros de los Clasificadores

#### 1. Logistic — Regresión Logística

- **Parámetro:** `ridge (-R)`  
  - **Qué es:** Regularización L2 para prevenir sobreajuste.  
  - **Valores a probar:** `1.0E-8 (Default)`, `0.01`, `0.1`, `1.0`

---

#### 2. LinearDiscriminantAnalysis (LDA)

- **Parámetros:** (Pocos parámetros relevantes para tuning)  
  - **Nota:** El rendimiento de LDA depende casi exclusivamente del preprocesamiento  
    (normalización, log-transformaciones, etc.) para cumplir el supuesto de normalidad.

---

#### 3. QuadraticDiscriminantAnalysis (QDA)

- **Parámetros:** (Ninguno relevante para tuning)  
  - **Nota:** Al igual que LDA, depende críticamente de que los datos sigan una distribución gaussiana.  
    Más flexible que LDA al no asumir covarianza compartida.

---

## Resumen

| Categoría | Modelo | Parámetro principal | Valores sugeridos |
|------------|---------|--------------------|------------------|
| Bayesianos mixtos | NaiveBayes | `-K`, `-D` | Kernel vs Discretization |
| Selección de atributos | SelectiveNaiveBayes | `search` | BestFirst / GreedyStepwise |
| Dependencia promedio | AODE | `-f` | 1 / 5 / 10 |
| Dependencia K | KDB | `k` | 2 / 3 |
| Manta de Markov | MarkovBlanketClassifier | `search` | BestFirst / GreedyStepwise |
| Redes Bayesianas | BayesNet | `searchAlgorithm` | TAN / K2 / HillClimber / TabuSearch |
| Sobremuestreo | SMOTE | `-P`, `-K` | 100–500 / 3–5 |
| Regresión logística | Logistic | `-R` | 1e-8 / 0.01 / 0.1 / 1.0 |
| Discriminante | LDA / QDA | — | Depende del preprocesamiento |
