### Machine Learning (ML)

![Descripción de la imagen](Modelos_ML_PrecioViviendas-main\sobre_machine_learning.ipynb)   

**Visión general de las principales categorías y tipos de modelos de Machine Learning:**

![Descripción de la imagen](tipos_machine.png)

#### 1. **Aprendizaje Supervisado**

El aprendizaje supervisado es una técnica de Machine Learning donde el modelo se entrena utilizando un conjunto de datos etiquetados. Esto significa que cada instancia de los datos de entrenamiento tiene una entrada y una salida deseada. El objetivo es que el modelo aprenda una función que mapea entradas a salidas, de manera que pueda predecir la salida correcta para nuevas entradas no vistas.

#### Tipos de Modelos de Aprendizaje Supervisado

Tenemos dos conceptos principales, regresión y clasificación:
_Si queremos predecir valores continuos_ como el precio, la energía o la edad, lo llamamos problema de regresión.· _Si queremos clasificar nuestros datos_ como si queremos predecir el cáncer como maligno o benigno o si queremos predecir el texto como positivo o negativo.

- **Regresión:**

  - **Regresión Lineal:** Asume una relación lineal entre las variables predictoras y la variable objetivo. Se usa cuando la variable objetivo es continua._Predecir el precio de una casa basado en su tamaño y ubicación._
  - **Regresión Polinómica:** Extiende la regresión lineal a relaciones no lineales, ajustando un polinomio a los datos._Modelar la relación entre la temperatura y el rendimiento de una planta industrial._
  - **Regresión Ridge/Lasso:** Variantes de la regresión lineal que añaden regularización para evitar el overfitting._Predicción de ventas futuras, donde hay muchas características (como el marketing, estacionalidad, etc.) y necesitamos prevenir sobreajuste._

- **Clasificación:**
  - **Regresión Logística:** Usada para problemas de clasificación binaria, estima la probabilidad de una clase. _Clasificar correos electrónicos como spam o no spam._ _Pruebas A/B: Determinar si un cambio en el diseño de una página web aumenta la probabilidad de conversión._
  - **k-Nearest Neighbors (k-NN):** Clasifica basado en la proximidad de los puntos de datos en el espacio de características.
  - **Support Vector Machines (SVM):** Encuentra un hiperplano que separa las clases de datos con el mayor margen posible.
  - **Árboles de Decisión:** Modelo basado en reglas de decisión en forma de árbol, donde cada nodo representa una pregunta sobre una característica.
  - **Random Forest:** Conjunto de muchos árboles de decisión entrenados en diferentes subconjuntos de datos, mejorando la precisión.
  - **Gradient Boosting:** Combina varios modelos débiles, como árboles de decisión, para formar un modelo fuerte que mejora iterativamente.

### 2. **Aprendizaje No Supervisado**

El aprendizaje no supervisado se utiliza cuando los datos no tienen etiquetas. El objetivo es encontrar patrones o estructuras ocultas en los datos.

- **Clustering:**

  - **k-Means:** Agrupa los datos en k clusters basados en la proximidad de los puntos de datos.
  - **Hierarchical Clustering:** Agrupa los datos en una jerarquía de clusters.
  - **DBSCAN:** Clustering basado en la densidad de puntos de datos.

- **Reducción de Dimensionalidad:**
  - **Principal Component Analysis (PCA):** Reduce la dimensionalidad de los datos mientras conserva la mayor variabilidad.
  - **t-SNE:** Técnica para reducir la dimensionalidad y visualizar datos en 2D o 3D.
  - **LDA (Linear Discriminant Analysis):** Técnica de reducción de dimensionalidad y clasificación.

### 3. **Aprendizaje Semi-Supervisado**

Combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados para entrenar modelos. Este enfoque es útil cuando etiquetar datos es costoso o difícil.

### 4. **Aprendizaje por Refuerzo**

En el aprendizaje por refuerzo, un agente aprende a tomar decisiones secuenciales optimizando una recompensa acumulada. Es adecuado para problemas donde las acciones se toman en una serie de pasos.

- **Q-Learning:** Algoritmo de aprendizaje por refuerzo basado en valores.
- **Deep Q-Networks (DQN):** Utiliza redes neuronales profundas para aprendizaje por refuerzo.
- **Proximal Policy Optimization (PPO):** Algoritmo de optimización de políticas para aprendizaje por refuerzo.

### 5. **Aprendizaje Profundo (Deep Learning)**

El aprendizaje profundo utiliza redes neuronales con múltiples capas para modelar datos complejos.

- **Redes Neuronales Artificiales (ANN):** Estructura básica de deep learning.
- **Redes Neuronales Convolucionales (CNN):** Especializadas en procesamiento de imágenes.
- **Redes Neuronales Recurrentes (RNN):** Especializadas en secuencias de datos, como series temporales o texto.
- **Transformers:** Arquitectura avanzada usada en procesamiento de lenguaje natural y otras tareas.

### 6. **Otros Modelos y Técnicas**

- **Máquinas de Vectores de Soporte (SVM):** Usadas para clasificación y regresión.
- **Naive Bayes:** Basado en el teorema de Bayes y asume independencia entre las características.
- **Redes Bayesianas:** Modelos probabilísticos que representan un conjunto de variables y sus relaciones de independencia condicional.
- **Modelos Ensemble:**
  - **Bagging (Bootstrap Aggregating):** Combina múltiples modelos (como Random Forest).
  - **Boosting:** Combina modelos débiles para formar un modelo fuerte (como Gradient Boosting).


#### Métricas de evaluación depende del tipo de problema

| **Tipo de Problema**             | **Métricas Comunes**                    | **Descripción**                                                                                                      | **Tipos de Modelos de Aprendizaje Supervisado**                                                                        |
| -------------------------------- | --------------------------------------- | -------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------- |
| **Regresión**                    | Mean Squared Error (MSE)                | Mide el promedio de los errores cuadrados.                                                                           | Regresión Lineal, Regresión Ridge, Lasso, Árboles de Decisión, Random Forest, Gradient Boosting, SVR                   |
|                                  | Root Mean Squared Error (RMSE)          | Raíz cuadrada del MSE. Es más interpretativo porque está en las mismas unidades que la variable objetivo.            |                                                                                                                        |
|                                  | Mean Absolute Error (MAE)               | Promedio de los errores absolutos.                                                                                   |                                                                                                                        |
|                                  | R² Score (Coeficiente de Determinación) | Mide la proporción de la varianza en la variable objetivo que es explicada por las características del modelo.       |                                                                                                                        |
| **Clasificación**                | Accuracy                                | Proporción de predicciones correctas sobre el total de predicciones.                                                 | Regresión Logística, K-Nearest Neighbors, SVM, Árboles de Decisión, Random Forest, Gradient Boosting, Redes Neuronales |
|                                  | Precision                               | Proporción de verdaderos positivos sobre el total de predicciones positivas.                                         |                                                                                                                        |
|                                  | Recall (Sensibilidad)                   | Proporción de verdaderos positivos sobre el total de verdaderos positivos y falsos negativos.                        |                                                                                                                        |
|                                  | F1 Score                                | Media armónica de precision y recall.                                                                                |                                                                                                                        |
|                                  | AUC-ROC (Área bajo la curva ROC)        | Mide la capacidad del modelo para distinguir entre clases.                                                           |                                                                                                                        |
| **Clustering**                   | Silhouette Score                        | Mide qué tan similares son los puntos dentro de un mismo clúster comparado con otros clústeres.                      | K-Means, DBSCAN, Agglomerative Clustering, Gaussian Mixture Models                                                     |
|                                  | Davies-Bouldin Index                    | Mide la media de la similitud entre cada clúster y el clúster más similar a él.                                      |                                                                                                                        |
|                                  | Adjusted Rand Index                     | Mide la similitud entre dos agrupaciones, ajustando por la posibilidad de agrupaciones aleatorias.                   |                                                                                                                        |
| **Reducción de Dimensionalidad** | Explained Variance                      | Mide la proporción de la varianza total que es explicada por cada componente principal.                              | PCA, t-SNE, UMAP                                                                                                       |
|                                  | Reconstruction Error                    | Mide el error entre los datos originales y los datos reconstruidos a partir de la representación de menor dimensión. |                                                                                                                        |
| **Series Temporales**            | Mean Absolute Percentage Error (MAPE)   | Promedio de los errores porcentuales absolutos.                                                                      | ARIMA, SARIMA, Prophet, LSTM (Redes Neuronales Recurrentes)                                                            |
|                                  | Mean Squared Logarithmic Error (MSLE)   | Mide el error entre los valores logarítmicos predichos y los valores logarítmicos reales.                            |                                                                                                                        |
| **Segmentación de Imágenes**     | Intersection over Union (IoU)           | Mide la superposición entre la predicción y la verdad del terreno.                                                   | U-Net, Mask R-CNN, FCN (Fully Convolutional Networks)                                                                  |
|                                  | Dice Coefficient                        | Similar a IoU, pero da más peso a los verdaderos positivos.                                                          |                                                                                                                        |
| **Detección de Objetos**         | Average Precision (AP)                  | Área bajo la curva Precision-Recall para cada clase.                                                                 | YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector), Faster R-CNN                                           |
| **NLP (Clasificación de Texto)** | Cross-Entropy Loss                      | Mide la disimilitud entre las distribuciones de probabilidad predicha y la verdadera.                                | Naive Bayes, SVM, Redes Neuronales (RNN, Transformer)                                                                  |
|                                  | BLEU Score                              | Mide la calidad de las traducciones o resúmenes comparando con referencia humana.                                    |                                                                                                                        |

### Nota Adicional:

- La elección del modelo también puede depender de las características del conjunto de datos, la complejidad del problema, y la disponibilidad de recursos computacionales.
