# Machine Learning Tips Notebook

## Métricas
### 1. Precision
'''
La precision mide la proporción de verdaderos positivos entre los ejemplos que el modelo ha clasificado como positivos.

Fórmula:

$ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} $


Donde:
- TP: Verdaderos Positivos
- FP: Falsos Positivos

Ejemplo de uso: En la detección de spam, la precision es importante cuando queremos minimizar los correos electrónicos legítimos clasificados incorrectamente como spam.
'''

### 2. Recall
'''
El recall mide la proporción de verdaderos positivos entre los ejemplos que realmente son positivos.

Fórmula:
$ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} $

Donde:
- TP: Verdaderos Positivos
- FN: Falsos Negativos

Ejemplo de uso: En el diagnóstico de enfermedades, el recall es crucial para asegurarse de identificar a todos los pacientes enfermos.
'''

### 3. Accuracy
'''
La accuracy mide la proporción de todas las predicciones correctas sobre el total de ejemplos.

Fórmula:
$ \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}} $

Donde:
- TP: Verdaderos Positivos
- TN: Verdaderos Negativos
- FP: Falsos Positivos
- FN: Falsos Negativos

Ejemplo de uso: En una clasificación binaria equilibrada, la accuracy es una buena métrica general para evaluar el rendimiento del modelo.
'''

### 4. F1-score
'''
El F1-score es la media armónica de la precision y el recall.

Fórmula:
$ \text{F1-score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} $

Ejemplo de uso: El F1-score es útil cuando se necesita un equilibrio entre precision y recall, especialmente en datasets desbalanceados.
'''

## Bias y Varianza

### Sesgo (Bias)
El sesgo se refiere a los errores que se introducen en el modelo debido a suposiciones simplificadas en el algoritmo de aprendizaje. Un alto sesgo puede llevar a un modelo que no captura la complejidad del problema, resultando en un subajuste (underfitting).

**Características del alto sesgo:**
- Desempeño pobre tanto en el conjunto de entrenamiento como en el conjunto de prueba.
- Simplificación excesiva del modelo.

**Ejemplo:**
Un modelo lineal simple que intenta capturar una relación no lineal compleja.

### Varianza (Variance)
La varianza se refiere a la sensibilidad del modelo a las pequeñas fluctuaciones en el conjunto de entrenamiento. Un modelo con alta varianza tiende a ajustarse demasiado a los datos de entrenamiento, capturando el ruido junto con los patrones, lo que resulta en un sobreajuste (overfitting).

**Características de la alta varianza:**
- Buen desempeño en el conjunto de entrenamiento pero desempeño pobre en el conjunto de prueba.
- Modelo demasiado complejo y ajustado a los datos de entrenamiento.

**Ejemplo:**
Un modelo de regresión polinómica de alto grado que se ajusta a cada punto de datos del conjunto de entrenamiento.

### Compensación Bias-Varianza
El objetivo del aprendizaje automático es encontrar un equilibrio adecuado entre el sesgo y la varianza para minimizar el error total. Esta compensación se conoce como el dilema bias-varianza.

**Error total:**
$\text{Error Total} = \text{Bias}^2 + \text{Varianza} + \text{Error Irreducible}$

- **Bias bajo y Varianza alta:** El modelo es muy complejo y se ajusta demasiado a los datos de entrenamiento (overfitting).
- **Bias alto y Varianza baja:** El modelo es demasiado simple y no captura la complejidad de los datos (underfitting).
- **Bias moderado y Varianza moderada:** El modelo encuentra un equilibrio adecuado, capturando los patrones esenciales sin ajustarse al ruido (buen ajuste).

Encontrar este equilibrio es crucial para construir modelos de aprendizaje automático efectivos y generalizables.

![image.png](attachment:image.png)

## Funciones de Activación

### Funciones de Activación en Capas Ocultas

#### 1. Sigmoid
'''
La función sigmoide transforma la entrada en un valor entre 0 y 1.

Fórmula:
$ \text{Sigmoid}(x) = \frac{1}{1 + \exp(-x)} $

Uso: Común en la última capa de los modelos de clasificación binaria.
'''

#### 2. Tanh
'''
La función tanh transforma la entrada en un valor entre -1 y 1.

Fórmula:
$ \text{Tanh}(x) = \frac{\exp(x) - \exp(-x)}{\exp(x) + \exp(-x)} $

Uso: Común en capas ocultas de redes neuronales.
'''

#### 3. ReLU
'''
La función ReLU (Rectified Linear Unit) devuelve el valor de entrada si es positivo; de lo contrario, devuelve cero.

Fórmula:
$ \text{ReLU}(x) = \max(0, x) $

Uso: Muy utilizada en capas ocultas de redes neuronales profundas debido a su simplicidad y efectividad.
'''

#### 4. Leaky ReLU
'''
La función Leaky ReLU es una variante de ReLU que permite pequeños valores negativos cuando la entrada es menor que cero.

Fórmula:
$ \text{Leaky ReLU}(x) = \begin{cases} 
x & \text{si } x > 0 \\
\alpha x & \text{si } x \leq 0 
\end{cases} $

Uso: Utilizada para evitar el problema de unidades moribundas en redes profundas.
'''

### Funciones de Activación en la Última Capa

#### 1. Softmax
'''
La función softmax convierte un vector de valores en una distribución de probabilidad.

Fórmula:
$ \text{Softmax}(x_i) = \frac{\exp(x_i)}{\sum_{j=1}^{n} \exp(x_j)} $

Uso: Común en la última capa de los modelos de clasificación multiclase.
'''

#### 2. Sigmoid (reiterada)
'''
La función sigmoide transforma la entrada en un valor entre 0 y 1.

Fórmula:
$ \text{Sigmoid}(x) = \frac{1}{1 + \exp(-x)} $

Uso: Común en la última capa de los modelos de clasificación binaria.
'''

## Funciones de Pérdida

### Funciones de Pérdida para Regresión

#### 1. Mean Squared Error (MSE)
'''
La pérdida de error cuadrático medio mide la diferencia promedio al cuadrado entre los valores predichos y los valores reales.

Fórmula:
$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_{\text{pred}} - y_{\text{true}})^2 $

Uso: Común en problemas de regresión.
'''

#### 2. Mean Absolute Error (MAE)
'''
La pérdida de error absoluto medio mide la diferencia promedio absoluta entre los valores predichos y los valores reales.

Fórmula:
$ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_{\text{pred}} - y_{\text{true}}| $

Uso: Utilizado en problemas de regresión donde se prefieren las diferencias absolutas en lugar de las diferencias cuadráticas.
'''

### Funciones de Pérdida para Clasificación

#### 1. Cross-Entropy Loss
'''
La pérdida de entropía cruzada mide la diferencia entre dos distribuciones de probabilidad: la verdadera y la predicha.

Fórmula:
$ \text{Cross-Entropy Loss} = -\sum (y_{\text{true}} \cdot \log(y_{\text{pred}})) $

Uso: Común en problemas de clasificación.
'''

#### 2. Hinge Loss
'''
La pérdida hinge se utiliza en máquinas de soporte vectorial (SVM) y mide la pérdida para clasificaciones incorrectas.

Fórmula:
$ \text{Hinge Loss} = \max(0, 1 - y_{\text{true}} \cdot y_{\text{pred}}) $

Uso: Común en SVMs y problemas de clasificación.
'''

#### 3. Binary Cross-Entropy Loss
'''
La pérdida de entropía cruzada binaria es una variante de la pérdida de entropía cruzada que se usa en problemas de clasificación binaria.

Fórmula:
$ \text{Binary Cross-Entropy Loss} = -[y_{\text{true}} \cdot \log(y_{\text{pred}}) + (1 - y_{\text{true}}) \cdot \log(1 - y_{\text{pred}})] $

Uso: Común en modelos de clasificación binaria.
'''

#### 4. Multi-label Cross-Entropy Loss
'''
La pérdida de entropía cruzada para múltiples etiquetas mide la diferencia entre dos distribuciones de probabilidad en problemas de clasificación con múltiples etiquetas.

Fórmula:
$ \text{Multi-label Cross-Entropy Loss} = -\sum (y_{\text{true}} \cdot \log(y_{\text{pred}}) + (1 - y_{\text{true}}) \cdot \log(1 - y_{\text{pred}})) $

Uso: Común en problemas de clasificación multietiqueta donde cada instancia puede pertenecer a múltiples clases.
'''

## Optimizadores

### 1. Gradient Descent
'''
El descenso de gradiente es un algoritmo de optimización que minimiza la función de pérdida moviéndose en la dirección del gradiente negativo.

Uso: Base para muchos otros optimizadores.
'''

### 2. Stochastic Gradient Descent (SGD)
'''
SGD actualiza los parámetros utilizando un solo ejemplo de entrenamiento a la vez.

Uso: Común en grandes datasets debido a su eficiencia.
'''

### 3. Adam
'''
El optimizador Adam combina las ventajas de Adagrad y RMSprop, manteniendo una media móvil de los gradientes y sus cuadrados.

Fórmula:
$ m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t $
$ v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 $
$ \theta_t = \theta_{t-1} - \alpha \cdot \frac{m_t}{\sqrt{v_t} + \epsilon} $

Uso: Muy popular en el entrenamiento de redes neuronales profundas.
'''

### 4. RMSprop
'''
RMSprop es un optimizador que utiliza una media móvil de los cuadrados de los gradientes para ajustar el tamaño de los pasos.

Fórmula:
$ v_t = \beta \cdot v_{t-1} + (1 - \beta) \cdot g_t^2 $
$ \theta_t = \theta_{t-1} - \alpha \cdot \frac{g_t}{\sqrt{v_t} + \epsilon} $

Uso: Común en problemas de optimización donde el descenso de gradiente estándar es ineficiente.
'''

### 5. Adagrad
'''
Adagrad (Adaptive Gradient Algorithm) es un optimizador que adapta el tamaño del paso de cada parámetro en función de las actualizaciones anteriores, permitiendo un mayor avance en direcciones con gradientes raros y menores en aquellas con gradientes frecuentes.

Fórmula:
$ G_t = G_{t-1} + g_t^2 $
$ \theta_t = \theta_{t-1} - \alpha \cdot \frac{g_t}{\sqrt{G_t} + \epsilon} $

Donde:
- \( G_t \) es una matriz diagonal donde cada elemento \( i, i \) es la suma de los cuadrados de los gradientes de la variable \( i \) hasta el tiempo \( t \).
- \( g_t \) es el gradiente en el tiempo \( t \).
- \( \alpha \) es la tasa de aprendizaje.

Uso: Efectivo para manejar datos dispersos y ajustar automáticamente la tasa de aprendizaje durante el entrenamiento.
'''


![image.png](attachment:image.png)

## SQL

### CTE example 

```sql
WITH <name of cte> AS (
    SELECT <data needed>
    FROM <table>
    JOIN <join table> ON <join attribute t2> = <join attribute t1>
    WHERE <where condition > = 'condition 1'
      AND <where condition > <= 1
)
SELECT
    CASE
        WHEN COUNT(*) = 0 THEN NULL
        ELSE AVG(salary)
    END AS average_salary
FROM Candidates;
```

## ML Algorithms

### Regression Algorithms:
1. Linear Regression
2. Polynomial Regression
3. Support Vector Regression (SVR)
4. Decision Tree Regression
5. Random Forest Regression
6. Gradient Boosting Regression (e.g., XGBoost, LightGBM)

### Classification Algorithms:
1. Logistic Regression
2. Naive Bayes
3. Decision Tree Classification
4. Random Forest Classification
5. Gradient Boosting Classification (e.g., XGBoost, LightGBM)
6. Support Vector Machines (SVM)

### Unsupervised Learning Algorithms:
1. K-means Clustering: Divides instances into k clusters based on their similarity, minimizing the within-cluster sum of squares.
2. Hierarchical Clustering: Builds a hierarchy of clusters by merging or splitting them based on their similarity.
DBSCAN: Density-based clustering algorithm that groups instances based on their density, identifying outliers as noise.
3. Principal Component Analysis (PCA): Reduces the dimensionality of data by finding the orthogonal axes that capture the most variance.
4. Association Rule Learning: Discovers interesting relationships between variables in large datasets, commonly used in market basket analysis.

# Distribuciones de Probabilidad Más Comunes

## 1. Distribución Normal
- **Media (μ)**: Centro de la campana.
- **Desviación estándar (σ)**: Ancho de la campana.
- **Varianza (σ²)**: Cuadrado del ancho de la campana.
- **Valor z (z-score)**: "Número de pasos" desde la media a un valor específico.
- **Uso común**: Se usa para datos que se agrupan alrededor de una media.

## 2. Distribución Binomial
- **Número de ensayos (n)**: Número total de experimentos o pruebas.
- **Probabilidad de éxito (p)**: Probabilidad de que ocurra un resultado positivo en un ensayo.
- **Número de éxitos (k)**: Número de veces que ocurre el resultado positivo.
- **Fórmula**: 
  $P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}$
- **Uso común**: Se usa para experimentos con dos posibles resultados (éxito o fracaso). Ejemplos: lanzar una moneda, resultados de pruebas de diagnóstico.

## 3. Distribución Poisson
- **Tasa media (λ)**: Número promedio de eventos en un intervalo fijo de tiempo o espacio.
- **Número de eventos (k)**: Número de veces que ocurre el evento en el intervalo.
- **Fórmula**: 
  $P(X = k) = \frac{e^{-λ} λ^k}{k!}$
- **Uso común**: Se usa para modelar el número de eventos en un intervalo de tiempo o espacio. Ejemplos: llamadas recibidas por un call center, llegadas de clientes a una tienda.


## Métodos de Validación del Modelo en Machine Learning

### Validación Cruzada (Cross-Validation)
- **K-Fold Cross-Validation**
  - **Descripción**: Divide el conjunto de datos en k partes (folds) de igual tamaño. El modelo se entrena k veces, cada vez utilizando k-1 folds para entrenar y 1 fold para validar.
  - **Uso común**: Proporciona una estimación del rendimiento del modelo más robusta que una sola división de entrenamiento/prueba.
  - **Ventajas**: Reduce el riesgo de sobreajuste y proporciona una evaluación más precisa del modelo.

- **Stratified K-Fold Cross-Validation**
  - **Descripción**: Similar a K-Fold Cross-Validation, pero asegura que cada fold tenga la misma proporción de clases que el conjunto de datos original.
  - **Uso común**: Utilizado en problemas de clasificación para manejar desbalances en las clases.

### Time Series Cross-Validation
- **Rolling Forecast Origin (Walk-Forward Validation)**
  - **Descripción**: Utilizado para datos de series temporales, donde se entrena el modelo en una ventana de tiempo y se valida en el siguiente punto temporal, luego se mueve la ventana hacia adelante.
  - **Uso común**: Garantiza que los datos futuros no se utilicen para predecir datos pasados, respetando la naturaleza temporal de los datos.

## Pytorch simple examples

### Regresion lineal
```python
import torch
import torch.nn as nn
import torch.optim as optim

# Datos de ejemplo
x = torch.tensor([[1.0], [2.0], [3.0], [4.0]], requires_grad=True)
y = torch.tensor([[2.0], [4.0], [6.0], [8.0]], requires_grad=True)

# Modelo de Regresión Lineal
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super(LinearRegressionModel, self).__init__()
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        return self.linear(x)

model = LinearRegressionModel()
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Entrenamiento
for epoch in range(1000):
    model.train()
    outputs = model(x)
    loss = criterion(outputs, y)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
print(f'Coeficiente: {model.linear.weight.item()}, Intercepto: {model.linear.bias.item()}')```
### Regresion logistica
```python
import torch
import torch.nn as nn
import torch.optim as optim

# Datos de ejemplo
x = torch.tensor([[1.0], [2.0], [3.0], [4.0]], requires_grad=True)
y = torch.tensor([[0.0], [0.0], [1.0], [1.0]], requires_grad=True)

# Modelo de Regresión Logística
class LogisticRegressionModel(nn.Module):
    def __init__(self):
        super(LogisticRegressionModel, self).__init__()
        self.linear = nn.Linear(1, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        return self.sigmoid(self.linear(x))

model = LogisticRegressionModel()
criterion = nn.BCELoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Entrenamiento
for epoch in range(1000):
    model.train()
    outputs = model(x)
    loss = criterion(outputs, y)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
print(f'Coeficiente: {model.linear.weight.item()}, Intercepto: {model.linear.bias.item()}')

```
### CNN basica
```python
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

# Datos de ejemplo (imagenes 1x28x28)
x = torch.rand((10, 1, 28, 28))  # 10 imágenes de 1 canal, 28x28 píxeles
y = torch.randint(0, 2, (10,))  # 10 etiquetas de clase (0 o 1)

# Modelo CNN Básica
class BasicCNN(nn.Module):
    def __init__(self):
        super(BasicCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, 2)
        x = torch.flatten(x, 1)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)

model = BasicCNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Entrenamiento
for epoch in range(10):
    model.train()
    outputs = model(x)
    loss = criterion(outputs, y)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

print(f'Pérdida final: {loss.item()}')

```
### RNN basica
```python
import torch
import torch.nn as nn
import torch.optim as optim

# Datos de ejemplo (secuencias de longitud 5 con 3 características)
x = torch.rand((10, 5, 3))  # 10 secuencias de longitud 5 con 3 características
y = torch.randint(0, 2, (10,))  # 10 etiquetas de clase (0 o 1)

# Modelo RNN Básica
class BasicRNN(nn.Module):
    def __init__(self):
        super(BasicRNN, self).__init__()
        self.rnn = nn.RNN(input_size=3, hidden_size=10, num_layers=1, batch_first=True)
        self.fc = nn.Linear(10, 2)

    def forward(self, x):
        _, hn = self.rnn(x)
        out = self.fc(hn[-1])
        return out

model = BasicRNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Entrenamiento
for epoch in range(10):
    model.train()
    outputs = model(x)
    loss = criterion(outputs, y)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

print(f'Pérdida final: {loss.item()}')

```
### Random forest
```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Datos de ejemplo
X, y = make_classification(n_samples=100, n_features=4, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo Random Forest
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# Evaluación
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión: {accuracy}')

```
### ANN basica
```python
import torch
import torch.nn as nn
import torch.optim as optim

# Datos de ejemplo
x = torch.tensor([[0.0, 0.0], [0.0, 1.0], [1.0, 0.0], [1.0, 1.0]], requires_grad=True)
y = torch.tensor([[0.0], [1.0], [1.0], [0.0]], requires_grad=True)

# Modelo ANN Básica
class BasicANN(nn.Module):
    def __init__(self):
        super(BasicANN, self).__init__()
        self.fc1 = nn.Linear(2, 4)
        self.fc2 = nn.Linear(4, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.sigmoid(self.fc2(x))
        return x

model = BasicANN()
criterion = nn.BCELoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

# Entrenamiento
for epoch in range(1000):
    model.train()
    outputs = model(x)
    loss = criterion(outputs, y)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

print(f'Pérdida final: {loss.item()}')

```
