# Machine Learning
---
<style>
      h1, h2, h3, h4, h5, h6,.imagen {
        text-align: center;
      }
 img{width: 75%; height: 75%;}
</style>

- [Machine Learning](#machine-learning)
  - [El Aprendizaje](#el-aprendizaje)
  - [El aprendizaje automático](#el-aprendizaje-automático)
  - [Clasificación de Machine Learning](#clasificación-de-machine-learning)
    - [Aprendizaje supervisado](#aprendizaje-supervisado)
    - [Aprendizaje no supervisado](#aprendizaje-no-supervisado)
    - [Aprendizaje por refuerzo](#aprendizaje-por-refuerzo)
  - [Un Desarrollo Tradicional vs Machine Learning](#un-desarrollo-tradicional-vs-machine-learning)
  - [Modelos de Machine Learning](#modelos-de-machine-learning)
  - [Pasos para crear un modelo de Machine Learning](#pasos-para-crear-un-modelo-de-machine-learning)
    - [Recopilación de datos](#recopilación-de-datos)
    - [Explorar y preparar los datos](#explorar-y-preparar-los-datos)
    - [Seleccionar y entrenar un modelo](#seleccionar-y-entrenar-un-modelo)
    - [Evaluación del rendimiento del modelo](#evaluación-del-rendimiento-del-modelo)
    - [Mejora del rendimiento del modelo](#mejora-del-rendimiento-del-modelo)
  - [Algoritmos de Machine Learning](#algoritmos-de-machine-learning)
    - [Algoritmos Paramétricos y No Paramétricos](#algoritmos-paramétricos-y-no-paramétricos)
    - [Sesgo y Varianza](#sesgo-y-varianza)
    - [Algoritmo de Regresión Lineal](#algoritmo-de-regresión-lineal)
    - [Algoritmo de Regresión Logística](#algoritmo-de-regresión-logística)
    - [Algoritmo de Análisis Discriminante Lineal](#algoritmo-de-análisis-discriminante-lineal)
    - [Análisis de Componentes Principales](#análisis-de-componentes-principales)
    - [Árboles de Clasificación y Regresión](#árboles-de-clasificación-y-regresión)
    - [K-Means](#k-means)
    - [Algoritmo de los k-Vecinos más Cercanos](#algoritmo-de-los-k-vecinos-más-cercanos)
    - [Perceptrón](#perceptrón)
    - [Vector de Cuantización de Aprendizaje (Learning Vector Quantization, LVQ)](#vector-de-cuantización-de-aprendizaje-learning-vector-quantization-lvq)
    - [Máquinas de Vectores de Soporte](#máquinas-de-vectores-de-soporte)
    - [Bagging y Bosques Aleatorios](#bagging-y-bosques-aleatorios)
    - [Boosting y AdaBoost](#boosting-y-adaboost)
  - [Funciones de Pérdida](#funciones-de-pérdida)
  - [Ejemplos de Uso de Machine Learning](#ejemplos-de-uso-de-machine-learning)
    - [Sistemas de recomendación y marketing personalizado](#sistemas-de-recomendación-y-marketing-personalizado)
    - [Segmentación de mercado](#segmentación-de-mercado)
    - [Chatbots](#chatbots)
    - [Navegación autónoma](#navegación-autónoma)
    - [Mantenimiento predictivo](#mantenimiento-predictivo)
    - [Generación de contenido](#generación-de-contenido)
    - [Clasificación de datos](#clasificación-de-datos)
    - [Predicción y pronóstico](#predicción-y-pronóstico)
    - [Reconocimiento de voz y procesamiento del lenguaje natural](#reconocimiento-de-voz-y-procesamiento-del-lenguaje-natural)
    - [Visión por computadora](#visión-por-computadora)
    - [Medicina y salud](#medicina-y-salud)
    - [Automatización industrial](#automatización-industrial)
    - [Seguridad cibernética](#seguridad-cibernética)

## El Aprendizaje

El aprendizaje es el proceso a través del cual se adquieren y desarrollan habilidades, conocimientos, conductas y valores. Este proceso puede ser resultado de la atención, el estudio, la experiencia, la instrucción, el razonamiento o la observación. El aprendizaje es una de las funciones mentales más importantes en humanos, animales y sistemas artificiales.

## El aprendizaje automático

El aprendizaje automático o Machine Learning es una rama de la inteligencia artificial que se ocupa del estudio y desarrollo de algoritmos y modelos estadísticos que permiten a las computadoras aprender a realizar una tarea y mejorar automáticamente a partir de datos, sin ser explícitamente programadas para realizar dicha tarea. 

La idea es que, en lugar de desarrollar un conjunto de reglas que guíen el comportamiento de la aplicación, esta se entrene con datos para que, a partir de dicho entrenamiento, pueda generalizar y realizar predicciones sobre nuevos datos, lo cual influirá en su comportamiento. Otra forma de plantearlo es que buscamos una función que nos permita predecir la variable dependiente de salida en función de una o varias variables independientes de entrada.

## Clasificación de Machine Learning

### Aprendizaje supervisado

En el aprendizaje supervisado, los algoritmos se alimentan de un conjunto de datos de entrada, los cuales pueden ser continuos o discretos, junto con una variable de respuesta correspondiente. Este enfoque se divide en dos categorías principales: clasificación y regresión.

- En la clasificación, el objetivo es asignar cada instancia de entrada a una categoría o clase predefinida. Por ejemplo, se puede utilizar el aprendizaje supervisado para clasificar correos electrónicos en spam o no spam, o para identificar el contenido de imágenes en diferentes categorías.

- En la regresión, se aplica cuando se busca predecir un valor numérico continuo. Por ejemplo, se puede utilizar el aprendizaje supervisado para predecir el precio de una vivienda en función de características como el tamaño, la ubicación, etc.

### Aprendizaje no supervisado

En el aprendizaje no supervisado, los algoritmos de aprendizaje se utilizan cuando no se dispone de una variable de respuesta específica. En su lugar, el enfoque se centra en descubrir patrones, estructuras, relaciones, tendencias, agrupamientos y/o anomalías en los datos de entrada. Por lo tanto, no requiere una etiqueta o variable de respuesta predefinida, sino que se basa en la estructura inherente de los datos para realizar análisis y extraer conocimiento. Algunas técnicas comunes utilizadas en el aprendizaje no supervisado incluyen:

- Agrupamiento (clustering): Los algoritmos de agrupamiento buscan identificar grupos o clústeres en los datos, donde las instancias dentro de un mismo grupo son más similares entre sí que con las instancias de otros grupos. Esto puede ser útil para descubrir patrones y segmentar datos en categorías no conocidas previamente.

- Análisis de componentes principales (PCA): PCA es una técnica de reducción de dimensionalidad que busca encontrar combinaciones lineales de variables para representar los datos de manera más compacta. Esto puede ayudar a identificar las principales características o dimensiones subyacentes en los datos.

- Reglas de asociación: Este enfoque busca descubrir relaciones y patrones frecuentes entre diferentes variables o atributos en los datos. Por ejemplo, se puede utilizar para identificar productos que tienden a ser comprados juntos en un supermercado.

- Detección de anomalías: Se utilizan algoritmos para identificar instancias o patrones inusuales o atípicos en los datos. Esto puede ser útil para detectar fraudes, errores o comportamientos anómalos en una variedad de campos.

### Aprendizaje por refuerzo

El aprendizaje por refuerzo es una modalidad de aprendizaje automático en la cual un agente aprende a tomar decisiones en un entorno a través de recompensas o castigos por sus acciones. A diferencia de proporcionar al agente una variable de respuesta específica o etiquetas predefinidas, el agente recibe una señal de recompensa que indica qué tan bien está desempeñándose en su tarea. El objetivo del agente es aprender una política que maximice la recompensa acumulada a lo largo del tiempo. Para lograrlo, el agente debe explorar su entorno y probar diferentes acciones para descubrir cuáles resultan en mayores recompensas. Con el tiempo, el agente aprende a tomar decisiones óptimas basándose en su experiencia previa.

El aprendizaje por refuerzo se aplica en diversos campos, como juegos, robótica, finanzas y control de sistemas. Algunos ejemplos de aplicaciones incluyen enseñar a un agente a jugar juegos de Atari, controlar un brazo robótico para realizar tareas específicas u optimizar una cartera de inversiones.

Algunas de las técnicas comunes utilizadas en el aprendizaje por refuerzo son:

- Algoritmo Q-Learning: Un algoritmo de aprendizaje por refuerzo que utiliza una tabla (Q-table) para almacenar y actualizar los valores de recompensa esperados para pares de estados y acciones. Permite al agente tomar decisiones óptimas basadas en la exploración y explotación del entorno.

- Aproximación de funciones de valor: En lugar de utilizar una tabla para almacenar valores de recompensa, se utiliza una función de valor aproximada para estimar la recompensa esperada para diferentes estados y acciones. Esto permite lidiar con espacios de estados continuos o de alta dimensionalidad.



- Algoritmos basados en políticas: En lugar de aprender valores de recompensa esperados, estos algoritmos aprenden directamente una política que mapea estados a acciones. Pueden ser útiles cuando la exploración es costosa o cuando se necesita un comportamiento determinista.
  
- Métodos Monte Carlo: Estos métodos se basan en la estimación de recompensas esperadas a partir de muestras de episodios completos. Utilizan el promedio de las recompensas obtenidas en cada episodio para actualizar la política y mejorar el desempeño del agente.

- Algoritmos Actor-Critic: Combina elementos de métodos basados en políticas y aproximación de funciones de valor. El actor aprende una política y el crítico evalúa la calidad de las acciones tomadas por el actor. Estos dos componentes se retroalimentan y mejoran mutuamente.

## Desarrollo Tradicional vs Machine Learning
 
<div class="imagen">
<img src="https://www.avenga.com/wp-content/uploads/2021/12/image4-1.png" alt="Mcpits"  >
</div>



En un desarrollo tradicional, el programador escribe un código que toma un conjunto de datos de entrada, son procesados a travez de algoritmos claramente definidos  y produce un resultado. En el aprendizaje automático, el programador escribe un algoritmo que toma un conjunto de datos de entrada y un conjunto de resultados de salida, despues de un proceso de entrenamiento el algoritmo aprende a resolver la tarea y es integrado como parte de un programa. El programa generado se puede utilizar para predecir el resultado de nuevos datos de entrada.

## Modelos de Machine Learning

Un modelo es una representación matemática o computacional que captura las relaciones y patrones subyacentes en los datos. Se crea a partir de un conjunto de datos de entrenamiento y se utiliza para realizar predicciones o tomar decisiones sobre nuevos datos.

## Pasos para crear un modelo de Machine Learning

### Recopilación de datos

La recopilación de datos en general es una parte esencial para el análisis y la resolución de problemas, consiste en obtener información relevante en diversas formas (texto, datos tabulares, imágenes o sonidos). 

### Explorar y preparar los datos

La preparación de datos es el proceso de transformar los datos en un formato adecuado para su posterior análisis. Esta etapa implica revisar y limpiar los datos para asegurar su calidad y coherencia, así como adaptarlos al formato requerido por el algoritmo de aprendizaje automático. 

### Seleccionar y entrenar un modelo

Cuando los datos están listos, se elige un algoritmo de aprendizaje automático apropiado para el tipo de problema que se desea resolver. El algoritmo se entrena utilizando los datos de entrenamiento. El algoritmo aprende a resolver el problema y se ajusta a medida que se expone a más datos de entrenamiento.

### Evaluación del rendimiento del modelo

Cada modelo de aprendizaje automático puede generar una solución sesgada para el problema de aprendizaje, por lo que es importante evaluar qué tan bien el algoritmo ha aprendido de su experiencia. Dependiendo del tipo de modelo utilizado, es posible evaluar la precisión del modelo utilizando un conjunto de datos de prueba, o es posible que se necesite desarrollar medidas de rendimiento específicas para la aplicación prevista.


### Mejora del rendimiento del modelo 

si se necesita un mejor rendimiento, es necesario utilizar estrategias más avanzadas para aumentar el rendimiento del modelo. A veces, puede ser necesario cambiar a un tipo diferente de modelo. Es posible que necesites complementar tus datos con más recopilación de datos, o realizar trabajos preparatorios adicionales como en el paso dos de este proceso.


## Algoritmos de Machine Learning

### Algoritmos Paramétricos y No Paramétricos
 
Los algoritmos de aprendizaje automático paramétricos son aquellos que simplifican la función de mapeo a una forma conocida, lo que implica seleccionar una forma para la función y luego aprender los coeficientes correspondientes a partir de los datos de entrenamiento. Estas simplificaciones se basan en suposiciones predefinidas y permiten un proceso de aprendizaje más eficiente. Ejemplos de algoritmos paramétricos son la Regresión Lineal y la Regresión Logística.

Los algoritmos de aprendizaje automático no paramétricos no hacen suposiciones fuertes sobre la forma de la función de mapeo y, por lo tanto, tienen la flexibilidad de aprender cualquier forma funcional a partir de los datos de entrenamiento. No están limitados por suposiciones específicas y, en consecuencia, pueden lograr una mayor precisión. Sin embargo, debido a su enfoque más flexible y menos restringido, los algoritmos no paramétricos suelen requerir más datos y tiempo de entrenamiento. Ejemplos de algoritmos no paramétricos son las Máquinas de Vectores de Soporte (SVM), las Redes Neuronales y los Árboles de Decisión.


### Sesgo y Varianza
 
El sesgo se refiere a las suposiciones simplificadoras que realiza un modelo para facilitar el aprendizaje de la función objetivo. Los algoritmos paramétricos tienden a tener un alto sesgo, lo que significa que hacen suposiciones fuertes sobre la forma de la función objetivo. Esto les permite aprender rápidamente y ser más fáciles de entender, pero también los hace menos flexibles en situaciones en las que las suposiciones simplificadoras no se cumplen.

Los árboles de decisión son un ejemplo de algoritmo con bajo sesgo, mientras que la regresión lineal es un ejemplo de algoritmo con alto sesgo.

La varianza se refiere a la cantidad en la que cambiará la estimación de la función objetivo si se utilizan diferentes conjuntos de datos de entrenamiento. Los algoritmos con alta varianza tienen una mayor sensibilidad a los datos de entrenamiento y pueden sobreajustarse a ellos, lo que puede resultar en un rendimiento deficiente en nuevos datos. Los algoritmos no paramétricos tienden a tener alta varianza, ya que no hacen suposiciones fuertes y pueden adaptarse de manera más flexible a los datos.

El algoritmo de k-Vecinos más Cercanos es un ejemplo de algoritmo con alta varianza, mientras que el Análisis Discriminante Lineal es un ejemplo de algoritmo con baja varianza.

### Algoritmo de Regresión Lineal

<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://aprendeia.com/wp-content/uploads/2018/11/48051791826_299fb750ea_o-1536x897.png&f=1&nofb=1&ipt=8fab42eac130a3884885dca954f72e76f98cbe89f7fa7b504a64d4063d2febf8&ipo=images" alt="Mcpits"  >
</div>
 

- Es una técnica estadística que busca minimizar el error de un modelo predictivo.
- Se basa en una ecuación que describe una línea que se ajusta a la relación entre variables de entrada (x) y salida (y).
- Se pueden usar diferentes métodos para encontrar los coeficientes de la ecuación, como mínimos cuadrados ordinarios o descenso de gradiente.
- Es una técnica antigua, rápida y simple, pero requiere eliminar variables correlacionadas y ruido de los datos.

```python
class LinearRegression:
    def __init__(self, learning_rate=0.001, n_iters=1000):
        self.lr = learning_rate
        self.n_iters = n_iters
        self.weights = None
        self.bias = None

    def fit(self, X, y):
        n_samples, n_features = X.shape

        # init parameters
        self.weights = np.zeros(n_features)
        self.bias = 0

        # gradient descent
        for _ in range(self.n_iters):
            y_predicted = np.dot(X, self.weights) + self.bias
            # compute gradients
            dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))
            db = (1 / n_samples) * np.sum(y_predicted - y)

            # update parameters
            self.weights -= self.lr * dw
            self.bias -= self.lr * db

    def predict(self, X):
        y_approximated = np.dot(X, self.weights) + self.bias
        return y_approximated

```

### Algoritmo de Regresión Logística
 
<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://www.codificandobits.com/img/posts/2018-08-06/concepto_general_regresion.png&f=1&nofb=1&ipt=c739db721352bc884a7c88128b2ebbe7bc355d6aad20a8a6342a2d9f02d8d934&ipo=images" alt="Mcpits"  >
</div>


- Es una técnica estadística utilizada para problemas de clasificación binaria.
- Busca encontrar los valores para los coeficientes que ponderan cada variable de entrada.
- La predicción se transforma mediante una función no lineal llamada función logística.
- Las predicciones también pueden interpretarse como probabilidades de pertenencia a una clase específica.
- Requiere eliminar atributos no relacionados con la variable de salida y atributos correlacionados entre sí.
- Es un modelo rápido y efectivo en problemas de clasificación binaria.

```python
class LogisticRegression:
    def __init__(self, learning_rate=0.001, n_iters=1000):
        self.lr = learning_rate
        self.n_iters = n_iters
        self.weights = None
        self.bias = None

    def fit(self, X, y):
        n_samples, n_features = X.shape

        # init parameters
        self.weights = np.zeros(n_features)
        self.bias = 0

        # gradient descent
        for _ in range(self.n_iters):
            # approximate y with linear combination of weights and x, plus bias
            linear_model = np.dot(X, self.weights) + self.bias
            # apply sigmoid function
            y_predicted = self._sigmoid(linear_model)

            # compute gradients
            dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))
            db = (1 / n_samples) * np.sum(y_predicted - y)
            # update parameters
            self.weights -= self.lr * dw
            self.bias -= self.lr * db

    def predict(self, X):
        linear_model = np.dot(X, self.weights) + self.bias
        y_predicted = self._sigmoid(linear_model)
        y_predicted_cls = [1 if i > 0.5 else 0 for i in y_predicted]
        return np.array(y_predicted_cls)

    def _sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
```

### Algoritmo de Análisis Discriminante Lineal

<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://lh6.googleusercontent.com/ar5TGG5URcdr3EWHMPDIzovIZp_v0KzrXHraV06tMQEHBCdyrncGshMkTD438QRNmnesmunAvuzzp1xvTEjhqLkm9XR-wIOviiOpqsplTirUZBmx9Ymm1SOuM60K1-mszWaOpvIy&f=1&nofb=1&ipt=afe485c96a4f050921b935e44c4f477ef224fbe58f9f4161f1b1da2d14733c02&ipo=images" alt="Mcpits"  >
</div> 

- Es una técnica estadística utilizada para problemas de clasificación con más de dos clases.
- Se basa en las propiedades estadísticas de los datos calculadas para cada clase, como el valor medio y la varianza.
- Las predicciones se realizan calculando un valor discriminante para cada clase y eligiendo la clase con el valor más alto.
- Asume que los datos tienen una distribución gaussiana, por lo que se debe eliminar los valores atípicos antes del análisis.
- Es un método simple y poderoso en el modelado predictivo.

```python 
class LDA:
    def __init__(self, n_components):
        self.n_components = n_components
        self.linear_discriminants = None

    def fit(self, X, y):
        n_features = X.shape[1]
        class_labels = np.unique(y)

        # Within class scatter matrix:
        # SW = sum((X_c - mean_X_c)^2 )

        # Between class scatter:
        # SB = sum( n_c * (mean_X_c - mean_overall)^2 )

        mean_overall = np.mean(X, axis=0)
        SW = np.zeros((n_features, n_features))
        SB = np.zeros((n_features, n_features))
        for c in class_labels:
            X_c = X[y == c]
            mean_c = np.mean(X_c, axis=0)
            # (4, n_c) * (n_c, 4) = (4,4) -> transpose
            SW += (X_c - mean_c).T.dot((X_c - mean_c))

            # (4, 1) * (1, 4) = (4,4) -> reshape
            n_c = X_c.shape[0]
            mean_diff = (mean_c - mean_overall).reshape(n_features, 1)
            SB += n_c * (mean_diff).dot(mean_diff.T)

        # Determine SW^-1 * SB
        A = np.linalg.inv(SW).dot(SB)
        # Get eigenvalues and eigenvectors of SW^-1 * SB
        eigenvalues, eigenvectors = np.linalg.eig(A)
        # -> eigenvector v = [:,i] column vector, transpose for easier calculations
        # sort eigenvalues high to low
        eigenvectors = eigenvectors.T
        idxs = np.argsort(abs(eigenvalues))[::-1]
        eigenvalues = eigenvalues[idxs]
        eigenvectors = eigenvectors[idxs]
        # store first n eigenvectors
        self.linear_discriminants = eigenvectors[0 : self.n_components]

    def transform(self, X):
        # project data
        return np.dot(X, self.linear_discriminants.T)

```

# Análisis de Componentes Principales (PCA)

<div class="imagen">
<img src="https://kindsonthegenius.com/blog/wp-content/uploads/2018/11/Principal-2BComponents-2BAnalysis-2BTutorial.jpg" alt="Mcpits"  >
</div> 

- Es una técnica estadística utilizada en el campo del análisis multivariante y el aprendizaje automático.
    
- Se utiliza para reducir la cantidad de variables en un conjunto de datos, lo que facilita la visualización y el análisis de datos complejos.

- Busca los ejes (componentes principales) a lo largo de los cuales los datos tienen la mayor variabilidad. De esta manera, se conserva la mayor cantidad posible de información del conjunto de datos original.

- Los componentes principales son mutuamente ortogonales, lo que significa que están no correlacionados entre sí. Esta propiedad es útil en aplicaciones donde se necesita independencia entre las variables.

- Se utiliza en problemas de aprendizaje automático para preprocesar datos antes de aplicar algoritmos de modelado. También es útil en aplicaciones como reconocimiento de patrones y visión por computadora.

```python
class PCA:
    def __init__(self, n_components):
        self.n_components = n_components
        self.components = None
        self.mean = None

    def fit(self, X):
        # Mean centering
        self.mean = np.mean(X, axis=0)
        X = X - self.mean

        # covariance, function needs samples as columns
        cov = np.cov(X.T)

        # eigenvalues, eigenvectors
        eigenvalues, eigenvectors = np.linalg.eig(cov)

        # -> eigenvector v = [:,i] column vector, transpose for easier calculations
        # sort eigenvectors
        eigenvectors = eigenvectors.T
        idxs = np.argsort(eigenvalues)[::-1]
        eigenvalues = eigenvalues[idxs]
        eigenvectors = eigenvectors[idxs]

        # store first n eigenvectors
        self.components = eigenvectors[0 : self.n_components]

    def transform(self, X):
        # project data
        X = X - self.mean
        return np.dot(X, self.components.T)

```

### Árboles de Clasificación y Regresión

<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://tse4.mm.bing.net/th%3Fid=OIP.gcbLOrYcXbjtSQJZznFg7wHaFP&pid=Api&f=1&ipt=8874dd122c53feef98057618c354332770d821e77cd3263faa32d7b05a4003bb&ipo=images" alt="Mcpits"  >
</div> 

- Son un tipo importante de algoritmo en el aprendizaje automático para el modelado predictivo.
- La representación del modelo es un árbol binario, donde cada nodo representa una variable de entrada y un punto de división.
- Las hojas del árbol contienen una variable de salida que se utiliza para realizar predicciones.
- Son rápidos de aprender y muy rápidos para realizar predicciones, y no requieren una preparación especial de los datos.
- Tienen una alta varianza y pueden generar predicciones más precisas cuando se utilizan en un conjunto (ensemble).

```python 
def entropy(y):
    hist = np.bincount(y)
    ps = hist / len(y)
    return -np.sum([p * np.log2(p) for p in ps if p > 0])


class Node:
    def __init__(
        self, feature=None, threshold=None, left=None, right=None, *, value=None
    ):
        self.feature = feature
        self.threshold = threshold
        self.left = left
        self.right = right
        self.value = value

    def is_leaf_node(self):
        return self.value is not None


class DecisionTree:
    def __init__(self, min_samples_split=2, max_depth=100, n_feats=None):
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.n_feats = n_feats
        self.root = None

    def fit(self, X, y):
        self.n_feats = X.shape[1] if not self.n_feats else min(self.n_feats, X.shape[1])
        self.root = self._grow_tree(X, y)

    def predict(self, X):
        return np.array([self._traverse_tree(x, self.root) for x in X])

    def _grow_tree(self, X, y, depth=0):
        n_samples, n_features = X.shape
        n_labels = len(np.unique(y))

        # stopping criteria
        if (
            depth >= self.max_depth
            or n_labels == 1
            or n_samples < self.min_samples_split
        ):
            leaf_value = self._most_common_label(y)
            return Node(value=leaf_value)

        feat_idxs = np.random.choice(n_features, self.n_feats, replace=False)

        # greedily select the best split according to information gain
        best_feat, best_thresh = self._best_criteria(X, y, feat_idxs)

        # grow the children that result from the split
        left_idxs, right_idxs = self._split(X[:, best_feat], best_thresh)
        left = self._grow_tree(X[left_idxs, :], y[left_idxs], depth + 1)
        right = self._grow_tree(X[right_idxs, :], y[right_idxs], depth + 1)
        return Node(best_feat, best_thresh, left, right)

    def _best_criteria(self, X, y, feat_idxs):
        best_gain = -1
        split_idx, split_thresh = None, None
        for feat_idx in feat_idxs:
            X_column = X[:, feat_idx]
            thresholds = np.unique(X_column)
            for threshold in thresholds:
                gain = self._information_gain(y, X_column, threshold)

                if gain > best_gain:
                    best_gain = gain
                    split_idx = feat_idx
                    split_thresh = threshold

        return split_idx, split_thresh

    def _information_gain(self, y, X_column, split_thresh):
        # parent loss
        parent_entropy = entropy(y)

        # generate split
        left_idxs, right_idxs = self._split(X_column, split_thresh)

        if len(left_idxs) == 0 or len(right_idxs) == 0:
            return 0

        # compute the weighted avg. of the loss for the children
        n = len(y)
        n_l, n_r = len(left_idxs), len(right_idxs)
        e_l, e_r = entropy(y[left_idxs]), entropy(y[right_idxs])
        child_entropy = (n_l / n) * e_l + (n_r / n) * e_r

        # information gain is difference in loss before vs. after split
        ig = parent_entropy - child_entropy
        return ig

    def _split(self, X_column, split_thresh):
        left_idxs = np.argwhere(X_column <= split_thresh).flatten()
        right_idxs = np.argwhere(X_column > split_thresh).flatten()
        return left_idxs, right_idxs

    def _traverse_tree(self, x, node):
        if node.is_leaf_node():
            return node.value

        if x[node.feature] <= node.threshold:
            return self._traverse_tree(x, node.left)
        return self._traverse_tree(x, node.right)

    def _most_common_label(self, y):
        counter = Counter(y)
        most_common = counter.most_common(1)[0][0]
        return most_common

```

### K-Means

<div class="imagen">
<img src="https://static.javatpoint.com/tutorial/machine-learning/images/k-means-clustering-algorithm-in-machine-learning.png" alt="Mcpits"  >
</div> 

- Es un algoritmo de agrupamiento (clustering) utilizado en el campo de la minería de datos y el aprendizaje automático. 
- Su objetivo principal es agrupar un conjunto de datos en K grupos distintos basándose en sus características.
- Calcula los centroides de los grupos y asigna puntos de datos al grupo cuyo centroide está más cercano en términos de distancia euclidiana.
- Se utiliza en diversas aplicaciones, como segmentación de clientes, compresión de imágenes, análisis de redes sociales y procesamiento de imágenes y señales. También se utiliza como paso previo en algoritmos más complejos de aprendizaje automático para reducir la dimensionalidad de los datos.

```python

def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))


class KMeans:
    def __init__(self, K=5, max_iters=100, plot_steps=False):
        self.K = K
        self.max_iters = max_iters
        self.plot_steps = plot_steps

        # list of sample indices for each cluster
        self.clusters = [[] for _ in range(self.K)]
        # the centers (mean feature vector) for each cluster
        self.centroids = []

    def predict(self, X):
        self.X = X
        self.n_samples, self.n_features = X.shape

        # initialize
        random_sample_idxs = np.random.choice(self.n_samples, self.K, replace=False)
        self.centroids = [self.X[idx] for idx in random_sample_idxs]

        # Optimize clusters
        for _ in range(self.max_iters):
            # Assign samples to closest centroids (create clusters)
            self.clusters = self._create_clusters(self.centroids)

            if self.plot_steps:
                self.plot()

            # Calculate new centroids from the clusters
            centroids_old = self.centroids
            self.centroids = self._get_centroids(self.clusters)

            # check if clusters have changed
            if self._is_converged(centroids_old, self.centroids):
                break

            if self.plot_steps:
                self.plot()

        # Classify samples as the index of their clusters
        return self._get_cluster_labels(self.clusters)

    def _get_cluster_labels(self, clusters):
        # each sample will get the label of the cluster it was assigned to
        labels = np.empty(self.n_samples)

        for cluster_idx, cluster in enumerate(clusters):
            for sample_index in cluster:
                labels[sample_index] = cluster_idx
        return labels

    def _create_clusters(self, centroids):
        # Assign the samples to the closest centroids to create clusters
        clusters = [[] for _ in range(self.K)]
        for idx, sample in enumerate(self.X):
            centroid_idx = self._closest_centroid(sample, centroids)
            clusters[centroid_idx].append(idx)
        return clusters

    def _closest_centroid(self, sample, centroids):
        # distance of the current sample to each centroid
        distances = [euclidean_distance(sample, point) for point in centroids]
        closest_index = np.argmin(distances)
        return closest_index

    def _get_centroids(self, clusters):
        # assign mean value of clusters to centroids
        centroids = np.zeros((self.K, self.n_features))
        for cluster_idx, cluster in enumerate(clusters):
            cluster_mean = np.mean(self.X[cluster], axis=0)
            centroids[cluster_idx] = cluster_mean
        return centroids

    def _is_converged(self, centroids_old, centroids):
        # distances between each old and new centroids, fol all centroids
        distances = [
            euclidean_distance(centroids_old[i], centroids[i]) for i in range(self.K)
        ]
        return sum(distances) == 0

    def plot(self):
        fig, ax = plt.subplots(figsize=(12, 8))

        for i, index in enumerate(self.clusters):
            point = self.X[index].T
            ax.scatter(*point)

        for point in self.centroids:
            ax.scatter(*point, marker="x", color="black", linewidth=2)

        plt.show()
```


### Algoritmo de los k-Vecinos más Cercanos

<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://tse3.mm.bing.net/th%3Fid=OIP.RZ-TalsCTOmg1vmDZIlOPwHaGZ&pid=Api&f=1&ipt=7fc62bc4d39c3127b63f067a645df82b16356958c7910e06a43fbf76738565c2&ipo=images" alt="Mcpits"  >
</div> 

- El modelo se compone de todo el conjunto de datos de entrenamiento.
- Las predicciones se realizan buscando las K instancias más similares en el conjunto de entrenamiento y resumiendo la variable de salida para esas K instancias.
- La similitud se puede medir con la distancia euclidiana si los atributos están en la misma escala.
- Requiere mucho espacio de memoria para almacenar todos los datos, pero solo realiza cálculos cuando se necesita una predicción, lo que permite un aprendizaje en tiempo real.
- Puede perder efectividad en dimensiones muy altas, lo que se conoce como la maldición de la dimensionalidad. Es importante seleccionar las variables de entrada más relevantes para predecir la variable de salida.


```python
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))


class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        # Compute distances between x and all examples in the training set
        distances = [euclidean_distance(x, x_train) for x_train in self.X_train]
        # Sort by distance and return indices of the first k neighbors
        k_idx = np.argsort(distances)[: self.k]
        # Extract the labels of the k nearest neighbor training samples
        k_neighbor_labels = [self.y_train[i] for i in k_idx]
        # return the most common class label
        most_common = Counter(k_neighbor_labels).most_common(1)
        return most_common[0][0]

```

### Perceptrón

<div class="imagen">
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/b/b0/Perceptr%C3%B3n_5_unidades.svg/400px-Perceptr%C3%B3n_5_unidades.svg.png" alt="Mcpits"  >
</div> 

```python
class Perceptron:
    def __init__(self, learning_rate=0.01, n_iters=1000):
        self.lr = learning_rate
        self.n_iters = n_iters
        self.activation_func = self._unit_step_func
        self.weights = None
        self.bias = None

    def fit(self, X, y):
        n_samples, n_features = X.shape

        # init parameters
        self.weights = np.zeros(n_features)
        self.bias = 0

        y_ = np.array([1 if i > 0 else 0 for i in y])

        for _ in range(self.n_iters):

            for idx, x_i in enumerate(X):

                linear_output = np.dot(x_i, self.weights) + self.bias
                y_predicted = self.activation_func(linear_output)

                # Perceptron update rule
                update = self.lr * (y_[idx] - y_predicted)

                self.weights += update * x_i
                self.bias += update

    def predict(self, X):
        linear_output = np.dot(X, self.weights) + self.bias
        y_predicted = self.activation_func(linear_output)
        return y_predicted

    def _unit_step_func(self, x):
        return np.where(x >= 0, 1, 0)

```

- Es un algoritmo de aprendizaje supervisado en el campo del aprendizaje automático y la inteligencia artificial
-  Es una unidad básica de una red neuronal y se utiliza para clasificar objetos en dos categorías, lo que lo convierte en un clasificador binario.
-  El perceptrón toma múltiples entradas, las multiplica por pesos asociados y las suma. Esta suma ponderada se pasa a través de una función de activación para determinar la salida del perceptrón.
-  La función de activación generalmente utiliza un umbral (también llamado "bias") para decidir si activar la salida del perceptrón. Si la suma ponderada de las entradas supera el umbral, el perceptrón emite una salida (a menudo 1); de lo contrario, emite 0.
-  El perceptrón ajusta sus pesos durante el proceso de entrenamiento para minimizar los errores de clasificación en los datos de entrenamiento. Esto se hace utilizando un algoritmo de aprendizaje supervisado que actualiza los pesos cuando el perceptrón clasifica incorrectamente un ejemplo.
-  Los perceptrones tienen limitaciones y solo pueden aprender patrones linealmente separables, lo que significa que solo pueden separar clases con una única línea recta en el espacio de entrada. Para superar esta limitación, se utilizan redes neuronales multicapa (también conocidas como perceptrones multicapa) que incorporan capas ocultas y funciones de activación no lineales para aprender patrones más complejos.

### Vector de Cuantización de Aprendizaje (Learning Vector Quantization, LVQ)

<div class="imagen">
<img src="https://easy-ai.oss-cn-shanghai.aliyuncs.com/2019-03-08-005747.jpg" alt="Mcpits"  >
</div> 

- Es un algoritmo de redes neuronales artificiales que permite reducir los requisitos de memoria del conjunto de datos de entrenamiento.
- El modelo se compone de una colección de vectores de código que se seleccionan al azar y se adaptan para resumir mejor el conjunto de datos de entrenamiento.
- Las predicciones se realizan encontrando el vecino más similar (el vector de código que mejor coincide) calculando la distancia entre cada vector de código y la nueva instancia de datos.
- Se obtienen mejores resultados si los datos se reescalan para tener el mismo rango, como entre 0 y 1.
- Es una buena opción si KNN ofrece buenos resultados en el conjunto de datos.

```python  
class LVQ:
    def __init__(self, n_classes, n_neurons, lr=0.1):
        self.n_classes = n_classes
        self.n_neurons = n_neurons
        self.lr = lr
        self.weights = np.random.rand(n_neurons, n_classes)

    def train(self, inputs, targets):
        for i in range(inputs.shape[0]):
            input_vector = inputs[i]
            target_vector = targets[i]
            winner_index = self._find_winner(input_vector)
            self._update_weights(winner_index, input_vector, target_vector)

    def _find_winner(self, input_vector):
        distances = np.linalg.norm(self.weights - input_vector, axis=1)
        return np.argmin(distances)

    def _update_weights(self, winner_index, input_vector, target_vector):
        winner_weight = self.weights[winner_index]
        if np.array_equal(winner_weight, target_vector):
            self.weights[winner_index] += self.lr * (input_vector - winner_weight)
        else:
            self.weights[winner_index] -= self.lr * (input_vector - winner_weight)

    def predict(self, inputs):
        winners = []
        for i in range(inputs.shape[0]):
            input_vector = inputs[i]
            winner_index = self._find_winner(input_vector)
            winners.append(winner_index)
        return np.array(winners)


```

### Máquinas de Soporte Vectorial (Support Vector Machines, SVM)

<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://dataaspirant.com/wp-content/uploads/2020/12/3-Support-Vector-Machine-Algorithm.png&f=1&nofb=1&ipt=8751ff06c192c90ac12bbbe558a10d42de14e6146f8f90b7d79a981b534c708f&ipo=images" alt="Mcpits"  >
</div> 

```python
class SVM:
    def __init__(self, learning_rate=0.001, lambda_param=0.01, n_iters=1000):
        self.lr = learning_rate
        self.lambda_param = lambda_param
        self.n_iters = n_iters
        self.w = None
        self.b = None

    def fit(self, X, y):
        n_samples, n_features = X.shape

        y_ = np.where(y <= 0, -1, 1)

        self.w = np.zeros(n_features)
        self.b = 0

        for _ in range(self.n_iters):
            for idx, x_i in enumerate(X):
                condition = y_[idx] * (np.dot(x_i, self.w) - self.b) >= 1
                if condition:
                    self.w -= self.lr * (2 * self.lambda_param * self.w)
                else:
                    self.w -= self.lr * (
                        2 * self.lambda_param * self.w - np.dot(x_i, y_[idx])
                    )
                    self.b -= self.lr * y_[idx]

    def predict(self, X):
        approx = np.dot(X, self.w) - self.b
        return np.sign(approx)

```

- Es un algoritmo de aprendizaje supervisado para problemas de clasificación y regresión.
- El modelo se compone de un hiperplano que separa el espacio de variables de entrada por clase.
- El objetivo es encontrar el hiperplano que mejor separa los puntos de datos de las diferentes clases, maximizando el margen entre ellos.
- Solo los puntos de datos más cercanos al hiperplano, llamados vectores de soporte, son relevantes para definir el hiperplano y construir el clasificador.
- Se utiliza un algoritmo de optimización para encontrar los valores de los coeficientes que definen el hiperplano.
- Es uno de los clasificadores más efectivos disponibles y vale la pena probarlo en el conjunto de datos.

### Bagging y Bosques Aleatorios
 
<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://editor.analyticsvidhya.com/uploads/6690812.png&f=1&nofb=1&ipt=a41bf3f764a67752a839058a4568bbeffc719b7d2d4b7c1e5e2075cec1bca700&ipo=images" alt="Mcpits"  >
</div> 

```python

 
def bootstrap_sample(X, y):
    n_samples = X.shape[0]
    idxs = np.random.choice(n_samples, n_samples, replace=True)
    return X[idxs], y[idxs]


def most_common_label(y):
    counter = Counter(y)
    most_common = counter.most_common(1)[0][0]
    return most_common


class RandomForest:
    def __init__(self, n_trees=10, min_samples_split=2, max_depth=100, n_feats=None):
        self.n_trees = n_trees
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.n_feats = n_feats
        self.trees = []

    def fit(self, X, y):
        self.trees = []
        for _ in range(self.n_trees):
            tree = DecisionTree(
                min_samples_split=self.min_samples_split,
                max_depth=self.max_depth,
                n_feats=self.n_feats,
            )
            X_samp, y_samp = bootstrap_sample(X, y)
            tree.fit(X_samp, y_samp)
            self.trees.append(tree)

    def predict(self, X):
        tree_preds = np.array([tree.predict(X) for tree in self.trees])
        tree_preds = np.swapaxes(tree_preds, 0, 1)
        y_pred = [most_common_label(tree_pred) for tree_pred in tree_preds]
        return np.array(y_pred)



```

- Son un tipo de algoritmo de aprendizaje en conjunto que utiliza el método de bootstrap para estimar modelos estadísticos completos, como los árboles de decisión.
- Se toman múltiples muestras de los datos de entrenamiento y se construyen modelos para cada muestra.
- Las predicciones de todos los modelos se promedian para obtener una mejor estimación del valor de salida.
- Los Bosques Aleatorios son una variante del bagging en la que se introducen divisiones subóptimas mediante la introducción de aleatoriedad en los árboles de decisión.
- Esto permite que los modelos en el bosque sean más diferentes entre sí, pero siguen siendo precisos de diferentes maneras.
- Son útiles para mejorar el rendimiento de algoritmos con alta varianza, como los árboles de decisión, ya que ayudan a reducir la varianza y mejorar la precisión.

### Boosting y AdaBoost
 
<div class="imagen">
<img src="https://external-content.duckduckgo.com/iu/?u=https://miro.medium.com/max/1200/1*tLUhrb27BKMtXAXRfy15Vw.png&f=1&nofb=1&ipt=6185d4350cc6345b56657d0b87c12b8aa55e4fd60add34e072c0d72daf0d5a47&ipo=images" alt="Mcpits"  >
</div> 

```python

# Decision stump used as weak classifier
class DecisionStump:
    def __init__(self):
        self.polarity = 1
        self.feature_idx = None
        self.threshold = None
        self.alpha = None

    def predict(self, X):
        n_samples = X.shape[0]
        X_column = X[:, self.feature_idx]
        predictions = np.ones(n_samples)
        if self.polarity == 1:
            predictions[X_column < self.threshold] = -1
        else:
            predictions[X_column > self.threshold] = -1

        return predictions


class Adaboost:
    def __init__(self, n_clf=5):
        self.n_clf = n_clf
        self.clfs = []

    def fit(self, X, y):
        n_samples, n_features = X.shape

        # Initialize weights to 1/N
        w = np.full(n_samples, (1 / n_samples))

        self.clfs = []

        # Iterate through classifiers
        for _ in range(self.n_clf):
            clf = DecisionStump()
            min_error = float("inf")

            # greedy search to find best threshold and feature
            for feature_i in range(n_features):
                X_column = X[:, feature_i]
                thresholds = np.unique(X_column)

                for threshold in thresholds:
                    # predict with polarity 1
                    p = 1
                    predictions = np.ones(n_samples)
                    predictions[X_column < threshold] = -1

                    # Error = sum of weights of misclassified samples
                    misclassified = w[y != predictions]
                    error = sum(misclassified)

                    if error > 0.5:
                        error = 1 - error
                        p = -1

                    # store the best configuration
                    if error < min_error:
                        clf.polarity = p
                        clf.threshold = threshold
                        clf.feature_idx = feature_i
                        min_error = error

            # calculate alpha
            EPS = 1e-10
            clf.alpha = 0.5 * np.log((1.0 - min_error + EPS) / (min_error + EPS))

            # calculate predictions and update weights
            predictions = clf.predict(X)

            w *= np.exp(-clf.alpha * y * predictions)
            # Normalize to one
            w /= np.sum(w)

            # Save classifier
            self.clfs.append(clf)

    def predict(self, X):
        clf_preds = [clf.alpha * clf.predict(X) for clf in self.clfs]
        y_pred = np.sum(clf_preds, axis=0)
        y_pred = np.sign(y_pred)

        return y_pred
```

- Es una técnica de aprendizaje en conjunto que busca crear un clasificador fuerte a partir de varios clasificadores débiles.

- Se construye un modelo inicial y luego se crean modelos adicionales que intentan corregir los errores del modelo anterior.

- AdaBoost es uno de los primeros y más exitosos algoritmos de Boosting para la clasificación binaria.

- Se utiliza con árboles de decisión cortos y asigna más peso a los datos de entrenamiento difíciles de predecir y menos peso a los datos fáciles de predecir.

- Los modelos se crean secuencialmente, uno después del otro, y se actualizan los pesos en las instancias de entrenamiento para mejorar el aprendizaje del siguiente modelo.

- Las predicciones para nuevos datos se ponderan según la precisión de cada modelo en los datos de entrenamiento.

- Es importante tener datos limpios y sin valores atípicos, ya que el algoritmo se centra en corregir errores y necesita datos de calidad para obtener buenos resultados.

### Naive Bayes

<div class="imagen">
<img src="https://insightimi.files.wordpress.com/2020/04/unnamed-1.png" alt="Mcpits"  >
</div> 

- Naive Bayes asume que las características son independientes entre sí dado el valor de la clase. Esta es la razón por la que se le llama "naive" (ingenuo). Aunque esta suposición rara vez es cierta en aplicaciones reales, el algoritmo puede funcionar sorprendentemente bien en muchas situaciones.

-  Naive Bayes se basa en el teorema de Bayes, que establece cómo se pueden actualizar las probabilidades a priori de las hipótesis cuando se observan nuevas evidencias. En el contexto del aprendizaje automático, se utiliza para calcular la probabilidad de que un objeto pertenezca a una clase particular dadas sus características.

- Existen diferentes variantes de Naive Bayes, como el Naive Bayes Gaussiano (para características continuas), el Naive Bayes Multinomial (para datos discretos como conteos de palabras) y el Naive Bayes Bernoulli (para datos binarios). La elección del modelo adecuado depende del tipo de datos con el que estés trabajando.

- Naive Bayes es rápido y eficiente, lo que lo hace adecuado para conjuntos de datos grandes. Además, requiere una cantidad relativamente pequeña de datos para estimar los parámetros del modelo, lo que lo convierte en una opción atractiva cuando tienes pocos datos de entrenamiento.

```python
class NaiveBayes:
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self._classes = np.unique(y)
        n_classes = len(self._classes)

        # calculate mean, var, and prior for each class
        self._mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self._var = np.zeros((n_classes, n_features), dtype=np.float64)
        self._priors = np.zeros(n_classes, dtype=np.float64)

        for idx, c in enumerate(self._classes):
            X_c = X[y == c]
            self._mean[idx, :] = X_c.mean(axis=0)
            self._var[idx, :] = X_c.var(axis=0)
            self._priors[idx] = X_c.shape[0] / float(n_samples)

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        posteriors = []

        # calculate posterior probability for each class
        for idx, c in enumerate(self._classes):
            prior = np.log(self._priors[idx])
            posterior = np.sum(np.log(self._pdf(idx, x)))
            posterior = prior + posterior
            posteriors.append(posterior)

        # return class with highest posterior probability
        return self._classes[np.argmax(posteriors)]

    def _pdf(self, class_idx, x):
        mean = self._mean[class_idx]
        var = self._var[class_idx]
        numerator = np.exp(-((x - mean) ** 2) / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

```

## Metricas y Funciones de Pérdida

### Regresión

Mean Squared Error (MSE): Representa el promedio de los cuadrados de las diferencias entre las predicciones y los valores reales. Cuanto menor sea el MSE, mejor será el modelo.

Mean Absolute Error (MAE): Calcula el promedio de las diferencias absolutas entre las predicciones y los valores reales. Es menos sensible a los valores extremos en comparación con MSE.

Mean Squared Logarithmic Error (MSLE): Similar a MSE, pero aplica el logaritmo a las predicciones y los valores reales antes de calcular el error cuadrático medio. Útil cuando las magnitudes de los valores varían ampliamente.

Explained Variance Score: Mide la proporción de la varianza en los datos que es explicada por el modelo. El valor oscila entre 0 y 1, donde 1 indica una predicción perfecta.

R² Score (Coefficient of Determination): Indica qué porcentaje de la variabilidad en los datos es explicado por el modelo. También oscila entre 0 y 1, y un valor más cercano a 1 es mejor.

### Clasificación binaria 

Log Loss (Logarithmic Loss): Mide el rendimiento de un clasificador donde las predicciones son probabilidades entre 0 y 1. Cuanto menor sea el log loss, mejor será el clasificador.

Hinge Loss: Se utiliza en máquinas de vectores de soporte (SVM) y es una métrica de pérdida que se minimiza durante el entrenamiento del modelo. No es una métrica de evaluación en sí misma.

Brier Score Loss: Mide la diferencia entre las probabilidades predichas y las observadas. Cuanto menor sea el Brier Score, mejor será el clasificador.

ROC AUC Score: Área bajo la curva ROC (Receiver Operating Characteristic). Mide la capacidad del modelo para distinguir entre clases positivas y negativas. Un valor de 1 indica un modelo perfecto.

Average Precision Score: Calcula la precisión promedio para diferentes valores umbral de probabilidad en problemas de clasificación binaria.

Precision-Recall Curve: Aunque no es una métrica única, muestra la relación entre la precisión y el recall para diferentes umbrales de probabilidad y es útil para evaluar modelos en problemas de desequilibrio de clases.

### Clasificación multiclase 

Log Loss: La explicación es la misma que para clasificación binaria.

Hinge Loss: Similar a la clasificación binaria, se usa en máquinas de vectores de soporte para problemas de clasificación multiclase.

Jaccard Score: Calcula la similitud de Jaccard entre conjuntos, es decir, la intersección dividida por la unión de los conjuntos. Es útil para problemas de clasificación multiclase con conjuntos de etiquetas.

F1 Score: La media armónica de precisión y recall. Es útil cuando hay desequilibrio de clases.

Precision Score y Recall Score: Son métricas individuales que también se aplican a la clasificación multiclase.

## Usos del Machine Learning
    
- Sistemas de recomendación y marketing personalizado
- Segmentación de mercado
- Chatbots
- Navegación autónoma
- Mantenimiento predictivo
- Generación de contenido
- Clasificación de datos
- Predicción y pronóstico
- Reconocimiento de voz y procesamiento del lenguaje natural
- Visión por computadora
- Medicina y salud
- Automatización industrial
- Seguridad cibernética