# SUPERVISADO

### Regresion
- La regresión es una técnica de aprendizaje automático que modela una relación entre una variable objetivo continua y características explicativas.

- La regresión simple se produce cuando una única variable independiente estima una variable dependiente. Esta regresión puede ser lineal o no lineal.

- Existen muchas aplicaciones de la regresión. Puede utilizarse para predecir ventas, predecir gastos de mantenimiento, estimar precipitaciones, y la propagación de enfermedades infecciosas.

- La regresión lineal y polinómica son métodos de modelado estadístico clásicos, mientras que **random forest y XGBoost** son modelos de regresión de aprendizaje automático modernos.

- Otros algoritmos de regresión modernos incluyen **k vecinos más cercanos (KNN)**, máquinas de vectores de asistencia (SVM), y redes neuronales.


### Regresion simple

- Predecir un valor continuo, como las emisiones de CO2 de un automóvil.

- En la regresión lineal simple, una sola variable independiente estima la variable dependiente.

- Se busca la línea que mejor se ajusta a través de un gráfico que muestra los valores de regresión.

- El error cuadrático medio o MSE, mide qué tan mal se ajusta la línea de regresión a los datos.

- La regresión lineal tiene como objetivo encontrar la línea para minimizar la media de todos estos errores residuales, esta forma de regresión se conoce comúnmente como regresión de mínimos cuadrados ordinarios o regresión OLS.

- El método de regresión OLS es útil porque es fácil de entender e interpretar; sin embargo, los valores atípicos pueden reducir considerablemente su precisión y darles demasiado peso en los cálculos.


### Regression Multiple

- La regresión lineal múltiple es una extensión del modelo de regresión lineal simple.

- Utiliza dos o más variables independientes para estimar una variable dependiente.

- Se usa ampliamente en el sector educativo para predecir los resultados y explicar las relaciones entre las variables.

- La regresión lineal múltiple también se puede usar para predecir el impacto de los cambios en escenarios hipotéticos. 

- Agregar demasiadas variables puede hacer que tu modelo se sobreajuste o, básicamente, memorice los datos de entrenamiento, lo que lo convierte en un mal predictor de observaciones invisibles.

- Para crear su modelo de regresión múltiple, debe seleccionar las variables mediante un enfoque equilibrado, teniendo en cuenta las variables no correlacionadas, que son las que mejor se comprenden, controlan y están más correlacionadas con el objetivo.

- Hay muchas maneras de estimar los parámetros de la regresión lineal múltiple. Sin embargo, los métodos más comunes son los mínimos cuadrados ordinarios y el enfoque de optimización con valores aleatorios.

### Regresion No Lineal

- La regresión no lineal usa ecuaciones polinómicas, exponenciales y logarítmicas para modelar los datos.

- Se usa cuando la relación entre las variables no se puede capturar a través de una línea recta.

- Aprendió a usar la regresión polinomial para ajustar los datos a las expresiones polinómicas de las entidades. El modelo de regresión polinomial lo memoriza todo, incluido cualquier ruido aleatorio o grandes variaciones, en lugar de comprender los patrones subyacentes.

- Hay muchas relaciones no lineales complejas del mundo real que no se pueden modelar con modelos polinomicos, incluyendo el crecimiento exponencial o compuesto, el logarítmico y la periodicidad.

- Hay muchos métodos para determinar qué tipo de modelo de regresión necesita. Puede analizar los gráficos de dispersión de la variable objetivo comparándolos con cada variable de entrada para revelar los patrones de las dependencias.

- Para encontrar un modelo no lineal óptimo, puede seleccionar entre muchos modelos de aprendizaje automático, como árboles de regresión, bosques aleatorios y k vecinos más cercanos.


### Regresion Logístaca

- La regresión logística hace referencia a un clasificador binario basado en la regresión logística estadística o predictor de probabilidad. 

- La regresión logística es una buena opción para obtener un objetivo binario, obtener resultados probabilísticos y comprender el impacto de una característica.

- La regresión logística es tanto un predictor de probabilidad como un clasificador binario. 

- El objetivo de la regresión logística es construir un modelo para predecir la clase teniendo en cuenta la probabilidad pronosticada. 

- El objetivo del entrenamiento en regresión logística es predecir las clases con un mínimo de error.

- El proceso de capacitación consiste en pasos clave creados para encontrar un conjunto de parámetros, o theta, que minimicen la función de costo. 

- Se utiliza un paso de optimización para encontrar los mejores parámetros.

- La métrica para optimizar la regresión logística es una función de costo denominada pérdida de registro, que debe minimizarse. 

- La pérdida de registros favorece las clasificaciones confiables que son correctas y penaliza las predicciones confiables e incorrectas.

- El descenso de gradiente es un enfoque inteligente e iterativo para encontrar el mínimo de una función. 

- El descenso de gradiente estocástico es una variación escalable del algoritmo de descenso de gradiente, que utiliza un subconjunto aleatorio de datos de entrenamiento. 


### Árboles de regresón
- Aprendió que un árbol de regresión es análogo a un árbol de decisiones que predice valores continuos. 

- En la clasificación, la variable objetivo es categórica y en la regresión, el objetivo es un valor continuo. 

- Los árboles de regresión se crean dividiendo recursivamente el conjunto de datos en subconjuntos para maximizar la información obtenida de la división de datos.

- El MSE es un criterio natural para medir la calidad de división de una función determinada. 

- El árbol de regresión encuentra la función y el umbral que mejor dividen cada nodo durante el entrenamiento.

- La función puede ser binaria o multiclase.

- Por último, aprendió que puede elegir los umbrales de prueba continua de varias maneras, según el tamaño de los datos. 



### Clasificación

- Aprendió que la clasificación es un método de aprendizaje automático supervisado que utiliza modelos completamente entrenados para predecir etiquetas en datos nuevos.

- La clasificación se puede utilizar para predecir la pérdida de clientes, segmentar los clientes y predecir la capacidad de respuesta de las campañas publicitarias.

- Los casos de uso de la clasificación también incluyen la predicción del incumplimiento de los préstamos y la prescripción de medicamentos de varias clases. 

- La clasificación tiene varios algoritmos, que también incluyen clasificadores multiclase.

- Los clasificadores binarios se pueden ampliar para gestionar varias clases mediante el uso de determinadas estrategias. 

- El esquema de uno contra todos implementa clasificadores binarios independientes, uno para cada etiqueta de clase.

- La estrategia uno contra uno responde a la pregunta: «¿Es esto o aquello?» 


### Árboles de decisión 

- Un árbol de decisiones es un algoritmo para clasificar puntos de datos.

- Los árboles de decisiones se construyen considerando las características de un conjunto de datos una a una. 

-En un árbol de decisiones, cada nodo interno corresponde a una prueba, Cada rama corresponde al resultado de la prueba, y cada terminal, o nodo hoja, asigna sus datos a una clase.

- Aprendiste cómo entrenar un árbol de decisión, cómo podar un árbol de decisión, y cómo seleccionar las características que mejor dividen los datos en cada nodo cuando estás entrenando un árbol. 

- También ha aprendido sobre la ganancia de información y las medidas de división de impurezas de Gini. 

- Los árboles de decisión ayudan a visualizar un modelo de datos y a predecir resultados basándose en la información de un conjunto de datos. 


### SVM

- Aprendió que las máquinas vectoriales de soporte, o SVM, son una técnica de aprendizaje supervisado para crear modelos de clasificación y regresión.

- Las SVM intentan dividir los datos en dos clases buscando un límite de decisión, que es un hiperplano que maximiza el margen. 

- Scikit-learn proporciona muchas funciones del núcleo, como lineal, polinomial, RBF y sigmoide, para usarlas con SVM. 

- La SVM tiene muchas ventajas:
    - Es eficaz en espacios de grandes dimensiones y resistente al sobreajuste. 
    - Sin embargo, también tiene algunas limitaciones. Es lento para entrenar con grandes conjuntos de datos y es sensible al ruido y a la superposición de clases. 
    
- Debe usar SVM para el reconocimiento de imágenes, la detección de correo no deseado y los problemas de aprendizaje automático. 