# Introducción a conceptos de Machine Learning

El presente notebook consiste únicamente en material teórico destinado a brindar explicaciones resumidas de la mano de `ChatGPT` de los conceptos más básicos y fundamentales para adentrarnos en el mundo del machine learning y las técnicas más utilizadas a grandes rasgos.

## Índice

1. [IA vs Machine Learning (IA vs Aprendizaje Automático)](#ia-vs-machine-learning-ia-vs-aprendizaje-automatico)
2. [Aprendizaje Supervisado vs No Supervisado](#aprendizaje-supervisado-vs-no-supervisado)
3. [Regresión vs Clasificación](#regresion-vs-clasificacion)
4. [Clustering vs Reducción de Dimensionalidad](#clustering-vs-reduccion-de-dimensionalidad)

---

## 1. [IA vs Machine Learning (IA vs Aprendizaje Automático)](#ia-vs-machine-learning-ia-vs-aprendizaje-automatico)

### **Inteligencia Artificial (IA):**
La **Inteligencia Artificial (IA)** es un campo amplio de la informática que se enfoca en la creación de **máquinas** o **sistemas** capaces de realizar tareas que normalmente requieren de **inteligencia humana**. Estas tareas incluyen cosas como razonamiento, resolución de problemas, reconocimiento de patrones, toma de decisiones y aprendizaje.

La IA abarca varias subáreas, entre ellas:
- **Aprendizaje Automático (Machine Learning)**: Un enfoque dentro de la IA donde las máquinas aprenden de los datos sin ser explícitamente programadas para cada tarea específica.
- **Procesamiento de Lenguaje Natural (NLP)**: Análisis y generación de texto o habla en un lenguaje natural.
- **Visión por Computadora (Computer Vision)**: Interpretación de imágenes y videos para entender el contenido.
- **Sistemas Expertos**: Programas que imitan el juicio y el comportamiento de un experto en un área específica.

En resumen, la IA busca replicar **funciones cognitivas humanas**, mientras que el **aprendizaje automático** es una **técnica específica** dentro de la IA para lograr que las máquinas aprendan y mejoren a partir de datos.

### **Machine Learning (Aprendizaje Automático)**:
El **aprendizaje automático (Machine Learning, ML)** es una rama de la IA que permite a los sistemas aprender patrones de datos y mejorar automáticamente su rendimiento con el tiempo sin ser explícitamente programados para hacerlo.

**Características clave de Machine Learning**:
- **Algoritmos que aprenden de los datos**: Los modelos de machine learning ajustan sus parámetros según los patrones encontrados en los datos.
- **No requieren programación explícita**: En lugar de escribir reglas específicas para cada tarea, se entrenan los modelos para **aprender automáticamente** a partir de ejemplos (datos).
  
#### Relación entre IA y ML:
- **IA** es el concepto general, y **Machine Learning** es una técnica que implementa IA mediante el uso de algoritmos y modelos estadísticos que permiten a las máquinas aprender de los datos.

---

## 2. [Aprendizaje Supervisado vs No Supervisado](#aprendizaje-supervisado-vs-no-supervisado)

El **aprendizaje supervisado** y el **aprendizaje no supervisado** son dos enfoques clave dentro de Machine Learning para entrenar modelos.

### **Aprendizaje Supervisado (Supervised Learning)**:
En el aprendizaje supervisado, el modelo es entrenado con un conjunto de datos que ya contiene tanto **entradas** como **salidas** correctas. En otras palabras, los datos de entrenamiento ya están etiquetados, es decir, **el resultado esperado (etiquetas)** ya es conocido.

**Proceso**:
- Se le proporciona al modelo un conjunto de ejemplos **(entradas)** y sus correspondientes **etiquetas o resultados**.
- El objetivo es que el modelo **aprenda una función** que pueda mapear las entradas a las salidas correctas.
- Después de entrenar, el modelo se utiliza para predecir las salidas para nuevos datos (de prueba).

**Ejemplos de algoritmos supervisados**:
- **Regresión lineal**: Predicción de valores continuos.
- **Máquinas de soporte vectorial (SVM)**: Clasificación de datos.
- **Árboles de decisión**: Clasificación y regresión.

**Aplicaciones**:
- Predicción de precios de casas (regresión).
- Clasificación de correos electrónicos como spam o no spam (clasificación).
  
**Ventaja**:
- El modelo tiene acceso a las respuestas correctas durante el entrenamiento, lo que facilita el aprendizaje.

### **Aprendizaje No Supervisado (Unsupervised Learning)**:
En el aprendizaje no supervisado, el modelo se entrena con un conjunto de datos **sin etiquetas**. El objetivo es que el modelo **explore los datos** y **identifique patrones o estructuras subyacentes** por sí mismo.

**Proceso**:
- El modelo no tiene información sobre las respuestas correctas (etiquetas). Solo se le dan las **entradas**.
- El modelo intenta agrupar, clasificar o detectar patrones en los datos sin saber qué resultado esperar.

**Ejemplos de algoritmos no supervisados**:
- **Clustering (Agrupamiento)**: Algoritmos como **K-means** para agrupar datos similares.
- **Análisis de Componentes Principales (PCA)**: Reducción de la dimensionalidad para simplificar los datos.
- **Redes neuronales autoencodificadoras**: Extracción de características.

**Aplicaciones**:
- Segmentación de clientes en grupos similares.
- Análisis de texto y agrupación de documentos en categorías.
  
**Ventaja**:
- Puede descubrir patrones ocultos en los datos sin necesidad de tener etiquetas.

---

## 3. [Regresión vs Clasificación](#regresion-vs-clasificacion)

La **regresión** y la **clasificación** son dos tipos de problemas que se resuelven en el contexto del aprendizaje supervisado.

### **Regresión (Regression)**:
La regresión es un tipo de problema de **predicción continua**. El objetivo es predecir un **valor numérico continuo** a partir de un conjunto de características.

**Características**:
- El modelo predice una **cantidad continua**. Por ejemplo, el precio de una casa, la temperatura, o la cantidad de ventas esperadas.
- La salida del modelo es un número real.

**Ejemplos de algoritmos de regresión**:
- **Regresión lineal**: Predecir un valor continuo basado en la relación lineal de las variables independientes.
- **Regresión polinómica**: Extensión de la regresión lineal para modelar relaciones no lineales.
- **Regresión logística** (aunque se llama "logística", es una técnica de clasificación, pero se usa aquí para distinguirla de los otros casos).

**Aplicaciones**:
- Predicción de precios de bienes raíces.
- Predicción de la demanda de un producto.

### **Clasificación (Classification)**:
La clasificación es un tipo de problema donde el objetivo es **asignar etiquetas** a las observaciones, es decir, predecir **categorías discretas**.

**Características**:
- El modelo predice una **etiqueta discreta**. Por ejemplo, clasificar correos electrónicos como "spam" o "no spam", o identificar una imagen como "gato", "perro" o "pájaro".
- La salida es una **categoría** o **clase**.

**Ejemplos de algoritmos de clasificación**:
- **Máquinas de soporte vectorial (SVM)**: Para clasificar datos en categorías.
- **Árboles de decisión**: Para dividir datos en categorías.
- **K-Nearest Neighbors (KNN)**: Para clasificar basándose en la proximidad de los datos.

**Aplicaciones**:
- Diagnóstico de enfermedades (enfermedad o no enfermedad).
- Clasificación de imágenes o texto.

### Resumen:
- **Regresión**: Se usa para predecir **valores continuos**. Ejemplo: ¿Cuánto costará una casa?
- **Clasificación**: Se usa para predecir **etiquetas o categorías** discretas. Ejemplo: ¿Es este correo electrónico spam o no?

---

## 4. [Clustering vs Reducción de Dimensionalidad](#clustering-vs-reduccion-de-dimensionalidad)

### **Clustering (Agrupamiento)**
**Clustering** o **agrupamiento** es una técnica de **aprendizaje no supervisado** que se utiliza para **dividir un conjunto de datos en grupos** (clusters) basados en la **similitud** entre las observaciones dentro de cada grupo. Las observaciones dentro de un mismo grupo (cluster) son más similares entre sí que con las observaciones de otros grupos.

**Métodos comunes de Clustering**:
- **K-means**: El algoritmo más popular de clustering. Busca dividir los datos en un número predefinido de **k** grupos basándose en la media de las características de los puntos en cada grupo.
- **Jerárquico (Hierarchical Clustering)**: Este enfoque construye un árbol de grupos (dendrograma), donde los puntos se agrupan de manera jerárquica.
- **DBSCAN**: Un algoritmo que agrupa puntos basándose en la densidad de los puntos vecinos.

**Aplicaciones del Clustering**:
- Segmentación de clientes.
- Agrupación de documentos.
- Análisis de mercado.

### **Reducción de Dimensionalidad**
La **reducción de dimensionalidad** es una técnica en la que el objetivo es **reducir el número de características** o **dimensiones** de un conjunto de datos, manteniendo al mismo tiempo la mayor cantidad posible de la **información relevante**.

**Métodos comunes de Reducción de Dimensionalidad**:
- **PCA (Análisis de Componentes Principales)**: Proyecta los datos en un espacio de menor dimensión, eligiendo las componentes principales que capturan la mayor varianza en los datos.
- **t-SNE (t-Distributed Stochastic Neighbor Embedding)**: Para visualización de datos de alta dimensión.
- **LLE (Locally Linear Embedding)**: Mantiene las relaciones locales entre puntos cercanos.

**Aplicaciones de la Reducción de Dimensionalidad**:
- Visualización de datos.
- Mejora del rendimiento de modelos.
- Preprocesamiento de datos.

### **Diferencias clave entre Clustering y Reducción de Dimensionalidad**

- **Objetivo**:
  - **Clustering**: Agrupar datos similares en grupos sin conocer las etiquetas (tareas de segmentación).
  - **Reducción de Dimensionalidad**: Reducir el número de características de los datos mientras se conserva la mayor información posible.

- **Tipo de problema**:
  - **Clustering**: Técnica **no supervisada** de **agrupamiento**.
  - **Reducción de Dimensionalidad**: Técnica **no supervisada** de **transformación de datos**.

- **Proceso**:
  - **Clustering**: Busca descubrir **estructuras** o **agrupaciones** en los datos sin etiquetas.
  - **Reducción de Dimensionalidad**: Busca **simplificar los datos** manteniendo la **información más relevante**.

- **Salidas**:
  - **Clustering**: Produce **grupos** o **clusters** de datos similares.
  - **Reducción de Dimensionalidad**: Produce un conjunto de **características de menor dimensión**.

- **Usos**:
  - **Clustering**: Segmentación de datos, agrupamiento de objetos.
  - **Reducción de Dimensionalidad**: Mejora de la visualización, preprocesamiento de datos.

---
