# CONJUNTO DE DATOS

Los conjuntos de datos son colecciones estructuradas de información que se utilizan para analizar, entrenar modelos y extraer conocimiento. Pueden contener datos numéricos, categóricos, imágenes, texto, entre otros tipos. La calidad y el tamaño del conjunto de datos son fundamentales para obtener resultados precisos y confiables en cualquier proyecto de análisis de datos o aprendizaje automático.

* Un conjunto de datos es una parte esencial en la resolucion de un problema mediante el uso de machine learning.

El conjunto de datos es tan importante como el algoritmo para tratar los datos, pero realmente el problema es del conjunto de datos mas no de los algoritmos por su complejidad.

* Las caracteristicas son un atributo o grupo de atributos que constituyen una propiedad particular o un conjunto de propiedades que es unico, mediable y diferenciable.

Conjunto de ejemplos representativos al problema que se quiere resolver, obteniendo caracteristicas de los datos y de esas caracteristicas de entrada obtener la hipotesis y la manera de obtener el conjunto de salida.

## Recopilando

* Disponer de una cantidad suficiente de datos
* Esencial utilizar un conjunto de datos que es representativo del problema practico que se desea resolver
* Los datos deben ser de calidad
* Debe seleccionarse un conjunto de caracteristicas adecuado, minimizando el numero de caracteristicas irrelevantes

# OVERFITTING

El sobreentrenamiento, conocido como *overfitting*, ocurre cuando un modelo de aprendizaje automático se ajusta demasiado a los datos de entrenamiento, capturando el ruido y las particularidades específicas de ese conjunto en lugar de aprender patrones generales. Esto provoca que el modelo tenga un desempeño excelente en los datos de entrenamiento pero un rendimiento pobre en datos nuevos o no vistos, ya que no logra generalizar correctamente.

El overfitting suele presentarse cuando el modelo es demasiado complejo en relación con la cantidad y calidad de los datos disponibles, o cuando se entrena durante demasiadas iteraciones. Para evitarlo, se pueden emplear técnicas como la regularización, la reducción de la complejidad del modelo, el uso de más datos, o la validación cruzada.

![overfitting](Images/overfitting.png)

* Si el conjunto de datos tiene muchas caracteristicas, es posible que la funcion hipotesis generada por el algoritmo se adapte muy bien al conjunto de entrenamiento $J_(\theta)=0$ pero falle al generalizar con nuevos ejemplos.

- regresion lineal - regresion polinomica - caracteristicas polinomicas (flexible)

# UNDERFITTING

El *underfitting* ocurre cuando un modelo de aprendizaje automático es demasiado simple para capturar los patrones subyacentes en los datos. Esto provoca que el modelo tenga un rendimiento deficiente tanto en los datos de entrenamiento como en los datos nuevos, ya que no logra aprender la relación entre las variables de entrada y salida.

El underfitting suele presentarse cuando el modelo tiene muy pocos parámetros, cuando se seleccionan características irrelevantes o insuficientes, o cuando el tiempo de entrenamiento es demasiado corto. Para evitarlo, se recomienda aumentar la complejidad del modelo, seleccionar mejores características y asegurarse de que el modelo tenga suficiente capacidad para aprender de los datos.

![underfitting](Images/underfitting.png)

# Solucion

# OVERFITTING

* Aumentar el conjunto de datos
* Reduccion del numero de caracteristicas -> entre mas datos mas flexible y por ende ocurre sobre entrenamiento y necesitamos que sea exacto en su mayoria para mejorar en el algoritmo.
    * Seleccion manual de las caracteristicas que se pueden mantener: ente muchas caracteristicas es mejor seleccionar las caracteristicas que nosotros entendemos como mejor opcion para entrenar correctamente el modelo.
    * Utilizar un algoritmo para la seleccion de caracteristicas: algo similar como ranom forest o cualquier tipo o estilo de algoritmo que permita encontrar las caracteristicas mas correctas y que alimenten al algoritmo de manera automatica.
    * Utilizar un algoritmo para la extraccion de caracteristicas: Reduccion del sistema transformando todo el sistema para mantener la originalidad de los datos pero manteniendo la distribucion de esos datos importantes.
* Regularizacion: Añair penalizacion en el modelo para corregir al modelo, tratar de reducir valores, disminuir valores y por ende mejorar el sistema.

### Regularizacion

* La regularización agrega una penalización en los diferentes parámetros del modelo para reducir la libertad del modelo. Por lo tanto, es menos probable que el modelo se ajuste al ruido de los datos de entrenamiento y mejorará las capacidades de generalización del mismo.
* Mantiene todas las características, pero reduce la magnitud de los parámetros 0, a lo mejor si se tienen 10 atributos de entradas pero por si mismos los datos no son del todo utiles pues que no se centre tanto en esto para mejorar el entrenamiento.
* La regularización funciona bien cuando tenemos muchas características ligeramente útiles

Lo que pasa con la flexibilidad es que se establece muy bien con datos similares a los datos de alimentacion, pero generalmente no es asi. Lo que pasa con la regularizacion es penalizar para regular. Basicamente en lugar de tener una unica funcion de coste general se le agrega un parametro que permita entender un poco el error a los datos que se construyen, pero sin dañar la tendencia de los datos.

$$
J_{\theta}(x)\\
J_{\theta} + \lambda \sum_{j=1}^{n}\theta_{j}^2
$$
Si $\lambda = 0$
$$
J_{\theta} + 0 \sum_{j=1}^{n}\theta_{j}^2
$$
Entonces no se le agregaria penalizacion y si poco a poco se va aumentando $\lambda$ pues:
$$
J_{\theta} + \infty \sum_{j=1}^{n}\theta_{j}^2
$$
Entonces siempre tendremos un error que tienda a infinito, porque el error siempre sera grande entonces el *Gradient Descent* seguira trabajando y por eso se colocan valores al sistema que añadan la penalizacion en un tope perfecto para que el algoritmo sea exacto lo que se requiere.

# Evaluacion de hipotesis

Nosotros de forma visual podemos saber como se actua en un sistema con sus parametro de entra, pero cuando estos parametros sean demasiados ya no se pueden graficar y por tanto ya no sabemos a cierta ciencia como actuan, entonces como solucionamos esto.

Para poder evaluarlo se requiere una forma de evaluar la funcion hipotesis evaluada y dividir nuestro conjunto de datos en subconjuntos para poder estudiar la funcion hipotesis.

## Evaluacion HIpotesis

Digamos que tenemos como en el ejemplo, un conjunto de datos, con entradas y una salida. Al aplicar un conjunto de entrenamiento se genera una funcion hipotesis sobre entrenada que da exactamente la misma prediccion y por ello cuando llega un ejemplo nuevo y se hace una prediccion lo hace erroneamente por culpa de ese overfitting.

Para tratar de encontrar estos problemas, se divide en 2 conjuntos como train set y test set.
* train set 60% - 70%
* test set 40% - 30%

De manera que ahora cambia el estudio, pues train set entrenamos un modelo pero que repetira el error, con el test set se elimina una caracteristica y se vuelve a mostrar como el algoritmo dispone de estos datos y al comparar los datos que se muestran y se puede evidenciar el error de predicciones.

## Seleccion de modelo
Estamos tratando de resolver un problema determinado mediante aprendizaje automatico.
1. Recopilar ese conjunto de datos de experiencias pasadas
2. Etiquetar con cada uno de los ejemplos con una clase positiva y otra negativa
3. Partir el conjunto en *train-set* y en *test-set*

Que modelo utilizo?
Probablemente tendre que estudiar que modelo iria acorde con el conjunto de datos con el tanteo de los diferentes algoritmos.

Al hacer el estudio de modelo con el train test tendriamos:
- Error test-set grande y Error train-set pequeño -> OVERFITTING
- Error test-set grande y Error train-set grande -> MODELO INADECUADO

Por tanto se empieza a tantear aumentando las caracteristicas de entrada y llegar hasta el momento en que los datos caracteristicos se estabilizan al modelo del algoritmo.

Si hay tantos modelos de uso puede que se produsca overfitting por el uso de ciertos datos entonces si hay un ejemplo nuevo que no esta en ninguno de los 2 conjuntos caiga en errores. Para solucionar esto se debe dividir el conjunto inicial en 2 para un subconjunto de validacion.

Train-set para entrenar modelos, el Validation-set para validar si se esta generando overfitting en el train-set y se usa el test-set como ultima instancia para verificar si el algoritmo construizo funciona correctamente despues de verificar su veracidad en el train y validation set.

* Dividimos el conjunto de datos en entrenamiento, validación y pruebas
* Se calcula la función hipótesis con el subconjunto de entrenamiento (se calculan los parámetros e minimizando el error de entrenamiento $J(\theta)$)
* Se calcula el número de características óptimo mediante la evaluación de las hipótesis anteriores con el subconjunto de validación
* Se evalúa la función hipótesis resultante mediante el subconjunto de pruebas calculando su error

### Regresion Lineal
$$
h_{\theta}^{(1)}(x) = \theta_0 + \theta_1 x_1
$$
La regresión lineal es un modelo sencillo que busca ajustar una línea recta a los datos, relacionando una variable independiente $x_1$ con la variable dependiente a través de los parámetros $\theta_0$ y $\theta_1$. Es útil cuando la relación entre las variables es aproximadamente lineal y permite interpretar fácilmente el efecto de cada característica sobre la variable objetivo.

**Ventajas:** Fácil de interpretar, rápido de entrenar, útil para relaciones simples.  
**Desventajas:** No captura relaciones no lineales, puede subajustar datos complejos.

### Regresión Polinómica

$$
h_{\theta}^{(2)}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2
$$

$$
h_{\theta}^{(3)}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2 + \theta_3 x_1^3
$$

$$
h_{\theta}^{(4)}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2 + \theta_3 x_1^3 + \theta_4 x_1^4
$$

$$
h_{\theta}^{(5)}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2 + \theta_3 x_1^3 + \theta_4 x_1^4 + \theta_5 x_1^5
$$

La regresión polinómica extiende la regresión lineal al incluir términos de mayor grado ($x_1^2$, $x_1^3$, etc.), permitiendo ajustar curvas más complejas a los datos. Cada grado adicional aumenta la flexibilidad del modelo para capturar patrones no lineales.

**Ventajas:** Puede modelar relaciones complejas y no lineales entre variables.  
**Desventajas:** Riesgo de sobreajuste si el grado es muy alto, interpretación más difícil, mayor complejidad computacional.  
**Uso recomendado:** Cuando los datos muestran una tendencia curva y la regresión lineal no es suficiente para capturar la relación.