**Punto 1: "Análisis Avanzado con Regresión Lineal Múltiple en Python: Explorando el Conjunto de Datos de Calidad del Aire"**


https://www.kaggle.com/datasets/fedesoriano/air-quality-data-set

### Objetivo
- Desarrollar habilidades en la implementación y análisis de modelos de regresión lineal múltiple utilizando Python en Jupyter Notebook.
- Comprender y aplicar técnicas de análisis de residuos, selección de variables y pruebas de bondad de ajuste.
- Realizar predicciones y análisis comparativos entre varios modelos.

### Conjunto de Datos
- **Dataset**:Contiene las respuestas de un dispositivo multisensor de gases desplegado sobre el terreno en una ciudad italiana. Se registran los promedios de las respuestas horarias junto con las referencias de las concentraciones de gas de un análisis certificado.


### Estructura del Taller

1. **Introducción y Preparación del Entorno**:
   - Configuración del entorno de Jupyter Notebook.
   - Importación de librerías necesarias (pandas, numpy, matplotlib, seaborn, scikit-learn, statsmodels).

2. **Exploración y Preprocesamiento de Datos**:
   - Carga y exploración inicial del conjunto de datos.
   - Limpieza de datos y manejo de valores faltantes.
   - Visualización de distribuciones y correlaciones u otros.

3. **Construcción de Modelos de Regresión Lineal Múltiple**:
   - Creación de modelos utilizando diferentes combinaciones de variables.
   - Uso de técnicas de selección de variables (como el método de eliminación hacia atrás).

4. **Análisis de Residuos y Diagnóstico de Modelos**:
   - Evaluación de la normalidad de los residuos (prueba de Shapiro-Wilk).
   - Análisis de gráficos de residuos, multicolinealidad y datos influyentes.
   - Proponer correcciones necesarrias: Selección de variables, transformaciones u otra que parta de sus analisis.
   - Reajustar los modelos resultantes.

5. **Comparación entre Modelos**:
   - Uso de métricas (R-cuadrado, RMSE, etc.) para comparar modelos.
   - Análisis de la significancia de las variables (p-valores, intervalos de confianza).

6. **Pruebas de Bondad de Ajuste**:
  - Interpretación de resultados para evaluar la calidad del ajuste de los distintos modelos.
   - Realizar pruebas como ANOVA para comparar modelos (recuerde que deben ser anidados).
   
7. **Predicción**:
   - Realizar predicciones con los modelos construidos.

8. **Documentación y Comentarios**:
   - Cada estudiante debe documentar su código y análisis.
   - Es crucial que cada salida de código tenga un análisis o explicación.

### Entrega y Evaluación
- **Formato**: Notebook de Jupyter completo con código, visualizaciones y comentarios.
- **Criterios de Evaluación**: Correctitud técnica, profundidad del análisis, claridad en la documentación y creatividad en la exploración de datos y modelos.



**Punto 2: "Comparación y Optimización de Modelos de Regresión Lineal Regularizados en Python: Análisis del Conjunto de Datos de Precios de Casas de Ames"**

### Objetivo
- Explorar y comparar diferentes modelos de regresión lineal regularizados (Ridge, Lasso y ElasticNet).
- Utilizar la validación cruzada para optimizar los parámetros de cada modelo.
- Aplicar técnicas avanzadas de validación cruzada para evaluar el rendimiento de los modelos.

### Conjunto de Datos
- **Dataset**: Conjunto de Datos de Precios de Casas de Ames, Iowa.
- **Descripción**: Incluye información sobre casi 3,000 propiedades vendidas en Ames, con 79 variables explicativas relacionadas con aspectos de las casas.

https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data

### Estructura del Taller

1. **Preparación del Entorno y Carga de Datos**:
   - Configuración de Jupyter Notebook e importación de librerías (pandas, numpy, matplotlib, seaborn, sklearn).
   - Carga del conjunto de datos de Ames.

2. **Preprocesamiento y Exploración de Datos**:
   - Limpieza de datos, manejo de valores faltantes y variables categóricas.
   - Análisis exploratorio y visualización de las características de las casas.

3. **Modelos de Regresión Lineal Regularizados**:
   - Normalización o estandarización de características si es necesario.
   - Creación de modelos Ridge, Lasso y ElasticNet.

4. **Optimización de Parámetros con Validación Cruzada**:
   - Usa validación cruzada (te recomiendo que aprendar en este taller a usar `GridSearchCV` de sklearn, sino usa los codigos que tenemos dentro del nuestros ejemplos) para encontrar los mejores parámetros (alpha, l1_ratio para ElasticNet).

   Aquí un ejemplo:

```python
   # Para Ridge
    param_grid_ridge = {'alpha': [0.01, 0.1, 1, 10, 100]}
    grid_ridge = GridSearchCV(Ridge(), param_grid_ridge, cv=5, scoring='neg_mean_squared_error')
    grid_ridge.fit(X_train_scaled, y_train)

    grid_ridge.best_estimator_ # Te dice el mejor alpha

```

5. **Comparación de Modelos y Evaluación de Rendimiento**:
   - Comparación de modelos basada en métricas (R-cuadrado ajustado, RMSE, etc.) usando validacion cruzada.
   - Análisis de los coeficientes y características más relevantes.

6. **Validación Cruzada y Análisis de Resultados**:
     - Discusión sobre la selección del modelo óptimo basado en los resultados.


### Entrega y Evaluación
- **Formato**: Notebook de Jupyter completo con código, visualizaciones y comentarios.
- **Criterios de Evaluación**: Correctitud técnica, profundidad del análisis, claridad en la documentación y creatividad en la exploración de datos y modelos

**Punto 3: "Comparación y Optimización de Modelos de Regresión logistica"**

El siguiente problema fue extraído de una competencia de Kaggle con un premio de USD 5,000 dólares que fue ganado por un equipo que utilizo un modelo de regresión logística dentro de su proceso de solución.

*Give Me Some Credit (https://www.kaggle.com/c/GiveMeSomeCredit/data): Improve on the state of the art in credit scoring by predicting the probability that somebody will experience financial distress in the next two years. Use the training data of the cs-training.csv file.*

Estime dos modelos con (i) todas las variables disponibles y (ii) solo con el ingreso y la edad.

1. Seleccione el mejor modelo utilizando (i) el criterio de información de Akaike y (ii) el AUC.

2. Para cada modelo establezca el threshold en el valor que maximice el F1-score definido por:

$$F1_{score}=2*(sensibilidad*especificidad)/(sensibilidad+especificidad)$$

3. Construya las matrices de confusión con los threshold ya calibrados y para cada par de modelos seleccione el de mejor desempeño en el accuracy.

4. Realice las pruebas de significancia global de los modelos con la prueba de ratio de verosimilitud. Seleccione el modelo que tenga el menor p-valor asociado. Si no es posible concluir con el p-valor seleccione el modelo con el mayor estadístico.

5. En el modelo seleccionado, con un prueba de Wald, determine cuáles variables son significativas al 1% e interprete sus efectos en:

	- Log-odds
	- Odds para la primera observacion
	- Probabilidad para la primera observación
	- Odds-Ratio
	- Efectos marginales promedio

  
### Entrega y Evaluación
- **Formato**: Notebook de Jupyter completo con código, visualizaciones y comentarios.
- **Criterios de Evaluación**: Correctitud técnica, profundidad del análisis, claridad en la documentación y creatividad en la exploración de datos y modelos