<a href="https://colab.research.google.com/github/Viny2030/UMSA/blob/main/pc_rg_03_modelos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/PyCaret.png?raw=true)

# **Regresión**


<p align="justify">
👀 Una inmobiliaria de la zona de Capital Federal solicito la estimacion del precio de 45.000 propiedades con caracteristicas de ciertos barrios especificos.

<p align="justify">
En <code>PyCaret</code>, el módulo de Regresión (Regression Module) es una parte importante de la biblioteca diseñada para abordar tareas de regresión automatizada. La regresión es un tipo de problema de aprendizaje automático supervisado en el que el objetivo es predecir un valor numérico continuo, en lugar de una clase o categoría como en la clasificación.
<br><br>
El módulo de Regresión de <code>PyCaret</code> ofrece una serie de funciones y herramientas que simplifican el proceso de construcción, entrenamiento y evaluación de modelos de regresión de manera automatizada y eficiente.
<br><br>
Algunas de las características clave del módulo de Regresión de <code>PyCaret</code> son:
<br>
<br>
<ol align="justify">
<li><b>Preprocesamiento de datos</b>: <code>PyCaret</code> automatiza el preprocesamiento de datos para tareas de regresión, lo que incluye el manejo de valores faltantes, codificación de variables categóricas, normalización de datos, y partición de datos en conjuntos de entrenamiento y prueba. Esto permite a los usuarios concentrarse más en el desarrollo del modelo y menos en las tareas de limpieza y transformación de datos.</li>
<br>
<li><b>Comparación de modelos</b>: <code>PyCaret</code> permite a los usuarios comparar fácilmente varios modelos de regresión populares. La biblioteca entrena automáticamente múltiples modelos en el conjunto de datos y proporciona una tabla de resultados que muestra las métricas de rendimiento de cada modelo, lo que facilita la identificación del modelo más prometedor para un problema en particular.</li>
<br>
<li><b>Optimización de hiperparámetros</b>: Los hiperparámetros son configuraciones que afectan el rendimiento y comportamiento de un modelo de aprendizaje automático. <code>PyCaret</code> realiza una búsqueda inteligente en el espacio de hiperparámetros para encontrar la combinación óptima que maximice el rendimiento del modelo de regresión.</li>
<br>
<li><b>Interpretación de modelos</b>: <code>PyCaret</code> ofrece herramientas para interpretar y visualizar los modelos de regresión, lo que ayuda a comprender cómo se ajustan los datos y cómo se relacionan las características con las predicciones.</li>
<br>
<li><b>Análisis de residuos</b>: Los residuos son las diferencias entre las predicciones del modelo y los valores reales. <code>PyCaret</code> proporciona herramientas para analizar y visualizar los residuos, lo que ayuda a evaluar la calidad del modelo.</li>
<br>
<li><b>Ensemble Learning</b>: <code>PyCaret</code> admite Ensemble Learning, que combina múltiples modelos de regresión para mejorar el rendimiento general y reducir el riesgo de sobreajuste (overfitting).</li>
<br>
<li><b>Predicción en nuevos datos</b>: Una vez que se ha construido y entrenado un modelo de regresión, <code>PyCaret</code> permite utilizarlo para hacer predicciones en nuevos datos sin la necesidad de escribir mucho código adicional.</li>
</ol>
<br>
<p align="justify">
El módulo de Regresión de <code>PyCaret</code> está diseñado para ser accesible y útil para estudiantes y profesionales de Ciencia de Datos, permitiéndoles abordar tareas de regresión complejas con mayor facilidad y rapidez. Al automatizar gran parte del proceso, PyCaret permite a los usuarios centrarse en la interpretación de resultados, el ajuste de modelos y la toma de decisiones informadas.
<br>
<br>
💗 A disfrutar las Regresiones de <code>PyCaret</code>...
</p>

### **Instalando bibliotecas**

In [None]:
!pip install pycaret

### **Análisis de datos**

In [None]:
import pandas as pd

### **PyCaret**

In [None]:
from pycaret.regression import *

## **Obtención de los Datos**

In [None]:
datos = "https://raw.githubusercontent.com/cristiandarioortegayubro/BA/main/Datasets/propiedades.csv"

In [None]:
df = pd.read_csv(datos, index_col=0)
df

In [None]:
df.info()

- l1 - país
- l2 - provincia o ciudad
- l3 - barrio
- rooms - cantidad de habitaciones
- bedrooms - cantidad de dormitorios
- bathrooms - cantidad de baños
- surface_total - superficie total
- surface_covered - superficie cubierta
- price - precio

# **Analisis Exploratorio de Datos**

In [None]:
df.info()

In [None]:
df.head(3)

In [None]:
df.drop(columns=["id","l1","l2"], inplace=True)

In [None]:
df.head(3)

In [None]:
df.isnull().sum().sort_values(ascending=False)

In [None]:
df.info()

In [None]:
df.dropna(how="any", inplace=True)

In [None]:
df.info()

In [None]:
df.head(7)

In [None]:
lista = ["Localidad", "Ambientes", "Habitaciones", "Baños", "Sup_Total", "Sup_Cubierta", "Precio"]

In [None]:
df.columns = lista

In [None]:
df.head()

# **Analisis EDA**

https://pypi.org/project/pandas-profiling/

In [None]:
!pip install ydata-profiling

In [None]:
from ydata_profiling import ProfileReport

In [None]:
ProfileReport(df)

# **Configuración del entorno PyCaret**

In [None]:
regresion = setup(data = df,
                  ignore_features=["Localidad"], ## ignorar la columna de localidad
                  normalize=True,## normalizar
                  normalize_method="zscore", ## metodo de normalizacion zscore
                  transformation=True, ## transformacion
                  transformation_method="yeo-johnson",## metodo de transformacion 'yeo-johnson'
                  train_size=0.7,## conjunto de entrenamiento 70 %
                  target = "Precio", ## target Precio
                  session_id = 2021) ## semilla

### **Conjunto de datos originales**

In [None]:
regresion.dataset

### **Conjunto de datos transformados**

In [None]:
regresion.dataset_transformed

# **Modelo**

In [None]:
models()

In [None]:
mejor_modelo = compare_models()

In [None]:
mejor_modelo


 ### **<font color="black">Creacion del Modelo</font>**

In [None]:
et = create_model('et')

 ## **<font color="black">Metricas</font>**

 ### **<font color="black">MAE</font>**

<p align = "justify">
<b>MAE</b> (Error Absoluto Medio, por sus siglas en inglés) es una métrica utilizada para evaluar el rendimiento de un modelo de regresión. Representa el promedio de las diferencias absolutas entre las predicciones del modelo y los valores reales de los datos de prueba.
<br><br>
Para calcular MAE, primero se deben hacer predicciones con el modelo sobre un conjunto de datos de prueba y luego se resta el valor real de cada dato de prueba a su correspondiente predicción para obtener la diferencia absoluta. Después, se toma el promedio de todas estas diferencias absolutas para obtener MAE.
<br><br>
La fórmula para calcular MAE es la siguiente:
<br><br>
 $$ \frac{1}{n} \sum_{i=1}^{n} |y_{i} - \hat{y_{i}}|$$
<br><br>
Donde:
<br><br>
<ul align = "justify">
<li> \( n \) es el número de muestras en el conjunto de datos de prueba.</li><br>
<li> \( y_{i} \) es el valor real del dato \( i \) en el conjunto de datos de prueba.</li><br>
<li> \( \hat{y_{i}} \) es la predicción del modelo para el dato \( i \) en el conjunto de datos de prueba.</li><br>
<li> \( |x| \) representa el valor absoluto de \( x \).</li><br>
</ul>
<p align="justify">
<b>MAE</b> es una medida de la magnitud promedio de los errores de predicción del modelo, independientemente de la dirección de los errores (es decir, no toma en cuenta si el modelo subestima o sobreestima los valores).
<br><br>
Un MAE más bajo indica un mejor rendimiento del modelo, ya que significa que las predicciones están más cercanas a los valores reales en promedio.

 ### **<font color="black">RMSE</font>**

<p align="justify">
<b>RMSE</b> (Root Mean Squared Error, Error Cuadrático Medio por sus siglas en inglés) es otra métrica comúnmente utilizada para evaluar el rendimiento de un modelo de regresión. Al igual que el MAE, el RMSE mide la precisión del modelo al comparar las predicciones con los valores reales de los datos de prueba.
<br><br>
Sin embargo, a diferencia del MAE, el RMSE penaliza de manera más significativa los errores grandes.
<br><br>
El RMSE se calcula de la siguiente manera:
<br><br>
$$\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_{i} - \hat{y_{i}})^{2}}$$
<br><br>
Donde:
<br><br>
<ul align="justify">
<li> \( n \) es el número de muestras en el conjunto de datos de prueba.</li><br>
<li> \( y_{i} \) es el valor real del dato \( i \) en el conjunto de datos de prueba.</li><br>
<li> \( \hat{y_{i}} \) es la predicción del modelo para el dato \( i \) en el conjunto de datos de prueba.</li><br>
</ul>
<p align="justify">
RMSE toma la raíz cuadrada del promedio de los errores al cuadrado. Al elevar los errores al cuadrado, los errores más grandes se vuelven más prominentes y afectan más la métrica, lo que penaliza fuertemente las predicciones que están lejos de los valores reales.
<br><br>
Una vez más, al igual que con el MAE, un RMSE más bajo indica un mejor rendimiento del modelo, ya que significa que las predicciones están más cercanas a los valores reales en promedio.
<br><br>
El RMSE es especialmente útil cuando se quiere tener en cuenta la magnitud de los errores y se quiere penalizar más fuertemente las predicciones inexactas.

 ### **<font color="black">$R^2$</font>**

<p align="justify">
El coeficiente de determinación, comúnmente conocido como <b>$R^2$</b> (pronunciado "R cuadrado"), es una métrica utilizada para evaluar la calidad de ajuste de un modelo de regresión.
<br><br>
Mientras que el MAE y el RMSE miden la magnitud de los errores absolutos, el $R^2$ proporciona una medida de cuánta variabilidad de la variable dependiente (la variable a predecir) es explicada por el modelo.
<br><br>
El $R^2$ varía entre 0 y 1, y puede ser interpretado como el porcentaje de la variabilidad de la variable dependiente que es explicada por el modelo en comparación con la variabilidad total presente en los datos.
<br><br>
La fórmula para calcular el $R^2$ es la siguiente:
<br><br>
$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$$
<br><br>
Donde:
<br><br>
<ul align="justify">
<li>\( SS_{res} \) es la suma de los cuadrados de los residuos (diferencia entre los valores reales y las predicciones del modelo).</li><br>
<li> \( SS_{tot} \) es la suma total de los cuadrados de la diferencia entre los valores reales y la media de la variable dependiente.</li><br>
</ul>
<p align="justify">
El $R^2$ puede tomar los siguientes valores:
<br><br>
<ul align="justify">
<li> $R^2 = 1$: El modelo ajusta perfectamente los datos, explicando el $100$% de la variabilidad de la variable dependiente.</li><br>
<li> $R^2 = 0$: El modelo no ofrece ninguna mejora en comparación con simplemente usar la media de la variable dependiente para hacer predicciones.</li><br>
<li> $R^2 < 0$: El modelo se ajusta tan mal que su rendimiento es peor que simplemente usar la media como predicción.</li><br>
</ul>
<p align="justify">
Es importante tener en cuenta que un alto $R^2$ no garantiza que el modelo sea válido o que esté libre de problemas.
<br><br>
El $R^2$ solo proporciona información sobre cómo el modelo se ajusta a los datos, pero no dice nada sobre la causalidad o la validez de las relaciones entre variables. Por lo tanto, es fundamental complementar la evaluación con otras técnicas y análisis para asegurar la robustez y relevancia del modelo.

### **<font color="black">Optimizacion**

In [None]:
optimizacion_et= tune_model(et)

Processing:   0%|          | 0/7 [00:00<?, ?it/s]

Fitting 10 folds for each of 10 candidates, totalling 100 fits


In [None]:
plot_model(optimizar_et, plot='tree', scale= 0.70) # extra tree

### **<font color="black">Ensemble**

### **<font color="black">Predicción**

In [30]:
predict_model(mejor_modelo[0], data=df)

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE
0,Extra Trees Regressor,32940.9978,16007546196.4266,126520.9319,0.9061,0.1906,0.1178


Unnamed: 0,Localidad,Ambientes,Habitaciones,Baños,Sup_Total,Sup_Cubierta,Precio,prediction_label
4,Belgrano,6.0,4.0,2.0,190.0,178.0,550000,7.059833e+05
7,Puerto Madero,3.0,2.0,3.0,161.0,149.0,1600000,1.480000e+06
8,Palermo,2.0,1.0,1.0,38.0,38.0,132000,1.078750e+05
9,Palermo,3.0,2.0,1.0,80.0,75.0,245000,2.450000e+05
10,Villa del Parque,1.0,1.0,1.0,44.0,41.0,86000,8.600000e+04
...,...,...,...,...,...,...,...,...
44672,Villa Crespo,2.0,1.0,1.0,29.0,29.0,72000,9.360500e+04
44673,Monte Castro,2.0,1.0,1.0,56.0,54.0,115000,1.411090e+05
44675,Colegiales,2.0,1.0,1.0,45.0,40.0,99000,1.140000e+05
44676,Colegiales,1.0,1.0,1.0,59.0,59.0,105000,1.499000e+05


### **<font color="black">Evaluacion**

In [31]:
evaluate_model(mejor_modelo[0])

interactive(children=(ToggleButtons(description='Plot Type:', icons=('',), options=(('Pipeline Plot', 'pipelin…

# **<font color="black">03 - Analyze Model</font>**

<h5 align="center"><b>
<font color="black">
<b><mark>Setup</mark> ▶ <mark>Compare Models</mark> ▶ <mark>Analyze Model</mark> ▶ Prediction ▶ Save Model

 ## **<font color="Black">Residuos</font>**

<p align="justify">
En el contexto de modelos de regresión, los residuos son las diferencias entre los valores reales de la variable dependiente y las predicciones realizadas por el modelo. En otras palabras, los residuos son el error entre lo que el modelo predice y lo que realmente ocurre en los datos de prueba.
<br><br>
Matemáticamente, el residuo de una observación $i$ se calcula restando el valor real $y_{i}$ de la variable dependiente al valor predicho $\hat{y_{i}}$ por el modelo para esa misma observación:
<br><br>
$$ \text{Residuo}_{i} = y_{i} - \hat{y_{i}}$$
<br>
<p align="justify">
Esperamos que los residuos tengan una distribución alrededor de cero, lo que significa que el modelo ha ajustado bien los datos y que las predicciones están lo más cercanas posible a los valores reales.
<br><br>
Sin embargo, en la práctica, los residuos no siempre serán cero, ya que los modelos de regresión generalmente no pueden ajustarse perfectamente a todos los datos.
<br><br>
El análisis de los residuos es una parte importante de la validación del modelo. Algunas de las cosas que podemos hacer con los residuos son:
<br><br>
<ol align="justify">
<li><b>Comprobar la normalidad</b>: Un buen modelo de regresión debe tener residuos que sigan una distribución normal. Si los residuos muestran una desviación significativa de la normalidad, puede indicar que el modelo no está capturando completamente la estructura subyacente de los datos.</li>
<br>
<li><b>Identificar patrones no lineales</b>: Si los residuos muestran algún patrón sistemático, como una forma de U o una relación curvilínea con las variables independientes, esto puede indicar que el modelo no está capturando correctamente relaciones no lineales en los datos.</li>
<br>
<li><b>Verificar la homocedasticidad</b>: La homocedasticidad significa que los residuos tienen una varianza constante en todas las observaciones. Si los residuos tienen una varianza que cambia con el nivel de la variable dependiente, puede indicar una falta de homocedasticidad, lo que afecta la precisión y fiabilidad del modelo.</li>
<br>
<li><b>Detectar valores atípicos</b>: Los residuos también pueden ayudarnos a identificar valores atípicos o datos inusuales que pueden tener un impacto significativo en el modelo.</li></ol>
<p align="justify">
👀 En general, un análisis detallado de los residuos es esencial para entender cómo bien se ajusta el modelo a los datos y si existen problemas o áreas de mejora en el mismo.

# **Ensemble**

**Ensamble es una técnica de machine learning que se utiliza para mejorar el rendimiento de los modelos (principalmente los modelos basados ​​en árboles). Hay varias técnicas para ensamblar como bagging y boosting. Usaremos la función ```ensemble_model()``` en PyCaret.**

## **Bagging**

In [32]:
bagged = ensemble_model(mejor_modelo[0])

Unnamed: 0_level_0,MAE,MSE,RMSE,R2,RMSLE,MAPE
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,61081.3538,20505357778.4715,143196.9196,0.8698,0.2397,0.1872
1,61033.0518,43543555177.8666,208670.9256,0.7705,0.2455,0.1846
2,59693.3932,20068593526.9284,141663.6634,0.8746,0.2381,0.1841
3,69648.0438,161683430248.4449,402098.7817,0.4504,0.2683,0.1907
4,63496.9291,36572781994.129,191240.1161,0.8133,0.2583,0.1992
5,58645.341,17085168655.1526,130710.2469,0.8771,0.2394,0.1891
6,61358.9419,24149398212.8742,155400.7664,0.8617,0.2449,0.1886
7,56520.4708,21761008095.2586,147516.1283,0.8793,0.2513,0.2098
8,59921.2799,19222845084.6944,138646.4752,0.864,0.2514,0.1996
9,65961.6152,29959529502.0379,173088.2131,0.8435,0.2594,0.199


Processing:   0%|          | 0/6 [00:00<?, ?it/s]

In [33]:
predict_model(bagged, data=df)

Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE
0,Extra Trees Regressor,42752.0355,15335205317.6281,123835.3961,0.91,0.1988,0.1422


Unnamed: 0,Localidad,Ambientes,Habitaciones,Baños,Sup_Total,Sup_Cubierta,Precio,prediction_label
4,Belgrano,6.0,4.0,2.0,190.0,178.0,550000,7.017816e+05
7,Puerto Madero,3.0,2.0,3.0,161.0,149.0,1600000,1.360828e+06
8,Palermo,2.0,1.0,1.0,38.0,38.0,132000,1.066428e+05
9,Palermo,3.0,2.0,1.0,80.0,75.0,245000,2.313630e+05
10,Villa del Parque,1.0,1.0,1.0,44.0,41.0,86000,8.332250e+04
...,...,...,...,...,...,...,...,...
44672,Villa Crespo,2.0,1.0,1.0,29.0,29.0,72000,8.767418e+04
44673,Monte Castro,2.0,1.0,1.0,56.0,54.0,115000,1.481049e+05
44675,Colegiales,2.0,1.0,1.0,45.0,40.0,99000,1.124750e+05
44676,Colegiales,1.0,1.0,1.0,59.0,59.0,105000,1.510732e+05


In [None]:
evaluate_model(bagged)

## **Boosting**

In [None]:
boosted = ensemble_model(mejor_modelo[0], method = 'Boosting')

In [None]:
predict_model(boosted, data=df)

In [None]:
evaluate_model(boosted)

## **Blending**

**La combinación (blending) es otra técnica común para ensamblar que se puede usar en PyCaret. Crea múltiples modelos y luego promedia las predicciones individuales para formar una predicción final.**

In [None]:
mejor_modelo

In [None]:
blender = blend_models(estimator_list = [mejor_modelo[0], mejor_modelo[1], mejor_modelo[2]])

In [None]:
predict_model(blender, data=df)

In [None]:
evaluate_model(blender)

 ## **<font color="black">Conformacion  de Residuos**

# 1**-Comprobar la normalidad**: Un buen modelo de regresión debe tener residuos que sigan una distribución normal. Si los residuos muestran una desviación significativa de la normalidad, puede indicar que el modelo no está capturando completamente la estructura subyacente de los datos.

2-Identificar patrones no lineales: Si los residuos muestran algún patrón sistemático, como una forma de U o una relación curvilínea con las variables independientes, esto puede indicar que el modelo no está capturando correctamente relaciones no lineales en los datos.

3-Verificar la homocedasticidad: La homocedasticidad significa que los residuos tienen una varianza constante en todas las observaciones. Si los residuos tienen una varianza que cambia con el nivel de la variable dependiente, puede indicar una falta de homocedasticidad, lo que afecta la precisión y fiabilidad del modelo.

4-Detectar valores atípicos: Los residuos también pueden ayudarnos a identificar valores atípicos o datos inusuales que pueden tener un impacto significativo en el modelo.

### **<font color="black">Valores reales vs. Prediccion**

### **<font color="black">Residuos vs. Variable Objetivo**

### **<font color="black">Grafico en Paralelo**

### **<font color="black">Analisis en 3d**

### **<font color="black">Finalizando el modelo**