<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BA/blob/main/pc_rg_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/PyCaret.png?raw=true)

# **Regresión**


### **Instalando bibliotecas**

In [None]:
!pip install --pre pycaret[full]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### **Análisis de datos**

In [None]:
import pandas as pd 

### **PyCaret**

In [None]:
from pycaret.regression import *

## **Obtención de los Datos**

In [None]:
datos = "https://raw.githubusercontent.com/cristiandarioortegayubro/BA/main/Datasets/propiedades.csv"

In [None]:
df = pd.read_csv(datos, index_col=0)
df

In [None]:
df.info()

- l1 - país
- l2 - provincia o ciudad
- l3 - barrio
- rooms - cantidad de habitaciones
- bedrooms - cantidad de dormitorios
- bathrooms - cantidad de baños
- surface_total - superficie total
- surface_covered - superficie cubierta
- price - precio

# **Analisis Exploratorio de Datos**

In [None]:
df.info()

In [None]:
df.head(3)

In [None]:
df.drop(columns=["id","l1","l2"], inplace=True)

In [None]:
df.head(3)

In [None]:
df.isnull().sum().sort_values(ascending=False)

In [None]:
df.info()

In [None]:
df = df.fillna(round(df.mean()))

In [None]:
df.info()

In [None]:
df.dropna(how="any", inplace=True)

In [None]:
df.info()

In [None]:
df.head(7)

In [None]:
lista = ["Localidad", "Ambientes", "Habitaciones", "Baños", "Sup_Total", "Sup_Cubierta", "Precio"]

In [None]:
df.columns = lista

In [None]:
df.head()

# **División del conjunto de datos**

In [None]:
data = df.sample(frac=0.7, random_state=123)
data_no_vistos = df.drop(data.index)

data.reset_index(drop=True, inplace=True)
data_no_vistos.reset_index(drop=True, inplace=True)

print("")
print('Datos para modelar: ' + str(data.shape))
print('Datos no vistos para predecir: ' + str(data_no_vistos.shape))

# **Configuración del entorno PyCaret**

In [None]:
regresion = setup(data = data, 
                  target = "price", 
                  session_id = 2021)

### **Conjunto de datos originales**

In [None]:
regresion.dataset

### **Conjunto de datos transformados**

In [None]:
regresion.dataset_transformed

# **Modelo**

In [None]:
mejor_modelo = compare_models(n_select=3)

In [None]:
mejor_modelo

In [None]:
predict_model(mejor_modelo[0], data=df)

In [None]:
evaluate_model(mejor_modelo[0])

# **Ensemble**

**Ensamble es una técnica de machine learning que se utiliza para mejorar el rendimiento de los modelos (principalmente los modelos basados ​​en árboles). Hay varias técnicas para ensamblar como bagging y boosting. Usaremos la función ```ensemble_model()``` en PyCaret.**

## **Bagging**

In [None]:
bagged = ensemble_model(mejor_modelo[0])

In [None]:
predict_model(bagged, data=df)

In [None]:
evaluate_model(bagged)

## **Boosting**

In [None]:
boosted = ensemble_model(mejor_modelo[0], method = 'Boosting')

In [None]:
predict_model(boosted, data=df)

In [None]:
evaluate_model(boosted)

## **Blending**

**La combinación (blending) es otra técnica común para ensamblar que se puede usar en PyCaret. Crea múltiples modelos y luego promedia las predicciones individuales para formar una predicción final.**

In [None]:
mejor_modelo

In [None]:
blender = blend_models(estimator_list = [mejor_modelo[0], mejor_modelo[1], mejor_modelo[2]])

In [None]:
predict_model(blender, data=df)

In [None]:
evaluate_model(blender)