<a href="https://colab.research.google.com/github/alexandergribenchenko/Pycaret_Exploration/blob/main/Acamica_PY_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto 04 - Informe final de carrera**

### (Acámica - DS online 40 - Proyecto 04 - Alexander Ortega)

**Nota introductoria para la ejecución del notebook:** El presente notebook fue desarrollado empleando Google Colab y se recomienda, con el fin de obtener una correcta visualización de la totalidad de las gráficas y salidas del notebook, que este sea ejecutado de principio a fin en dicho entorno. Existen algunas gráficas interactivas que el paquete PyCaret genera que no se pueden visualizar en la vista previa del notebook desplegada en el repositorio de github, y que se sólo pueden verse al generar su ejecución.

# **Alcance y objeto del proyecto:**


Si bien es clara la importancia de haber generado en los anteriores proyectos una implementación gradual (paso a paso) de los modelos de predicción, pues esto nos permitió tener un mayor conocimiento de las implicaciones y beneficios de cada una de las etapas de modelado, este proceso puede tomar un tiempo significativo que en contexto laboral puede dificultar su implementación. 

Es por ello que en este último proyecto nuestra finalidad es explorar una herramienta que nos permita generar de manera automatizada evaluaciones para un conjunto amplio de modelos, conociendo con ello de manera ágil los resultados para algunos caminos exploratorios, que después si así lo quisiéramos podríamos afinar. Así pues, la finalidad del presente proyecto no es mejorar de antemano las métricas obtenidas para un modelo en específico ni describir en detalle su funcionamiento,  sino explorar una herramienta que nos permita hacer de manera automatizada un conjunto de pruebas analíticas mucho más amplio y en un menor tiempo.

La librería empleada para hacer dicha automatización es [PyCaret](https://pycaret.org/) y el contexto del problema analitico bajo el cual se explorará la herramienta será el abordado en el Proyecto_02 que consistió en la evaluación de un conjunto de modelos de predicción de precios para inmuebles de la Ciudad de Buenos Aires entre 2019 y enero de 2020.

El actual proyecto abordará de manera conjunta a partir de la librería Pycaret no únicamente el problema de la generación de modelos de regresión de aprendizaje supervisado para la estimación de precio de los inmuebles, sino que también complementaremos su alcance con la evaluación de modelos de clustereizacion ampliando así además los resultados de los anteriores proyectos. 


# **Presentación de la librería a emplear (PyCaret):**

Tal como está descrito en su [página oficial](https://pycaret.org/guide/), PyCaret es una librería de aprendizaje automático de código abierto en Python que tiene como objetivo reducir el tiempo empleado desde la formulación de las hipótesis hasta la obtención de resultados en diversos contextos analiticos. 

Si bien la herramienta se sugiere como de uso para todo tipo de público, enfatizamos de manera particular en la recomendación que generan para científicos de datos experimentados que desean aumentar la productividad en los experimentos de aprendizaje automático mediante el uso de PyCaret en sus flujos de trabajo, dado que conocen el contexto de la herramienta que y pueden evaluar y enfocar con mayor criterio los resultados y funcionalidades que las herramienta entrega. 

##### ---> Librerías a emplear en el proyecto:

In [None]:
!pip install --upgrade xgboost

In [None]:
!pip install --upgrade catboost

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [None]:
!pip install pycaret

In [None]:
from pycaret.utils import enable_colab
enable_colab()

from pycaret.utils import version
version()

In [None]:
from pycaret.regression import *

# **1.Preparación del Dataset de Análisis**

El dataset base que emplearemos para explorar las herramientas de la libreria PyCaret tanto en los problemas de regresión como el los de clustering corresponde con un dataset ‘curado’ que hemos obtenido del Proyecto_02. Aunque la finalidad del presente proyecto no es obtener de antemano mejores resultados en las métricas de los modelos que los presentados en el proyecto descrito, si resulta útil que pueda existir una secuencia comparativa en el desarrollo de los modelos a partir de un set de datos similar pues esto nos permitirá tener una idea de los resultados que se pueden tener con una implementación automatizada. 

En este proyecto no nos detendremos en un detallado análisis exploratorio de datos para describir el origen del dataset, que puede visualizarse en detalle en el Proyecto_02. Simplemente destacamos que es un dataset que en el que se ha hecho de antemano eliminación de outliers bajo criterios de análisis específicos, y que cuenta con los mismos registros tanto en cantidad como en índice que los empleados para entrenar y generar los modelos en el Proyecto_02.  Sin embargo no se han desarrollado sobre el transformaciones de escalado, imputación o encoding, pues la idea es explotar las funcionalidades de PyCaret en este aspecto. 

En detalle el dataset curado obtenido como parte del proyecto_02, y que emplearemos  en las etapas de regresión y clustering con PyCaret es el siguiente:

In [1]:
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


In [2]:
path_data = '/content/drive/MyDrive/Colab Notebooks/00_Acamica/PY_04_Acamica/'

In [5]:
df = pd.read_csv(path_data+'df_base_PY_04.csv', sep =',')
df

Unnamed: 0,l3,property_type,lat,lon,rooms,bedrooms,bathrooms,surface_total,surface_covered,price
0,Boedo,PH,-34.624056,-58.412110,2.0,1.0,2.0,70.0,58.0,159000.0
1,Palermo,PH,-34.593569,-58.427474,2.0,1.0,1.0,45.0,45.0,125000.0
2,Palermo,PH,-34.581294,-58.436754,2.0,1.0,1.0,85.0,50.0,295000.0
3,Villa Crespo,PH,-34.593779,-58.441239,2.0,1.0,1.0,56.0,56.0,150000.0
4,Villa Crespo,PH,-34.600988,-58.433061,2.0,1.0,1.0,70.0,70.0,159500.0
...,...,...,...,...,...,...,...,...,...,...
67863,Palermo,Departamento,-34.587152,-58.437724,3.0,2.0,2.0,120.0,82.0,430000.0
67864,Palermo,Departamento,-34.581425,-58.442707,3.0,2.0,2.0,88.0,82.0,399000.0
67865,Palermo,PH,-34.576573,-58.434394,3.0,2.0,1.0,84.0,84.0,178000.0
67866,Palermo,PH,-34.585355,-58.427194,3.0,2.0,2.0,144.0,134.0,480000.0


# **2.Implementación de PyCaret en el contexto del aprendizaje supervisado (Regresión)**