<a href="https://colab.research.google.com/github/alexandergribenchenko/Acamica_Proyecto_02/blob/main/DS_Proyecto_02_V03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto 02 - Ingeniería de features, Modelos avanzados e Interpretación de modelos** (Armado)

### (Acámica - DS online 40 - Proyecto 02 - Alexander Ortega)

# **Alcance y objeto del proyecto:**


El presente proyecto tiene como finalidad exhibir e implementar un conjunto de herramientas analíticas y predictivas propias de problemas del aprendizaje supervisado, más especificamante de problemas de regresión, empleando como contexto específico el estudio de los precios de los inmuebles de la Ciudad de Buenos Aires en el año 2019, con el fin de generar y evaluar modelos que permitan hacer su predicción. 

##### ---> Librerías a emplear en el proyecto:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.preprocessing import StandardScaler
pd.set_option('display.max_columns', None)

import warnings
warnings.filterwarnings("ignore")

### **Etapa Preliminar.** Preparación del dataset de análisis

En la presente etapa,  que dividiremos en  4 pasos, recopilaremos y cargaremos la información primaria para el estudio, descartaremos los atributos que no consideremos como relevantes para nuestro estudio, procesaremos los atributos para cada uno de sus parámetros con la finalidad de obtener uniformidad y limpieza en la manera en la que se presenta la información, y finalmente obtendremos el dataset que compilará toda la información base de una manera organizada y estructurada. Este dataset será el que emplearemos de manera posterior en la etapa de Transformación de datos.

### **EP. 1.1.** Recopilación y descarga de la información primaria

La información base para el desarrollo del siguiente proyecto fue obtenida de la [página de la división de datos de Properati](https://www.properati.com.co/data/), una plataforma web enfocada en el mercado inmobiliario de 4 países de Latinoamérica: Argentina, Colombia, Perú y Ecuador. En específico en la sección de Datasets del enlace descrito encontramos el enlace de descarga directa  en formato CSV para cada uno de los países.

Para efectos del desarrollo del proyecto generamos únicamente la descarga del dataset de Argentina y tomamos en cuenta únicamente las propiedades publicadas en el año 2019. 
 

### **EP. 1.2.** Exploración y preparación del dataset base

Iniciaremos cargando y evaluando la información general del dataset descargado:

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [None]:
path_data = '/content/drive/MyDrive/Colab Notebooks/00_Acamica/DS_Proyecto_01_Datos_Properati.csv'

In [None]:
df = pd.read_csv(path_data, sep =',')
df.head()

Unnamed: 0,start_date,end_date,created_on,lat,lon,l1,l2,l3,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,title,description,property_type,operation_type
0,2019-10-17,2019-12-23,2019-10-17,-34.60588,-58.384949,Argentina,Capital Federal,San Cristobal,7.0,7.0,2.0,140.0,140.0,153000.0,USD,"***Venta semipiso centro, ideal hostel*****",DESCRIPCION DE LA PROPIEDAD: Departamento de 1...,Departamento,Venta
1,2019-10-17,2019-11-21,2019-10-17,-34.624056,-58.41211,Argentina,Capital Federal,Boedo,2.0,1.0,2.0,70.0,58.0,159000.0,USD,Espectacular PH reciclado en Boedo sin expensas.,PH reciclado en Boedo a una cuadra de la plaz...,PH,Venta
2,2019-10-17,2019-11-01,2019-10-17,-34.593569,-58.427474,Argentina,Capital Federal,Palermo,2.0,1.0,1.0,45.0,45.0,125000.0,USD,Depto.tipo casa de 2 ambientes en Venta en Pal...,"2 ambienets amplio , excelente estado , patio ...",PH,Venta
3,2019-10-17,2019-12-23,2019-10-17,-34.581294,-58.436754,Argentina,Capital Federal,Palermo,2.0,1.0,1.0,85.0,50.0,295000.0,USD,COSTA RICA 5800 / PALERMO HOLLYWOOD / VENTA PH...,HERMOSO PH EN PALERMO!!!2 AMBIENTES TOTALMENTE...,PH,Venta
4,2019-10-17,2020-03-11,2019-10-17,-34.914194,-57.938219,Argentina,Bs.As. G.B.A. Zona Sur,La Plata,2.0,1.0,1.0,50.0,35.0,40000.0,USD,58 entre 1 y 2 Venta de departamento en ph.1 ...,58 entre 1 y 2 Venta de departamento en PH. P...,PH,Venta


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 146660 entries, 0 to 146659
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype  
---  ------           --------------   -----  
 0   start_date       146660 non-null  object 
 1   end_date         146660 non-null  object 
 2   created_on       146660 non-null  object 
 3   lat              136735 non-null  float64
 4   lon              136701 non-null  float64
 5   l1               146660 non-null  object 
 6   l2               146660 non-null  object 
 7   l3               146660 non-null  object 
 8   rooms            146660 non-null  float64
 9   bedrooms         146660 non-null  float64
 10  bathrooms        140703 non-null  float64
 11  surface_total    126133 non-null  float64
 12  surface_covered  125046 non-null  float64
 13  price            146660 non-null  float64
 14  currency         146660 non-null  object 
 15  title            146660 non-null  object 
 16  description      146660 non-null  obje

Corroboramos que el dataset cuenta con los siguientes 18 atributos:

- **start_date:** año

- **end_date:** año-mes-día

- **created_on:** hora de inicio del intervalo del conteo de vehículos

- **lat:** hora de fin del intervalo del conteo de vehículos

- **lon:** día de la semana 

- **l1:** nombre de las estaciones de peaje

- **l2:** Centro o Provincia

- **l3:** Liviano o Pesado

- **rooms:** Mdalidad de pago

- **bedrooms:** Cantidad de vehículos que pasan en el intervalo

- **bathrooms:** nombre de las estaciones de peaje

- **surface_total:** Centro o Provincia

- **surface_covered:** Liviano o Pesado

- **price:** Mdalidad de pago

- **currency:** Cantidad de vehículos que pasan en el intervalo

- **title:** Centro o Provincia

- **description:** Liviano o Pesado

- **property_type:** Mdalidad de pago

- **operation_type:** Cantidad de vehículos que pasan en el intervalo

Exploremos de manera más detallada cada unos de los tipos de atribitos:

- **Variables numéricas (periodo, hora_inicio, hora_fin y cantidad_pasos):** cada dataset anual toma de manera particular sus valores. 

- La variable **fecha** que actualmente aparece de tipo *object* se le dará un procesamiento específico para poder llevarla a tipo *datetime* y con ello hacer todas las transformaciones necesarias para estudiar  las series de tiempo (resampleos, agrupaciones, estimaciones de modelos, etc). Esto lo abordaremos de manera particular en el paso 1.4.

- **Variables categóricas**: Evaluemos ahora el tipo de información de los campos categoricos de los dataset, es decir **estacion, sentido, tipo_vehiculo** y **forma_pago**: 

##### **---> Exploración variable start_date:**

##### **---> Exploración variable

##### **---> Exploración variable end_date:**

##### **---> Exploración variable created_on:**

##### **---> Exploración variable lat:**

##### **---> Exploración variable lon:**

##### **---> Exploración variable l1:**

##### **---> Exploración variable l2:**

##### **---> Exploración variable l3:**

##### **---> Exploración variable rooms:**

##### **---> Exploración variable bedrooms:**

##### **---> Exploración variable bathrooms:**

##### **---> Exploración variable surface_total:**

##### **---> Exploración variable start_date:**

##### **---> Exploración variable surface_covered:**

##### **---> Exploración variable price:**

##### **---> Exploración variable currency:**

##### **---> Exploración variable title:**

##### **---> Exploración variable description:**

##### **---> Exploración variable property_type:**