<h1>Desarrollo del Desafio 1</h1>

<p>La inmobiliaria Properati publica periódicamente información sobre ofertas de propiedades para venta y alquiler. Ud. deberá asesorar a la inmobiliaria a desarrollar un modelo de regresión que permita predecir el precio por metro cuadrado de una propiedad. El objetivo             
final es que el modelo que desarrollen sea utilizado como tasador automático a ser aplicados a las próximas propiedades que sean comercializadas por la empresa. Para ello la empresa le provee de un dataset correspondiente al primer semestre de 2017.</p>

El dataset es de tamaño entre pequeño y mediano, pero tiene dos complejidades a las que deberá prestarle atención:
 
<ul>
    <li>Peso de missing data en algunas variables relevantes.</li>
    <li>Será importante tener en cuenta el problema de la influencia espacial en los precios por metro cuadrado. En efecto, es probable que existan diferencias importantes de en las diferentes geografías, barrios y zonas analizadas.</li>
</ul>

<h2>Objetivos:</h2>

<ul>
    <li>Efectuar una limpieza del dataset provisto. Particularmente, deberá diseñar estrategias para lidiar con los datos perdidos en ciertas variables.</li>
    <li>Realizar un análisis descriptivo de las principales variables.</li>
    <li>Crear nuevas columnas a partir de las características dadas que puedan tener valor predictivo.</li>
</ul>

<h2>Paso a paso:</h2>

1. AED Análisis exploratorio (para hacer/mirar este finde): ver qué tipo de datos tiene el dataset, qué datos numéricos/texto hay y cualquier cosa que se nos ocurra que podamos resaltar. La columna de descripción quizás tenga los amenities. Sacar cantidad de datos nulos y porcentaje
1. Limpieza: separar las columnas de lugar, verificar que las columnas de precio tengan los tipos correctos, columnas de lat-lon, sacar caracteres especiales de las columnas de texto, sacar signos de monedas, RE para columna de descripción
1. Verificar si hay datos duplicados (qué columnas tomamos en cuenta para esto, hay algún ID?)
1. Datos faltantes: tomar decisiones sobre qué recomponer y qué registros eliminar
1. a) Agrupar y sacar estadísticas: por barrio, por provincia, por m2, qué correlaciones hay entre las variables, qué variables nuevas se pueden sacar o agregar (cotización, por ejemplo)
  b) Es necesario crear variables dummies? (para rent/sell, para tipo de propiedad)
1.  Visualización: elegir gráficos que ilustren los datos 

<h3>Importar las librerias que estaremos utilizando.</h3>

In [42]:
import numpy as np
import pandas as pd
import chardet
import re

In [43]:
# Funcion especial para autodetectar el encoding. La eliminamos porque demora mucho!!!
# def get_encoding_type(csv_path):
#     rawdata = open(csv_path, 'rb').read()
#     result = chardet.detect(rawdata)
#     return result.get('encoding')

In [44]:
#Se define la ruta de la información.
data_propiedades = "../Data/properati.csv"

In [45]:
#Leemos los datos del archivo
data = pd.read_csv(data_propiedades, sep=",", encoding="UTF-8")

In [46]:
#Chequeamos que los datos se hayan importado correctamente
data.head()

Unnamed: 0.1,Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
0,0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,...,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,...,,,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
4,4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435548.0,"-38.0026256,-57.5494468",-38.002626,...,35.0,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...


In [47]:
#Chequeamos cantidad de registros y cantidad de variables
data.shape

(121220, 26)

In [48]:
#Vemos qué tipos de datos tienen los campos
data.dtypes

Unnamed: 0                      int64
operation                      object
property_type                  object
place_name                     object
place_with_parent_names        object
country_name                   object
state_name                     object
geonames_id                   float64
lat-lon                        object
lat                           float64
lon                           float64
price                         float64
currency                       object
price_aprox_local_currency    float64
price_aprox_usd               float64
surface_total_in_m2           float64
surface_covered_in_m2         float64
price_usd_per_m2              float64
price_per_m2                  float64
floor                         float64
rooms                         float64
expenses                      float64
properati_url                  object
description                    object
title                          object
image_thumbnail                object
dtype: objec

**Cantidad de nulos por columna**

In [49]:
#Cantidad de nulos por columna
cant_nulos_por_campo = data.apply(lambda x: x.isnull().sum(), axis = 0)
print(cant_nulos_por_campo)

Unnamed: 0                         0
operation                          0
property_type                      0
place_name                        23
place_with_parent_names            0
country_name                       0
state_name                         0
geonames_id                    18717
lat-lon                        51550
lat                            51550
lon                            51550
price                          20410
currency                       20411
price_aprox_local_currency     20410
price_aprox_usd                20410
surface_total_in_m2            39328
surface_covered_in_m2          19907
price_usd_per_m2               52603
price_per_m2                   33562
floor                         113321
rooms                          73830
expenses                      106958
properati_url                      0
description                        2
title                              0
image_thumbnail                 3112
dtype: int64


**Porcentaje de nulos por columna**

In [50]:
cant_registros = data.shape[0]
#print(cant_registros)
#len(data.index) es lo mismo

porc_nulos_por_campo = 100 * cant_nulos_por_campo / cant_registros
print(porc_nulos_por_campo)

Unnamed: 0                     0.000000
operation                      0.000000
property_type                  0.000000
place_name                     0.018974
place_with_parent_names        0.000000
country_name                   0.000000
state_name                     0.000000
geonames_id                   15.440521
lat-lon                       42.525986
lat                           42.525986
lon                           42.525986
price                         16.837156
currency                      16.837981
price_aprox_local_currency    16.837156
price_aprox_usd               16.837156
surface_total_in_m2           32.443491
surface_covered_in_m2         16.422208
price_usd_per_m2              43.394654
price_per_m2                  27.686850
floor                         93.483749
rooms                         60.905791
expenses                      88.234615
properati_url                  0.000000
description                    0.001650
title                          0.000000


**Algunos datos que pueden servir para la limpieza**

In [51]:
property_type_count = data.property_type.value_counts()
property_type_count

apartment    71065
house        40268
PH            5751
store         4136
Name: property_type, dtype: int64

In [52]:
country_name_count = data.country_name.value_counts()
country_name_count

Argentina    121220
Name: country_name, dtype: int64

In [53]:
#Todos los valores de la columna country_name son Argentina 
#de la columna place_with_parents_name se puede reemplazar Argentina por string vacio

In [54]:
len(data.place_with_parent_names.index)

121220

In [55]:
data.place_with_parent_names.sample(30)

106211                         |Argentina|Santa Fe|Rosario|
95418             |Argentina|Capital Federal|Villa Urquiza|
55400              |Argentina|Capital Federal|Barrio Norte|
67373       |Argentina|Bs.As. G.B.A. Zona Norte|San Isidro|
15748             |Argentina|Capital Federal|Villa Urquiza|
74789                   |Argentina|Capital Federal|Liniers|
50051            |Argentina|Bs.As. G.B.A. Zona Oeste|Merlo|
117853    |Argentina|Bs.As. G.B.A. Zona Norte|General Sa...
29500        |Argentina|Buenos Aires Interior|Bahía Blanca|
84354     |Argentina|Bs.As. G.B.A. Zona Oeste|Ituzaingó|...
54776     |Argentina|Bs.As. G.B.A. Zona Norte|San Miguel...
13298       |Argentina|Bs.As. G.B.A. Zona Norte|San Miguel|
76092     |Argentina|Bs.As. G.B.A. Zona Sur|Lomas de Zam...
23778     |Argentina|Bs.As. G.B.A. Zona Oeste|La Matanza...
116711    |Argentina|Bs.As. G.B.A. Zona Norte|San Isidro...
108487    |Argentina|Bs.As. G.B.A. Zona Sur|La Plata|La ...
50694                  |Argentina|Bs.As.

In [56]:
patron_arg = '^\|Argentina'
#RE busca |Argentina al comienzo del string
patron_arg_regex = re.compile(patron_arg)

In [58]:
#creo una variable nueva para hacer el apply y el remplazo "|Argentina" por string vacio 
serie_place_with_parent_names = data.place_with_parent_names
place_parent_name_sin_arg = serie_place_with_parent_names.apply(lambda x: patron_arg_regex.sub("",x))

In [59]:
place_parent_name_sin_arg.sample(30)

36293                                   |Santa Fe|Santa Fe|
80505                           |Capital Federal|Caballito|
23735                |Bs.As. G.B.A. Zona Oeste|Morón|Haedo|
6800      |Bs.As. G.B.A. Zona Oeste|Tres de Febrero|Vill...
70976                                 |Neuquén|Confluencia|
27946                                   |Santa Fe|Santa Fe|
54538                |Bs.As. G.B.A. Zona Norte|Tigre|Tigre|
23245                            |Capital Federal|Belgrano|
102569                                   |Santa Fe|Rosario|
71056                                     |Córdoba|Córdoba|
63487           |Buenos Aires Interior|Rivadavia|Roosevelt|
69083                                     |Córdoba|Córdoba|
18305     |Bs.As. G.B.A. Zona Norte|Vicente López|La Luc...
98251                                    |Santa Fe|Rosario|
105099                                    |Córdoba|Córdoba|
14839                     |Bs.As. G.B.A. Zona Norte|Tigre||
99114                    |Capital Federa

In [None]:
#De lo que queda en esta serie, hay que ver cómo separar la última localidad, 
# algunas tienen tres partes (4 pipes), otras tienen solo 2 (3 pipes)