## Desafío 1

#### Grupo
 Juan Manuel, Rafael, Diego Cabrera
#### Objetivos:
-  Efectuar una limpieza del dataset provisto. Particularmente, deberá diseñar estrategias para lidiar con los datos perdidos en ciertas variables.
-  Realizar un análisis descriptivo de las principales variables.
-  Crear nuevas columnas a partir de las características dadas que puedan tener valor predictivo.

 



In [2]:
import numpy as np
import pandas as pd
df = pd.read_csv('data/properatti.csv.gz', compression='gzip', header=0)


####  Limpieza del dataset
   - a. Listado de columnas a eliminar. Armar funcion
   - b. Si hiciera falta, renombrar columnas para que sean mas representativas 
   
####  Analisis descriptivo
   - a. 
####  Nuevas columnas y valores predictivos
   - a. Armar fnc para crear automaticamente columnas para usar de flag para saber si se tocan datos
   - b.

In [17]:
#Print columns
list(df)

['operation',
 'property_type',
 'place',
 'country_name',
 'state_name',
 'geonames_id',
 'price',
 'surface_total_in_m2',
 'surface_covered_in_m2',
 'price_usd_per_m2',
 'floor',
 'rooms',
 'expenses',
 'description',
 'price_flag',
 'rooms_flag',
 'place_flag']

In [4]:
#FUNCIONES 

#1. Elimina columnas

def drop_columns(df, serie):
    #print ('Eliminando columna/s ' + serie )
    df = df.drop(columns=serie,axis=1)
    return df
    
def make_flags(df, cols):
    col = {c: [add_flag(df, str(c))]
            for c in cols}

def rename_columns(df, cols):
    df = df.rename(cols, axis='columns')
    return df

def add_flag(df, column): 
       # Creamos el nombre de la columna FLAG
    new_col = column + '_flag'
    # Creamos la columna con los valor 1 si la columna original tiene el registro null; sino, valor 0
    df[new_col] = df[column].isnull().astype(np.int8)
    print ('Columna ' + new_col +' creada' )
    
    # Asignamos 0 a los registros que son null
    #df.loc[df[col_name].isnull(),col_name] = value
  
   
    

In [5]:
# Variables GLobals
#Columnas a eliminar:
    #price, price_aprox_local_currency y currency: Tomamos en cuenta solo el valor en dolares (columna price_aprox_usd)
    #price_per_m2: Tomamos en cuenta solo el valor de price_usd_per_m2
COLUMNAS_A_ELIMINAR=["Unnamed: 0","lat-lon","lat","lon","currency","price_per_m2","price_aprox_local_currency","price","properati_url","title","image_thumbnail"];
#Columnas en las que llenaremos datos faltantes. ENtonces, creamos  columna que usaremos de flag para registrar los datos que tocamos
COLUMNAS_FLAG=['price','rooms','place']
#COlumnas a renombrar
COLUMNAS_A_RENOMBRAR={'price_aprox_usd':'price','place_name':'place','price_usd_per_m2':'price_per_m2'}

In [6]:
#Elimino columnas
df = drop_columns(df, COLUMNAS_A_ELIMINAR)
#Renombro columnas
df = rename_columns(df, COLUMNAS_A_RENOMBRAR)


In [7]:
#Creo nuevas columnas "flag"
make_flags(df,COLUMNAS_FLAG)

Columna price_flag creada
Columna rooms_flag creada
Columna place_flag creada


In [8]:
#Valores nulos por columna
df.isnull().sum().sort_values()

operation                       0
price_flag                      0
rooms_flag                      0
state_name                      0
place_flag                      0
place_with_parent_names         0
property_type                   0
country_name                    0
description                     2
place                          23
geonames_id                 18717
surface_covered_in_m2       19907
price                       20410
surface_total_in_m2         39328
price_usd_per_m2            52603
rooms                       73830
expenses                   106958
floor                      113321
dtype: int64

Total registros: 121220

Valores necesarios: 

- place_name 

Barrio/3 nivel de ubicacion; 1er y 2do nivel está completo (country_name/state_name). Tenemos completo -place_with_parent_names, de ahi se puede extraer el 3er nivel
- surface_total_in_m2
- price
- price_per_m2
- rooms

# PLACE NAME

In [9]:
df["place"].isnull().value_counts()

False    121197
True         23
Name: place, dtype: int64

In [10]:

#Verifico la 3 columna de place_with_parent_names
df[df["place"].isnull()]["place_with_parent_names"].str.split('|').str[3].value_counts()



Tigre    23
Name: place_with_parent_names, dtype: int64

In [11]:
#Cargo los datos de place_name y elimino la columna place_with_parent_names
df["place"] = df["place_with_parent_names"].apply(lambda place_with_parent_names: place_with_parent_names.split('|')[3] if (place_with_parent_names.split('|')[3]) else (place_with_parent_names.split('|')[2]))

#Elimino place_with_parent_names
df = drop_columns(df, "place_with_parent_names")

In [12]:
df['place'].value_counts().head(10)

Córdoba            9254
Tigre              8983
Rosario            8504
Mar del Plata      7710
Palermo            4083
Vicente López      3663
Lomas de Zamora    3470
La Plata           3360
Pilar              3252
San Isidro         3009
Name: place, dtype: int64

In [16]:
#Valores nulos por columna
df.isnull().sum().sort_values()

operation                     0
price_flag                    0
rooms_flag                    0
state_name                    0
place_flag                    0
place                         0
property_type                 0
country_name                  0
description                   2
geonames_id               18717
surface_covered_in_m2     19907
price                     20410
rooms                     30792
surface_total_in_m2       39328
price_usd_per_m2          52603
expenses                 106958
floor                    113321
dtype: int64

In [14]:
df['place_flag'].value_counts()

0    121197
1        23
Name: place_flag, dtype: int64

# Rooms

Para los casos donde no tenemos el valor "rooms", intentaremos sacar informacion de la columna descripcion. Creamos una nueva columna como flag para indicar si rooms no estaba cargado

In [15]:
regexp="(\d+)(\s|())amb"
#Rooms null y en description aparece N amb*, pongo N como valor en rooms
df.loc[df['rooms'].isnull(),'rooms'] = df.loc[(df["rooms"].isnull()),"description"].str.lower().str.extract(regexp)[0]

#en la descripcion aparece "monoambiente" o "mono" y rooms es null, pongo 1
df.loc[((df['rooms'].isnull()) & (df['description'].str.lower().str.contains('monoambiente')) | df['description'].str.lower().str.contains('mono')),'rooms'] = 1
#x Dormitorios
regexp="(\d+)(\s|())dorm"
df.loc[df['rooms'].isnull(),'rooms'] = df.loc[(df["rooms"].isnull()),"description"].str.lower().str.extract(regexp)[0]

# no especifica cantidad de dormitorios:
regexp="(\s|())dorm"



Aun asi quedan 30715 registros sin valor para rooms. Revisamos el valor "surface_covered_in_m2" para estimar los ambientes. 
surface_covered_in_m2 menor a 40mts2 - mono
entre 40 y 60 m2 - 2 amb
entre 60 y 80 m2 - 3 amb
80 y 100 m2 - 4 amb
100 y 120 - 5 amb


In [None]:
def calcula_ambientes_xmt2 (mts):
    
    try:
       val = int(mts)
    except ValueError:
        return np.nan; #print("That's not an int!. Value: " + str(mts))

    #print(str(str(mts) + str(type(mts) + "converted to int: "  +(val.str()))));
    val;

    if val <40:
       print("1");
       return 1;
    elif val <60:
       print("2");
       return 2;
    elif  val <80:
       print("3");
       return 3;
    elif  val <100:
       print("4");
       return 4;
    elif  val <120:
       print("5");
       return 5;
    elif  val >120:
       print("6");
       return 6;
    else:
       return np.nan;
  
        

In [None]:
df['description'][1086]#1


In [None]:

df.loc[df["rooms"].isnull() & df["surface_covered_in_m2"].isnull(),"rooms"] = df["surface_total_in_m2"].apply(lambda surface_total_in_m2: calcula_ambientes_xmt2(surface_total_in_m2))


In [None]:
df["description"][9]

# Price

1. Price null pero tengo surface_in_m2 y price_per_m2 entonces calculo precio
2. Calculo precio promedio por place
3. Si no tengo price ni price_per_m2 pero si surface_in_m2, entonces calculo price en base al promedio por place


In [None]:
df.loc[df['rooms'].isnull(),'rooms'] = df.loc[(df["rooms"].isnull()),"description"].str.lower().str.extract(regexp)[0]
