# Trabajo práctico 1 : Analisis exploratorio del dataset Properatti

Grupo #11: Camila Coltriani, Irania Fuentes, Johnatan Fischelson, Luis Dartayet, Ornela Cevolli  

## Introducción: 
El dataset Properatti está construido con los datos de venta de propiedades en diferentes provincias de Argentina; incluye ubicacion política y georeferenciada, así como los precios, superficie, cantidad de habitaciones y pisos, expensas y, otras informaciones. En este dataset cada fila es una propiedad en venta.

## Identificar el problema

El objetivo de este trabajo es realizar una limpieza del dataset properatti con la finalidad de obtener un dataset final con datos confiables que pueda ser utilizado en la generación de un modelo estadistico posterior.
Con base en esto se plantean los siguientes objetivos especificos:
 - Adquirir los datos: leer y conocer su estructura para determinar las herramientas apropiadas para su manipulación.

 - Parsear los datos: realizar el analisis exploratorio de los datos que permita verificar la existencia o no de relaciones entre variables, valores duplicados, valores faltantes, valores atípicos o valores erroneos que para validar o aumentar la confiabilidad de los datos.

 - Minar los datos: aplicar las herramientas de python para corregir datos erroneos o duplicados, completar/eliminar valores nulos.
 
 - Refinar los datos: eliminar variables redundantes o repetidas, crear nuevas variables y dar un formato limpio al dataset original.

## Adquirir los datos

In [1]:
#Importando las bibliotecas necesarias para trabajar el dataset properatti
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
#import geopandas as gpd

TODO: otros recursos utilizados
- archivo de id_geonames: ar_copy.csv
- archivo de barrios Argentina: barrios.csv 

In [2]:
# Leemos y cargamos el dataset properatti.csv en una variable 
data = pd.read_csv("./properatti.csv", index_col=0)

In [20]:
# Visualización de la forma y atributos del dataset 
print(data.shape)
print("El dataset está compuesto por:", data.shape[0], "filas y",data.shape[1],"columnas.")
data.sample(5) #

(121220, 25)
El dataset está compuesto por: 121220 filas y 25 columnas.


Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,lon,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
38317,sell,house,San Rafael,|Argentina|Mendoza|San Rafael|,Argentina,Mendoza,3836668.0,"-34.6128494,-68.3002278",-34.612849,-68.300228,...,,,,,,,http://www.properati.com.ar/18kxm_venta_casa_s...,Casa ubicada en barrio cristiano entre calles ...,VENDO CASA BARRIO CRISTIANO,https://thumbs4.properati.com/8/5uF5eyE4bncdqw...
100189,sell,apartment,Tigre,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|,Argentina,Bs.As. G.B.A. Zona Norte,3427753.0,,,,...,66.0,,2378.787879,,,,http://www.properati.com.ar/1bnl6_venta_depart...,Excelente departamento de 3 ambientes con coch...,Departamento - Tigre,https://thumbs4.properati.com/4/e6vDveC9lIsEri...
98441,sell,apartment,Morón,|Argentina|Bs.As. G.B.A. Zona Oeste|Morón|Morón|,Argentina,Bs.As. G.B.A. Zona Oeste,3430544.0,,,,...,42.0,1785.714286,1785.714286,,,,http://www.properati.com.ar/1bliz_venta_depart...,"Edificio ubicado sobre la calle Yatay, a metro...",Departamento en Moron,https://thumbs4.properati.com/6/l-DlqzQvQDJs0J...
39473,sell,house,Ramos Mejía,|Argentina|Bs.As. G.B.A. Zona Oeste|La Matanza...,Argentina,Bs.As. G.B.A. Zona Oeste,3429617.0,"-34.6459084,-58.5767731",-34.645908,-58.576773,...,191.0,858.468677,1937.172775,,4.0,,http://www.properati.com.ar/18oen_venta_casa_r...,"Venta de Casa 6 AMBIENTES en Ramos Mejía, La M...",CASA EN VENTA,https://thumbs4.properati.com/2/YkL3Mm4knV_9s_...
5294,sell,apartment,Monserrat,|Argentina|Capital Federal|Monserrat|,Argentina,Capital Federal,3430570.0,"-34.615656,-58.383579",-34.615656,-58.383579,...,36.0,,1986.666667,1.0,1.0,,http://www.properati.com.ar/15pro_venta_depart...,Corredor Responsable: Ariel Champanier - C.U.C...,MONOAMB. A ESTRENAR EN MONSERRAT AMENITIES,https://thumbs4.properati.com/8/JRCQuUmjz1x8Gx...


## Parsear los datos

### Analisis exploratorio general del dataset de Properatti

#### Descripción de las columnas del dataset:

Los atributos o columas que incluye son:

● unmaded: 0: indice de filas

● property_type: tipo de inmueble en venta (casa, departamento, ph...)

● operation: tipo de operacion inmobiliaria para las propiedades 

● place_name: ubicacion del inmueble por ciudad/Partido o barrios

● place_with_parent_names: ubicacion agrupada del inmueble (Pais|Provincia|Partido o barrio)

● country_name: nombre del país donde ocurre la operacion inmobiliaría

● state_name: ubicacion del inmueble por provincia

● geonames_id: número de identificación en la base de datos GeoNames asociado a la ubicacion por coordenadas

● lat-lon: ubicacion de latitud y longitud concatenada

● lat  ●lon: ubicacion de latitud y longitud en columnas separadas

● price: precio del inmueble

● currency: divisa en la que está expresado el precio del inmueble

● price_aprox_local_currency: Precio aproximado en la moneda local del país de publicación

● surface_total_in_m2: superficie total m² del inmueble

● surface_covered_in_m2: Superficie cubierta en m²

● price_usd_per_m2: Precio en dolares por metro cuadrado (USD/m²: precio dólares / superficie)

● price_per_m2: Precio del metro cuadrado del inmueble

● floor: N° de piso (cuando corresponde)

● room: cantidad de habitaciones

● expenses: expensas (cuando corresponde)

● properati_url	: URL de la inmobiliaría Properati en la Web

● description: descripción del inmueble en la publicación Web

● title: título del inmueble en la publicación

● image_thumbnail: URL de un thumbnail de la primer foto en la Web

In [23]:
#Identificamos el tipo de dato de cada columna
data.dtypes
# El tipo de datos para variables cuantitativas discreta como floor y rooms deberia ser int, 
# posiblemente tengamos que realizar el cambio en su manipulación.

operation                      object
property_type                  object
place_name                     object
place_with_parent_names        object
country_name                   object
state_name                     object
geonames_id                   float64
lat-lon                        object
lat                           float64
lon                           float64
price                         float64
currency                       object
price_aprox_local_currency    float64
price_aprox_usd               float64
surface_total_in_m2           float64
surface_covered_in_m2         float64
price_usd_per_m2              float64
price_per_m2                  float64
floor                         float64
rooms                         float64
expenses                      float64
properati_url                  object
description                    object
title                          object
image_thumbnail                object
dtype: object

In [21]:
#Realizamos una descripcion de todas las columnas para ver el n° de registros unicos por columna, el dato más frecuente y 
# su cantidad, tanto para las columnas cualitativas como numericas
data.describe(include="all")

# Algunas interpretaciones/inferencias:
# operation y country_name tiene 1 solo dato:  Sell y Argentina, como ya sabiamos, el dataset son datos de venta en Argentina
# Existen cuatro tipos de propiedades en venta, la más frecuente es apartamento
# Placename tiene como dato más frecuente la ciudad de Cordoba y state_name tiene a Capital Federal
# lat-long hay datos repetidos o son los mismos edificios representados en un area determinada
# Existen valores maximos muy alejados del resto de datos en las columnas de superfice, floor y rooms, posibles outliers

Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,lon,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
count,121220,121220,121197,121220,121220,121220,102503.0,69670,69670.0,69670.0,...,101313.0,68617.0,87658.0,7899.0,47390.0,14262.0,121220,121218,121220,118108
unique,1,4,1060,1164,1,28,,47203,,,...,,,,,,,121220,104055,72705,114389
top,sell,apartment,Córdoba,|Argentina|Santa Fe|Rosario|,Argentina,Capital Federal,,"-34.4026444,-58.6684776",,,...,,,,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,AVISO LEGAL: Las descripciones arquitectónicas...,DEPARTAMENTO EN VENTA,https://thumbs4.properati.com/5/yyMiu8BHQI9KXC...
freq,121220,71065,9254,8504,121220,32316,,312,,,...,,,,,,,1,358,4855,255
mean,,,,,,,3574442.0,,-34.62621,-59.26629,...,133.050181,2160.086916,6912.216,17.452336,3.08084,5009.234,,,,
std,,,,,,,354130.6,,1.980936,2.299922,...,724.351479,2759.288621,28378.64,120.243621,1.860773,120440.3,,,,
min,,,,,,,3427208.0,,-54.823985,-75.678931,...,0.0,0.6,1.510204,1.0,1.0,1.0,,,,
25%,,,,,,,3430234.0,,-34.669065,-58.72704,...,45.0,1218.181818,1550.0,1.0,2.0,1000.0,,,,
50%,,,,,,,3433910.0,,-34.597985,-58.480128,...,75.0,1800.0,2213.115,3.0,3.0,2000.0,,,,
75%,,,,,,,3836668.0,,-34.441299,-58.395908,...,150.0,2486.411765,3355.549,6.0,4.0,4000.0,,,,


In [None]:
#Identificamos los valores unicos x columna
for columnas in data.columns:
    print("")
    print(f'Nombre:{columnas}')
    print(data[columnas].value_counts())

#de esta funcion sumamos información general sobre el data set:
#  identificamos los tipos de inmueble en venta: apartamentos y casas concentran la mayoria de datos
#  las divisas más utilizadas son el peso argentina y dolares, hay datos que podemos tomar como no representativos:
#  el PEN: peso peruano y UYU: peso uruguayo ya que no pasan de dos registros en el dataset. 
# para floor y rooms hay que tratar los valores outliers

In [None]:
#Identificamos los registros nan por columna

print(data.isna().sum())
#price, currency, price_aprox, price_usd tienen la misma cantidad de nulos 20410
#hay que averiguar si price_per_m2 es la relacion de price y surface_total, así podriamos completar nulos en price_per_m2

In [None]:
# Vemos la relacion de registros nan con respecto al total de registros
data.isna().sum()/data.shape[0] *100

#podriamos completar place_name por el %bajo de nan
#el mayor % de nan se encuentra en floor, rooms y expensas

In [None]:
# Identificamos si existe una correlacion entre variables

corr = data.set_index('place_name').corr()
sm.graphics.plot_corr(corr, xnames=list(corr.columns))
plt.show()

#Hay una correlacion entre price y price_aprox_local_currency: price está en dolares/pesos argentinos y local currency en pesos, podría 
#deberse al tipo de cambio utilizado.

Para seguir con el analisis exploratorio de los datos, hemos decidido dividir el dataset en dos grandes grupos por su relación: 
- columnas relacionadas a la ubicación política y geografica: property_type, place_name, place_with_parent_names,	country_name, state_name, geonames_id
- columnas con datos numericos que agrupan para las propiedades, el precio, el precio por superficie y datos fisicos del inmueble como el numero de pisos, habitaciones. 
- y las columnas de descripcion del inmueble asocida a las columnas anteriores por contener informacion sobre superficie y division del inmueble 

TODO: MOVER AL ANALISIS DE DATOS DE GEOUBICACION
Analizamos por lat-lon para si había duplicados considerando que las mismas coordenadas son las misma propiedad.

No es posible determinar si es la misma propiedad porque lat-lon se refiere muchas veces a la ubicación aproximada. 


In [8]:
## ver datos duplicados
data_copy = data.copy()
data_copy.dropna(subset=['lat-lon'], inplace=True)
data_copy_group = data_copy.groupby('lat-lon').count()
data_copy_group[data_copy_group['operation'] > 1].sort_values(by='operation', ascending=False)

Unnamed: 0_level_0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat,lon,price,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
lat-lon,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
"-34.4026444,-58.6684776",312,312,312,312,312,312,0,312,312,309,...,312,306,309,0,231,0,312,312,312,312
"-34.40014,-58.64985",271,271,271,271,271,271,0,271,271,270,...,270,264,269,2,205,1,271,271,271,271
"-34.6428675967,-58.4376599743",259,259,259,259,259,259,259,259,259,6,...,4,6,3,0,0,0,259,259,259,259
"-34.425087,-58.5796585",224,224,223,224,224,224,107,224,224,213,...,220,199,209,0,81,0,224,224,224,224
"-34.5895459,-58.3973636",156,156,156,156,156,156,156,156,156,148,...,156,148,148,2,144,2,156,156,156,156
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
"-34.5841733,-58.4008772",2,2,2,2,2,2,2,2,2,2,...,2,2,2,0,0,2,2,2,2,2
"-34.58412,-58.453668",2,2,2,2,2,2,2,2,2,2,...,2,0,2,2,2,0,2,2,2,2
"-34.5840538,-58.4346066",2,2,2,2,2,2,0,2,2,2,...,2,2,2,0,2,0,2,2,2,2
"-34.5839987423,-58.4633332466",2,2,2,2,2,2,2,2,2,2,...,2,2,2,0,0,2,2,2,2,2


In [6]:
## ver si existe algun dato duplicado
data.duplicated().any()

False

In [7]:
data['lat-lon'].duplicated().any()

True

In [9]:
data_copy.shape()

(69670, 25)

In [10]:
data_copy[data_copy['lat-lon'] == '-34.4026444,-58.6684776']

Unnamed: 0,operation,property_type,place_name,place_with_parent_names,country_name,state_name,geonames_id,lat-lon,lat,lon,...,surface_covered_in_m2,price_usd_per_m2,price_per_m2,floor,rooms,expenses,properati_url,description,title,image_thumbnail
1284,sell,apartment,Barrio Los Alisos,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,52.0,3203.389831,3634.615385,,2.0,,http://www.properati.com.ar/15hsc_venta_depart...,Departamento de 2 ambientes con vista al lago ...,PORTEZUELO | Marinas del Portezuelo - 2 ambien...,https://thumbs4.properati.com/9/a49C3o5BkTdafI...
1287,sell,apartment,Barrio Los Alisos,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,49.0,2894.736842,3367.346939,,2.0,,http://www.properati.com.ar/15hsi_venta_depart...,"Departamento de 2 ambientes muy luminoso, bar...",PORTEZUELO | Marinas del Portezuelo - Departam...,https://thumbs4.properati.com/9/7f4Vk-cijSd_Vd...
1306,sell,apartment,Barrio Los Alisos,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,54.0,2463.768116,3148.148148,,2.0,,http://www.properati.com.ar/15htl_venta_depart...,Unidad de 2 ambientes muy luminosa. Dormitorio...,PORTEZUELO | Marinas del Portezuelo - Albatros...,https://thumbs4.properati.com/3/0ivvcFWZzuAU3t...
4648,sell,apartment,Nordelta,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,76.0,2171.052632,2171.052632,,2.0,,http://www.properati.com.ar/15nbg_venta_depart...,"Departamento a estrenar en edificio Delta 8 , ...","Departamento en venta en Edificio Delta 8, Nor...",https://thumbs4.properati.com/5/tWSqJjKwu1i53r...
9502,sell,house,Barrio Los Alisos,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,295.0,2660.818713,3084.745763,,,,http://www.properati.com.ar/164jj_venta_casa_n...,"Excelente casa a estrenar, entrega Julio 2017....",Hermosa Casa a estrenar en Lagos del Golf - No...,https://thumbs4.properati.com/8/JqL-_BgzwTcb9h...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
113559,sell,apartment,Nordelta,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,58.0,1623.931624,3275.862069,,2.0,,http://www.properati.com.ar/1c8ie_venta_depart...,"""Departamento MUY luminoso de 2 ambientes y 1/...",Departamento 2 1/2 ambientes con vista al rio ...,https://thumbs4.properati.com/6/i7DP23BhojHDVu...
114089,sell,apartment,BarrioPortezuelo,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,83.0,2231.404959,3253.012048,,3.0,,http://www.properati.com.ar/1c9dc_venta_depart...,Living comedor y escritorio en L con salida al...,3 ambientes en esquina en venta a estrenar con...,https://thumbs4.properati.com/1/L4o5Ic0mJU-WgZ...
114409,sell,apartment,Nordelta,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,68.0,1886.363636,3661.764706,,3.0,,http://www.properati.com.ar/1c9ue_venta_depart...,Muy linda planta baja con jardín y amplia gale...,Venta amplio departamento en PB,https://thumbs4.properati.com/3/xM5r5TAlaez-FQ...
114425,sell,house,Barrio La Alameda,|Argentina|Bs.As. G.B.A. Zona Norte|Tigre|Nord...,Argentina,Bs.As. G.B.A. Zona Norte,,"-34.4026444,-58.6684776",-34.402644,-58.668478,...,177.0,937.500000,2542.372881,,,,http://www.properati.com.ar/1c9vc_venta_casa_b...,Espectacular casa construida en dos plantas a ...,Espectacular casa en el barrio LAS TIPAS!!!! ...,https://thumbs4.properati.com/0/bhLzjpIWND2gew...


#### Análisis de datos faltantes

In [None]:
print(data.isna().sum())

In [None]:
data.isna().sum()/data.shape[0] *100

In [12]:
missing_data = data.isna().sum(axis=0)
missing_data_df = pd.DataFrame(missing_data, columns=['count'])
missing_data_df['perc'] = (missing_data_df / data.shape[0]).round(2)*100
missing_data_df.sort_values(ascending=False, by='count')

Unnamed: 0,count,perc
floor,113321,93.0
expenses,106958,88.0
rooms,73830,61.0
price_usd_per_m2,52603,43.0
lat-lon,51550,43.0
lat,51550,43.0
lon,51550,43.0
surface_total_in_m2,39328,32.0
price_per_m2,33562,28.0
currency,20411,17.0


#### Dispersión de datos

In [13]:
data_dispersion = data.apply(lambda x: x.unique().size)
data_dispersion_df = pd.DataFrame(data_dispersion, columns=['count'])
data_dispersion_df["perc"] = (data_dispersion / data.shape[0]).round(2)*100
data_dispersion_df.sort_values(ascending=True, by='count')

Unnamed: 0,count,perc
operation,1,0.0
country_name,1,0.0
property_type,4,0.0
currency,5,0.0
state_name,28,0.0
rooms,32,0.0
floor,183,0.0
geonames_id,647,1.0
expenses,983,1.0
surface_covered_in_m2,996,1.0


In [14]:
for col in data.columns:
    if(data[col].nunique() < 100):
        print(col)
        print(data[col].unique())
        print()

operation
['sell']

property_type
['PH' 'apartment' 'house' 'store']

country_name
['Argentina']

state_name
['Capital Federal' 'Bs.As. G.B.A. Zona Sur' 'Buenos Aires Costa Atlántica'
 'Entre Ríos' 'Bs.As. G.B.A. Zona Norte' 'Santa Fe' 'Córdoba'
 'Bs.As. G.B.A. Zona Oeste' 'Misiones' 'Buenos Aires Interior' 'Salta'
 'Neuquén' 'Río Negro' 'San Luis' 'Mendoza' 'Corrientes' 'Chubut'
 'Tucumán' 'La Pampa' 'Chaco' 'San Juan' 'Santa Cruz' 'Tierra Del Fuego'
 'Catamarca' 'Santiago Del Estero' 'Jujuy' 'La Rioja' 'Formosa']

currency
['USD' nan 'ARS' 'PEN' 'UYU']

rooms
[nan  1.  4.  3.  2.  6.  5. 10.  7.  9.  8. 17. 22. 15. 12. 11. 14. 16.
 20. 13. 25. 19. 30. 18. 32. 24. 31. 21. 29. 27. 23. 28.]



#### Analisis de correlacion entre columnas

### Verificar la calidad de los datos:
- ver consistencia de los datos: duplicación de columnas 


## Minar los datos

## Refinar los datos

## Exportar el nuevo dataset 