# Trabajo Práctico Datos (75.06) - Análisis exploratorio de datos


El objetivo del primer TP es realizar un análisis exploratorio del set de datos del TP. Queremos ver qué cosas podemos descubrir sobre los datos que puedan resultar interesantes. Los requisitos de la primera entrega son los siguientes:

- El análisis debe estar hecho en R o Python Pandas.
- El análisis debe entregarse en formato papel en una carpeta en donde se incluya el reporte completo y todas las visualizaciones generadas. Es altamente recomendable que las visualizaciones se impriman en color.
- Informar el link a un repositorio Github en donde pueda bajarse el código completo para generar el análisis.
- Agregar en Kaggle un kernel con el análisis exploratorio realizado.

La evaluación del TP se realizará en base al siguiente criterio:

- Originalidad del análisis exploratorio. 
- Calidad del reporte. ¿Está bien escrito? ¿Es claro y preciso? 
- Calidad del análisis exploratorio: qué tipo de preguntas se hacen y de qué forma se responden, ¿es la respuesta clara y concisa con respecto a la pregunta formulada? 
- Calidad de las visualizaciones presentadas.
- ¿Tienen todos los ejes su rótulo?
- ¿Tiene cada visualización un título?
- ¿Es entendible la visualización sin tener que leer la explicación?
- ¿El tipo de plot elegido es adecuado para lo que se quiere visualizar?
- ¿Es una visualización interesante?
- ¿El uso del color es adecuado?
- ¿Hay un exceso o falta de elementos visuales en la visualización elegida?
- ¿La visualización es consistente con los datos?
- Conclusiones presentadas.
- ¿Presenta el grupo un listado de "insights" aprendidos sobre los datos en base al análisis realizado? ¿Es interesante? ¿Descubrieron cosas que pueden ser de interés las personas que estén pensando en realizar alguna operación inmobiliaria, o a empresa Properati?


In [1]:
import numpy as np 
import pandas as pd

# plots
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

### Carga de archivos:

In [4]:
#Carga de datos 2017
filenames_2017 = ['properties/properati-AR-2017-01-01-properties-sell.csv',
                 'properties/properati-AR-2017-02-01-properties-sell.csv',
                 'properties/properati-AR-2017-03-01-properties-sell.csv',
                 'properties/properati-AR-2017-04-01-properties-sell.csv',
                 'properties/properati-AR-2017-05-01-properties-sell.csv',
                 'properties/properati-AR-2017-06-01-properties-sell.csv',
                 'properties/properati-AR-2017-07-01-properties-sell.csv',
                 'properties/properati-AR-2017-08-01-properties-sell.csv']

dataframes_2017 = []
for filename in filenames_2017:
    dataframes_2017.append(pd.read_csv(filename))
    
data_2017 = pd.DataFrame()
for dataframe in dataframes_2017:
    data_2017 = pd.concat([data_2017, dataframe]).drop_duplicates().reset_index(drop=True)
    
#Carga de datos 2017
filenames_2016 = ['properties/properati-AR-2016-01-01-properties-sell.csv', 
            'properties/properati-AR-2016-02-01-properties-sell.csv',
            'properties/properati-AR-2016-03-01-properties-sell.csv',
            'properties/properati-AR-2016-04-01-properties-sell.csv',
            'properties/properati-AR-2016-05-01-properties-sell.csv',
            'properties/properati-AR-2016-06-01-properties-sell.csv',
            'properties/properati-AR-2016-07-01-properties-sell.csv',
            'properties/properati-AR-2016-08-01-properties-sell.csv',
            'properties/properati-AR-2016-09-01-properties-sell.csv',
            'properties/properati-AR-2016-10-01-properties-sell.csv',
            'properties/properati-AR-2016-11-01-properties-sell.csv',
            'properties/properati-AR-2016-12-01-properties-sell.csv']

dataframes_2016 = []
for filename in filenames_2016:
    dataframes_2016.append(pd.read_csv(filename))

data_2016 = pd.DataFrame()
for dataframe in dataframes_2016:
    data_2016 = pd.concat([data_2016, dataframe]).drop_duplicates().reset_index(drop=True)

#Primer y Segundo Semestre de 2015
psem_2015 = pd.read_csv('properties/properati-AR-2015-06-01-properties-sell-six_months.csv')
ssem_2015 = pd.read_csv('properties/properati-AR-2015-12-01-properties-sell-six_months.csv')
#Primer y Segundo Semestre de 2014
psem_2014 = pd.read_csv('properties/properati-AR-2014-07-01-properties-sell.csv')
ssem_2014 = pd.read_csv('properties/properati-AR-2015-01-01-properties-sell-six_months.csv')

#este lo incluimos o no vale la pena?????
dic_2013 = pd.read_csv('properties/properati-AR-2013-12-01-properties-sell.csv')

data1 = pd.concat([data_2017, data_2016, psem_2015, ssem_2015, psem_2014, ssem_2014]).drop_duplicates('properati_url').reset_index(drop=True)
data2 = pd.concat([data_2017, data_2016, psem_2015, ssem_2015, psem_2014, ssem_2014]).drop_duplicates().reset_index(drop=True)


In [5]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 415445 entries, 0 to 415444
Data columns (total 28 columns):
country_name                  363784 non-null object
created_on                    415445 non-null object
currency                      348246 non-null object
description                   363766 non-null object
expenses                      37066 non-null float64
floor                         49106 non-null float64
geonames_id                   354368 non-null float64
id                            363784 non-null object
image_thumbnail               406679 non-null object
lat                           305925 non-null float64
lat-lon                       305925 non-null object
lon                           305925 non-null float64
operation                     415445 non-null object
place_name                    415394 non-null object
place_with_parent_names       415445 non-null object
price                         365117 non-null float64
price_aprox_local_currency    365115 

In [6]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 543213 entries, 0 to 543212
Data columns (total 28 columns):
country_name                  486374 non-null object
created_on                    543213 non-null object
currency                      466126 non-null object
description                   486349 non-null object
expenses                      44263 non-null float64
floor                         63400 non-null float64
geonames_id                   461264 non-null float64
id                            486374 non-null object
image_thumbnail               531470 non-null object
lat                           401079 non-null float64
lat-lon                       401079 non-null object
lon                           401079 non-null float64
operation                     543213 non-null object
place_name                    543135 non-null object
place_with_parent_names       543213 non-null object
price                         483709 non-null float64
price_aprox_local_currency    483707 

In [9]:
data3 = pd.concat([data_2017, data_2016, psem_2015, ssem_2015, psem_2014, ssem_2014]).drop_duplicates('id').reset_index(drop=True)
data3.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 355762 entries, 0 to 355761
Data columns (total 28 columns):
country_name                  355761 non-null object
created_on                    355762 non-null object
currency                      301479 non-null object
description                   355744 non-null object
expenses                      36059 non-null float64
floor                         37615 non-null float64
geonames_id                   302217 non-null float64
id                            355761 non-null object
image_thumbnail               349815 non-null object
lat                           257352 non-null float64
lat-lon                       257352 non-null object
lon                           257352 non-null float64
operation                     355762 non-null object
place_name                    355716 non-null object
place_with_parent_names       355762 non-null object
price                         316601 non-null float64
price_aprox_local_currency    316601 

## Análisis de 2016 y 2017.
O los combinamos o van uno atrás del otro
