## Tratamiento de Datos. 

In [None]:
# Importando librerías 
import pandas as pd
import missingno as msno
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.pyplot import xlim
from statistics import mode

## Lectura de DataFrame

In [None]:
data = pd.read_csv(r'C:\Users\mpire\OneDrive\Documentos\Moises\Digital_House\Clases_PlayGround\properatti.csv', delimiter = ',', index_col=0)
print(f'El dataframe de properati está compuesto por {data.shape[1]} columnas y {data.shape[0]} filas') 

## 1. Descripción breve del DataFrame.

El DataFrame en estudio cuenta con 25 columnas y un total de 121220 filas (incluyendo valores nulos) por columna. 

Los datos contenidos en el DataFrame varían entre los tipos: string y float64. 

## 2. Descripción breve del contenido de las columnas. 

A continuación será descrito el contenido de cada columna presente en el DataFrame. 

2.1 operation. Compuesta por datos del tipo string, en la cual se describe el tipo de operación (sell) realizada según la propiedad incorporada. Ejemplo: sell. 

2.2 property_Type. Compuesta por datos del tipo string, en la cual se describe el tipo de propiedad.  Ejemplo: PH, apartment, etc. 

2.3 place_name. Compuesta por datos del tipo string, en la cual se describe localidad donde está ubicada la propiedad. Ejemplo: Mataderos, La Plata.

2.4 place_with_parent_names. Compuesta por datos del tipo string, la cual contiene separado por por pipe (|) información de: país, provincia, localidad. Ejemplo: |Argentina|Bs.As. G.B.A. Zona Sur|La Plata|.

2.5 country_name. Compuesta por datos del tipo string, en la cual es informado el país en el cual se ubica la propiedad. Ejemplo: Argentina. 

2.6 state_name. Compuesta por datos del tipo string, en la cual es informada la provincia en el cual se ubica la propiedad. Ejemplo: Capital Federal.

2.7 geonames_id: Compuesta por datos del tipo float64 con el número de identificación en la base de datos GeoNames según la columna state_name. Ejemplo: 3430787.0.

2.8 lat-lon. Compuesta por valores del tipo string donde son informados las coordenadas de latitud y longitud considerando la columna place_name. Ejemplo: -34.6618237,-58.5088387. 

2.9 lat. Compuesta por valores del tipo float64 donde es informado el valor de latitud para la localidad (place_name) donde está ubicada la propiedad. Ejemplo: -34.6618237. 

2.10 long. Compuesta por valores del tipo float64 donde es informado el valor de longitud para la localidad (place_name). Ejemplo: -58.508839.

2.11 price. Compuesta por valores del tipo float64, en la cual se informa el precio de la propiedad. Ejemplo: 139300.0.

2.12 currency. Compuesta por datos del tipo string, donde se describe el tipo de moneda bajo la cual fue realizada la transacción. Ejemplo: USD, ARS, UYU, PEN. 

2.13 price_aprox_local_currency. Compuesta por valores del tipo float64, en la que es mostrado el precio aproximado de la propiedad en moneda local. La tasa usada para la generación de está columna considera los valores de conversión para el año de creación del DataFrame (2017?). Ejemplo: 1093959.00. 

2.14 price_aprox_usd. Compuesta por valores del tipo float64, donde es mostrado el valor aproximado de la propiedad en dólares americanos (USD). Ejemplo: 62000.0.

2.15 surface_total_in_m2. Compuesta por valores del tipo float64, y muestra la superficie total en metros cuadrados (m2) que abarca la propiedad. Ejemplo: 55.0.

2.16 surface_covered_in_m2. Compuesta por valores del tipo float64, y muestra la superficie cubierta en metros cuadrados (m2) dentro de la propiedad. Ejemplo: 40.0.

2.17 price_usd_per_m2. Compuesta por valores del tipo float64, y muestra la relación entre el precio aproximado en dólares americanos (USD) y superficie total en metros cuadrados (m2) que abarca la propiedad. Ejemplo: 1127.27.

2.18 price_per_m2. Compuesta por valores del tipo float64, y muestra la relación entre el precio aproximado en dólares americanos (USD) y superficie cubierta en metros cuadrados (m2) dentro de la propiedad. Ejemplo: 1550.00.

2.19 floor. Compuesta por valores del tipo float64, donde se muestra el número de pisos que tenga la propiedad. Ejemplo: 2.0. 

2.20 rooms. Compuesta por valores del tipo float64, en la que se incluye el numero de habitaciones en la propiedad. Ejemplo: 3.0. 

2.21 expenses. Compuesta por valores del tipo float64, en la que se incluye el valor de las expensas por propiedad. Ejemplo: 1000.0.

2.22 properati_url. Compuesta por datos del tipo string, que incluye la dirección url para visualizar imágenes e información vinculante a la propiedad. Ejemplo: http://www.properati.com.ar/15bob_venta_departamentos_la-plata_balcon_lavadero_toilette_garage_estrenar_antonini-propiedades_dcp. 

2.23 description. Compuesta por datos del tipo string, que incluye información relacionada a numero de ambientes, tipo de vivienda, piso de ubicación, refacciones, etc. Ejemplo: Venta de departamento en décimo piso al frente, a estrenar. Living comedor con ventanales hacia el balcón con pisos de madera. Cocina completa con doble mesada, muebles bajo mesada. Lavadero separado. Toilette.Dormitorio con placard. Segundo dormitorio a dividir. Calefacción por radiadorBaño completo.Balcón corrido. Posibilidad de cochera semicubierta. 

2.24 title. Compuesta por datos del tipo string, que incluye información resumida relacionada con la descripción de la propiedad. Ejemplo: DEPARTAMENTO EN VENTA.

2.25 image_thumbnail. Compuesta por datos del tipo string, que incluye la dirección url contenedora de la imagen de ubicación de la propiedad. Ejemplo: 
https://thumbs4.properati.com/5/yyMiu8BHQI9KXCa_EPSZT3gB9Vo=/trim/198x0/smart/filters:strip_icc()/maps.googleapis.com/maps/api/staticmap%3Fkey=AIzaSyCtB7aox9MJ3hCrd_u4KJ5N0v8syKusnaA&center=-34.6428675967,-58.4376599743&zoom=19&size=800x600&maptype=satellite&sensor=false.




In [None]:
# Resumen de nombre y tipo de dato por columna

print('\n')
print('-----------Tipo de datos por columna-----------')
print(data.dtypes)

## 3. Distribución de los datos.  

In [None]:
# Para saber valores no nulos

msno.bar(data)

Aproximadamente el 40% de las columnas contienen datos diferentes de NaN dentro de su estructura en el DataFrame. El restante 60% está distribuido de la siguiente manera: 
 - Columnas que contienen entre 50% y 80% de datos completos. (50%)
 - Columnas que contienen por debajo del 40% de datos completos. (10%)

Respecto a la variabilidad de los datos intracolumnas, el resumen obtenido muestra lo siguiente: 

In [None]:
data_columnas = [print(i, ":", data[i].value_counts(), "\n") for i in data.columns]
print(data_columnas)

## 4. Eliminación de datos.

### 4.1 Eliminación de columnas. 

#### HOMOGENEIDAD INTRACOLUMNA

Considerando la homogeneidad existente en las columnas operation y country_name, serán eliminadas del DataFrame, con el fin de disminuir su influencia en posteriores análisis. 

In [None]:
# Eliminar columnas con valores únicos en descripción
data.drop(['operation', 'country_name'], axis = 1, inplace = True)

print(f'El DataFrame resultante , ahora posee {data.shape[1]} columnas')

#### VOLUMEN DE DATOS INTRACOLUMNA

Para la columna "floor" y "expenses", su eliminación del DataFrame está basada en la baja cantidad de datos que contienen: 
- "floor" menor al 7%, sólo 7899. 
- "expenses" menor al 12%, sólo 14262. 
y que, adicionalmente, no pueden ser extraídos de las columnas restantes. 

In [None]:
# Eliminación columna 'floor' y 'expensas'
data.drop(['floor', 'expenses'], axis = 1, inplace = True)

#### TIPO Y CONTENIDO DEL DATO 

Respecto a las columnas "properati_url" e "image_thumbnail", su eliminación del DataFrame está basado en el tipo y contenido del dato contenido de la misma (descrito en la sección 2). 

In [None]:
# Eliminación columna 'properati_url' e 'image_thumbnail'
data.drop(['properati_url','image_thumbnail'], axis = 1, inplace = True)

Para el caso concreto de uso de los datos y considerando la variabilidad intrínseca de los datos respecto a la disposición espacial (geografíca) de las propiedaes según cada provincia (state_name) en la República Argentina, las columnas 'lat-lon', 'lat', lon', 'geonames_id', serán eliminadas del DataFrame.  

In [None]:
data.drop(['lat-lon',
           'lat', 'lon',
           'geonames_id',
           ],
          axis = 1,
          inplace = True)

In [None]:
print(f'El DataFrame resultante , ahora posee {data.shape[1]} columnas')
msno.bar(data)

## 4.2 Eliminación de filas.

En este apartado será considerada la eliminación de propiedades cuya información registrada no contribuya al entendimiento de la variablidad de variables consideradas claves y que además dicha información no pueda ser completada con las columnas restantes.

Durante el análisis de la columna "price", existe una propiedad (index = 9761) cuyo precio es igual a 0, y la restante información registrada no contribuye para completar dicha columna. Por ello, será eliminado dicho registro del DataFrame. 

In [None]:
# Para buscar aquellas propiedades donde la columna precio es igual a cero (0)
(data.loc[data['price'] == 0]).index

# Eliminar filas dentro del DataFrame cuyo valor de precio es igual a cero
data.drop((data.loc[data['price'] == 0]).index, inplace = True)

In [None]:
msno.bar(data)

Continuando con el análisis, para algunos registros la columna "currency" es mostrada es una moneda diferente a ARS o USD. Encontramos 3 registros. 

In [None]:
data1 = data.loc[(data['currency'] != 'ARS') & (data['currency'] != 'USD')]

Ubicamos la conversión de cada moneda para el año 2017 respecto al peso argentino
- 1 Sol Peruano(PEN)   = 4.7627 pesos argentinos (fuente: https://www.peso365.ar/Sol-peruano/2017-01-01) 
- 1 Peso Uruguayo(UYU) = 0.5658 pesos argentinos (fuente: https://www.peso365.ar/Peso-uruguayo/2017-01-31)   
- 1 Dolar Americano(USD) = 15.897 pesos argentinos (fuente: https://www.peso365.ar/D%C3%B3lar-estadounidense/2017-01-31)

In [None]:
# Para cambiar columna precio a pesos argentinos
data1['price'] = data1.apply(lambda x: x['price_aprox_usd'] * 15.897, axis = 1) 
data1['currency'] = 'ARS' 

In [None]:
# Para elmininar los registros e incoporar la nueva información
data.drop(data.loc[(data['currency'] != 'ARS') & (data['currency'] != 'USD')].index, axis = 0, inplace = True)

# Para incorporar nueva información al DataFrame
data = pd.concat([data,data1])

Considerando las 'columnas surface_total_in_m2' y 'price_aprox_usd', podemos completar la columna a predecir 'price_usd_per_m2' 

In [None]:
data['price_usd_per_m2'] = data.apply(lambda x: x['price_aprox_usd'] / x['surface_total_in_m2'] if x['price_usd_per_m2'] is np.NaN else x['price_usd_per_m2'], axis = 1) 

In [None]:
msno.bar(data)

In [None]:
# Vamos a analizar el precio, por ende usaremos la columna price_usd_per_m2 ya que en esta
# se encuentran todos los precios en dólares, mientras que en la columna price, hay en RS y USD

# Eliminamos los valores que se vuelven irrelevantes:
# price
# currency
# price_aprox_local_currency	
# price_per_m2

data.drop(['price',
           'currency',
           'price_aprox_local_currency',
           'price_per_m2'], 
        axis = 1, 
        inplace = True)
print(f'El DataFrame resultante , ahora posee {data.shape[1]} columnas')

## Generación variables dummy

Continuando con el análisis, la propuesta ahora es generar variables dummy para aquellas variables categóricas que podrían aportar información valiosa al momento de clasificar las propiedades. 

In [None]:
# Valores únicos en columna 'property_type'
data['property_type'].unique()

In [None]:
# Creamos dummies para el tipo de propiedad

property_type_dummies = pd.get_dummies(data['property_type'], drop_first=True )
property_type_dummies

Continuando con la incorporación de nuevas variables al DataFrame, a continuación será convertida la columna 'rooms' a una variable discreta y luego a variable dummy. Esto contribuirá a la posterior clasificación de las propiedades y además en el modelo de regresión. 

In [None]:
# Toda propiedad que posea más de 5 ambientes será clasificada como 'Mayor a 5 ambientes'
data.rooms.fillna(0, inplace=True)

data['rooms'] = data['rooms'].apply(lambda x: 6 if (x > 5) else x)

In [None]:
data['rooms'] = data['rooms'].apply(lambda x: 'No Informado' if x == 0 else x)
data['rooms'] = data['rooms'].apply(lambda x: 'Mayor a 5' if x == 6 else x)
data.rooms.unique()

In [None]:
rooms_dummies = pd.get_dummies(data['rooms'], prefix='amb' ,drop_first=True)
rooms_dummies

In [None]:
# Para incorporar nuevas columnas dummies al DataFrame
propiedades = data.join([property_type_dummies, rooms_dummies])

In [None]:
"""
Creadas las variables dummies y analizando el contenido de los datos en ciertas columnas, se decide
eliminar las siguientes: 'place_name', 'place_with_parent_names', 'rooms', 'description', 'title'
"""
propiedades.drop(['place_name',
                 'place_with_parent_names', 'rooms', 'description', 'title'],
                axis=1,
                inplace=True)
msno.bar(propiedades)

In [None]:
# Calculamos superficie total promedio y superficie cubierta promedio
mask_t = propiedades['surface_total_in_m2'].notnull()
mask_c = propiedades['surface_covered_in_m2'].notnull()

s_total_prom = propiedades[mask_t]['surface_total_in_m2'].mean()
s_cub_prom = propiedades[mask_c]['surface_covered_in_m2'].mean()
ratio_s = s_total_prom / s_cub_prom

print(
"""la superficie total promedio es {}.
la superficie cubierta promedio es {}.
en promedio, la superficie total es {} veces la superficie cubierta.
""".format(s_total_prom, s_cub_prom, ratio_s))

In [None]:
# Por su posible similitud, usaremos la superficie total y la 
# superficie cubierta para imputar los datos la una de la otra
# en los casos en que exista información en una pero no en la otra.
# Esto, teniendo en cuenta la razón promedio calculada arriba.

propiedades.fillna({'surface_total_in_m2': propiedades['surface_covered_in_m2'] * ratio_s}, 
                    inplace=True)

propiedades.fillna({'surface_covered_in_m2': propiedades['surface_total_in_m2'] / ratio_s}, 
                    inplace=True)

In [None]:
msno.bar(propiedades)

In [None]:
# Están siendo eliminadas las filas que corresponden a propiedades con superficie total igual a 0.
propiedades = propiedades[propiedades['surface_total_in_m2']!=0]

In [None]:
# Eliminanos todos aquellas propiedades donde las columnas 'price_aprox_usd' y 'surface_total_in_m2' están vacías
propiedades.drop(propiedades.loc[(propiedades['surface_total_in_m2'].isna()) & (propiedades['price_aprox_usd'].isna())].index, axis = 0, inplace = True)

Para aquellas propiedades donde superficie total es menor a superficie cubierta, será reemplazado el valor de superficie cubierta por superficie total. Esto considerando que dichos datos comprenden solamente el 1% del total. 

In [None]:
propiedades['surface_covered_in_m2'] = propiedades.apply(lambda x: x['surface_total_in_m2'] if (x['surface_total_in_m2']) < (x['surface_covered_in_m2']) else x['surface_covered_in_m2'], axis = 1) 

Visualizando algunos valores descriptivos en el DataFrame

In [None]:
propiedades.describe()

Generando Boxplots para algunas de las columnas relacionadas con precio. 

In [None]:
sns.boxplot(data=propiedades[["surface_total_in_m2", "surface_covered_in_m2"]], orient="v")

A partir del análisis del BoxPlot, se evidencia la existencia de valores anómalos (outliers) que tienen alta probabilidad de afectar el comportamiento del posterior modelo de regresión, por ello serán eliminadas del DataFrame. 

In [None]:
# Buscamos el valor máximo para la columna 'surface_total_in_m2' el cual corresponde a un departamento cuya cantidad de ambiente no ha sido informado. 
propiedades.loc[propiedades['surface_total_in_m2'] == propiedades['surface_total_in_m2'].max()]

propiedades.drop((propiedades.loc[propiedades['surface_total_in_m2'] == propiedades['surface_total_in_m2'].max()]).index, axis = 0, inplace=True)

Revisando las propiedades cuya superficie total en m2 es mayor a 50.000 m2, encontramos que existen propiedades triplicadas ('index' = 53312, 53313, 53314) y con relación no lógica entre superficie total y superficie cubierta ('index' = 13405, 44246, 86665, 86687, 86675, 86698).  A pesar de que la propiedad con el index 106376, por pertenecer a la categoría 'store' muestra una superficie total correspondiente con este tipo de propiedad, de igual manera será eliminada del DataFrame. .

In [None]:
propiedades.drop(propiedades.loc[(propiedades['surface_total_in_m2'] > 50000)].index, axis = 0, inplace = True)

In [None]:
# Eliminamos aquellas propiedades que sólo contienen información para la columna 'price_aprox_usd' y están ausentes los valores 'surface_total_in_m2', 'surface_covered_in_m2', 
# que dificulta la obtención del valor 'price_usd_per_m2'

propiedades.drop(propiedades.loc[(propiedades['price_aprox_usd'] > 800000) & (propiedades['surface_total_in_m2'].isna())].index, axis = 0, inplace = True)

Continuando con el análisis de los posibles valores anómalos, encontramos propiedades cuya precio aproximado en dólares equivale a mas de 800.000 USD y la superficie total en m2 es menor a 100m2. 

In [None]:
# Vamos a mirar las propiedades con precio mayor a 80000 USD y superficie total menor a 100m2
propiedades.drop(propiedades.loc[(propiedades['price_aprox_usd'] > 800000) & (propiedades['surface_total_in_m2'] < 100)].index, axis = 0, inplace = True)

In [None]:
propiedades.drop(propiedades.loc[(propiedades['price_usd_per_m2'].isna()) & (propiedades['surface_total_in_m2'].isna())].index, axis = 0, inplace = True)

Generamos nuevamente el boxplots para las columnas relacionadas con superficie y vemos la mejora respecto a los outliers

In [None]:
sns.boxplot(data=propiedades[["surface_total_in_m2", "surface_covered_in_m2"]], orient="h")

La existencia de los datos anómalos (outliers) afecta la forma del histograma, con un sesgo marcado hacia valores altos. 

In [None]:
#Realizando un análisis estadísitico de la variable que nos interesa "price_aprox_usd" tenemos los siguientes hallazgos:
print("""La cantidad de datos analizados son {}.
El precio mínimo encontrado por m2 es de {} usd.
El valor máximo de las propiedades por m2 es {} usd.
La media de los precios de la variable por m2 es {} usd.
La mediana de los datos por m2 corresponde a {} usd.
La moda de los precios por m2 es de {} usd.
Con una desviación estándar por m2 de {} usd.
""". format(propiedades.price_usd_per_m2.count(), propiedades.price_usd_per_m2.min(), propiedades.price_usd_per_m2.max(), propiedades.price_usd_per_m2.mean(), propiedades.price_usd_per_m2.median(), mode(propiedades.price_usd_per_m2), propiedades.price_usd_per_m2.std()))

In [None]:
# grafico de distribucion
sns.displot(propiedades.price_usd_per_m2)

# lineas verticales
plt.vlines(x=mode(propiedades.price_usd_per_m2), ymin=0, ymax=2100, color="y", label=f"moda")
plt.vlines(x=propiedades.price_usd_per_m2.mean(), ymin=0, ymax=2100, color="g", label=f"media")
plt.vlines(x=propiedades.price_usd_per_m2.median(), ymin=0, ymax=2100, color="r", label=f"mediana")
plt.legend();

plt.show()

In [None]:
plt.figure(figsize=(20,10))
sns.set(style='whitegrid')
sns.scatterplot(x='surface_total_in_m2', y="price_aprox_usd",  data=propiedades)

Analizando el gráfico anterior observamos distribución de valores anómalos que deben ser eliminados y además la mayor concentración de propiedades entre valores menores a 10000 m2 para 'surface_total_in_m2' y menores a 500000 USD para 'price_aprox_usd'.

Por otro lado, los datos de las columnas 'surface_total_in_m2' y 'surface_covered_in_m2' muestran dos tendencias, la primera con correlación positiva donde la propiedad tiene aproximadamente el 50% de la superficie cubierta (independiente del tipo de propiedad) y la segunda tendencia con propiedades cuya superficie cubierta es menor al 5% (principalmente para el tipo de propiedad 'house').

In [None]:
plt.figure(figsize=(20,10))
sns.set(style='whitegrid')
sns.scatterplot(x='surface_total_in_m2', y="surface_covered_in_m2",  data=propiedades, hue='property_type')

Incorporando el tipo de propiedad a la gráfica (surface_total_in_m2 vs. price_aprox_usd), y ajustando los ejes a los valores antes mencionados, queda en evidencia que la mayor cantidad de propiedades corresponden a 'apartment'. Otro aspecto a destacar es que la mayoría de las propiedades correspondientes a 'house' parecieran no mostrar dependencia entre  'surface_total_in_m2' y 'price_aprox_usd', según la poca o nula variablidad observada en el gráfico para 'house' con 'surface_total_in_m2' alrededor de 36m2.

In [None]:
plt.figure(figsize=(20,10))
tipo_propiedad = sns.scatterplot(x='surface_total_in_m2', y="price_aprox_usd",  data=propiedades, hue='property_type')
tipo_propiedad.set(xlim = (0,100))
tipo_propiedad.set(ylim = (0, 500000))

Lo anterior es comprobado contando las propiedades según la columna 'property_type'. La propiedad del tipo 'apartment' alcanza un valor de 64078, que abarca cercano al 60% de los datos. 

In [None]:
(propiedades.groupby(['property_type'])['property_type'].count()).sort_values(ascending=False)

Respecto a la ubicación de las propiedades, la mayoría (> 57%) está concentrado en la Provincia de Buenos Aires, luego Córdoba y en tercer lugar Santa Fe.

In [None]:
(propiedades.groupby(['state_name'])['state_name'].count()).sort_values(ascending=False)

En la distribución del tipo de propiedad según la Provincia, observamos que Capital Federal mantiene la tendencia general de preponderancia del tipo 'apartment'. Sin embargo en provincias como Chubut, San Luis, Corrientes la tendencia muestra un mayor número de propiedades tipo 'house'

In [None]:
propiedades.groupby(['property_type','state_name']).size().unstack(fill_value=0)

In [None]:
# Calculamos superficie total promedio y superficie cubierta promedio
mask_t = propiedades['surface_total_in_m2'].notnull()
mask_c = propiedades['surface_covered_in_m2'].notnull()
mask_p = propiedades['price_usd_per_m2'].notnull()

s_total_prom = propiedades[mask_t]['surface_total_in_m2'].mean()
s_cub_prom = propiedades[mask_c]['surface_covered_in_m2'].mean()
ratio_s = s_total_prom / s_cub_prom
s_price_prom = propiedades[mask_p]['price_usd_per_m2'].mean() 
min_price = propiedades[mask_p]['price_usd_per_m2'].min()
max_price = propiedades[mask_p]['price_usd_per_m2'].max()
median_price = propiedades[mask_p]['price_usd_per_m2'].median()

print(
"""la superficie total promedio es {}.
la superficie cubierta promedio es {}.
en promedio, la superficie total es {} veces la superficie cubierta.
el precio promedio del m2 en USD es {} con valor mínimo de {}, valor máximo {}, media de {}
""".format(s_total_prom, s_cub_prom, ratio_s, s_price_prom, min_price, max_price, median_price))

A partir de estos datos se deduce que la distribución de 'price_usd_per_m2' para las propiedades, presenta un sesgo hacia la derecha, por valores altos que influencian el valor del promedio.

## Por último, luego de realizado el proceso Exploratorio y Limpieza de los datos, el DataFrame final consta de: 

In [None]:
print(f'El DataFrame llamado propiedades consta de {propiedades.shape[0]} filas y {propiedades.shape[1]} columnas')

In [None]:
# Para exportar DataFrame final como archivo .csv
propiedades.to_csv('propiedades.csv')