# 7506 - Trabajo práctico 1


##### Librerías

In [1]:
import pandas as pd
from pandas.plotting import scatter_matrix
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
#import geopandas as gpd

import warnings

warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

In [2]:
from IPython.display import display, HTML


def display_side_by_side(dfs: list, captions: list):
    """Display tables side by side to save vertical space
    Input:
        dfs: list of pandas.DataFrame
        captions: list of table captions
    """
    output = ""
    combined = dict(zip(captions, dfs))
    for caption, df in combined.items():
        output += df.style.set_table_attributes("style='display:inline'").set_caption(caption)._repr_html_()
        output += "\xa0\xa0\xa0"
    display(HTML(output))

In [None]:
complete_dataset = pd.read_csv("./properati_argentina_2021.csv")
df = complete_dataset.copy()

## Análisis Exploratorio y Preprocesamiento de Datos

Primero, observaremos un poco los datos que tiene el dataset

**Primeras 5 observaciones**

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas")

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
df.dtypes

## Filtrado inicial del Dataset
Como trabajaremos con un universo acotado de propiedades, haremos una selección inicial de las publicaciones que nos interesa analizar:

Como primer paso hay que filtrar las observaciones que su tipo de vivienda sea: Casa, PH o Departamento.

Luego filtramos la ubicacion quedandonos unicamente con las propiedades de Capital Federal.

A continuación, consideraremos solo las que esten cotizadas en dolares.

Y finalmente, tomamos solo las que sean ventas

In [None]:
df_tipo_vivienda = df[(df.property_type == "Casa") | (df.property_type == "PH") | (df.property_type == "Departamento")]
df_por_ubicacion = df_tipo_vivienda[
    (df_tipo_vivienda.place_l2 == "Capital Federal") | (df_tipo_vivienda.place_l3 == "Capital Federal")]
df_cotizacion_usd = df_por_ubicacion[df_por_ubicacion.property_currency == "USD"]
ds_filtrado = df_cotizacion_usd[df_cotizacion_usd.operation == "Venta"]

ds_filtrado[["place_l2", "place_l3", "property_currency", "property_type", "operation"]]

A partir de aquí trabajaremos con el dataset filtrado (`ds_filtrado`)

Analizando los tipos de dato de los campos:
- Hay 3 campos de fecha, evaluaremos más adelante como tratarlos.
- Tenemos latitud y longitd en su formato correcto
- Hay una variable place_l6 que no debería ser un número, también analizaremos a que se debe.
- La cantidad de habitaciones (rooms y bedrooms) quizás debería tener valores enteros.
- El precio tiene un tipo correcto

## Exploración Inicial

### Tipos de variable

Realizamos el analisis del tipo de variable a mano a partir de lo visto en clase.
Tomamos [este](https://docs.google.com/document/d/1NaSWukuFd0hgr3OVQQwll6FAcET8KqbgqpiQ4dpGmOQ/edit) documento como referencia.
Por otro lado, notar que la variable ID no se encuentra clasificada aca dado que es un campo univoco que luego vamos a eliminar del dataset.

In [None]:
categoricas = ['start_date', 'end_date', 'created_on', 'place_l2', 'place_l3', 'place_l4', 'place_l5', 'place_l6', 'operation', 'property_type', 'property_currency', 'property_title']
cuantitativas_discretas = ['property_rooms', 'property_bedrooms', 'property_surface_total', 'property_surface_covered', '', '', '', '', '', '', '', '']
cuantitativas_continuas = ['latitud', 'longitud', None, None, None, None, None, None, None, None, None]
ordinales = [None, None, None, None, None, None, None, None, None, None, None, None]
tipos_de_variable = {'Categoricas': categoricas, 'Ordinales': ordinales, 'Cuantitativas Discretas': cuantitativas_discretas, 'Cuantitativas Continuas': cuantitativas_discretas}

df_tipos_de_variable = pd.DataFrame(tipos_de_variable)
df_tipos_de_variable


### Fechas


In [None]:
ds_filtrado[["start_date", "end_date", "created_on"]].isna().sum()

In [None]:
ds_filtrado["start_date"].value_counts()

In [None]:
ds_filtrado["end_date"].value_counts()

In [None]:
ds_filtrado["created_on"].value_counts()

Hay un valor extraño en end_date, la fecha 9999-12-31, hay 5041 apariciones de esta fecha

In [None]:
ds_filtrado[ds_filtrado.end_date == '9999-12-31']['start_date'].value_counts()

Considerando que todas las fechas son de 2021, y que el dato que falta es el del fin de la publicación (es decir, la casa esta publicada) y a fines de preservar estos datos, traeremos a consideración la duración promedio de cada publicación, calcularemos ese promedio dejando fuera los 5041 casos que presentan la fecha inválida.

Tomaremos para el cálculo las fechas convertidas a datetime.

In [None]:
dias = pd.to_datetime(ds_filtrado[ds_filtrado.end_date != '9999-12-31']['end_date']) - pd.to_datetime(
    ds_filtrado[ds_filtrado.end_date != '9999-12-31']['start_date'])
dias.describe()

El promedio de la duración de las publicaciones es casi de 75 días, asumiremos que las publicaciones con la fecha invalida duraron lo mismo que el promedio y tomaremos como fecha final la fecha de inicio + 75 días.

In [None]:
ds_filtrado.loc[ds_filtrado.end_date == '9999-12-31', 'end_date'] = pd.to_datetime(
    ds_filtrado[ds_filtrado.end_date == '9999-12-31']['start_date']) + dias.mean()
ds_filtrado.end_date

Finalmente, como todos los valores son formatos válidos de fecha, podemos convertir sin problemas.

### Conversion tipo de dato

In [None]:
new_ds = ds_filtrado.copy()
new_ds.start_date = pd.to_datetime(new_ds.start_date, infer_datetime_format=True, errors = 'coerce')
new_ds.end_date = pd.to_datetime(new_ds.end_date, infer_datetime_format=True, errors = 'coerce')
new_ds.created_on = pd.to_datetime(new_ds.created_on, infer_datetime_format=True, errors = 'coerce')
ds_filtrado = new_ds.copy()
ds_filtrado.dtypes

## Variables Cuantitativas: calcular medidas de resumen: media, mediana, q1, q3, moda

In [None]:
# Variables Cuantitativas: calcular medidas de resumen: media, mediana, q1, q3, moda
description_quantitatives = ds_filtrado.describe()
quantitative_mode = ds_filtrado[description_quantitatives.columns].mode()
quantitative_mode.rename(index={0: "mode"}, inplace=True)
description_quantitatives = description_quantitatives.append(quantitative_mode)
description_quantitatives = description_quantitatives.append(ds_filtrado.median().rename("median"),
                                                             ignore_index=False)
description_quantitatives

## Variables Cualitativas mostrar cantidad de valores posibles, y frecuencias de cada uno.

In [None]:
# Refer to: https://github.com/Naza26/7506R-2C2022-GRUPO01/issues/9 

qualitative_dataset = ds_filtrado.drop(axis="columns", columns=description_quantitatives.columns)
qualitative_dataset.drop(axis="columns", columns=["start_date", "end_date", "created_on"], inplace=True)

dfs = list(
    pd.DataFrame(qualitative_dataset[column].value_counts().head()) for column in qualitative_dataset.columns.tolist())
display_side_by_side(dfs, qualitative_dataset.columns.tolist())

La tabla muestra varias cosas:
- Hay 94249 propiedades habiendo filtrado solo las de Capital Federal, Venta y USD
- Hay 80829 departamentos, 9266 PHs y 4154 casas
- Hay 14308 propiedades en Palermo
- El id de la propiedad es único y no representa nada útil para nuestro procesamiento. Parecería pasar algo similar con el título, lo analizaremos en más detalle más adelante

## Correlación entre variables

In [None]:
# Realizar un análisis gráfico de las distribuciones de las variables
columns = description_quantitatives.columns.tolist()
quantitative_dataset = ds_filtrado[columns].drop(axis="columns", columns=["place_l5", "place_l6"])
ax = scatter_matrix(quantitative_dataset, alpha=0.7, figsize=(15, 15), s=100)

In [None]:
# Analizar las correlaciones existentes entre las variables.
quantitative_dataset.corr()

In [None]:
# Analizar las correlaciones existentes entre las variables.
plt.figure(figsize=(10, 10))
sns.heatmap(quantitative_dataset.corr(), annot=True)

## Análisis de valores faltantes

Ahora analizaremos los datos faltantes del dataset.

### Porcentaje de valores faltantes por columna



In [None]:
# Realizar análisis de datos faltantes a nivel de columna. Graficar para cada variable
# el porcentaje de datos faltantes con respecto al total del dataset

percent_missing = ds_filtrado.isna().sum() * 100 / len(ds_filtrado)
plt.figure(figsize=(12, 6))
percent_missing.plot.bar(x='index', rot=45)
plt.xlabel("Columns")
plt.ylabel("Percentage Missing")
rows = ds_filtrado.shape[0]
print(ds_filtrado.isna().sum() / rows * 100)

A simple vista podemos ver que las columnas place_l4,place_l5 y place_l6 practicamente no tienen datos, procederemos a eliminarlas.

### Porcentaje de datos faltantes por fila

In [None]:
column_count = ds_filtrado.shape[1]
ds_plot = ds_filtrado.T.isna().sum() * 100 / column_count

fig, ax = plt.subplots()

sns.violinplot(ds_plot, ax=ax)
plt.axvline(ds_plot.mean())
plt.xlabel("Missing % of data per row")
plt.ylabel("Count")

Analizaremos nuevamente el porcentaje por fila luego de trabajar con las columnas

### Procesado de columnas

Descartaremos la columna id debido a que no es relevante para nuestro análisis. (Tendriamos que explicar por qué)

In [None]:
ds_filtrado['id'].head()

Como mencionamos anteriormente, evaluaremos descartar place_l4 por la cantidad de valores faltantes que hay.

In [None]:
ds_filtrado['place_l4'].value_counts()

Como son pocas observaciones y todas corresponden al barrio de Palermo, descartaremos esta columna.

In [None]:
properties_dataset = ds_filtrado.drop(axis="columns", columns=["id", "place_l4", "place_l5", "place_l6"]).copy()
properties_dataset.columns.tolist()

### Analisis de faltantes por fila

Ahora que nos quedamos solo con las columnas deseadas, analizaremos nuevamente los datos faltantes por fila.

In [None]:
column_count = ds_filtrado.shape[1]
ds_plot = properties_dataset.T.isna().sum() * 100 / column_count

sns.violinplot(ds_plot)
plt.axvline(ds_plot.mean())

Como podemos ver en el gráfico, la cantidad de datos faltantes bajó muchísimo al eliminar las columnas. Tenemos algunos registros con 5 o 10% de datos faltantes, veremos que falta

In [None]:
properties_dataset['row_missing_data'] = properties_dataset.T.isna().sum() * 100 / column_count
print(f"Cantidad de publicaciones por % de datos faltantes\n{properties_dataset['row_missing_data'].value_counts()}")

In [None]:
dataset_perc = properties_dataset['row_missing_data'].value_counts() * 100 / properties_dataset.shape[0]
print(f"La cantidad de faltantes segun porcentaje representan\n{dataset_perc}")

In [None]:
properties_dataset.groupby('row_missing_data').get_group(5).isna().sum().plot.bar()

In [None]:
properties_dataset.groupby('row_missing_data').get_group(10).isna().sum().plot.bar()

In [None]:
percent_missing = properties_dataset.isna().sum() * 100 / len(ds_filtrado)
plt.figure(figsize=(12, 6))
percent_missing.plot.bar(x='index', rot=45)
plt.xlabel("Columns")
plt.ylabel("Percentage Missing")
rows = ds_filtrado.shape[0]
print(ds_filtrado.isna().sum() / rows * 100)

In [None]:
new_ds = ds_filtrado.groupby(['property_type', 'property_title'])
pd.crosstab(ds_filtrado.property_rooms, ds_filtrado.property_bedrooms)
df = ds_filtrado[['property_rooms', 'property_title']].reset_index()
#[df.iloc[i,j] for i,j in zip(*np.where(pd.isnull(df)))]
missing_cols, missing_rows = (
    (df.isnull().sum(x) | df.eq('').sum(x))
    .loc[lambda x: x.gt(0)].index
    for x in (0, 1)
)
# https://regex101.com/r/DDmwrS/1
new_df = df.loc[missing_rows, missing_cols]

dic_titulos = {}

for t in df.loc[new_df.index].property_title:
    if str(new_df.index) not in dic_titulos:
        dic_titulos[str(new_df.index)] = df.loc[new_df.index].property_title


print(new_df.index)
print(df.loc[new_df.index].property_title)


In [None]:
pd.crosstab(ds_filtrado.property_rooms, ds_filtrado.property_title)reset_index

Arreglar los datos faltantes seria eliminar las filas que tengan valores nan?
Porque en base al grafico vemos que tenemos variables que tienen datos nan y esos valores no serian recuperables, podemos quedarnos con el ds como esta o eliminar esas rows.

# TODO: Decidir que hacer con estos grupos, creo que lo mejor es ignorarlos y ya. Al de 10% le falta la latitud y la longitud

## Graficos


## Limpieza

## Graficos
