# **Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones**

## **Edición 2023**


## Análisis exploratorio y curación de datos

### Trabajo práctico entregable - Grupo 22 - Parte 2

**Integrantes:**
- Chevallier-Boutell, Ignacio José
- Ribetto, Federico Daniel
- Rosa, Santiago
- Spano, Marcelo

**Seguimiento:** Meinardi, Vanesa

---

## Librerías

In [7]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.width', 1000)
pd.options.mode.chained_assignment = None  # default='warn'

import seaborn as sns
sns.set_context('talk')
sns.set_theme(style='white')

from sklearn.preprocessing import OneHotEncoder

## Acerca del dataset

En la parte 1 del entregable se seleccionaron aquellas filas y columnas que consideramos relevantes para el problema de predicción de los precios de las propiedades en Melbourn, Australia. Utilizaremos dicho conjunto de datos resultante.

In [8]:
df = pd.read_csv('GuardadoFinal.csv').iloc[:, 1:]
df[:3]

Unnamed: 0,Distance,Lattitude,Longtitude,YearBuilt,Landsize,BuildingArea,Rooms,Bedroom2,Bathroom,Price,CouncilArea,Regionname,SellerG,Type,Postcode,zipcode,airbnb_price_mean,airbnb_record_count,airbnb_weekly_price_mean,airbnb_monthly_price_mean,airbnb_number_of_reviews_sum,airbnb_number_of_reviews_mean,airbnb_review_scores_rating_min,airbnb_review_scores_rating_max,airbnb_review_scores_rating_mean
0,2.5,-37.7996,144.9984,,202.0,,2,2.0,1.0,1480000.0,Yarra,Northern Metropolitan,Biggin,h,3067,3067.0,130.624031,258.0,605.152174,2187.032258,4029.0,15.616279,20.0,100.0,95.288462
1,2.5,-37.8079,144.9934,1900.0,156.0,79.0,2,2.0,1.0,1035000.0,Yarra,Northern Metropolitan,Biggin,h,3067,3067.0,130.624031,258.0,605.152174,2187.032258,4029.0,15.616279,20.0,100.0,95.288462
2,2.5,-37.8093,144.9944,1900.0,134.0,150.0,3,3.0,2.0,1465000.0,Yarra,Northern Metropolitan,Biggin,h,3067,3067.0,130.624031,258.0,605.152174,2187.032258,4029.0,15.616279,20.0,100.0,95.288462


---
# Ejercicio 1 - Encoding

En la mayoría de los modelos de machine learning es necesario que las variables que se utilizan para entrenarlo sean del tipo numéricas. Por este motivo, suele ser necesario encontrar algún mapeo útil que permita transformar a la variables categóricas en numéricas.

En este caso las variables categóricas que consideramos importantes para la predicción del precio de las casas son CouncilArea, Regionname, SellerG y Type. Las 4 son variables nominales ya que no tienen un orden en sus categorías. En este sentido, consideramos que el algoritmo one-hot encoding es útil para realizar su codificación. El mismo crea una ristra de números con tantas cifras como categorías posea la variable considerada: cuando el registro pertenece a una dada categoría, se genera un 1 en dicha posición, siendo el resto de las cifras iguales a cero.

Vamos a comenzar el proceso de codificación separando entre variables categóricas y numéricas, según lo antes mencionado. Luego, vemos la cantidad de categorías que posee cada una de las variables categóricas elegidas y el número de columnas que se creará en total luego de realizar la codificación one-hot: mapearemos las 4 columnas categóricas en 41 columnas numéricas.

In [9]:
categorical_cols = ['CouncilArea', 'Regionname', 'SellerG', 'Type']
numerical_cols = [x for x in df.columns if (x not in categorical_cols) and x not in ['Postcode', 'zipcode']]

print('Cantidad de categorías para cada variable:')
print(df[categorical_cols].nunique())
print('')
print('Cantidad de columnas que se creará con One Hot Encoding:', df[categorical_cols].nunique().sum())

Cantidad de categorías para cada variable:
CouncilArea    18
Regionname      8
SellerG        12
Type            3
dtype: int64

Cantidad de columnas que se creará con One Hot Encoding: 41


A continuación utilizamos la función OneHotEncoder de sklearn para realizar el One Hot Encoding de las variables. En el código se describe el paso a paso, pero la idea final es crear un nuevo DataFrame de Pandas con las nuevas columnas antes dichas.

In [10]:
# Nos quedamos con la columnas categóricas del DataFrame
features = df[categorical_cols]
# Creamos una lista con las categorías de cada variable categórica
categories = [features[column].unique() for column in features.columns]
# Inicializamos el enconder
encoder = OneHotEncoder(categories=categories)
# Mapeamos las categóricas a one-hot
encoded_features = encoder.fit_transform(features)

# Creación de nuevas columnas para one-hot
feature_names = []
for i, column in enumerate(features.columns):
    for category in categories[i]:
        feature_names.append(f'{column}_{category}')

encoded_df = pd.DataFrame(encoded_features.toarray(), columns=feature_names)
encoded_df.sample(10).T

Unnamed: 0,11157,11665,11017,3258,2857,2968,5054,376,7191,168
CouncilArea_Yarra,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CouncilArea_Moonee Valley,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CouncilArea_Port Phillip,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CouncilArea_Darebin,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
CouncilArea_Hobsons Bay,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
CouncilArea_Stonnington,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CouncilArea_Boroondara,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
CouncilArea_Monash,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CouncilArea_Glen Eira,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CouncilArea_Whitehorse,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Para finalizar este punto, unimos las variables numéricas originales con las categóricas codificadas.

In [11]:
new_df = pd.concat([encoded_df, df[numerical_cols]], axis=1)

new_df.sample(5).T

Unnamed: 0,867,4426,8364,13082,648
CouncilArea_Yarra,0.0,0.0,0.0,0.0,0.0
CouncilArea_Moonee Valley,0.0,0.0,0.0,0.0,0.0
CouncilArea_Port Phillip,0.0,0.0,0.0,0.0,0.0
CouncilArea_Darebin,0.0,1.0,0.0,0.0,0.0
CouncilArea_Hobsons Bay,0.0,0.0,0.0,0.0,0.0
CouncilArea_Stonnington,0.0,0.0,0.0,0.0,0.0
CouncilArea_Boroondara,0.0,0.0,0.0,0.0,1.0
CouncilArea_Monash,0.0,0.0,0.0,0.0,0.0
CouncilArea_Glen Eira,1.0,0.0,0.0,0.0,0.0
CouncilArea_Whitehorse,0.0,0.0,0.0,0.0,0.0


---
# Ejercicio 2 - Imputación por KNN

En el teórico se presentó el método `IterativeImputer` para imputar valores faltantes en variables numéricas. Sin embargo, los ejemplos presentados sólo utilizaban algunas variables numéricas presentes en el conjunto de datos. En este ejercicio, utilizaremos la matriz de datos codificada para imputar datos faltantes de manera más precisa.

1. Agregue a la matriz obtenida en el punto anterior las columnas `YearBuilt` y `BuildingArea`.
2. Aplique una instancia de `IterativeImputer` con un estimador `KNeighborsRegressor` para imputar los valores de las variables. ¿Es necesario estandarizar o escalar los datos previamente?
3. Realice un gráfico mostrando la distribución de cada variable antes de ser imputada, y con ambos métodos de imputación.

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.neighbors import KNeighborsRegressor
from sklearn.impute import IterativeImputer

melb_data_mice = melb_df.copy(deep=True)

mice_imputer = IterativeImputer(random_state=0, estimator=KNeighborsRegressor())
melb_data_mice[['YearBuilt','BuildingArea']] = mice_imputer.fit_transform(
    melb_data_mice[['YearBuilt', 'BuildingArea']])

Ejemplo de gráfico comparando las distribuciones de datos obtenidas con cada método de imputación.

In [None]:
mice_year_built = melb_data_mice.YearBuilt.to_frame()
mice_year_built['Imputation'] = 'KNN over YearBuilt and BuildingArea'
melb_year_build = melb_df.YearBuilt.dropna().to_frame()
melb_year_build['Imputation'] = 'Original'
data = pandas.concat([mice_year_built, melb_year_build])
fig = plt.figure(figsize=(8, 5))
g = seaborn.kdeplot(data=data, x='YearBuilt', hue='Imputation')

---
# Ejercicio 3 - Reducción de dimensionalidad.

Utilizando la matriz obtenida en el ejercicio anterior:
1. Aplique `PCA` para obtener $n$ componentes principales de la matriz, donde `n = min(20, X.shape[0])`. ¿Es necesario estandarizar o escalar los datos?
2. Grafique la varianza capturada por los primeros $n$ componentes principales, para cada $n$.
3. En base al gráfico, seleccione las primeras $m$ columnas de la matriz transformada para agregar como nuevas características al conjunto de datos.

---
# Ejercicio 4 - Composición del resultado

Transformar nuevamente el conjunto de datos procesado en un `pandas.DataFrame` y guardarlo en un archivo.

Para eso, será necesario recordar el nombre original de cada columna de la matriz, en el orden correcto. Tener en cuenta:
1. El método `OneHotEncoder.get_feature_names` o el atributo `OneHotEncoder.categories_` permiten obtener una lista con los valores de la categoría que le corresponde a cada índice de la matriz.
2. Ninguno de los métodos aplicados intercambia de lugar las columnas o las filas de la matriz.

In [None]:
## Small example
from sklearn.decomposition import PCA
from sklearn.preprocessing import OneHotEncoder

## If we process our data with the following steps:
categorical_cols = ['Type', 'Regionname']
numerical_cols = ['Rooms', 'Distance']
new_columns = []

# Step 1: encode categorical columns
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
X_cat = encoder.fit_transform(melb_df[categorical_cols])
for col, col_values in zip(categorical_cols, encoder.categories_):
  for col_value in col_values:
    new_columns.append('{}={}'.format(col, col_value))
print("Matrix has shape {}, with columns: {}".format(X_cat.shape, new_columns))

# Step 2: Append the numerical columns
X = numpy.hstack([X_cat, melb_df[numerical_cols].values])
new_columns.extend(numerical_cols)
print("Matrix has shape {}, with columns: {}".format(X_cat.shape, new_columns))

# Step 3: Append some new features, like PCA
pca = PCA(n_components=2)
pca_dummy_features = pca.fit_transform(X)
X_pca = numpy.hstack([X, pca_dummy_features])
new_columns.extend(['pca1', 'pca2'])

## Re-build dataframe
processed_melb_df = pandas.DataFrame(data=X_pca, columns=new_columns)
processed_melb_df.head()

---
# Ejercicio 5 - Documentación

En un documento `.pdf` o `.md` realizar un reporte de las operaciones que realizaron para obtener el conjunto de datos final. Se debe incluir:
  1. Criterios de exclusión (o inclusión) de filas
  2. Interpretación de las columnas presentes
  2. Todas las transofrmaciones realizadas

Este documento es de uso técnico exclusivamente, y su objetivo es permitir que otres desarrolladores puedan reproducir los mismos pasos y obtener el mismo resultado. Debe ser detallado pero consiso. Por ejemplo:

```
  ## Criterios de exclusión de ejemplos
  1. Se eliminan ejemplos donde el año de construcción es previo a 1900

  ## Características seleccionadas
  ### Características categóricas
  1. Type: tipo de propiedad. 3 valores posibles
  2. ...
  Todas las características categóricas fueron codificadas con un
  método OneHotEncoding utilizando como máximo sus 30 valores más 
  frecuentes.
  
  ### Características numéricas
  1. Rooms: Cantidad de habitaciones
  2. Distance: Distancia al centro de la ciudad.
  3. airbnb_mean_price: Se agrega el precio promedio diario de 
     publicaciones de la plataforma AirBnB en el mismo código 
     postal. [Link al repositorio con datos externos].

  ### Transformaciones:
  1. Todas las características numéricas fueron estandarizadas.
  2. La columna `Suburb` fue imputada utilizando el método ...
  3. Las columnas `YearBuilt` y ... fueron imputadas utilizando el 
     algoritmo ...
  4. ...

  ### Datos aumentados
  1. Se agregan las 5 primeras columnas obtenidas a través del
     método de PCA, aplicado sobre el conjunto de datos
     totalmente procesado.
```
