In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn import impute

In [3]:
# importo el dataset de properati
properati = pd.read_csv('datos_properati.csv', delimiter=',', parse_dates = ['created_on'])

In [41]:
# queremos saber que columnas tienen NaN y cuantos
properati.isnull().sum()

# Scikit-Learn, SimpleImputer
En general no queremos eliminar las instancias que posean NaNs en algun atributo / feature. Con imputer por ejemplo podemos reemplazar los campos con NaN por un valor determinado

In [40]:
# Imputer sirve para reemplazar los valores NaN con el valor de la mediana de dicho atributo
# Opciones de Aplicación: 'mean', 'median', 'most_frequent', 'constant'
imp = preprocessing.Imputer(missing_values='NaN', strategy='median', axis=0)

In [6]:
# Función actual de Sklearn: SimpleImputer
# Opciones de Aplicación: 'mean', 'median', 'most_frequent', 'constant' 
imp = impute.SimpleImputer(missing_values= np.nan, strategy='median', fill_value=None) 

In [39]:
# Cuál es la mediana de esa columna?
properati['price_aprox_usd'].median()

In [8]:
# aplicamos el valor de la mediana con la tecnica de Imputer en la columna "price_aprox_usd" y guardamos SOLO ESA COLUMNA
# en el elemento "properati_price_imp"
properati_price_imp = imp.fit_transform(properati[['price_aprox_usd']])

In [None]:
np.shape(properati[['price_aprox_usd']])

In [38]:
# luego revisamos si efectivamente sacamos todos los NaNs y es correcto
np.isnan(properati_price_imp).any()

In [11]:
# ahora reemplazamos nuestra columna con la nueva que tiene los valores reemplazados por la mediana
properati['price_aprox_usd'] = properati_price_imp

In [37]:
# nuevamente, observamos que esta columna ahora no tiene ningun valor nulo
properati['price_aprox_usd'].isnull().sum()

In [36]:
# por otro lado la mediana no ha sido afectada
properati['price_aprox_usd'].median()

In [14]:
# Si tengo claro como quiero imputar, puedo hacerlo de varias columnas a la vez
properati_2 = imp.fit_transform(properati.iloc[:,7:14])

# Scikit-Learn: LabelEncoder
Existen casos donde si queremos transformar nuestras variables categoricas en numericas sin pasar por variables dummies, con LabelEncoder podemos realizar dicha tarea.

In [35]:
# Vemos los valores que toma la variable
properati.property_type.unique()

In [16]:
# Label Encoder transforma mis variables categoricas en numéricas.
le_proptype = preprocessing.LabelEncoder()

In [34]:
# "aprendimos" un array numerico con 4 valores posibles, uno por cada categoria
le_proptype.fit_transform(properati['property_type'])

In [18]:
property_type_le = le_proptype.fit_transform(properati['property_type'])

In [None]:
le_proptype.classes_

In [20]:
# ahora la columna property_type del dataset properati tiene categorias numericas
properati['property_type_le'] = property_type_le

# Scikit-Learn: One Hot Encoder

In [21]:
# uso one hot encoder para transformar mis categorias numericas en categorias binarias
ohenc = preprocessing.OneHotEncoder(sparse = False)

In [None]:
np.shape(property_type_le)[0]

In [23]:
# np.reshape sirve para cambiar las dimensiones de un array de numpy
property_type_le = np.reshape(property_type_le, (np.shape(property_type_le)[0],1))

In [None]:
np.shape(property_type_le)

In [None]:
property_type_le

In [33]:
# con one hot encoder transformo mi vector de categorias (detalladas como numeros)
# en vectores de 1 y 0s , que tienen tantas posicoines como categorias.
onehot_encoded = ohenc.fit_transform(property_type_le)

In [None]:
onehot_encoded

In [31]:
# transformo mi array de numpy "one hot encoded" a un dataframe y le asigno los nombres 
# de las columnas segun la categoria para acordarme que significa cada columna
onehot_pd = pd.DataFrame(onehot_encoded, index = properati.index , columns = le_proptype.classes_)

In [None]:
onehot_pd.head()