# Preprocesamiento de datos
El preprocesamiento de datos es un conjunto de tareas que debemos realizar antes de plantear cualquier modelo de aprendizaje automático.
Las principales tareas que involucra son:


*   Imputación de datos faltantes
*   Detección de datos atípicos (outliers)
*   Transformación de datos (estandarización, codificación, discretización)
*   Reducción de dimensionalidad



Antes de comenzar, tenemos que presentar una librería que nos va a acompanar de ahora en más: [scikit-learn](https://scikit-learn.org/stable/). Esta librería nos va a permitir realizar una enorme cantidad de tareas relacionadas con el aprendizaje automático. Hoy exploraremos algunas de las alternativas que nos ofrece para preprocesar nuestros datos.

![](https://drive.google.com/uc?export=view&id=1JdX6PcdcpMPPKx7-oP8MtmpVmekb46Yy)


In [None]:
import numpy as np
import pandas as pd

En esta Prácticas vamos a trabajar con datos relacionados con los pasajeros que estuvieron en el hundimiento del Titanic. Toda la información sobre el dataset pueden encontrarla [aqui](https://www.kaggle.com/c/titanic/data)

In [None]:
#Importamos el dataset
data = pd.read_csv('titanic_train.csv')

## Exploración de los datos

In [None]:
data.shape

(891, 12)

In [None]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Estandarización de datos numéricos

Para que las distintas variables numéricas puedan ser comparables entre sí es necesario estandarizarlas. Por ejemplo, si tomamos la estrategia Z-score todas nuestras variables van a tener una media igual a 0 y un desvío estandard igual a 1.

Para estandarizar nuestros datos usando Z-score, scikit-learn nos ofrece [*StandardScaler*](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

In [None]:
#Vamos a quedarnos con las columnas que sean float64
col = ['SibSp', 'Parch', 'Age', 'Fare']

In [None]:
data[col]

Unnamed: 0,SibSp,Parch,Age,Fare
0,1,0,22.0,7.2500
1,1,0,38.0,71.2833
2,0,0,26.0,7.9250
3,1,0,35.0,53.1000
4,0,0,35.0,8.0500
...,...,...,...,...
886,0,0,27.0,13.0000
887,0,0,19.0,30.0000
888,1,2,,23.4500
889,0,0,26.0,30.0000


In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
#Aplicamos la estandarizacion a las variables de interes
scaler = StandardScaler()
scaler = scaler.fit(data[col])
data[col] = scaler.transform(data[col])
#data[col] = scaler.fit_transform(data[col])

In [None]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,2.388379e-16,4.3860660000000004e-17,5.3829000000000005e-17,3.9873330000000004e-18
std,257.353842,0.486592,0.836071,1.000701,1.000562,1.000562,1.000562
min,1.0,0.0,1.0,-2.016979,-0.4745452,-0.4736736,-0.6484217
25%,223.5,0.0,2.0,-0.6595416,-0.4745452,-0.4736736,-0.4891482
50%,446.0,0.0,3.0,-0.1170488,-0.4745452,-0.4736736,-0.3573909
75%,668.5,1.0,3.0,0.571831,0.4327934,-0.4736736,-0.02424635
max,891.0,1.0,3.0,3.465126,6.784163,6.974147,9.667167


## Codificación de datos categóricos

Para muchos modelos de aprendizaje automático es necesario que todas las variables sean numéricas, por lo que vamos a tener que transformar las variables categóricas de tal forma que puedan ser representadas con números.

Si las categorias pueden ser traducidas como variables "ordinales", simplemente podemos reemplazarlas por numeros. Ej: "Bajo": 0, "Medio": 1 y "Alto": 2.

Pero si las categorias no tienen ningun orden intrínseco, suele ser una mejor opción crear variables "dummies", es decir, nuevas columnas con valores 0 ó 1 para cada una de las categorias. Esto se conoce como *One Hot Encoder*.

In [None]:
#En primer lugar, vamos a eliminar la variable "Name" y "Ticket" porque no nos van a ser de utilidad
# ya que cada fila tiene un valor distinto

In [None]:
data.drop(['Name', 'Ticket'], axis=1, inplace=True)

In [None]:
#Por ejemplo, veamos cuantas mujeres y hombres estuvieron embarcados:
data['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [None]:
#Vamos a transformar en dummies las varibles Sex y Embarked
data = pd.get_dummies(data, columns=["Sex", "Embarked"], prefix=["Sex", "Embarked"])

In [None]:
# otra forma para transformar las columnas en dummies:
#data['Sex'].replace(['female','male'],[0,1])

In [None]:
# podemos transformarla en dummies con el metodo map:
# data['Sex'].map{[female:0],[male:0]}

In [None]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Cabin,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S
0,1,0,3,-0.530377,0.432793,-0.473674,-0.502445,,0,1,0,0,1
1,2,1,1,0.571831,0.432793,-0.473674,0.786845,C85,1,0,1,0,0
2,3,1,3,-0.254825,-0.474545,-0.473674,-0.488854,,1,0,0,0,1
3,4,1,1,0.365167,0.432793,-0.473674,0.42073,C123,1,0,0,0,1
4,5,0,3,0.365167,-0.474545,-0.473674,-0.486337,,0,1,0,0,1


In [None]:
#Si vemos cuantos 1's tenemos en Sex_female y Sex_male debería coincidir con la cantidad de mujeres y hombres que teniamos antes
data['Sex_male'].sum()


577

In [None]:
data['Sex_female'].sum()

314

## Imputación de datos faltantes

En el curso anterior vimos el método .fillna() para llenar los datos faltantes. Ahora vamos a usar los métodos que nos ofrece **scikit-learn**.

[*SimpleImputer*](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer): nos permite llevar acabo las estrategias básicas de imputación de datos. Entre las opciones que tenemos son: mean, median, most frequent, constant.

[*IterativeImputer*](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html#sklearn.impute.IterativeImputer): permite realizar la imputación de los datos faltantes teniendo en cuenta todos los atributos del dataset (imputación multivariada).

In [None]:
#Tenemos datos faltantes?
data.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Age            177
SibSp            0
Parch            0
Fare             0
Cabin          687
Sex_female       0
Sex_male         0
Embarked_C       0
Embarked_Q       0
Embarked_S       0
dtype: int64

In [None]:
#Elimnamos la columna Cabin porque tiene demasiados datos faltantes (no resulta informativa)
data.drop('Cabin', axis=1, inplace=True)

In [None]:
#Importamos la clase SimpleImputer
from sklearn.impute import SimpleImputer

In [None]:
#Crearmos un objeto SimpleImputer con la estrategia elegida
imputer = SimpleImputer(missing_values = np.nan,
                        strategy ='most_frequent')
# Ajustamos los datos al objeto imputer (en este caso sería calcular el promedio de la columna)
imputer = imputer.fit(data)

#Guardamos los nombres de las columnas
col = data.columns

# Imputamos los datos faltantes
data = pd.DataFrame(imputer.transform(data), columns=col)

In [None]:
data.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Age            0
SibSp          0
Parch          0
Fare           0
Sex_female     0
Sex_male       0
Embarked_C     0
Embarked_Q     0
Embarked_S     0
dtype: int64

## Detección de datos atípicos(outliers)

scikit-learn nos ofrece una gran variedad de estrategias para detectar outliers. Un resumen de las opciones disponibles puede encontrarse [aqui](https://scikit-learn.org/stable/modules/outlier_detection.html)

En esta oportunidad vamos a utilizar un método que se llama [*Local Outlier Factor*](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.LocalOutlierFactor.html#sklearn.neighbors.LocalOutlierFactor) (LOF). La idea detrás de este método es sencilla: va a considerar outlier a cualquier punto que esté muy alejado de todos los demás, en otras palabras, un punto que tenga una muy baja densidad de datos cerca.

![](https://drive.google.com/uc?export=view&id=1_7PdC3TPtwJcCizYs4ODkoLBgz6qARdK)


In [None]:
from sklearn.neighbors import LocalOutlierFactor

.fit_predict() va a devolver para cada una de mis filas si el método la predijo como un outlier (-1) o no (1).

In [None]:
lof_outlier = LocalOutlierFactor(n_neighbors=5)
outlier_scores = lof_outlier.fit_predict(data)

In [None]:
#Cantidad de outliers detectados
sum(outlier_scores == -1)

15

In [None]:
#Elimino los outliers de mis datos
mask = outlier_scores != -1
data = data.loc[mask,:]

In [None]:
data.shape

(876, 12)

**¡Listo!** Luego de todos estos pasos ya estamos preparados para comenzar a darle forma a un modelo de aprendizaje automático. De todas formas, en el proceso de crear y entrenar nuestro modelo es común que surja algún problema que nos obligue a volver un par de pasos atrás y repensar el preprocesamiento que hicimos. ¡Asi que a estar atentos!

# tarea-ejercicio:

OBJETIVO: PREDECIR EL PRECIO DE LAS PROPIEDADES

el orden del preprocesamiento es importante:
1. exploracion de datos- seleccion de columnas de interes
2. estandarizacion y codificacion de datos
3. imputacion de datos faltantes
4. deteccion de outliers

## exploracion de datos:

In [None]:
import numpy as np
import pandas as pd

In [None]:
data2 = pd.read_csv('melb_data.csv')

In [None]:
data2.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [None]:
data2.shape

(13580, 21)

In [None]:
data2.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [None]:
data2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         13580 non-null  object 
 1   Address        13580 non-null  object 
 2   Rooms          13580 non-null  int64  
 3   Type           13580 non-null  object 
 4   Price          13580 non-null  float64
 5   Method         13580 non-null  object 
 6   SellerG        13580 non-null  object 
 7   Date           13580 non-null  object 
 8   Distance       13580 non-null  float64
 9   Postcode       13580 non-null  float64
 10  Bedroom2       13580 non-null  float64
 11  Bathroom       13580 non-null  float64
 12  Car            13518 non-null  float64
 13  Landsize       13580 non-null  float64
 14  BuildingArea   7130 non-null   float64
 15  YearBuilt      8205 non-null   float64
 16  CouncilArea    12211 non-null  object 
 17  Lattitude      13580 non-null  float64
 18  Longti

## Estandarizacion:

In [None]:
from sklearn.preprocessing import StandardScaler
#aqui elegimos StardardScaler como metodo de Estandarizacion, pero podria ser otro como Minmax:
#from sklearn.preprocessing import MinMaxScaler

In [None]:
data2.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [None]:
#dejamos afuera algunas variables numericas:
#el precio, porque es la variable que queremos predecir
#los datos que tienen fechas asi como estan no nos sirven, debemos aplicarle un metodo de pandas que sirve para calcular
#el tiempo de acuerdo a la fecha actual (por ejemplo en "YearBuilt", nos puede devolver los años de antiguedad)

columnas_de_interes_numericas = ['Rooms', 'Distance','Bedroom2','Bathroom', 'Car','Landsize', 'BuildingArea']
data2[columnas_de_interes_numericas].head()

Unnamed: 0,Rooms,Distance,Bedroom2,Bathroom,Car,Landsize,BuildingArea
0,2,2.5,2.0,1.0,1.0,202.0,
1,2,2.5,2.0,1.0,0.0,156.0,79.0
2,3,2.5,3.0,2.0,0.0,134.0,150.0
3,3,2.5,3.0,2.0,1.0,94.0,
4,4,2.5,3.0,1.0,2.0,120.0,142.0


In [None]:
#Aplicamos la estandarizacion a las variables de interes
scaler = StandardScaler()

data2[columnas_de_interes_numericas] = scaler.fit_transform(data2[columnas_de_interes_numericas])

data2[columnas_de_interes_numericas].describe()

Unnamed: 0,Rooms,Distance,Bedroom2,Bathroom,Car,Landsize,BuildingArea
count,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0
mean,-2.595208e-16,-6.69731e-17,1.590611e-16,-8.790219000000001e-17,6.728027000000001e-17,2.092909e-18,-1.9931070000000003e-17
std,1.000037,1.000037,1.000037,1.000037,1.000037,1.000037,1.00007
min,-2.027803,-1.727488,-3.017674,-2.218118,-1.672636,-0.1399356,-0.2809135
25%,-0.9814634,-0.6880412,-0.9470352,-0.7723755,-0.6337802,-0.0955805,-0.1090022
50%,0.06487613,-0.159798,0.08828423,-0.7723755,0.4050752,-0.02967434,-0.04800143
75%,0.06487613,0.4877259,0.08828423,0.6733667,0.4050752,0.02320094,0.04072699
max,7.389253,6.468802,17.68871,9.34782,8.715918,108.3707,82.00546


## Codificacion:

volvemos a mirar las columnas:

In [None]:
data2.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

tomamos las columnas categoricas, es decir, de strings y vemos cuantas categorias tienen. Si son pocas es posible hacerle la codificacion sin problemas: por ejemplo en "Type" o "RegionName" tenemos pocas categorias:

In [None]:
data2['Type'].value_counts()

h    9449
u    3017
t    1114
Name: Type, dtype: int64

In [None]:
#frecuencia absoluta: es decir cantidad de veces que aparece una categoria
data2['Regionname'].value_counts()

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

In [None]:
#frecuencia relativa: es decir proporcion de cada categoria:
#data2['Regionname'].value_counts()/len(data2)

#si quisieramos el porcentaje hariamos *100:
data2['Regionname'].value_counts()/len(data2)*100

Southern Metropolitan         34.572901
Northern Metropolitan         28.645066
Western Metropolitan          21.708395
Eastern Metropolitan          10.832106
South-Eastern Metropolitan     3.313697
Eastern Victoria               0.390280
Northern Victoria              0.301915
Western Victoria               0.235641
Name: Regionname, dtype: float64

En "suburbio" tenemos un problema (demasiadas categorias):

In [None]:
data2['Suburb'].value_counts()/len(data2)*100

Reservoir         2.643594
Richmond          1.914580
Bentleigh East    1.833579
Preston           1.759941
Brunswick         1.634757
                    ...   
Sandhurst         0.007364
Bullengarook      0.007364
Croydon South     0.007364
Montrose          0.007364
Monbulk           0.007364
Name: Suburb, Length: 314, dtype: float64

En este caso podemos:
1. crear un grupo nuevo ("otros) y poner las categorias con menos frecuencia.
2. Eliminar esas categorias

lo conveniente es aislar esa columna en una nueva variable para poder manipularla:

In [None]:
suburbio = data2['Suburb']


In [None]:
#reemplazamos las categorias con menos frecuencia y las incluimos en una nueva "Otros"
#data2['Suburb'].replace({'Sandhurst':'otros','Bullengarook':'otros', 'Croydon South':'otros'},inplace = True)

#opcion2
data2['Suburb'].replace(['Sandhurst','Bullengarook','Croydon South'],['otros','otros','otros'], inplace = True)

#version pro que pasa las categorias con menos de 10 filas a la categoria "otras"
#otras = data2['Suburb'].value_counts().loc[lambda x : x < 10].index
data2['Suburb'].value_counts()

Reservoir         359
Richmond          260
Bentleigh East    249
Preston           239
Brunswick         222
                 ... 
Healesville         1
Upwey               1
Bacchus Marsh       1
Rockbank            1
Monbulk             1
Name: Suburb, Length: 312, dtype: int64

In [None]:
data2 = pd.get_dummies(data2, columns=["Type", 'Regionname'], prefix=["Type",'Regionname'])
#aqui para evitar que se elimine la columna "Type" quiza es mejor guardarlo en una variable nueva, sino
#para resetear hay que volver a cargar el dataset

In [None]:
data2.columns

Index(['Suburb', 'Address', 'Rooms', 'Price', 'Method', 'SellerG', 'Date',
       'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car', 'Landsize',
       'CouncilArea', 'Lattitude', 'Longtitude', 'Propertycount', 'Type_h',
       'Type_t', 'Type_u', 'Regionname_Eastern Metropolitan',
       'Regionname_Eastern Victoria', 'Regionname_Northern Metropolitan',
       'Regionname_Northern Victoria', 'Regionname_South-Eastern Metropolitan',
       'Regionname_Southern Metropolitan', 'Regionname_Western Metropolitan',
       'Regionname_Western Victoria'],
      dtype='object')

podemos constatar que la codificacion de la columna type se realizo con exito ya que al sumar las filas con datos (1) de las 3 columnas nos retorna el total de filas: 13580

In [None]:
data2[['Type_h', 'Type_t', 'Type_u']].head()


Unnamed: 0,Type_h,Type_t,Type_u
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0


In [None]:
data2['Type_h'].sum()

9449

In [None]:
data2['Type_t'].sum()

1114

In [None]:
data2['Type_u'].sum()

3017

## Imputación de datos faltantes

In [None]:
#Tenemos datos faltantes?
data2.isna().sum()

Suburb              0
Address             0
Rooms               0
Type                0
Price               0
Method              0
SellerG             0
Date                0
Distance            0
Postcode            0
Bedroom2            0
Bathroom            0
Car                62
Landsize            0
BuildingArea     6450
YearBuilt        5375
CouncilArea      1369
Lattitude           0
Longtitude          0
Regionname          0
Propertycount       0
dtype: int64

In [None]:
#Elimnamos la columna BuildingArea y  YearBuilt  porque tiene demasiados datos faltantes (no resulta informativa)
data2.drop('YearBuilt', axis=1, inplace=True)
data2.drop('BuildingArea', axis=1, inplace=True)

In [None]:
#Importamos la clase SimpleImputer
from sklearn.impute import SimpleImputer

In [None]:
#Crearmos un objeto SimpleImputer con la estrategia elegida
imputadorLoco = SimpleImputer(missing_values = np.nan,
                        strategy ='most_frequent')
# Ajustamos los datos al objeto imputer (en este caso sería calcular el promedio de la columna)
imputadorLoco = imputadorLoco.fit(data2)

#aqui tal vez podriamos elegir las columnas especificas y no todas, averiguar!
columnasDatosFaltantes = data2.columns

# Imputamos los datos faltantes
data2 = pd.DataFrame(imputadorLoco.transform(data2), columns=columnasDatosFaltantes)

In [None]:
data2.isna().sum()

Suburb           0
Address          0
Rooms            0
Type             0
Price            0
Method           0
SellerG          0
Date             0
Distance         0
Postcode         0
Bedroom2         0
Bathroom         0
Car              0
Landsize         0
CouncilArea      0
Lattitude        0
Longtitude       0
Regionname       0
Propertycount    0
dtype: int64

## Detección de datos atípicos(outliers)

In [None]:
from sklearn.neighbors import LocalOutlierFactor

In [None]:
#no me dejo buscar outliers sobre el df completo ya que existen columnas con strings:

caca_out = LocalOutlierFactor() #objeto booleano
pis_out = caca_out.fit_predict(data2[["Rooms", "Car","Bathroom"]])

In [None]:
#Cantidad de outliers detectados
sum(pis_out == -1)

269

In [None]:
pis_out

array([ 1,  1,  1, ...,  1, -1,  1])

In [None]:
#la variable mascara sirve para transformar la variable anterior que era un array de 1 y -1 y lo transforma en un booleano
mascara = pis_out != -1


In [None]:
mascara

array([ True,  True,  True, ...,  True, False,  True])

In [None]:
#si quiero ver los outliers antes de elimimarlos puedo hacer lo contrario que en mascara:
mascara2 = pis_out != 1

In [None]:
#veo los outliers:
data2.loc[mascara2,:]

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
61,Airport West,138 Victory Rd,0.064876,h,1042000.0,S,Nelson,16/07/2016,0.572926,3042.0,0.088284,0.673367,3.521641,0.013428,Moonee Valley,-37.7173,144.8796,Western Metropolitan,3464.0
126,Alphington,4/2 Miller St,-0.981463,t,805000.0,S,Miles,12/11/2016,-0.636921,3078.0,-0.947035,0.673367,1.443931,-0.101094,Darebin,-37.7804,145.0308,Northern Metropolitan,2211.0
240,Armadale,10 William St,-2.027803,h,1435000.0,SP,Jellis,8/10/2016,-0.653961,3143.0,-0.947035,0.673367,-0.63378,-0.10385,Stonnington,-37.8564,145.0228,Southern Metropolitan,4836.0
251,Armadale,367 Dandenong Rd,3.203895,h,5525000.0,S,Marshall,17/09/2016,-0.653961,3143.0,2.158923,2.119109,2.482786,0.2337,Stonnington,-37.8602,145.013,Southern Metropolitan,4836.0
255,Armadale,31 Hume St,-0.981463,h,1900000.0,VB,Jellis,18/03/2017,-0.653961,3143.0,-0.947035,0.673367,-1.672636,-0.088063,Stonnington,-37.8571,145.0224,Southern Metropolitan,4836.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13483,Maribyrnong,88 The Esplanade,0.064876,h,3400000.0,SP,Jas,26/08/2017,-0.994763,3032.0,0.088284,-0.772376,3.521641,0.368018,Moreland,-37.7657,144.89109,Western Metropolitan,4918.0
13503,Mount Waverley,17 Huntingtower Cr,3.203895,h,1840000.0,S,Jellis,26/08/2017,0.692207,3149.0,3.194242,0.673367,0.405075,-0.001107,Moreland,-37.87591,145.13958,Eastern Metropolitan,13366.0
13513,Oakleigh South,33 Guest Rd,-0.981463,h,985000.0,PI,Woodards,26/08/2017,0.913729,3167.0,-0.947035,0.673367,-1.672636,0.010421,Moreland,-37.91344,145.09347,South-Eastern Metropolitan,3692.0
13527,Reservoir,1 Don St,1.111216,h,1112000.0,S,RW,26/08/2017,0.317325,3073.0,1.123604,0.673367,8.715918,0.111159,Moreland,-37.70671,145.03086,Northern Metropolitan,21650.0


In [None]:
#transformo el data2 con las filas de mascara
data2 = data2.loc[mascara,:]

In [None]:
data2.shape

(13311, 28)