# Preprocesamiento de datasets

#### En esta sección tomaremos el conjunto de datasets y los iremos unificando y manipulando con la información que se considere necesaria, teniendo como resultado un solo dataset al que se le puede aplicar un modelo de machine learning.

### Cargo los archivos

A continuación cargamos los csv que contiene la venta de departamentos entre el año 2007 y el 2015

In [1]:
dep2007 <- read.csv(file="departamentos-en-venta-2007.csv",sep=';',header=T)
dep2008 <- read.csv(file="departamentos-en-venta-2008.csv",sep=';',header=T)
dep2009 <- read.csv(file="departamentos-en-venta-2009.csv",sep=';',header=T)
dep2010 <- read.csv(file="departamentos-en-venta-2010.csv",sep=';',header=T)
dep2011 <- read.csv(file="departamentos-en-venta-2011.csv",sep=';',header=T)
dep2012 <- read.csv(file="departamentos-en-venta-2012.csv",sep=';',header=T)
dep2013 <- read.csv(file="departamentos-en-venta-2013.csv",sep=';',header=T)
dep2014 <- read.csv(file="departamentos-en-venta-2014.csv",sep=';',header=T)
dep2015 <- read.csv(file="departamentos-en-venta-2015.csv",sep=';',header=T)

### Comparo las columnas que tienen en común

Imprimo los nombres de cada csv cargado anteriormente para observar las columnas que tienen en común y luego filtrar aquellas que no tienen en común (como una columna que contenga un csv y el otro no)

In [2]:
paste(colnames(dep2007),collapse = ' | ')
paste(colnames(dep2008),collapse = ' | ')
paste(colnames(dep2009),collapse = ' | ')
paste(colnames(dep2010),collapse = ' | ')
paste(colnames(dep2011),collapse = ' | ')
paste(colnames(dep2012),collapse = ' | ')
paste(colnames(dep2013),collapse = ' | ')
paste(colnames(dep2014),collapse = ' | ')
paste(colnames(dep2015),collapse = ' | ')

### Filtro por columnas en común

Tomamos todos los datasets y los filtramos por las columnas que tengan en común. Es necesario renombrar algunas columnas del dataset dep2015 para que tengan el mismo nombre que las otras columnas.

In [3]:
columnas <- c('CALLE','NUMERO','M2','DOLARES','U_S_M2','AMBIENTES','ANTIGUEDAD','BAULERA'
              ,'COCHERA','BAÑOS','LAVADERO','TERRAZA','BARRIO','COMUNA','LON','LAT')

In [4]:
colnames(dep2015)[colnames(dep2015) == "BAUL"] <- "BAULERA"
colnames(dep2015)[colnames(dep2015) == "BAÑO"] <- "BAÑOS"
colnames(dep2015)[colnames(dep2015) == "BARRIOS"] <- "BARRIO"
colnames(dep2015)[colnames(dep2015) == "LONGITUD"] <- "LON"
colnames(dep2015)[colnames(dep2015) == "LATITUD"] <- "LAT"

In [5]:
dep2007 <- dep2007[,which((names(dep2007) %in% columnas) == TRUE)]
dep2008 <- dep2008[,which((names(dep2008) %in% columnas) == TRUE)]
dep2009 <- dep2009[,which((names(dep2009) %in% columnas) == TRUE)]
dep2010 <- dep2010[,which((names(dep2010) %in% columnas) == TRUE)]
dep2011 <- dep2011[,which((names(dep2011) %in% columnas) == TRUE)]
dep2012 <- dep2012[,which((names(dep2012) %in% columnas) == TRUE)]
dep2013 <- dep2013[,which((names(dep2013) %in% columnas) == TRUE)]
dep2014 <- dep2014[,which((names(dep2014) %in% columnas) == TRUE)]
dep2015 <- dep2015[,which((names(dep2015) %in% columnas) == TRUE)]

### Verifico que los datasets tengan las mismas columnas

Esto es para corroborar que los cambios se hayan efectuado correctamente con la reciente implementación

In [6]:
paste(colnames(dep2007),collapse = ' | ')
paste(colnames(dep2008),collapse = ' | ')
paste(colnames(dep2009),collapse = ' | ')
paste(colnames(dep2010),collapse = ' | ')
paste(colnames(dep2011),collapse = ' | ')
paste(colnames(dep2012),collapse = ' | ')
paste(colnames(dep2013),collapse = ' | ')
paste(colnames(dep2014),collapse = ' | ')
paste(colnames(dep2015),collapse = ' | ')

### Unificando datasets

A continuación se unificarán todos los datasets en uno solo. Por empezar, vamos a ir comprobando la cantidad de filas de cada dataset para verificar si la suma de las filas de todos los datasets es la cantidad de filas del dataset resultante

In [16]:
paste(nrow(dep2007),"+",nrow(dep2008),"+",nrow(dep2009),"+",nrow(dep2010),"+",nrow(dep2011),
      "+",nrow(dep2012),"+",nrow(dep2013),"+",nrow(dep2014),"+",nrow(dep2015),"=")
nrow(dep2007)+nrow(dep2008)+nrow(dep2009)+nrow(dep2010)+nrow(dep2011)+nrow(dep2012)+
nrow(dep2013)+nrow(dep2014)+nrow(dep2015)

In [17]:
df <- rbind(dep2007,dep2008,dep2009,dep2010,dep2011,dep2012,dep2013,dep2014,dep2015)

In [19]:
paste(colnames(df),collapse = ' | ')

In [20]:
nrow(df)

### Guardando el dataset en un nuevo archivo csv

Guardamos este resultado en un csv así para el próximo preprocesamiento ya usamos diretamente este dataframe

In [21]:
write.csv(df, file = "venta_departamentos.csv")