## Data frames

En el curso se utilizaran data frames de dos competiciones de Kaggle:

*  **House Prices: Advanced regression techniques** https://www.kaggle.com/c/house-prices-advanced-regression-techniques : el objetivo de esta competición es predecir el valor de venta de propiedades a partir de características como la superfície o el año de venta

*  **Titanic: Machine Learning from Disaster** https://www.kaggle.com/c/titanic : predecir supervivencia / no supervivencia al accidente del Titanic, en base a características como la edad o la tarifa del viaje

Para importar datos en formato csv, se utiliza la función `read.csv()`. Los principales parámetros que hay que pasar a la función son los siguientes:

*  **file**: ruta del archivo csv
*  **sep** (opcional): simbolo de separación de campos. Por defecto, la separación es una coma `,`, en caso que nuestros datos tengan un formato diferente (por ejemplo, separados por `;`), deberemos pasar este parámetro
*  **dec** (opcional): simbolo de separación de miles. Por defecto, se utiliza el punto `.`, en caso que los datos utilicen la coma `,`, deberemos pasar este parámetro

In [3]:
houses_train <- read.csv(file = "data/houses_train.csv", sep = ",", dec = ".")
head(houses_train)

Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
1,60,RL,65,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
2,20,RL,80,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
3,60,RL,68,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
4,70,RL,60,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
5,60,RL,84,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
6,50,RL,85,14115,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,Shed,700,10,2009,WD,Normal,143000


En primer lugar, podemos estudiar las dimensiones que tiene el dataframe. Las funciones `nrow()` y `ncol()` devuelven el número de filas y de columnas respectivamente de un data frame:

In [12]:
print(paste("Data frame con ", nrow(houses_train), " filas y ", ncol(houses_train), " columnas"))

[1] "Data frame con  1460  filas y  81  columnas"


También podemos estudiar que campos tiene el data frame. En este caso, `Id` es un identificador de la vivienda (no se usa para predecir) y `SalePrice` es el campo a predecir

In [6]:
colnames(houses_train)

Incluso, podemos guardar en una variable todas aquellas columnas que contienen valores numéricos, separando así aquellas columnas que contienen valores numéricos de aquellas que tienen variables categóricas o de texto.

In [34]:
numeric_features <- unlist(apply(X = houses_train, MARGIN = 2, FUN = is.numeric))
print(numeric_features)

           Id    MSSubClass      MSZoning   LotFrontage       LotArea 
        FALSE         FALSE         FALSE         FALSE         FALSE 
       Street         Alley      LotShape   LandContour     Utilities 
        FALSE         FALSE         FALSE         FALSE         FALSE 
    LotConfig     LandSlope  Neighborhood    Condition1    Condition2 
        FALSE         FALSE         FALSE         FALSE         FALSE 
     BldgType    HouseStyle   OverallQual   OverallCond     YearBuilt 
        FALSE         FALSE         FALSE         FALSE         FALSE 
 YearRemodAdd     RoofStyle      RoofMatl   Exterior1st   Exterior2nd 
        FALSE         FALSE         FALSE         FALSE         FALSE 
   MasVnrType    MasVnrArea     ExterQual     ExterCond    Foundation 
        FALSE         FALSE         FALSE         FALSE         FALSE 
     BsmtQual      BsmtCond  BsmtExposure  BsmtFinType1    BsmtFinSF1 
        FALSE         FALSE         FALSE         FALSE         FALSE 
 BsmtF

Para ello, se usa una función bastante útil para trabajar con data frames: `apply()`. Esta función recibe un data frame y otra función (en este caso, `is.numeric()`, que comprueva si un vector es del tipo numerico) y aplica dicha función a todas las filas o columnas del data frame, según se especifique `1`  para filas o `2` para columnas en el parámetro `MARGIN`. Otros ejemplos de uso de la función `apply()` son:

In [30]:
# check de que filas tienen parámetros missing
missing_rows <- apply(is.na(houses_train), 1, any)
print(missing_rows)

   [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [15] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [29] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [43] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [57] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [71] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [85] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [99] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [113] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [127] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [141] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [155] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [169] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

In [42]:
# calcular los valores medios de los features numéricos
auxmean <- function(x){return(mean(x, na.rm = T))}

mean_values <- apply(houses_train[, numeric_features], 2, auxmean)
print(mean_values)

numeric(0)


Importado del restos de dataframes a usar en el curso. Dado que los data frames están en el formato por defecto, no es necesario pasar los parámetros `sep` y `dec`:

In [7]:
houses_test <- read.csv("data/houses_test.csv")

titanic_train <- read.csv("data/titanic_train.csv")
titanic_test <- read.csv("data/titanic_test.csv")

### Subsetting dataframes

In [39]:
?mean()