## Data frames

En el curso se utilizaran data frames de dos competiciones de Kaggle:

*  **House Prices: Advanced regression techniques** https://www.kaggle.com/c/house-prices-advanced-regression-techniques : el objetivo de esta competición es predecir el valor de venta de propiedades a partir de características como la superfície o el año de venta

*  **Titanic: Machine Learning from Disaster** https://www.kaggle.com/c/titanic : predecir supervivencia / no supervivencia al accidente del Titanic, en base a características como la edad o la tarifa del viaje

Para importar datos en formato csv, se utiliza la función `read.csv()`. Los principales parámetros que hay que pasar a la función son los siguientes:

*  **file**: ruta del archivo csv
*  **sep** (opcional): simbolo de separación de campos. Por defecto, la separación es una coma `,`, en caso que nuestros datos tengan un formato diferente (por ejemplo, separados por `;`), deberemos pasar este parámetro
*  **dec** (opcional): simbolo de separación de miles. Por defecto, se utiliza el punto `.`, en caso que los datos utilicen la coma `,`, deberemos pasar este parámetro

In [19]:
houses_train <- read.csv(file = "data/houses_train.csv", sep = ",", dec = ".")
head(houses_train)

Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
1,60,RL,65,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
2,20,RL,80,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
3,60,RL,68,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
4,70,RL,60,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
5,60,RL,84,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
6,50,RL,85,14115,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,Shed,700,10,2009,WD,Normal,143000


En primer lugar, podemos estudiar las dimensiones que tiene el dataframe. Las funciones `nrow()` y `ncol()` devuelven el número de filas y de columnas respectivamente de un data frame:

In [20]:
print(paste("Data frame con ", nrow(houses_train), " filas y ", ncol(houses_train), " columnas"))

[1] "Data frame con  1460  filas y  81  columnas"


También podemos estudiar que campos tiene el data frame. En este caso, `Id` es un identificador de la vivienda (no se usa para predecir) y `SalePrice` es el campo a predecir:

In [21]:
colnames(houses_train)

Incluso, podemos guardar en una variable todas aquellas columnas que contienen valores numéricos, separando así aquellas columnas que contienen valores numéricos de aquellas que tienen variables categóricas o de texto:

In [24]:
numeric_features <- unlist(lapply(houses_train, is.numeric))
print(numeric_features)

           Id    MSSubClass      MSZoning   LotFrontage       LotArea 
         TRUE          TRUE         FALSE          TRUE          TRUE 
       Street         Alley      LotShape   LandContour     Utilities 
        FALSE         FALSE         FALSE         FALSE         FALSE 
    LotConfig     LandSlope  Neighborhood    Condition1    Condition2 
        FALSE         FALSE         FALSE         FALSE         FALSE 
     BldgType    HouseStyle   OverallQual   OverallCond     YearBuilt 
        FALSE         FALSE          TRUE          TRUE          TRUE 
 YearRemodAdd     RoofStyle      RoofMatl   Exterior1st   Exterior2nd 
         TRUE         FALSE         FALSE         FALSE         FALSE 
   MasVnrType    MasVnrArea     ExterQual     ExterCond    Foundation 
        FALSE          TRUE         FALSE         FALSE         FALSE 
     BsmtQual      BsmtCond  BsmtExposure  BsmtFinType1    BsmtFinSF1 
        FALSE         FALSE         FALSE         FALSE          TRUE 
 BsmtF

Para ello, se usa una función bastante útil para trabajar con data frames: `apply()` ( `lapply()` usada anteriormente es una simplificación de la función `apply()`). Esta función recibe un data frame y otra función (en este caso, `is.numeric()`, que comprueva si un vector es del tipo numerico) y aplica dicha función a todas las filas o columnas del data frame, según se especifique `1`  para filas o `2` para columnas en el parámetro `MARGIN`. Otros ejemplos de uso de la función `apply()` son:

In [27]:
# check de que filas tienen parámetros missing
missing_rows <- apply(X = is.na(houses_train), MARGIN = 1, FUN = any)
print(missing_rows)

# en este caso, el mismo resultado se puede obtener con la función complete.cases(houses_train)

   [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [15] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [29] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [43] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [57] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [71] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [85] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
  [99] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [113] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [127] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [141] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [155] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [169] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

In [26]:
# calcular los valores medios de los features numéricos
mean_values <- apply(houses_train[numeric_features], MARGIN = 2, mean, na.rm = T)
print(mean_values)

           Id    MSSubClass   LotFrontage       LotArea   OverallQual 
 7.305000e+02  5.689726e+01  7.004996e+01  1.051683e+04  6.099315e+00 
  OverallCond     YearBuilt  YearRemodAdd    MasVnrArea    BsmtFinSF1 
 5.575342e+00  1.971268e+03  1.984866e+03  1.036853e+02  4.436397e+02 
   BsmtFinSF2     BsmtUnfSF   TotalBsmtSF     X1stFlrSF     X2ndFlrSF 
 4.654932e+01  5.672404e+02  1.057429e+03  1.162627e+03  3.469925e+02 
 LowQualFinSF     GrLivArea  BsmtFullBath  BsmtHalfBath      FullBath 
 5.844521e+00  1.515464e+03  4.253425e-01  5.753425e-02  1.565068e+00 
     HalfBath  BedroomAbvGr  KitchenAbvGr  TotRmsAbvGrd    Fireplaces 
 3.828767e-01  2.866438e+00  1.046575e+00  6.517808e+00  6.130137e-01 
  GarageYrBlt    GarageCars    GarageArea    WoodDeckSF   OpenPorchSF 
 1.978506e+03  1.767123e+00  4.729801e+02  9.424452e+01  4.666027e+01 
EnclosedPorch    X3SsnPorch   ScreenPorch      PoolArea       MiscVal 
 2.195411e+01  3.409589e+00  1.506096e+01  2.758904e+00  4.348904e+01 
      

Importado del restos de dataframes a usar en el curso. Dado que los data frames están en el formato por defecto, no es necesario pasar los parámetros `sep` y `dec`:

In [7]:
houses_test <- read.csv("data/houses_test.csv")

titanic_train <- read.csv("data/titanic_train.csv")
titanic_test <- read.csv("data/titanic_test.csv")

### Subsetting dataframes

En primer lugar, se puede **obtener una columna del data frame** usando el simbolo `$`. Así, para obtener la columna `SalePrice` del data frame:

In [28]:
sale_price <- houses_train$SalePrice
print(sale_price)

   [1] 208500 181500 223500 140000 250000 143000 307000 200000 129900 118000
  [11] 129500 345000 144000 279500 157000 132000 149000  90000 159000 139000
  [21] 325300 139400 230000 129900 154000 256300 134800 306000 207500  68500
  [31]  40000 149350 179900 165500 277500 309000 145000 153000 109000  82000
  [41] 160000 170000 144000 130250 141000 319900 239686 249700 113000 127000
  [51] 177000 114500 110000 385000 130000 180500 172500 196500 438780 124900
  [61] 158000 101000 202500 140000 219500 317000 180000 226000  80000 225000
  [71] 244000 129500 185000 144900 107400  91000 135750 127000 136500 110000
  [81] 193500 153500 245000 126500 168500 260000 174000 164500  85000 123600
  [91] 109900  98600 163500 133900 204750 185000 214000  94750  83000 128950
 [101] 205000 178000 118964 198900 169500 250000 100000 115000 115000 190000
 [111] 136900 180000 383970 217000 259500 176000 139000 155000 320000 163990
 [121] 180000 100000 136000 153900 181000  84500 128000  87000 155000 150000

También podemos **obtener diversos campos del data frame** original en una única selección. Para ello, incluimos en un vector el listado de campos a seleccionar. El resultado de la selección es un nuevo data frame con el mismo número de filas, y los campos seleccionados.

In [30]:
select_features <- c("LotArea", "PoolArea")
select_data_frame <- houses_train[select_features]

print(select_data_frame)

     LotArea PoolArea
1       8450        0
2       9600        0
3      11250        0
4       9550        0
5      14260        0
6      14115        0
7      10084        0
8      10382        0
9       6120        0
10      7420        0
11     11200        0
12     11924        0
13     12968        0
14     10652        0
15     10920        0
16      6120        0
17     11241        0
18     10791        0
19     13695        0
20      7560        0
21     14215        0
22      7449        0
23      9742        0
24      4224        0
25      8246        0
26     14230        0
27      7200        0
28     11478        0
29     16321        0
30      6324        0
31      8500        0
32      8544        0
33     11049        0
34     10552        0
35      7313        0
36     13418        0
37     10859        0
38      8532        0
39      7922        0
40      6040        0
41      8658        0
42     16905        0
43      9180        0
44      9200        0
45      79