<!--Header-->
<div>
    <div class="row" style="color: #4D4D4D;font-size: 15px;padding-bottom: 20px">
        <div class="col-md-7">
            <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc.png" alt="Logo UOC" class="img-responsive" style="margin:20px 0px 0px">
        </div>
        <div class="col-md-5">
            <h1 style="margin:15px 0px 0px;font-size: 40px;">Manipulació de dades amb la llibreria dplyr</h1>
            <div style="text-align:left;margin-top: 5px;"></div>
        </div>
    </div>
    <div class="row" style="background: #FCB517;padding: 10px 20px;">
        <div class="col-md-6">
            <div>PID_00233252</div>
        </div>
        <div class="col-md-6">
            <div style="text-align:right;">Autor: Xavier Duran Albareda <span style="margin-left: 30px;">Coordinació: Julià Minguillón</span></div>
        </div>
    </div>
</div>
<!--/Header-->

# Introducció

En aquesta activitat farem servir la llibreria [`dplyr`](https://readr.tidyverse.org) per seleccionar i filtrar les dades del nostre _dataset_. [`dplyr`](https://readr.tidyverse.org) forma part de la col·lecció de paquets [`tidyverse`](https://tidyverse.org/), i es defineix com una gramàtica de manipulació de dades.

Les principals funcions són les següents:

- mutate() afegeix noves variables que són funció de variables existents al _dataset_
- select() selecciona les variables pel seu nom
- filter() selecciona casos o files del _dataset_ basat en els seus valors
- summarise() sumaritza múltiples valors a un sol sumari
- arrange() canvia l'ordenació de les variables

<br>
<div class="row">
     <div class="col-sm-3">
        <img src="images/dplyr.png" alt="deplyr">
    </div>
</div>

In [6]:
library(dplyr)

## Conjunt de dades

El conjunt de dades o _dataset_ que farem servir en aquest exemple correspon al de la competició [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic) de [Kaggle](https://www.kaggle.com/).

In [7]:
library(readr)

df = read_csv('data/titanic.csv')
df

Parsed with column specification:
cols(
  PassengerId = col_integer(),
  Survived = col_integer(),
  Pclass = col_integer(),
  Name = col_character(),
  Sex = col_character(),
  Age = col_double(),
  SibSp = col_integer(),
  Parch = col_integer(),
  Ticket = col_character(),
  Fare = col_double(),
  Cabin = col_character(),
  Embarked = col_character()
)


PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.0500,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,349909,21.0750,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,347742,11.1333,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14,1,0,237736,30.0708,,C


# Selecció de columnes

En `R` fem servir les claus `[fila, columna]` per indicar la fila i la columna que volem seleccionar del `DataFrame`. Per exemple, per seleccionar la columna _Name_, farem servir `df[, Name]`, que indica que volem totes les files, però només la columna _Name_.

In [8]:
df[, 'Name']

Name
"Braund, Mr. Owen Harris"
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)"
"Heikkinen, Miss. Laina"
"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
"Allen, Mr. William Henry"
"Moran, Mr. James"
"McCarthy, Mr. Timothy J"
"Palsson, Master. Gosta Leonard"
"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)"
"Nasser, Mrs. Nicholas (Adele Achem)"


## Selecció de columnes amb dplyr

La llibreria `dplyr` ens permet fer-ho d'una altra manera. Amb la funció `select` seleccionarem les columnes, i amb la funció `filter`, les files. El primer paràmetre de la funció serà el _DataFrame_ i  els següents, els noms de les columnes.

In [9]:
select(df, Name)

Name
"Braund, Mr. Owen Harris"
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)"
"Heikkinen, Miss. Laina"
"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
"Allen, Mr. William Henry"
"Moran, Mr. James"
"McCarthy, Mr. Timothy J"
"Palsson, Master. Gosta Leonard"
"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)"
"Nasser, Mrs. Nicholas (Adele Achem)"


Si volem seleccionar més d'una columna, passarem tots els seus noms com a paràmetres de la funció `select`.

In [10]:
select(df, Name, Sex, Age)

Name,Sex,Age
"Braund, Mr. Owen Harris",male,22
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38
"Heikkinen, Miss. Laina",female,26
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35
"Allen, Mr. William Henry",male,35
"Moran, Mr. James",male,
"McCarthy, Mr. Timothy J",male,54
"Palsson, Master. Gosta Leonard",male,2
"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27
"Nasser, Mrs. Nicholas (Adele Achem)",female,14


# Filtrat de files

La manera estàndard de filtrar un _dataset_ és mitjançant una condició en les files. En el següent exemple, filtrem tots els passatgers de menys de 18 anys. La part de la condició `!is.na(df$Age)` és per eliminar aquells que no en tenim l'edat.

In [11]:
df[df$Age < 18 & !is.na(df$Age),]

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
8,0,3,"Palsson, Master. Gosta Leonard",male,2.00,3,1,349909,21.0750,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.00,1,0,237736,30.0708,,C
11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.00,1,1,PP 9549,16.7000,G6,S
15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.00,0,0,350406,7.8542,,S
17,0,3,"Rice, Master. Eugene",male,2.00,4,1,382652,29.1250,,Q
23,1,3,"McGowan, Miss. Anna ""Annie""",female,15.00,0,0,330923,8.0292,,Q
25,0,3,"Palsson, Miss. Torborg Danira",female,8.00,3,1,349909,21.0750,,S
40,1,3,"Nicola-Yarred, Miss. Jamila",female,14.00,1,0,2651,11.2417,,C
44,1,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.00,1,2,SC/Paris 2123,41.5792,,C
51,0,3,"Panula, Master. Juha Niilo",male,7.00,4,1,3101295,39.6875,,S


## Filtrat de files amb dplyr

Si fem servir la funció `filter` del package `dplyr`, queda més clar:

In [12]:
filter(df, Age < 18 & !is.na(Age))

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
8,0,3,"Palsson, Master. Gosta Leonard",male,2.00,3,1,349909,21.0750,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.00,1,0,237736,30.0708,,C
11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.00,1,1,PP 9549,16.7000,G6,S
15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.00,0,0,350406,7.8542,,S
17,0,3,"Rice, Master. Eugene",male,2.00,4,1,382652,29.1250,,Q
23,1,3,"McGowan, Miss. Anna ""Annie""",female,15.00,0,0,330923,8.0292,,Q
25,0,3,"Palsson, Miss. Torborg Danira",female,8.00,3,1,349909,21.0750,,S
40,1,3,"Nicola-Yarred, Miss. Jamila",female,14.00,1,0,2651,11.2417,,C
44,1,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.00,1,2,SC/Paris 2123,41.5792,,C
51,0,3,"Panula, Master. Juha Niilo",male,7.00,4,1,3101295,39.6875,,S


La condició pot ser tan complexa com volguem. Per exemple, a continuació seleccionarem aquells passatgers menors de 21 anys que hagin sobreviscut i fóssin en alguna cabina.

In [13]:
filter(df, Survived == 1 & Age < 21 & !is.na(Cabin))

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
137,1,1,"Newsom, Miss. Helen Monypeny",female,19.0,0,2,11752,26.2833,D47,S
184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S
194,1,2,"Navratil, Master. Michel M",male,3.0,1,1,230080,26.0,F2,S
292,1,1,"Bishop, Mrs. Dickinson H (Helen Walton)",female,19.0,1,0,11967,91.0792,B49,C
306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
308,1,1,"Penasco y Castellana, Mrs. Victor de Satode (Maria Josefa Perez de Soto y Vallejo)",female,17.0,1,0,PC 17758,108.9,C65,C
312,1,1,"Ryerson, Miss. Emily Borie",female,18.0,2,2,PC 17608,262.375,B57 B59 B63 B66,C
330,1,1,"Hippach, Miss. Jean Gertrude",female,16.0,0,1,111361,57.9792,B18,C
341,1,2,"Navratil, Master. Edmond Roger",male,2.0,1,1,230080,26.0,F2,S


# Dividir les dades en dos conjunts de train i test

Un cas molt habitual en problemes de _machine learning_ és haver de dividir el nostre _datatset_ en dos trossos o _splits_: el _dataset_ de _train_ i el _dataset_ de _test_. El _dataset_ de _train_ ens servirà per entrenar el model amb els mètodes de _machine learning_ que escollim. I el _dataset_ de _test_, per avaluar el model a partir de comparar les prediccions del model en aquest últim dataset.

En el cas més habitual, en què les nostres dades no són sèries temporals, dividirem les dades en dos _splits_ aleatoris. A continuació veurem dues de les moltes maneres que tenim per fer-ho.

## Funció sample

La funció [`sample_frac`](https://dplyr.tidyverse.org/reference/sample.html) de `dplyr` retorna una mostra aleatòria del nostre _dataset_. La funció necessita un identificador únic per cada fila, i és el primer que farem. Després crearem el _dataset_ de _train_, especificant la proporció del _dataset_ original que volem, i finalment assignarem al _dataset_ de _test_ la resta de les files que no han estat seleccionades amb la funció [`anti_join`](https://dplyr.tidyverse.org/reference/join.html).

In [17]:
df$id <- 1:nrow(df)
train <- sample_frac(df, .75)
train

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,id
641,0,3,"Jensen, Mr. Hans Peder",male,20,0,0,350050,7.8542,,S,641
742,0,1,"Cavendish, Mr. Tyrell William",male,36,1,0,19877,78.8500,C46,S,742
383,0,3,"Tikkanen, Mr. Juho",male,32,0,0,STON/O 2. 3101293,7.9250,,S,383
203,0,3,"Johanson, Mr. Jakob Alfred",male,34,0,0,3101264,6.4958,,S,203
644,1,3,"Foo, Mr. Choong",male,,0,0,1601,56.4958,,S,644
521,1,1,"Perreault, Miss. Anne",female,30,0,0,12749,93.5000,B73,S,521
534,1,3,"Peter, Mrs. Catherine (Catherine Rizk)",female,,0,2,2668,22.3583,,C,534
726,0,3,"Oreskovic, Mr. Luka",male,20,0,0,315094,8.6625,,S,726
855,0,2,"Carter, Mrs. Ernest Courtenay (Lilian Hughes)",female,44,1,0,244252,26.0000,,S,855
341,1,2,"Navratil, Master. Edmond Roger",male,2,1,1,230080,26.0000,F2,S,341


In [18]:
test  <- anti_join(df, train, by = 'id')
test

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,id
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.00,1,0,237736,30.0708,,C,10
19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vandemoortele)",female,31.00,1,0,345763,18.0000,,S,19
20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,,C,20
27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.2250,,C,27
30,0,3,"Todoroff, Mr. Lalio",male,,0,0,349216,7.8958,,S,30
31,0,1,"Uruchurtu, Don. Manuel E",male,40.00,0,0,PC 17601,27.7208,,C,31
34,0,2,"Wheadon, Mr. Edward H",male,66.00,0,0,C.A. 24579,10.5000,,S,34
39,0,3,"Vander Planke, Miss. Augusta Maria",female,18.00,2,0,345764,18.0000,,S,39
47,0,3,"Lennon, Mr. Denis",male,,1,0,370371,15.5000,,Q,47
51,0,3,"Panula, Master. Juha Niilo",male,7.00,4,1,3101295,39.6875,,S,51


<!--Footer-->
 <div style="background: #333333;padding: 35px 0px;margin-top: 25px;">
    <div class="row">
     <div class="col-sm-12">
        <img src="http://materials.cv.uoc.edu/cdocent/common/img/logo-uoc-bottom.png" alt="Logo UOC" class="img-responsive" style="margin: 0 auto; display: block;">
    </div>
</div>
</div>
<!--/Footer-->