# BASICS

Proyecto R: https://www.r-project.org/

Existen instaladores binarios para Windows, Linux y Mac: http://cran.es.r-project.org/

En Linux, lo más cómodo es utilizar el gestor de paquetes:

`
 sudo apt-get install r-base
 sudo yum install r-base
`

En conda 
`
conda install -c r r-irkernel
`

In [None]:
install.packages('readr', repos = 'https://cloud.r-project.org')

In [None]:
# para ver que hace un comando
?history

In [None]:
# si escribes el nombre de una funcion, te devuelve el codigo fuente
history

In [None]:
# Creación y asignacoin de un vector de enteros
edades <- c(43, 42, 12, 8, 5)

In [None]:
#algunas funciones
sum(edades)
mean(edades)
range(edades)
1:20 # del 1 al 20
length(edades)

In [None]:
5 %in% c(1, 2, 3, 5) # inclusion

In [None]:
TRUE < FALSE # TRUE coerciona a 1 y FALSE a 0

In [None]:
c(TRUE, TRUE, FALSE) & c(TRUE, FALSE, FALSE) # elemento a elemento (AND VECTORIZADO)
c(TRUE, TRUE, FALSE) && c(TRUE, FALSE, FALSE) # compara solo el primer elemento de cada vector

In [None]:
seq(0, 1, length.out = 11)
seq(stats::rnorm(20)) # effectively 'along'
seq(1, 9, by = 2)     # matches 'end'
seq(1, 9, by = pi)    # stays below 'end'
seq(1, 6, by = 3)
seq(1.575, 5.125, by = 0.05)
seq(17) # same as 1:17, or even better seq_len(17)

In [None]:
#######################
# Constantes built-in #
#######################
LETTERS #26 letras en mayusculas
letters #26 letras en minisculas
month.abb # las tres primeras letas de los nombres de los meses en ingles
month.name # nombres de los meses en ingles
pi

In [None]:
#coherenecia automatica de R
a <- c(1, 2, 3)
b <- 'A'
c <- c(a,b) 
c # lo trasforma todo a string para que haya coherencia de datos

In [None]:
runif(2) # valores aleatorios de una distribucion uniforme

In [None]:
set.seed(10) # si pongo esto, siempre va a salir el mismo numero aleatorio
runif(2) 

In [None]:
sample(5) # baraja una lista

# IF & LOOPS

In [None]:
x <- 5
if (x < 0) {print("x es un número negativo")} 
else if (x == 0) {print("x es cero")} 
else {print("x es un número postivo")}

In [None]:
x <- "size" # evalua una expresion en una lista
y <- "red"
switch(x, red = "cloth", size = 5, name = "table")
switch(y, red = "cloth", size = 5, name = "table")

In [None]:
ctr <- 1
while (ctr <= 7) {
  if (ctr %% 5 == 0)
    break
  print(paste("ctr vale", ctr))
  ctr <- ctr + 1
}

In [None]:
cities <- c("New York", "Paris", "London", "Tokyo", "Rio de Janeiro", "Cape Town")
for (city in cities) {
  if (nchar(city) == 6)
    next
  print(city)
}

In [None]:
cities <- c("New York", "Paris", "London", "Tokyo", "Rio de Janeiro", "Cape Town")
for (i in 1:length(cities)) {
  print(paste(cities[i], "está en la posición", i, "del vector de ciudades."))
}

# CONTROL ERRORES

In [None]:
for(input in inputs) {
  tryCatch(print(paste("log of", input, "=", log(input))),
           warning = function(w) { print(paste("negative argument", log(-input))) },
           error = function(e) { print(paste("non-numeric argument", NaN))})
}

# VECTORES

In [None]:
# los indices empiezan en 1
a <- c(10,20,30)
length(a) # los vectores solo tienen longitud
nrow(a)
ncol(a)

In [None]:
#Si los vectores no tienen el mismo tamaño, R repite el menor de ellos tantas veces como sea necesario.
a_vector <- c(1, 2, 3)
total_vector <- a_vector + c(1, 1)
total_vector

#### Names

In [None]:
# Creación de vector nombres
v10 <- c(a = 1, b = 2, c = 3)

In [None]:
names(a)= c('uno','dos')

In [None]:
names(a)

#### Indexación

In [None]:
v <- 101:200
v[c(1, 1, 4, 5)] # Seleccionamos el primero dos veces, el cuarto y el quinto
v[20:23] # Obtenemos los elementos entre el índice 20 y 30. A diferencia de python, aqui se incluye el ultimo

In [None]:
# Indexando por nombre
v0 <- c(101,102,103,104,105)
names(v0) <- c("alpha", "alpha", "gamma", "delta", "omega")
v0["alpha"]

In [None]:
v0[names(v0) == "alpha"]

In [None]:
v0["beta"] <- 500

In [None]:
v0[c("delta", "omega")]

In [None]:
v0[!(names(v0) %in% c("alpha", "omega"))]

#### Filtros

In [None]:
v[which(v < 103)] # valores menores 103, indexados por indice, si solo pongo v[v < 103] se indexa por valor

In [None]:
which(v < 103) # devuelve los indices

In [None]:
v<103 #vector booleano

In [None]:
v[-2] # quita el elemento con indice 2

In [None]:
v[v == 0] # se resetean los indices solitos

### Información sobre vectores

![image.png](attachment:R_Funciones_Vectores.png)

#### Factores

In [None]:
# Creación de factor especificando etiquetas
gender_levels_2 <- c('M', 'F', '-') # Como se leen los datos a la entrada
gender_labels_2 <- c('Male', 'Female', NA) # Como se etiquetan
gender_vector_2 <- c('M', 'F', 'F', 'M', 'M', '-')
gender_factor_2 <- factor(gender_vector_2, levels = gender_levels_2, labels = gender_labels_2, ordered =TRUE)
gender_factor_2

# DATAFRAME

In [None]:
empty <- data.frame()

In [None]:
# A partir de dos vectores
c1 <- 1:5 # vector de enteros
c2 <- letters[1:5] # vector de strings
df <- data.frame(col1 = c1, col2 = c2)
df

In [None]:
# Lectura desde fichero
df <- read.csv("./dat/wine.csv", header = T)

* head(df)
    * head(df, -10) --> todas menos las 10 ultimas
* tail(df)

__str(df)__: muestra de forma rápida la estructura de la información almacenada.
* Número total de observaciones.
* Número total de variables.
* Lista con todos los nombres de las variables.
* El tipo de cada variable.
* Las primeras observaciones de cada variable.


In [None]:
str(df)

In [None]:
summary(df)

In [None]:
df$col1 # para acceder a las columnas o a los atributos se pone $

In [None]:
df <-- data.frame(mtcars)

#### Añadir filas

In [None]:
df2 <- rbind(mtcars, df)

#### Añadir columnas

In [None]:
v<- 1:nrow(df)
cbind(df,v)

In [None]:
df2$newcolumn <- rep(1, nrow(df)) 

In [None]:
df2[,'copycolumn'] <- df2$hp

In [None]:
df2[1,'copycolum']<- 333

In [None]:
df2

#### Indexacion
__df [filas, columnas]__

In [None]:
df <- data.frame(mtcars)
str(df)
df[5, 2] # Obtiene una única celda
df[1:5, 1:2] # Obtiene varias celdas
df[1:2, c("gear", "am")]
df[1:2, c("gear", "am")] <- 0 # Asignación de celdas
df[1:2, c("gear", "am")]

In [None]:
# Indexando filas (siempre devuelve data frames)
df[1, ]
df[-nrow(df), ]
df[1:5, ]
df[(df$hp > 150 & df$hp < 200), ]
subset(df, hp > 150 & hp < 200)

vrow <- as.numeric(as.vector(df[1, ])) # Convertimos el resultados de la indexación en vector

In [None]:
# Indexando columnas
df$hp # Devuelve un vector
df[, "hp"] # Devuelve un vector
df[, 4] # Devuelve un vector
df["hp"] # Devuelve un data frame con una columna
df[4] # Devuelve un data frame con una columna
df[["hp"]] # Devuelve un vector
df[ , c(4, 6)] # Devuelve un data frame
df[ , c("hp", "wt")] # Devuelve un data frame

#### Merge 
Recibe los siguientes parámetros:
+ `x, y`: data frames a combinar.
+ `by, by.x, by.y`: permiten especificar las columnas por las que se combinarán ambos data  frames.
+ `all, all.x, all.y`: permite seleccionar si queremos obtener todas las filas de ambos data  frames (FULL JOIN), todas las del data frame x (LEFT JOIN) o todas las del data frame  y (RIGHT JOIN).

In [None]:
c1 <- 1:10
c2 <- letters[1:10]
c3 <- 5:20
c4 <- letters[5:20]
df.x <- data.frame(col1 = c1, col2 = c2)
df.y <- data.frame(col1 = c3, col2 = c4)
df.x
df.y

join <- merge(df.x, df.y, by = c("col1")) #join
left.join <- merge(df.x, df.y, by = c("col1"), all.x = T) #left join
right.join <- merge(df.x, df.y, by = c("col1"), all.y = T) #right join
full.join <- merge(df.x, df.y, by = c("col1"), all = T) #full join

## Información sobre data frames

![info_df](imgs/04_01.png)

#### Order

In [None]:
a <- c(4, 10, 3)
order(a)
a[order(a)]

# Trucos sobre data frames

Al leer data frames desde ficheros normalmente se emplea el argumento `stringsAsFactors = FALSE` para evitar la coerción a factores.

Se suele evitar emplear nombres en filas y utilizarlos sólo en columnas.

No utilizar `rbind(df1, df2, …)` con factores, ya que algunas veces puede dar problemas
(coerción).

# LEER FICHEROS 

La función más importante del paquete es __read.table(fileName)__. Dicha función tiene una enorme cantidad de parámetros que nos permitirán configurar la carga según el fichero. Los más importantes:

* header: para indicar si el fichero tiene cabeceras.
* sep: para indicar el separador de nuestro fichero.
* stringsAsFactors: para indicar si las cadenas de caracteres se convertirán en factores.

Existen otras funciones para leer directamente ficheros csv (**coma como separador**) o tsv
(**tabulador como separador**):

+ Con punto como separador decimal
    + csv: `read.csv`
    + tsv: `read.delim`

+ Con coma como separador decimal
    + csv: `read.csv2`
    + tsv: `read.delim2`

Son variantes de `read.table` pero con distintos valores por defecto.

In [None]:
# Con read.table
mun_tsv_1 <- read.table("dat/municipios2.tsv",
                   header = TRUE, 
                   sep = "\t", 
                   stringsAsFactors = FALSE,
                   dec = ",",
                   quote = "")
str(mun_tsv_1)

In [None]:
# Con readr
library(readr)
mun_csv_3 <- read_delim("dat/municipios1.csv",
                     delim = ",",
                     col_types = "ci") #c: characters, d: double, i: integer, l: logical, _: ignore
str(mun_csv_3)

# SCRACHING
Mirar libreria selenium

In [None]:
library(rvest)
library(magrittr)

In [None]:
url.root <- "http://elpais.com/especiales/2014/tarjetas-opacas-caja-madrid/apuntes/"
url.names <- c('sanchezbarcojildefonsojose/', 'moralsantinjoseantonio/',
               'moradoiglesiasricardo/', 'blesadelaparramiguel/',
               'amatrocamatias/', 'ferrazricarteramon/',
               'perezclavermariano/', 'torremartinezenriquedela/',
               'astorquiporterajuanmanuel/', 'delamercedmongemariamercedes/')

abbr.names <- substr(url.names, 1,5)


In [None]:
bnames <- c('Sánchez', 'Moral', 'Morado', 'Blesa', 'Amat', 
            'Ferraz', 'Pérez', 'Torre', 'Astorqui', 'DeLaMerced')

urls <- paste(url.root, url.names, sep = '')

In [None]:
black <- c()
for (i in 1:10){
  tmp <- urls[i] %>%
    read_html() %>%
    html_nodes(xpath='//*[@id="tabla_datos"]') %>%
    html_table() # PARA TABLAS, PARA TEXTO USAR html_text
  tmp <- tmp[[1]]  
  black <- rbind(black, cbind(bnames[i],tmp))
}

In [None]:
url_blesa <- "http://elpais.com/especiales/2014/tarjetas-opacas-caja-madrid/apuntes/"
web_blesa <- "http://elpais.com/especiales/2014/tarjetas-opacas-caja-madrid/apuntes/blesadelaparramiguel/"

Fecha_v <-  read_html(web_blesa) %>%
            html_nodes(xpath='//*[(@id = "tabla_datos")]//*[contains(concat( " ", @class, " " ), concat( " ", "fecha", " " ))]') 

head(html_text(Fecha_v)) # para una fila o columna

In [None]:
library('magrittr')
library('rvest')

In [None]:
url =1&numReg=486&d_fecha=2017-11-01&h_fecha=2018-11-14&desc="

In [None]:
library ('plyr')
library ('dplyr')
library('tidyr')

dataframefinal <- data.frame()

for (i in 1:25) {
    url =paste("http://pagina.jccm.es/justicia/112/ultima_hora/busqueda.php?pagina=", i ,"&numReg=486&d_fecha=2017-11-01&h_fecha=2018-11-14&desc=", sep="")
    tmp <- url %>% read_html() %>% html_nodes("table.incidencias") %>% html_table()
    
    tmpdf <- ldply (tmp, data.frame)
    names(tmpdf) <- c("Fecha", "Incidente")
    tmpdf <- tmpdf[-c(1), ]
    
    dataframefinal <- rbind(dataframefinal, tmpdf)
}
rownames(dataframefinal) <- seq(length=nrow(dataframefinal))

dataframefinal <- dataframefinal %>%  separate( Incidente, c("tipo", "borrador"), sep='\\.' ) %>% 
separate( borrador, c("pueblo", "provincia"), sep='\\(' )
dataframefinal$provincia <- gsub('\\)', '', dataframefinal$provincia )
unique(dataframefinal$provincia)

In [None]:
dataframefinal <- dataframefinal[(dataframefinal$provincia != "C"),]
dataframefinal <- dataframefinal[(dataframefinal$provincia != "U"),]

In [None]:
dataframefinal <- separate(dataframefinal, Fecha, c("dia", "hora") , sep = " ")

In [None]:
df <- dataframefinal[c("dia", "tipo")]

In [None]:
df <- group_by(dataframefinal, dia) %>% summarise(num = n()) 

In [None]:
library('ggplot2')

In [None]:
df$dia <- as.Date(df$dia, format='%d-%m-%Y')

In [None]:
ggplot(df, aes(x=dia, y=num)) + geom_line(aes(group=1))

In [None]:
test <- df[200:236,]
x_test = test[,1:1]
y_test = test[,2:2]
train <- df[1:199,]
x_train = test[,1:1]
y_train = test[,2:2]

In [None]:
#REGRESION LINEAL
#Identify feature and response variable(s) and values must be numeric and numpy arrays
x <- cbind(x_train,y_train)

In [None]:
# Train the model using the training sets and check score
linear <- lm(num~dia, data = train)

In [None]:
#Predict Output
predicted= predict(linear,x_test) 

In [None]:
predicted


# EJERCICIO LIMPIEZA DE DATOS

In [None]:
# Cargamos el dataset
vinos <- read.csv("dat/wine.csv", 
                  header = T, stringsAsFactors = FALSE)

In [None]:
class(vinos)
dim(vinos)

In [None]:
names(vinos)

In [None]:
str(vinos)

In [None]:
summary(vinos)

In [None]:
summary(vinos)

In [None]:
head(vinos)

In [None]:
unique(vinos$class)

#### Dibujar 

In [None]:
# Visualizando los datos
hist(vinos$alcohol)

In [None]:
plot(vinos$alcohol, vinos$proline)

In [None]:
#Outliers
set.seed(10)
x <- c(rnorm(30, mean = 15, sd = 5), -5, 28, 35)

boxplot(x, horizontal = T)

In [None]:
#matriz correlaciones --> cuanto mas cerca de 1 o -1, mas correlacion. Si es -1 la linea de regresion tiene pendiente negativa
cor(vinos[,-1])

#### de filas a columnas

In [None]:
library(tidyr)
# De pequeño a grande
wide_df <- data.frame(col = c("X", "Y"), A = c(1, 4), B = c(2, 5), C = c(3, 6))
gather(wide_df, my_key, my_val, -col) # -col es para que no tenga en cuenta la columna col

In [None]:
# De grande a pequeño
long_df <- gather(wide_df, my_key, my_val, -col)
spread(long_df, my_key, my_val) #Obtenemos el data.frame original

In [None]:
library(reshape2)

In [None]:
# de pequeño a grande
melt(wide_df, id.vars = c("col"), variable.name = "my_key", value.name = "my_val")

In [None]:
# de grande a pequeño
long_df <- melt(wide_df, id.vars = c("col"), variable.name = "my_key", value.name = "my_val")
dcast(long_df, col ~ my_key, value.var = "my_val")

In [None]:
treatments <- data.frame(patient = c("X", "Y", "X"), 
                         treatment = c("A", "A", "B"), 
                         year_mo = c("2010-10", "2010-10", "2012-08"), 
                         responde = c(1, 4, 2))

In [None]:
# Separate
separate(treatments, year_mo, c("year", "month"))

In [None]:
# Unite
treatments_sep <- separate(treatments, year_mo, c("year", "month"))
unite(treatments_sep, year_mo, year, month, sep = "-")

### transformacion de datos

#### fechas --> library(lubridate)

#### Strings

In [None]:
library(stringr)
str_trim("    this is a test    ")
str_pad("244493", width = 7, side = "left", pad = "0")
names <- c("Sarah", "Tom", "Alice")
str_detect(names, "Alice")
str_replace(names, "Alice", "David")

In [None]:
#DELETE NAs -DROP -REMOVE -BORRAR
df <- data.frame(A = c(1, NA, 8, NA),
                 B = c(3, NA, 88, 23),
                 C = c(2, 45, 3, 1))
#Eliminación
df[complete.cases(df), ]
na.omit(df)
df[!is.na(df$B), ]

Smote --> libreria para valores faltantes, remplaza los NA por un valor que no desvie la distribucion de los datos

# DPLYR

In [None]:
library(hflights) #install.packages('hflights',  repos ="https://cloud.r-project.org")
library(dplyr) # Instalar dplyr PERO CON CONDA SIEMPRE

In [None]:
hflights.tbl <- tbl_df(hflights)

In [None]:
glimpse(hflights.tbl) 

In [None]:
#selecciona columnas
select(hflights.tbl, ActualElapsedTime, AirTime, ArrDelay, DepDelay) %>% head(1)

In [None]:
#añade nuevas variables
select(hflights.tbl, ActualElapsedTime, AirTime, ArrDelay, DepDelay) %>% mutate( loss = ArrDelay - DepDelay) %>% head(1)

In [None]:
#Filtar
select(hflights.tbl, starts_with("Cancel"), DepDelay) %>% filter(Cancelled == 1) %>% head(1)

In [None]:
#ordenar de mayor a menor
select(hflights.tbl, TailNum, contains("Delay")) %>% arrange(DepDelay) %>% head(1)

__GROUP BY__
La función `summarise` permite utilizar funciones de agregación de R:
+ `min(x)`: valor mínimo del vector x.
+ `max(x)`: valor máximo del vector x.
+ `mean(x)`: valor medio del vector x.
+ `median(x)`: valor mediano del vector x.
+ `quantile(x, p)`: el cuantil p del vector x.
+ `sd(x)`: la desviación estándar del vector x.
+ `var(x)`: la varianza del vector x.
+ `IQR(x)`: el rango intercuartílico del vector x.

El paquete `dplyr` completa la lista de funciones anteriores con algunas propias:
+ `first(x)`: primer elemento del vector x.
+ `last(x)`: último elemento del vector x.
+ `nth(x, n)`: el enésimo elemento del vector x.
+ `n()`: número de filas del data frame, tabla o grupo.
+ `n_distinct(x)`: número de valores únicos del vector x.

In [None]:
# Summarise
select(hflights.tbl, TailNum, contains("Delay")) %>% 
filter(!is.na(DepDelay)) %>%
summarise(min = min(DepDelay), max = max(DepDelay), mean = mean(DepDelay), meanarr= mean(ArrDelay, na.rm=T),median = median(DepDelay)) 

In [None]:
# Group by
group_by(hflights.tbl, UniqueCarrier) %>% 
summarise(avgDep = mean(DepDelay, na.rm = T), 
          avgArr = mean(ArrDelay, na.rm = T)) %>% head(2)

# DIBUJAR

In [None]:
n=5000
edades = sample(30:70,n,replace = TRUE)

In [None]:
sexos = sample(c('hombre','mujer'),n,replace = TRUE)

In [None]:
datos = data.frame(edad = edades, sexo=sexos)

In [None]:
eps = rnorm(n,0,5)

In [None]:
datos$sueldo = 40*datos$edad + 200*(datos$sexo=='hombre') +eps

In [None]:
datos$edad.gr=cut(datos$edad, breaks = seq(30,70,5), include.lowest = TRUE)

conda install -c r r-tidyverse 

In [None]:
library('ggplot2')

In [None]:
mpg <- mpg %>% mutate(consumo=235/hwy)

In [None]:
qplot(edad.gr,sueldo,data=datos,geom="boxplot",fill=sexo)

Transparencia de puntos

In [None]:
qplot(displ,consumo,data=mpg,alpha=I(.1),size=I(.5))

In [None]:
datos <- mpg %>% group_by(model) %>% mutate(media=mean(consumo))

In [None]:
# ordena por media de consumo, aunque muestra modelo/Consumo
qplot(consumo,reorder(model,media),data=datos)

In [None]:
qplot(islands,names(islands),log="x")

In [None]:
library(ggmap)

In [None]:
ggplot(cancer) +
  aes(x = periodo, y = tasa, col = sexo) +
  geom_line(size=1) + scale_y_log10() + geom_line(aes(group=grupo)) +
  facet_wrap( ~ tumor) 

* Datos: siempre un “data.frame”
* Estéticas: elementos representables gráficamente (la posición x e y, el color, la forma, …) en columnas del data.frame.
* Geometrías (o capas): puntos, rectas, histogramas, densidades, etc. También se llaman capas porque pueden superponerse.
* Facetas: parten un gráfico en sublienzos preservando las escalas (pequeños múltiplos)

In [None]:
load('/data/cancer.RDA')

theme_grey() --> Si escribes esto, aparecen todos los atributos del tema de estilo que se usa

In [None]:
ggplot(paro) 
+ aes(x=Año,y=Tasa.paro,color=Trimestre, linetype=Sexo) 
+ geom_smooth(se=FALSE)

In [None]:
> ggplot(mortalidad) 
+ aes (x=edad,y=tasa,fill=sexo,label=round(tasa), color=sexo) 
+ geom_bar(stat="identity") 
+ facet_grid(sexo~ambito) 
+ geom_text(nudge_y = 3)
+ ggtitle("Relación entre (IMC) y renta") 
+ labs(x = "Renta", y = "IMC (kg/m2)", color = "Continente")
+ scale_x_log10()+scale_y_continuous(breaks=seq(10,50,10),trans="log")
+ scale_color_manual("Continente",values=c("green4","red4"),limits=c("Europa","Asia"))

In [None]:
ggsave("obesidad.pdf")

In [None]:
library(shiny)

In [None]:
library(ISLR)

In [None]:
library(openintro)

In [None]:
library(glmnet)

In [None]:
library(caret)

In [None]:
library(tidyverse)