Lo siguiente está basado en [R: Un lenguaje para análisis de datos por E. B. Zamudio](http://allman.rhon.itam.mx/~ebarrios/docs/porqueR.pdf), el prefacio y capítulo 1 de M.D. Ugarte, A. F. Militino, A. T. Arnholt, Probability and Statistics with R y [R-intro](https://cran.r-project.org/doc/manuals/R-intro.html)

# Información general

## ¿Qué es?

R es un lenguaje de programación basado en *S* el cual es un lenguaje y un ambiente de programación interactiva para el análisis de datos y graficación desarrollado por los *Bell laboratories* por Rick Becker, John Chambers y Allan Wilks. Dos dialectos del lenguaje S existen: *R* una implementación **open source** disponible en [r-project](http://www.r-project.org) y *S-PLUS* una implementación comercial. R es el resultado de esfuerzos de todo el mundo y fue escrito inicialmente por Robert Gentleman y Ross Ihaka del departamento de Estadística de la Universidad de Auckland en 1996.

R es un lenguaje y ambiente para cómputo estadístico y graficación. El término *ambiente* lo caracteriza como un sistema completamente planeado y coherente en el que técnicas estadísticas clásicas y modernas han sido implementadas. Algunas forman parte de *R* las llamadas *built-in* pero otras se proveen vía *packages*. Alrededor de *25* packages son incluídas con la instalación de R (*standard* & *recommended*) y muchas más se encuentran disponibles en [CRAN family of Internet sites: Contributed Packages](https://cran.r-project.org/web/packages/index.html)

## ¿Qué provee?

El ambiente de R contiene software que permite la manipulación de datos, cálculos y visualización de gráficos y tiene:

* programas para almacenamiento y manejo de datos.
* una gamma amplia de operadores para cálculos en arreglos, en particular matrices.
* una gran colección de herramientas intermedias correctamente integradas para análisis de datos.
* lenguaje de programación *S* para *loops*, funciones definidas por users y desarrollo para I/O.


*R* es un vehículo para desarrollo de nuevos métodos de análisis de datos de forma interactiva y se extiende por medio de paquetes.

## ¿Diferencia entre S y R?

(extraído de [R-intro: 1.3 R and statistics](https://cran.r-project.org/doc/manuals/R-intro.html)) "There is an important difference in philosophy between S (and hence R) and the other main statistical systems. In S a statistical analysis is normally done as a series of steps, with intermediate results being stored in objects. Thus whereas SAS and SPSS will give copious output from a regression or discriminant analysis, R will give minimal output and store the results in a fit object for subsequent interrogation by further R functions."

## Características de S 

(extraído de [R: Un lenguaje para análisis de datos por E. B. Zamudio](http://allman.rhon.itam.mx/~ebarrios/docs/porqueR.pdf))

* *S* es sobre datos: provee de herramientas generales y fáciles de usar para la organización, almacenamiento y recuperación de varios tipos de datos.

* *S* es sobre análisis: es decir, cálculos necesarios para entender los datos. *S* provee de métodos numéricos y otras técnicas computacionales.

* *S* es sobre programación: usted puede programar funciones en el mismo lenguaje *S* aprovechando su poder y simplicidad. Si es necesario el lenguaje ofrece  interfaces  sencillas  para  comunicación  con  el  sistema  operativo  o rutinas en C y Fortran.

* Especialmente, *S* es sobre graficación: ver a los datos de maneras interactivas, informativas y flexibles. Las capacidades de *S* están diseñadas para motivar la creación de nuevas herramientas e intentar nuevas ideas.


## Ejemplo:

Calcular la probabilidad de obtener sol al lanzar una moneda vía simulación.

**Solución:** para este caso simulamos $1000$ lanzamientos con la función *sample* que se encuentra en el paquete **base** de R. Al final del ejemplo se muestra cómo acceder a su descripción y la misma.

Por ejemplo si queremos simular un resultado de lanzamiento lo ejecutamos como:

In [1]:
set.seed(2000) #set.seed para hacer los resultados reproducibles, el valor 2000 se eligió de forma arbitraria
sample(c('aguila', 'sol'),1)

Si queremos simular tres resultados de lanzamientos realizamos:

In [2]:
set.seed(2000)
sample(c('aguila', 'sol'),3, replace=T)

Creamos una función con la palabra *function* que recibe el número de lanzamientos a realizar:

In [3]:
lanza_moneda <- function(numero_de_lanzamientos){
    set.seed(2000)
    sample(c('aguila', 'sol'),numero_de_lanzamientos,replace=T)
    }

**Obs:** obsérvese que se ha utilizado el operador de asignación `<-`. También es posible utilizar `=` pero hay situaciones cuando el uso del `=` crea confusión por lo que se opta por `<-`.

Por ejemplo 4 lanzamientos se realizan con:

In [4]:
lanza_moneda(4)

Entonces nuestra simulación de lanzamientos se ejecuta como sigue:

In [5]:
num_lanzamientos <- 1000
sum(lanza_moneda(num_lanzamientos)=='sol')/num_lanzamientos

el cual es un valor cercano a la respuesta $0.5$.

### ¿Y si quisiéramos usar un paquete para este ejemplo? ...

Un paquete es una colección de funciones de R, datos (*datasets*) y código compilado que tienen una organización uniforme.

Se pueden instalar con la línea `install.packages('package', dependencies=TRUE)` que utiliza por default el repositorio [The Comprehensive R Archive Network: CRAN](https://cran.r-project.org/) (pero hay otros repositorios como: [Bioconductor](https://www.bioconductor.org/), [Omegahat](http://www.omegahat.net/) o [R-Forge](http://r-forge.r-project.org/)).

El paquete `prob` es un framework para calcular probabilidades de experimentos sencillos (finitos) y generar las posibilidades de resultados. Ver: [Package prob](https://cran.r-project.org/web/packages/prob/prob.pdf)

Una vez instalado el paquete se debe hacer disponibles todos los contenidos del paquete: "load a package", para esto la función `library` se utiliza:

In [6]:
library(prob) #si se ejecuta la función library sin argumentos: `library()`
              #se enlistan todos los paquetes instalados

Loading required package: combinat

Attaching package: 'combinat'

The following object is masked from 'package:utils':

    combn

Loading required package: fAsianOptions
Loading required package: timeDate
Loading required package: timeSeries
Loading required package: fBasics
Loading required package: fOptions

Attaching package: 'prob'

The following objects are masked from 'package:base':

    intersect, setdiff, union



**Obs:** obsérvese que al ejecutar `library` el output indica que está ennmascarados algunos objetos como `union`. Esto indica que en `prob` existe un objeto con nombre `union` y también en `base` existe el mismo nombre de `union`. Para ejecutar una u otra función se puede: usar una sintaxis de la forma `base::union` para uso de la función `union` del paquete `base` o bien `prob:union` para uso de la función `union` del paquete `prob` aunque también muchas de las funciones se *comportan* de forma distinta dependiendo del tipo de argumentos que reciben. 

In [7]:
find('union') #usamos la función find para observar el enmascaramiento antes descrito

Se utiliza la función `tosscoin` para resolver el problema y se puede acceder a los argumentos de la misma con:

In [8]:
args(tosscoin)

#### 1 lanzamiento de una moneda, dos posibilidades

In [9]:
tosscoin(1) 

toss1
<fct>
H
T


#### 1 lanzamiento de una moneda, dos posibilidades y probabilidad de .5

In [10]:
tosscoin(1, makespace = T) 

toss1,probs
<fct>,<dbl>
H,0.5
T,0.5


#### Lanzamiento de tres monedas, 8 posibilidades y probabilidad de 1/8

A manera de ejemplo de uso de esta función puede realizar diferentes cálculos de probabilidades

In [11]:
tosscoin(3, makespace = T) 

toss1,toss2,toss3,probs
<fct>,<fct>,<fct>,<dbl>
H,H,H,0.125
T,H,H,0.125
H,T,H,0.125
T,T,H,0.125
H,H,T,0.125
T,H,T,0.125
H,T,T,0.125
T,T,T,0.125


## Funciones para obtener información o ayuda

La función `sample` se encuentra en el *base package* de R:

In [12]:
?base

0,1
base-package {base},R Documentation


Sin embargo como se hizo `library(prob)` anteriormente (y se tiene enmascaramiento de algunos objetos) si ejecutamos la ayuda para la función de sample se obtiene:

In [13]:
?sample

0,1
sample {timeDate},R Documentation


Y observando que el paquete `timeDate` también tiene una función sample en el output de arriba o con:

In [14]:
find('sample')

entonces se puede acceder a su ayuda con:

In [15]:
?timeDate::sample

0,1
sample {timeDate},R Documentation


y para la función `sample` del `base package` que nos interesa debemos hacer:

In [16]:
?base::sample 

0,1
sample {base},R Documentation

0,1
x,"either a vector of one or more elements from which to choose, or a positive integer. See ‘Details.’"
n,"a positive number, the number of items to choose from. See ‘Details.’"
size,a non-negative integer giving the number of items to choose.
replace,should sampling be with replacement?
prob,a vector of probability weights for obtaining the elements of the vector being sampled.
useHash,"logical indicating if the hash-version of the algorithm should be used. Can only be used for replace =  FALSE, prob = NULL, and size <= n/2, and really should be used for large n, as useHash=FALSE will use memory proportional to n."


Si queremos ejecutar los ejemplos de la ayuda se utiliza la función `args`:

In [17]:
args(example) #observamos los argumentos que recibe la función `example`

In [18]:
example(sample, package='base')


sample> x <- 1:12

sample> # a random permutation
sample> sample(x)
 [1] 10 12  1  7  3  2  8  9  6  4  5 11

sample> # bootstrap resampling -- only if length(x) > 1 !
sample> sample(x, replace = TRUE)
 [1]  5  7 10  7  1  2 12  6  3 11  9  4

sample> # 100 Bernoulli trials
sample> sample(c(0,1), 100, replace = TRUE)
  [1] 0 1 0 1 0 0 0 0 0 1 1 1 1 0 1 1 0 1 0 1 0 1 1 1 0 1 0 0 1 0 0 0 1 0 1 0 1
 [38] 1 0 0 0 0 0 1 1 1 1 1 1 0 1 1 0 1 0 1 1 1 1 0 1 1 1 1 1 0 0 0 0 1 0 1 1 1
 [75] 0 0 1 1 0 0 1 0 1 1 0 0 1 1 0 1 1 1 0 1 1 1 1 1 0 1

sample> ## More careful bootstrapping --  Consider this when using sample()
sample> ## programmatically (i.e., in your function or simulation)!
sample> 
sample> # sample()'s surprise -- example
sample> x <- 1:10

sample>     sample(x[x >  8]) # length 2
[1] 10  9

sample>     sample(x[x >  9]) # oops -- length 10!
 [1]  4 10  7  6  3  2  8  1  5  9

sample>     sample(x[x > 10]) # length 0
integer(0)

sample> ## safer version:
sample> resample <- function(x

## Para saber más sobre R

* Ir a la documentación oficial: https://cran.r-project.org/doc/manuals/R-intro.html
* Ir a [aquí](https://github.com/ITAM-DS/Propedeutico/tree/master/R) para más referencias sobre R.

Sobre paquetes:
* En Bioconductor (y otros repositorios) encontrarás paquetes que no están en CRAN.
* La mejor manera de conocer qué hace y usar un paquete es ir a su documentación oficial y seguir un tutorial o vignette:

```
#vignette() muestra documentación de todos los paquetes instalados
vignette('prob') #muestra documentación del paquete prob
```

* Para instalación de paquetes dar click en [devtools](https://devtools.r-lib.org/) que es una colección de herramientas para desarrollo de paquetes (pero también tiene funcionalidad para instalación de paquetes) y su correspondiente [Package Development:: Cheat Sheet](https://rawgit.com/rstudio/cheatsheets/master/package-development.pdf).

Sobre funciones para encontrar objetos:

* La función `apropos` también ayuda a encontrar objetos, por ejemplo:

In [19]:
apropos('union') #union función del paquete prob

In [22]:
sessionInfo()

R version 3.6.0 (2019-04-26)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 18.04.2 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.7.1
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.7.1

locale:
[1] C

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] prob_1.0-1            fAsianOptions_3042.82 fOptions_3042.86     
[4] fBasics_3042.89       timeSeries_3042.102   timeDate_3043.102    
[7] combinat_0.0-8       

loaded via a namespace (and not attached):
 [1] Rcpp_1.0.1          uuid_0.1-2          rlang_0.3.4        
 [4] tools_3.6.0         htmltools_0.3.6     digest_0.6.19      
 [7] crayon_1.3.4        IRdisplay_0.7.0     repr_1.0.1         
[10] base64enc_0.1-3     vctrs_0.1.0         IRkernel_1.0.1.9000
[13] zeallot_0.1.0       evaluate_0.14       pbdZMQ_0.3-3       
[16] compiler_3.6.0      pillar_1.4.1        backports_1.1.4    
[19] spatial_7.3