# Introdução

- R foi criado por Ross Ihaka e Robert Gentleman na Universidade de Auckland, Nova Zelândia, com base na linguagem de programação S,década de 70, e atualmente é desenvolvido pela R Development Core Team
- O R foi criado como uma alternativa de código aberto por volta dos anos 90, sendo utilizada por cientistas, estatísticos e, mais recentemente, cientistas de dados como um meio conveniente para a análise exploratória de dados interativos. Ao contrário do que se imagina sobre a linguagem R, ela não é limitada a apenas sessões iterativas, pois devido ao fato de ser uma linguagem de programação, os scripts podem ser criados e empacotados como bibliotecas. As soluções com base em scripts fornecem resultados mais consistentes e confiáveis do que os fluxos de trabalho tradicionais, que requerem uma grande quantidade de interações manuais com uma interface gráfica de usuário.
- Conforme mencionado anteriormente, R é uma linguagem de programação e ambiente de software para análise estatística, representação gráfica e relatórios. As seguintes são as características importantes do R -

    - R é uma linguagem de programação bem desenvolvida, simples e eficaz que inclui condicionais, loops, funções recursivas definidas pelo usuário e instalações de entrada e saída.

    - R possui um mecanismo eficaz de armazenamento e armazenamento de dados,

    - R fornece um conjunto de operadores para cálculos em arrays, listas, vetores e matrizes.

    - R fornece uma coleção grande, coerente e integrada de ferramentas para análise de dados.

    - R fornece instalações gráficas para análise de dados e exibição diretamente no computador ou impressão nos documentos.

Como conclusão, R é a linguagem de programação de estatísticas mais usada no mundo. É a escolha número 1 de cientistas de dados e apoiada por uma vibrante e talentosa comunidade de colaboradores. R é ministrado em universidades e implantado em aplicações comerciais de missão crítica. Este tutorial irá ensinar-lhe programação R, juntamente com exemplos adequados, em passos simples e simples.

In [1]:
print("Let´s start with R!!")

[1] "Let´s start with R!!"


# Vamos começar! 

## Data Types:

Como definimos uma variável?

Em R usamos $ \textbf{<-}$  para atribuições:

Veja o exemplo

In [5]:
myString <- "Oi turma! "
print(myString)

[1] "Oi turma! "


Em contraste com outras linguagens de programação, em R as variáveis não são declaradas como alguns tipos de dados. As variáveis são atribuídas com R-Objects e o tipo de dados do objeto R torna-se o tipo de dados da variável. Existem muitos tipos de objetos R. Os que são usados com mais frequencia são:

- Vetores
- Listas
- Matrizes
- Arrays
- Fatores
- Data Frame

O mais simples desses objetos é o vetor e existem seis tipos de dados desses vetores, também denominados como seis classes de vetores. Os outros R-Objects são construídos sobre os vetores.


#### Tipos de dados:

- Booleno/lógico: TRUE, FALSE


In [6]:
v <- TRUE
print(class(v))
print(v)

[1] "logical"
[1] TRUE


- Numéricos:

In [8]:
n <- 2017.2
print(class(n))
print(n)

[1] "numeric"
[1] 2017.2


- Inteiros:

In [12]:
i <- 257L
print(class(i))
print(i)

[1] "integer"
[1] 257


- Complexos:

In [13]:
c <- 2+5i
print(class(c))
print(c)

[1] "complex"
[1] 2+5i


- Character (strings): 


In [14]:
k <- "Olá"
print(class(k))
print(k)

[1] "character"
[1] "Olá"


- Raw:

"Hello" é armazenado como 48 65 6c 6c 6f

O tipo raw destina-se a armazenar raw bytes. É possível extrair subseqüências de bytes e substituir elementos (mas apenas por elementos de um raw vector). Os operadores relacionais funcionam assim como os operadores lógicos, com uma interpretação bit a bit.

In [15]:
r <- charToRaw("Hello")
print(class(r))
print(r)

[1] "raw"
[1] 48 65 6c 6c 6f


## Vetores:

Para escrevermos um vetor com mais de um elementos usamos a função $\textbf{c( )}$ que combina os elementos em um vetor:

In [17]:
# Criando um vetor 
linguagens <- c('R', 'C', 'Python')
print(class(linguagens))
print(linguagens)

numeros<- c(2, 4, 7)
print(class(numeros))
print(numeros)

[1] "character"
[1] "R"      "C"      "Python"
[1] "numeric"
[1] 2 4 7


## Listas:

Listas podem conter muitos tipos diferentes dentro dela, como vetores, funções, outras listas, etc.

In [18]:
# Criando uma lista
lista <- list(c(1,2,3), "a", 22, sin)
print(class(lista))
print(lista)

[1] "list"
[[1]]
[1] 1 2 3

[[2]]
[1] "a"

[[3]]
[1] 22

[[4]]
function (x)  .Primitive("sin")



## Matriz:

A matriz é um data set bidimensional

In [21]:
# Criando uma matriz
M = matrix( c( 1, 2 , 3 , 4 , 5 , 6), nrow = 2, ncol = 3, byrow = TRUE)
print(class(M))
print(M)

[1] "matrix"
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6


# Array

Os arrays são data sets que podem ter a dimensão que quisermos.


In [24]:
# Criando um array
a <- array(c('green','yellow'),dim = c(3,2,2))
print(class(a))
print(a)

[1] "array"
, , 1

     [,1]     [,2]    
[1,] "green"  "yellow"
[2,] "yellow" "green" 
[3,] "green"  "yellow"

, , 2

     [,1]     [,2]    
[1,] "green"  "yellow"
[2,] "yellow" "green" 
[3,] "green"  "yellow"



# Factors

Os factors são criados usando vetores. Ele armazenam o vetor com seus elementos distintos como rótulos.
Usamos a função $\textbf{factor()}$ e $\textbf{nlevels}$ para descobrir o número de níveis.

In [31]:
apple_colors <- c('green','green','yellow','red','red','red','green')
print(class(apple_colors))
factor_apple <- factor(apple_colors)
print(factor_apple)
print(nlevels(factor_apple))
print(class(factor_apple))

[1] "character"
[1] green  green  yellow red    red    red    green 
Levels: green red yellow
[1] 3
[1] "factor"


In [32]:
nomes <- c('Ana', 'Matheus', 'Gabriel', 'Antônia', 'Vitor', 'Marcela', 'Matheus', 'Ana', 'Ana', 'Bianca')
factor_nomes <- factor(nomes)
print(factor_nomes)
print(nlevels(factor_nomes))

 [1] Ana     Matheus Gabriel Antônia Vitor   Marcela Matheus Ana     Ana    
[10] Bianca 
Levels: Ana Antônia Bianca Gabriel Marcela Matheus Vitor
[1] 7


# Data Frame:

São tabelas que possuem, em cada coluna, diferentes tipos de dados.

In [34]:
BMI <- 	data.frame(
   gender = c("Male", "Male","Female"), 
   height = c(152, 171.5, 165), 
   weight = c(81,93, 78),
   Age = c(42,38,26)
)
print(BMI)

  gender height weight Age
1   Male  152.0     81  42
2   Male  171.5     93  38
3 Female  165.0     78  26
