# Entrada de Arquivos Externos

Antes de carregar um arquivo, podemos querer definir o diretório de trabalho:

In [0]:
setwd('/home/leonardo/rdata')

Para que o R reconheça um conjunto de dados de arquivo é necessário que as colunas sejam separadas. Um modo fácil de resolver este problema é salvar a planilha de dados com o formato (.csv) que utiliza virgula (,) ou mesmo ponto e vírgula (;) como elemento separador das colunas.

Utilize o seguinte comando, especificando, como argumento, o diretório requerido:


In [0]:
dtf <- read.table("base_inicial.csv",header=T,sep=",",dec=".")

Onde:
* **carregar**: é o objeto no qual os dados lidos serão reconhecidos pelo R;
* < −: sinal que atribui os dados lidos ao objeto carregar;
* **read.table**: função que lê o arquivo do tipo .csv.

O parâmetro “header” nos permite indicar se o arquivo de dados (data.frame) tem ou
não o nome nas colunas (título) na primeira linha de dados. O parâmetro “sep” permite indicar o tipo de separador dos dados presentes no arquivo. Finalmente o parâmetro “dec” permite indicar o caractere usado como separador de casas decimais dos números reais.

Obs: para mais informações, verifique utilizando o comando “help(read.table)”

O R considera o arquivo carregado como uma matriz. Desta forma, podemos localizar linhas, colunas e elementos desta matriz. Para isso, utilize os comandos abaixo:

In [0]:
dtf[1,1] #localiza o elemento a(1,1) da matriz
dtf[1:50,] #localiza as primeiras cinquenta linhas da matriz

**Entrada de Arquivos Externos**

O R permite acessar um banco de dados disponível na web.

In [0]:
#read.table("endereço") #Sintaxe
#Exemplo:
read.table("http://testando.com/dados/lojas.csv")

# Medidas centrais e dispersão

Vamos criar um vetor com pesos dos alunos:

In [0]:
pa <- c(61,52,49,32,56,100,60,32,65,70,120)

Exibindo o vetor inteiro (todas as posições):

In [0]:
print(pa)

Exibindo apenas a primeira posição:

In [0]:
print(pa[1])

Exibindo apenas a décima posição:

In [0]:
print(pa[10])

Exibindo a quantidade de posições do vetor:

In [0]:
print(length(pa))

Ordenando o vetor. A função *order* faz uma permutação que rearranja os valores em ordem crescente ou decrescente.

Na verdade ela retorna as posições dos elementos ordenados.


In [0]:
ni <- order(pa)

Exibindo as posições do vetor ordenado:

In [0]:
print(ni)

Para obter um novo vetor com os elementos ordenados. Podemos fazer da seguinte forma:

In [27]:
a <- pa[ni]
print(a)

 [1]  32  32  49  52  56  60  61  65  70 100 120


# Medidas de tendência central

Calculando a Média manualmente (soma dos pesos / quantidade de pessoas):

In [0]:
media <- sum(a) / length(a)
print(media)
#também podemos utilizar a função "mean()"
print(mean(a))

Calculando a mediana dos pesos:

In [0]:
mediana <- median(a)
print(mediana)

O R não possui uma função para calcular a Moda nos pacotes padrões.

Existem duas formas que podemos utilizar para encontrarmos a moda de uma série
de dados. São elas:

*   **table()**: este comando ordena em ordem crescente os dados e indica o número de vezes em que o elemento se repete na série de dados apresentada. É utilizado
para encontrar a moda em pequenas amostras.
*   **subset()**: em oposição ao item anterior esta função é utilizada quando o tamanho da amostra é grande

Este comando retorna a moda bem como o número de ocorrências do elemento em
questão:


```
subset(table(), table() == max(table()))
```



In [30]:
#Exemplo:
table(a)

a
 32  49  52  56  60  61  65  70 100 120 
  2   1   1   1   1   1   1   1   1   1 

In [31]:
subset(table(a),table(a)==max(table(a)))

Outra maneira de calcular a **Moda**, é através da criação de uma função:

In [0]:
calcMode <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}

Invocando a função e calculando a moda do vetor:

In [28]:
moda <- calcMode(a)
print(moda)

[1] 32


Mostrando um histograma com a distribuição dos pesos (veremos mais sobre gráficos):

In [0]:
hist(a)

**Quartis**: Podemos encontrar os quartis através do comando:


```
summary(dados)
```

A função summary é capaz de resumir vários tipos de objetos em uma única função.
Dentre esses objetos encontram-se o primeiro e o terceiro quartil, sendo que o segundo
quartil é dado indiretamente através da mediana:


In [32]:
summary(a)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  32.00   50.50   60.00   63.36   67.50  120.00 

**Percentis**: Por padrão o R calcula os quantis (partes em que a série de dados é dividida) q0,
q25, q50, q75, q100, os quais são obtidos através do comando:

In [0]:
quantile(a)

Para obtermos os percentis, podemos utilizar o seguinte comando:

```
quantile(dados, c(valores dos percentis))
```

No exemplo abaixo calcularemos os percentis de 0.01 até 0.99 ao passo de 0.01 (lembre-se da aula anterior):

In [0]:
percentis = seq(.01,.99,.01)
print(percentis)

In [0]:
quantile(a, percentis)

**Decis**: Também usamos o comando quantile() para calcular o decis:


```
quantile(dados, seq(0.10, 0.9, 0.1))
```



In [39]:
decis = seq(0.1, 0.9, 0.1)
print(decis)

[1] 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9


In [40]:
quantile(a, decis)

# Medidas de dispersão

Para calcularmos a **amplitude** de um conjunto, basta calcularmos diferença entre o maior e menor dos valores da série.
Em uma série de dados podemos encontrar os valores máximos e mínimos através
dos seguintes comandos:


```
max(dados)
min(dados)
```

Outra forma de obter o maior e menor valor da série de dados é utilizar o comando:


```
range(dados)
```

In [41]:
range(a)

In [43]:
amp <- max(a) - min(a)
print(amp)

[1] 88


O comando para o cálculo do **desvio padrão** é o seguinte:

In [56]:
vsd <- sd(a)
print(vsd)

[1] 26.40179


O comando para o cálculo da **variância** é o seguinte:

In [55]:
vvar <- var(a)
print(vvar)

[1] 697.0545


Para calcularmos o **coeficiente de variação** do conjunto, podemos proceder da seguinte forma:

In [58]:
cv <- 100*sd(a)/mean(a)
print(cv)

[1] 41.6671


# Exemplo completo

In [0]:
turma1 <- c(75.02786847, 56.51450656, 55.57517955, 62.00893933,
            82.82022277, 91.78076684, 71.53028442, 82.22315417,
            71.14621041, 76.27644453)
print(paste('Média da turma 1:',mean(turma1)))
print(paste('Mediana da turma 1:',median(turma1)))

In [0]:
turma2 <- c(63.96213546,  51.00946728,  54.48449137,  53.62955058,
            61.62138863,  59.99119596,  57.61297576,  62.52220793,
            64.54041384,  63.95477107)
print(paste('Média da turma 2:',mean(turma2)))
print(paste('Mediana da turma 2:',median(turma2)))

In [0]:
hist(turma1)

In [0]:
hist(turma2)

In [0]:
ampTurma1 <- max(turma1) - min(turma1)
ampTurma2 <- max(turma2) - min(turma2)
print(paste('Amplitude da turma 1:',ampTurma1))
print(paste('Amplitude da turma 2:',ampTurma2))

In [0]:
# Variância amostral:
varTurma1 <- var(turma1) # amostra
varTurma2 <- var(turma2) # amostra

print(paste('Variância amostral da turma 1:',varTurma1))
print(paste('Variância amostral da turma 2:',varTurma2))

In [0]:
# Variância populacional:
vPopT1 <- mean((turma1-mean(turma1))^2)
vPopT2 <- mean((turma2-mean(turma2))^2)

print(paste('Variância populacional da turma 1:',vPopT1))
print(paste('Variância populacional da turma 2:',vPopT2))

In [0]:
# Desvio padrão amostral:
dTurma1 <- sd(turma1) # amostral
dTurma2 <- sd(turma2) # amostral

print(paste('Desvio padrão amostral da turma 1:',dTurma1))
print(paste('Desvio padrão amostral da turma 2:',dTurma2))

In [0]:
# Desvio padrão populacional:
dPopT1 <- sqrt(mean((turma1-mean(turma1))^2)) # populacional
dPopT2 <- sqrt(mean((turma1-mean(turma2))^2)) # populacional

print(paste('Desvio padrão populacional da turma 1:',dPopT1))
print(paste('Desvio padrão populacional da turma 2:',dPopT2))