<a href="http://www.unioeste.br"><img src="https://www5.unioeste.br/portalunioeste/templates/tlpcampus/images/logoUnioeste.png" align="right"></a>

<h1><center>Atividade Prática em R - Representações Gráficas, Medidas de Posição e Dispersão</center></h1>

<center>Prof.Dr. Plinio Andrade</center>

Nesta atividade prática você aprenderá a utilizar o R para:

* Obter diagramas de pizza, gráficos de barras e histogramas;
* Calcular a moda, mediana e média dos dados como medidas de posição;
* Calcular a variância, o desvio padrão e o coeficiente de variação dos dados como medidas de dispersão.

<b> <font color='red'>ATENÇÃO!</font></b> sempre que este arquivo for reaberto você deverá executar todas as células de código novamente. Cada célula ativa é executada pressionando o botão <b>Run</b> no menu ou teclando <b>Ctrl+Enter</b> (persistindo dúvidas, assista a videoaula de apresentação sobre notebooks).

Caso necessite criar mais células de código, basta ir ao menu Insert.

***

## 1) Sobre os dados

Novamente, utilizaremos nesta prática os dados de Bussab & Morettin (2006). Vamos armazená-los na memória executando a célula a seguir:

In [None]:
arquivo = url('https://www.ime.usp.br/~pam/dados.RData')  # carregando o arquivo de dados
load(arquivo)

In [None]:
attach(tab2_1) # tornando as colunas da tabela 2.1 acessíveis pelos seus respectivos nomes

***
## 2) Representações Gráficas
Vamos conhecer agora algumas funções para representações gráficas no R.

### 2.1) Gráfico de Pizza
Para esse tipo de gráfico, devemos coletar as frequências (absolutas, relativas, ou porcentagens) da variável de interesse e utilizar a função pie(). Vamos considerar a variável **grau de instrução**. Execute as células a seguir:

In [None]:
gi = grau_instrucao # armazenando a variável num vetor chamado "gi"
ni = table(gi)      # frequências absolutas da variável

In [None]:
pie(ni)             # plotando o gráfico

Assim como toda função do R, a função pie() possui diversos parâmetros para aumentar o nível de detalhamento do gráfico. Execute a célula a seguir para visualizar uma versão formatada (**OPCIONAL**).

In [None]:
fi   = prop.table(ni) # frequências relativas da variável
p_fi = 100*fi         # frequências em porcentagens
p_fi = round(p_fi, 1) # arredondando as porcentagens para uma casa decimal

# plotando o gráfico
pie(p_fi, labels = paste(c("fundamental","médio","superior")," (", as.character(p_fi),"%)", sep = ""), main = "Versão detalhada (formatada)")

***
### Exercício 1
Obtenha um gráfico de pizza simples ou detalhado para a variável **região de procedência**.
***

### 2.2) Gráfico de Barras
Vamos novamente coletar as informações obtidas pela tabela de distribuição de frequências e representá-la graficamente por meio da função barplot(). Considere novamente a variável **grau de instrução** (armazenada no vetor "gi"). Execute as células a seguir:

In [None]:
barplot(ni) # versão não formatada

Podemos formatar o gráfico obtido acima com o seguinte comando (**OPCIONAL**):

In [None]:
# versão com alguma formatação
barplot(ni, ylab="Frequência", names.arg = c("Fundamental","Médio", "Superior"), ylim=c(0,20), las=1)


### Exercício 2
Construa um gráfico de barras para as variáveis **número de filhos** e **salário**. A formatação é opcional. **Dica:** Lembre-se que para a variável **salário** você deverá construir os intervalos de classe e você já fez isso na prática "Laboratorio_01".

### 2.3) Histogramas
A construção de histogramas é muito simples e direta no R. A escolha dos intervalos de classe para variáveis contínuas é automática, embora seja possível escolher arbitrariamente se necessário. Vamos construir um histograma para a variável **salário** considerando suas versões em frequência absoluta e relativa. Vamos também construir uma versão com os mesmos intervalos de classe que foram escolhidos na aula. Execute as células a seguir:

In [None]:
s = salario         # armazenando os dados da variável salário no vetor "s"

In [None]:
hist(s)             # Histograma em frequência absoluta

In [None]:
hist(s, freq=FALSE) # Histograma em frequência relativa (note que os valores do eixo y mudam)

O argumento "breaks" da função hist() serve para determinar manualmente os intervalos de classe. Vamos criar primeiro uma sequência de valores que definem os extremos de cada intervalo executando a célula a seguir:

In [None]:
extremos = seq(4,24,by=4)
extremos

Agora podemos construir o histograma desejado por meio do seguinte comando:

In [None]:
hist(s, breaks = extremos, freq = FALSE)

A célula a seguir contém, para fins ilustrativos, uma versão altamente editada do histograma: 

In [None]:
## Versão altamente editada
fig  = hist(s, breaks = extremos, right=FALSE, plot=F)
aux  = with(fig, 100 * density*diff(breaks)[1])
labs = paste(round(aux), "%", sep="")

plot(fig, 
     freq = FALSE, labels = labs, las = 1,
     ylab="Densidade de Frequência Relativa",
     xlab="Salário",
     col="darkgrey",
     border="white",
     main="Histograma da variável salário",
     xlim=c(0,24), xaxp=c(0,24,6),
     ylim=c(0,.1))

***
### Exercício 3
Obtenha um histograma para a variável **número de filhos**. A formatação é opcional.
***

***
## 3) Medidas Resumo - Medidas de Posição

Nesta etapa você irá aprender a calcular diversas medidas resumo no R.

### 3.1) Moda
Não existe no R uma função para se calcular a moda para variáveis qualitativas e quantitativas discretas. A célula a seguir contém uma implementação bem simples para calcular modas. Execute-a para poder prosseguir.

In [None]:
moda = function(x)
{
   z   = table(as.vector(x))
   out = names(z)[z == max(z)]
   ifelse(length(out) == length(x), return("conjunto amodal"), return(expr=c("A moda é:", out)))
}

Vamos considerar 3 conjuntos de dados artificiais. Um homogêneo (moda única), um bimodal e um amodal (sem moda). Execute a célula a seguir:

In [None]:
dados1 = c(9,2,2,2,3,3,5,10)       # dados unimodal
dados2 = c(1,1,2,2,2,3,3,3,5,6,15) # dados bimodal
dados3 = c(1,2,3,4,5,10)           # dados amodal

moda(dados1)
moda(dados2)
moda(dados3)


### Exercício 4
Utilize a função implementada anteriormente para calcular a moda das variáveis **número de filhos** e **grau de instrução**. Obtenha também uma aproximação para a moda da variável **salário** (Dica: lembra-se do vetor "int" criado no Laboratorio_01 para a variável salário?). Se necessário crie mais células (**Menu -> Insert -> Insert Cell Below**).


### 3.2) Mediana

A mediana é calculada facilmente no R por meio da função median(). Tal função só funciona com dados numéricos. Vamos calcular a mediana da variável **salário**. Execute a célula a seguir:

In [None]:
median(s)

Observe novamente a tabela que contém os dados da Cia. MB (tabela 2.1). Note que a variável número de filhos possui entradas do tipo "NA" (not available), ou seja, por alguma razão o funcionário não respondeu quantos filhos possui. Podemos utilizar o argumento "na.rm = TRUE" em várias funções do R para eliminar essas entradas faltantes e calcular medidas levando em conta apenas os valores informados. Execute a célula a seguir:

In [None]:
median(n_filhos, na.rm = TRUE)

***
### Exercício 5
Obtenha a mediana para a variável **idade** (em anos)
***

### 3.3) Média
Assim como no caso da mediana, o R fornece um função simples para o cálculo de médias. A sintaxe de tal função é mean(). Novamente, podemos eliminar dados faltantes por meio do argumento "na.rm = TRUE". Vamos obter a média da variável **salário**. Execute a célula a seguir:

In [None]:
mean(s)

***
### Exercício 6
Calcule a média das variáveis **idade** (em anos) e **número de filhos**.
***

***
## 4) Medidas Resumo - Medidas de Dispersão
Apresentaremos no que segue as funções para se calcular variância e desvio padrão.

### 4.1) Variância e desvio padrão

Vimos em aula que a variância de uma variável $X$, cujas observações são denotadas por $x_1,x_2,\ldots,x_n$ e cuja média é denotada por $\bar{x}$, é definida por:

$$\mbox{Var}(X)=\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2.$$

No entanto, o R considera a seguinte versão dita *não viesada* (por razões técnicas da teoria estatística que não serão tratadas agora):

$$\mbox{Var}(X)=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2.$$

De qualquer forma, para dados suficientemente grandes ($n$ grande), a diferença entre as duas fórmulas é praticamente nula. No R, a variância é obtida por meio da função var(). Vamos calcular a variância da variável **salário**. Execute as células a seguir:

In [None]:
var(s)           # versão obtida pela segunda expressão

De agora em diante utilizaremos apenas a versão fornecida pelo R. Para calcular o desvio padrão, basta extrair a raíz quadrada da variância por meio da função sqrt() ou utilizar diretamente a função sd(). Execute as células a seguir: 

In [None]:
sqrt(var(s)) # desvio padrão obtido pela extração da raíz quadrada da variância

In [None]:
sd(s)        # função para calcular diretamente o desvio padrão

***
### Exercício 7
Calcule a variância e o desvio padrão das variáveis **idade** (em anos) e **número de filhos**. Utilizando a definição apresentada em aula, calcule o **coeficiente de variação** dessas variáveis. Se necessário, insira mais células **(Menu -> Insert ->  Insert Cell Below)**.
***

***
## Parabéns, você concluiu esta atividade prática!

<b> <font color='red'>ATENÇÃO! Sugiro imprimir o conteúdo deste notebook para enventuais consultas futuras, pois assim que o navegador for fechado os códigos serão apagados. Para imprimir, tecle Ctrl+P e salve como um arquivo PDF.</font></b>