<a href="http://www.unioeste.br"><img src="https://www.wolfram.com/wolfram-u/catalog/gen203/gen203-featured.png" align="center"></a>

<h1><center>Atividade Prática em R - Análise Exploratória de Dados</center></h1>

Nesta atividade prática você aprenderá a utilizar o R para:

* Localizar um conjunto de dados previamente carregado na memória;
* construir distribuições de frequências;
* obter representações gráficas dos dados (gráficos de pizza, barras e histograma);
* calcular medidas resumo;
* obter os coeficiente de **assimetria** e **curtose** (que não foram apresentados nas aulas);
* plotar um boxplot.

<b> <font color='red'>ATENÇÃO!</font></b> sempre que este arquivo for reaberto você deverá executar todas as células de código novamente. Cada célula ativa é executada pressionando o botão <b>Run</b> no menu ou teclando <b>Ctrl+Enter</b> (persistindo dúvidas, assista a videoaula de apresentação sobre notebooks).

***

## 1) Sobre os dados

Utilizaremos nesta prática os dados de Bussab & Morettin (2006), disponibilizados na página de um dos autores ([clique aqui](https://www.ime.usp.br/~pam/EstBas.html)). Todos os cojuntos de dados utilizados no livro foram reunidos em um único arquivo do R chamado "dados.RData" (também disponível nos formatos .PDF e .xls). Você não precisa baixar o arquivo, pois o mesmo já está armazenado no mesmo diretório das atividades práticas. No R utilizaremos a função load(). Execute a célula a seguir:

In [None]:
load("dados.RData")

Podemos agora listar todos os objetos armazenados na memória com a função ls(). Execute a célula a seguir:

In [None]:
ls()

Perceba que existem vários objetos que foram adicionados. Vamos visualizar o objeto "tab2_1". Execute a célula a seguir:

In [None]:
tab2_1

Como você já deve ter percebido, trata-se da Tabela 2.1 de Bussab & Morettin (2006) apresentada em aula, que fornece informações socioeconômicas sobre empregados da seção de orçamentos da Cia. MB. Note que cada coluna possui um rótulo, por exemplo, a variável <b>grau de instrução</b> está rotulada como <b>grau_instrucao</b>. Suponha que estamos interessado nessa variável, para imprimi-la devemos proceder com segue. Execute a célula a seguir:

In [None]:
tab2_1$grau_instrucao

Podemos armazenar os dados referentes a variável grau de instrução em um novo vetor para simplificar o acesso e não precisar ficar digitando nomes longos das variáveis. Por exemplo, vamos armazenar os dados da variável **grau de instrução** num vetor chamado "gi". Execute a célula a seguir:

In [None]:
gi = tab2_1$grau_instrucao # definindo a variável (ficará na memória)
gi                         # imprimindo os valores da variável

O comando lenght() fornece o número de elementos de um vetor de dados. Execute a célula a seguir:

In [None]:
length(gi)

***
### Exercício 1 
Imprima na tela o conteúdo da variável <b>idade</b> em anos.
***

***
## 2) Distribuição de frequências

Vamos obter tabelas de distribuição de frequências.

### 2.1) Variável Qualitativa ou Quantitativa Discreta

Vamos agora obter uma tabela de distribuição de frequências para a variável **grau de instrução**. O comando table() apresenta as frequências absolutas de cada modalidade da variável. Seu resultado serve como argumento para o comando prop.table() que fornece as frequências relativas. Podemos multiplicar o resultado de prop.table() por 100 para obter as porcentagens. Execute as próximas três células.

In [None]:
ni = table(gi) # o resultado deste comando ficará armazenado no vetor ni para uso posterior
ni

In [None]:
fi = prop.table(ni)        # o resultado deste comando ficará armazenado no vetor fi para uso posterior
fi = round(fi, digits = 2) # o resultado da linha anterior é arredondado para duas casas decimais
fi

In [None]:
p_fi = 100*fi # frequências em porcentagens, armazenado no vetor p_fi
p_fi

Vamos adicionar linhas com os totais de cada modalidade e armazená-los em vetores. Execute a célula a seguir:

In [None]:
freq_abs   = c(ni,sum(ni))
freq_rel   = c(fi,sum(fi))
porc       = c(p_fi,sum(p_fi))
names(freq_abs)[4] = "Total"

Para imprimir a tabela de distribuição de frequências utilizamos o comando cbind() que serve para dispor vetores em colunas de uma tabela. Execute o célula a seguir:

In [None]:
cbind(freq_abs, freq_rel, porc)

***
### Exercício 2
Obtenha a tabela de distribuição de frequências para a variável <b>região de procedência</b>. <font color='red'><b>Utilize nomes diferentes para os vetores para não gerar conflito com os exercícios posteriores.</b></font>
***

### 2.2) Variável Quantitativa Contínua

Como vimos em aula, a construção de tabelas de distribuição de frequências para variáveis quantitativas contínuas requer uma abordagem diferenciada. Em primeiro lugar, devemos construir os intervalos de classe. Vamos considerar a variável <b>salário</b>.

***
### Exercício 3
Armazene os dados correspondentes a variável <b>salário</b> em um novo vetor chamado "s".
***

A função cut() do R nos auxiliará na obtenção dos intervalos de classe. O argumento "breaks" define quantos intervalos queremos,  enquanto o argumento "right = FALSE" significa que o extremo direito do intervalo não deve ser fechado. Execute a célula a seguir:

In [None]:
int = cut(s, breaks = seq(4,24,by = 4), right = FALSE) # intervalos de classe armazenados no objeto int

A partir de agora o procedimento é análogo ao que foi feito anteriormente. Por exemplo, a função table() fornecerá as frequências absolutas de cada intervalo de classe. Execute a célula a seguir:

In [None]:
ns = table(int)
ns

***
### Exercício 4
Obtenha a tabela de distribuição de frequências para a variável **salário**. <font color='red'><b>Utilize nomes diferentes para os vetores para não gerar conflito com os exercícios posteriores.</b></font>
***

***
## 3) Representações Gráficas
Vamos conhecer agora algumas funções para representações gráficas no R. Primeiramente, execute a célula a seguir que serve para redimensionar os gráficos para melhor apresentação neste notebook (esta ação não é necessária, caso você esteja utilizando o R nativamente, isto é, por meio do software instalado em seu computador).

In [None]:
# Redimensionamento de gráficos
library(repr)
options(repr.plot.width=5, repr.plot.height=5)

### 3.1) Gráfico de Pizza
Para esse tipo de gráfico, devemos coletar as frequências (absolutas, relativas, ou porcentagens) da variável de interesse e utilizar a função pie(). Vamos considerar a variável **grau de instrução**. Execute as células a seguir:

In [None]:
pie(table(gi), main = "Versão simplificada")

In [None]:
pie(p_fi, labels = paste(c("fundamental","médio","superior")," (", as.character(p_fi),"%)", sep = ""), main = "Versão detalhada (formatada)")

***
### Exercício 5
Obtenha um gráfico de pizza simples ou detalhado para a variável **região de procedência**.
***

### 3.2) Gráfico de Barras
Vamos novamente coletar as informações obtidas pela tabela de distribuição de frequências e representá-la graficamente por meio da função barplot(). Considere novamente a variável **grau de instrução** (armazenada no vetor "gi"). Execute as células a seguir:

In [None]:
barplot(table(gi)) # versão não formatada (note que uma das barras ficará sem nome por falta de espaço)

In [None]:
barplot(table(gi), ylab="Frequência", names.arg = c("Fundamental","Médio", "Superior"), ylim=c(0,20)) # versão com alguma formatação

***
### Exercício 6
Construa um gráfico de barras para as variáveis **número de filhos** e **salário**. A formatação é opcional.
***

### 3.3) Histogramas
A construção de histogramas é muito simples e direta no R. A escolha dos intervalos de classe para variáveis contínuas é automática, embora seja possível escolher arbitrariamente se necessário. Vamos construir um histograma para a variável **salário** considerando suas versões em frequência absoluta e relativa. Vamos também construir uma versão com os mesmos intervalos de classe escolhidos nas aulas. Execute as células a seguir:

In [None]:
hist(s) # Histograma em frequência absoluta

In [None]:
hist(s, freq=FALSE) # Histograma em frequência relativa (note que os valores do eixo y mudam)

In [None]:
hist(s, breaks=seq(4,24,by=4), freq=FALSE) # Neste caso, escolhi os intervalos de classe arbitrariamente como apresentado em aula.

In [None]:
## Versão altamente editada (apenas para ilustração)
fig  = hist(s, breaks = seq(4,24,by=4), right=FALSE, plot=F)
aux  = with(fig, 100 * density*diff(breaks)[1])
labs = paste(round(aux), "%", sep="")

plot(fig, 
     freq = FALSE, labels = labs, las = 1,
     ylab="Densidade de Frequência Relativa",
     xlab="Salário",
     col="darkgrey",
     border="white",
     main="Histograma da variável salário",
     xlim=c(0,24), xaxp=c(0,24,6),
     ylim=c(0,.1))

***
### Exercício 7
Obtenha um histograma para a variável **número de filhos**. A formatação é opcional.
***

***
## 4) Medidas Resumo - Medidas de Posição

Nesta etapa você irá aprender a calcular diversas medidas resumo no R.

### 4.1) Moda
Não existe no R uma função para se calcular a moda para variáveis qualitativas e quantitativas discretas. A célula a seguir contém uma implementação bem simples para calcular modas. Execute-a para poder prosseguir.

In [None]:
moda = function(x)
{
   z   = table(as.vector(x))
   out = names(z)[z == max(z)]
   ifelse(length(out) == length(x), return("conjunto amodal"), return(expr=c("A moda é:", out)))
}

Vamos considerar 3 conjuntos de dados artificiais. Um homogêneo (moda única), um bimodal e um amodal (sem moda). Execute a célula a seguir:

In [None]:
dados1 = c(9,2,2,2,3,3,5,10)       # dados unimodal
dados2 = c(1,1,2,2,2,3,3,3,5,6,15) # dados bimodal
dados3 = c(1,2,3,4,5,10)           # dados amodal

moda(dados1)
moda(dados2)
moda(dados3)

***
### Exercício 8
Utilize a função implementada anteriormente para calcular a moda das variáveis **número de filhos** e **grau de instrução**. Obtenha também uma aproximação para a moda da variável **salário**. Se necessário crie mais células (**Menu -> Insert -> Insert Cell Below**).
***

### 4.2) Mediana

A mediana é calculada facilmente no R por meio da função median(). Tal função só funciona com dados numéricos. Vamos calcular a mediana da variável **salário**. Execute a célula a seguir:

In [None]:
median(s)

Observe novamente a tabela que contém os dados da Cia. MB. Note que a variável número de filhos possui entradas do tipo "NA" (not available), ou seja, por alguma razão o funcionário não respondeu quantos filhos possui. Podemos utilizar o argumento "na.rm = TRUE" em várias funções do R para eliminar essas entradas faltantes e calcular medidas levando em conta apenas os valores informados. Execute a célula a seguir:

In [None]:
median(tab2_1$n_filhos, na.rm = TRUE)

***
### Exercício 9
Obtenha a média para a variável **idade** (em anos)
***

### 4.3) Média
Assim como no caso da mediana, o R fornece um função simples para o cálculo de médias. A sintaxe de tal função é mean(). Novamente podemos eliminar dados faltantes por meio do argumento "na.rm = TRUE". Vamos obter a média da variável **salário**. Execute a célula a seguir:

In [None]:
mean(s)

***
### Exercício 10
Calcule a média das variáveis **idade** (em anos) e **número de filhos**.
***

***
## 5) Medidas Resumo - Medidas de Dispersão
Apresentaremos no que segue as funções para se calcular variância e desvio padrão.

### 5.1) Variância e desvio padrão

Vimos em sala de aula que a variância de uma variável $X$, cujas observações são denotadas por $x_1,x_2,\ldots,x_n$ é definida por:

$$\mbox{Var}(X)=\frac{1}{n}\sum_{i=1}^n x_i.$$

No entanto, o R considera a seguinte versão dita *não viesada* (por razões técnicas da teoria estatística que não serão tratadas agora):

$$\mbox{Var}(X)=\frac{1}{n-1}\sum_{i=1}^n x_i.$$

De qualquer forma, para dados suficientemente grandes ($n$ grande), a diferença entre as duas fórmulas é praticamente nula. No R, a variância é obtida por meio da função var(). Vamos calcular a variância da variável **salário**. Execute as células a seguir:

In [None]:
var(s)  # versão obtida pela segunda expressão

In [None]:
n = length(s)    # obtendo o valor de n (tamanho dos dados)
((n-1)/n)*var(s) # versão obtida pela primeira expressão

De agora em diante utilizaremos apenas a versão fornecida pelo R. Para calcular o desvio padrão, basta extrair a raíz quadrada da variância por meio da função sqrt() ou utilizar diretamente a função sd(). Execute as células a seguir: 

In [None]:
sqrt(var(s)) # desvio padrão obtido pela extração da raíz quadrada da variância

In [None]:
sd(s) # função para calcular diretamente o desvio padrão

***
### Exercício 11
Calcule a variância e o desvio padrão das variáveis **idade** (em anos) e **número de filhos**. Utilizando a definição apresentada em aula, calcule o **coeficiente de variação** dessas variáveis. Se necessário, insira mais células **(Menu -> Insert ->  Insert Cell Below)**.
***

***
## 6) Coeficiente de assimetria e curtose
Discutimos extensivamente o conceito de simetria e assimetria em aula. Vamos definir e calcular com o auxílio do R uma medida que quantifica essa a assimetria da distruição dos dados. Vamos também definir um novo conceito chamado **curtose**, que também tem relação com a forma da distribuição dos dados. Primeiramente, vamos definir alguns objetos importantes.

Sejam $x_1,x_2,\ldots,x_n$ um conjunto de dados sobre a variável $X$. Defina

$$m_2=Var(X)=\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2,$$

em que $\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i$ é a média dos dados. Defina também a seguinte **padronização** dos dados

$$z_i=\frac{x_i-\bar{x}}{\sqrt{m_2}} \ \ (i=1,2,\ldots,n).$$

### 6.1) Coeficiente de assimetria
O **coeficiente de assimetria amostral**, denotado por $b_1$, é definido por:

$$b_1=\frac{1}{n}\sum_{i=1}^n z_i^3.$$

Devemos interpretar o coeficiente de assimetria como segue:

* Se a distribuição dos dados for assimétrica à **direita** (ou positiva), devemos ter $b_1>0$;
* se a distribuição dos dados for assimétrica à **esquerda** (ou negativa), devemos ter $b_1<0$;
* se a distribuição dos dados for simétrica (aproximadamente), devemos ter $b_1\approx 0$.

Tal função **não** está implementada no R. A célula a seguir contém uma função implementada para calcular o coeficiente de assimetria, execute-a para poder prosseguir:

In [None]:
# Função para calcular o coeficiente de assimetria
assimetria <- function(x)
{
   x  = na.omit(x)
   m2 = mean((x-mean(x))^2)
   z  = (x-mean(x))/sqrt(m2)
   b1 = mean(z^3)
   return(b1)
}

O histograma da variável **salário** obtido anteriormente sugere que a distribuição desses dados possui assimetria à direita. Vamos verificar isso calculando o coeficiente de assimetria com a função implementada. Execute a célula a seguir:

In [None]:
assimetria(s)

***
### Exercício 12
Obtenha o coeficiente de assimetria das variáveis **idade** (em anos) e **número de filhos**. Nas primeiras duas células introduza o cálculo do coeficiente para cada variável e nas duas últimas células escreva sobre a sua decisão quanto à simetria ou assimetria da distribuição de cada variável.
***

In [None]:
# Cálculo do coef. de assimetria para a variável idade


In [None]:
# Cálculo do coef. de assimetria para a variável número de filhos


Escreva após o símbolo "#" na célula a seguir a sua resposta quando a simetria da variável **idade** (em anos):

In [None]:
#

Escreva após o símbolo "#" na célula a seguir a sua resposta quando a simetria da variável **número de fihos**:

In [None]:
#

### 6.2) Coeficiente de curtose
O **coeficiente de curtose**, excesso de curtose ou achatamento, mede o quanto a distribuição dos dados é concentrada ou dispersa em torno de uma medida de posição central. Tal medida também está relacionada com o *peso da cauda* da distribuição dos dados, isto é, o quão propensa a distribuição dos dados é na geração de valores extremos (valores muito distantes de onde a maioria das observações se concentram - "outliers"). Dados os valores de $z_1,z_2,\ldots,z_n$ definidos em (6.1), este coeficiente é dado por:

$$b_2=\left(\frac{1}{n}\sum_{i=1}^n z_i^4\right) - 3.$$


A curtose é classificada em três tipos quando ao valor de $b_2$:

* Se $b_2<0$, dizemos que a distribuição dos dados possui caudas mais leves que as da distribuição normal$^*$ (**Platicúrtica**).
* Se $b_2\approx 0$, dizemos que a distribuição dos dados possui caudas aproximadamente iguais as da distribuição normal (**Mesocúrtica:**). 
* Se $b_2>0$, dizemos que a distribuição dos dados possui caudas mais pesadas que as da distribuição normal (**Leptocúrtica:**).

$^*$ Vamos conhecer a **distribuição normal de probabilidades** na segunda parte do curso, mas podemos interpretar a curtose graficamente:


<img src="http://www.portalaction.com.br/sites/default/files/resize/EstatisticaBasica/figuras/curtose1-700x304.png" align="center"></a>


Novamos, devemos implementar a função para calcular o coeficiente de curtose no R. A célula a seguir contém uma função implementada para calcular o coeficiente de curtose, execute-a para poder prosseguir:

In [None]:
# Função para calcular o coeficiente de curtose
curtose <- function(x)
{
   x  = na.omit(x)
   m2 = mean((x-mean(x))^2)
   z  = (x-mean(x))/sqrt(m2)
   b2 = mean(z^4) - 3
   return(b2)   
}

***
### Exercício 13
Obtenha o coeficinte de curtose da variável **salário**. Você consegue interpretar o valor obtido?
***

In [None]:
# Utilize essa célula para calcular a curtose


In [None]:
# Escreva a sua interpretação após o símbolo # abaixo
#

***
## 7) Quantis
Nesta etapa você aprenderá a calcular **quantis** de qualquer ordem, obter o **diagrama dos cinco números**, plotar **gráficos de quantis** e construir **boxplots**.

### 7.1) Cálculo de quantis e diagrama dos cinco números
A função quantile() é utilizada para calcular quantis de ordem $p$ no R. No primeiro argumento da função informamos a variável e no segundo o valor de $p$. Vamos calcular os quantis de ordem 0,25 da variável **salário**. Execute a célula a seguir: 

In [None]:
quantile(s,0.25)

Observe que o quantil de ordem 0,50 coincide com a mediana. Execute a célula a seguir:

In [None]:
quantile(s,0.5)
median(s) 

O **diagrama dos cinco números** é obtido facilmente no R por meio da funcão summary(). Na verdade o R fornece seis valores, pois informa também a média. Execute a célula a seguir para obter este diagrama para a variável **salário**:

In [None]:
summary(s)

### 7.2) Gráfico de quantis
Para obter gráficos de quantis, devemos primeiro criar uma sequência de valores de $p$ no intervalo $[0,1]$ e que serão dispostos no eixo das abscissas do gráfico. Execute a célula a seguir:

In [None]:
# Criando uma sequência de proporções que começa em 0 e termina em 1 com saltos de tamanho 0,05
props = seq(0,1,0.05)
props

Vamos agora calcular os quantis correspondentes para a variável **salário**. Execute a célula a seguir:

In [None]:
quant = quantile(s,props)
quant

Agora podemos criar o gráfico por meio da função plot(). Execute a célula a seguir:

In [None]:
plot(props, quant)

***
### Exercício 14
Construa um gráfico de quantis para a variável **idade (em anos)**.
***

***
## 8) Box plot
Como na construção do histograma, o R fornece uma função simples para obtenção do **box plot**. Vamos construir um box plot para a variável **salário**. Execute as células a seguir:

In [None]:
# boxplot tradicional na vertical
boxplot(s)

In [None]:
# box plot na horizontal
boxplot(s, horizontal = TRUE)

Para comparar box plots, basta adicionar as variáveis no argumento da função. Por exemplo, vamos comparar a variável **salário** com a variável **idade (em anos)**. Para isso, devemos **padronizar** as variáveis, pois as mesmas possuem escalas diferente. Dados $x_1,x_2,\ldots,x_n$, dados de uma variável $X$, uma possível padronização é dada por:

$$z_i =\frac{x_i-\bar{x}}{\mbox{dp}(x)}, \ \ (i=1,2,\ldots,n),$$

lembrando que $\mbox{dp}(x)$ é o desvio padrão dos dados. A padronização acima também é dita **normalização** dos dados, fazendo com que estes fiquem com média 0 e desvio padrão 1. Execute a célula a seguir:

In [None]:
id = tab2_1$idade_anos      # armezenando os dados da variável idade (em anos) num vetor id

s_p = (s-mean(s))/sd(x)     # padronização da variável salário

id_p = (id-mean(id))/sd(id) # padronização da variável idade (em anos)

boxplot(s_p, id_p)

***
### Exercício 15
Em aula, contruímos um box plot para os dados sobre as populações dos 15 municípios mais populosos do Brasil. Os dados completos (30 municípios) encontram-se na tabela "cd_municipios" que faz parte dos dados carregados na memória no início dessa atividade prática. Acesse esses dados e utilizando uma célula para cada item:

* (a) Obtenha um diagrama dos cinco números e a média.
* (b) Calcule a variância e o desvio padrão.
* (c) Obtenha o Histograma.
* (d) Obtenha um gráfico de quantis
* (e) Obtenha o Box plot.
* (f) Interprete os resultados.
***

In [None]:
# Obtenha aqui o diagrama dos cinco números e a média


In [None]:
# Calcule aqui a variância e o desvio padrão


In [None]:
# Faça aqui seu histograma


In [None]:
# Faça aqui seu gráfico de quantis


In [None]:
# Faça aqui seu boxplot


In [None]:
# Escreva após o simbolo # sua interpretação dos resultados
#

***
## Parabéns, você concluiu a atividade prática!
Para enviar sua atividade siga as seguintes instruções:

* 1.