In [1]:
# Anexar o repositório do GitHub
system('git clone https://github.com/marcosfs2006/Estatistica_Basica_R.git')

# **<font color="blue">Apresentação do R/RStudio<font>**



# **<font color="blue">Dados**<font>

De uma maneira geral, pode-se dizer que os dados são valores numéricos dentro de um contexto. Valores associados a um atributo ou característica de um indivíduo. Por exemplo, suponha que lhes sejam apresentados os seguintes números:

<center>

`14, 15, 15, 16, 9, 16, 14, 15`

</center>

Sem maiores informações, estes são apenas números sem qualquer significado especial, embora possamos fazer algumas afirmações sobre eles. Por exemplo: tem-se 8 números, o menor é 9 e o maior é 16. 

Agora, digamos que os números acima representem a idade, em anos, de uma amostra de oito alunos do 1o ano do ensino médio de uma escola X. Os números agora possuem um contexto e com base nesse contexto podemos fazer julgamentos sobre os mesmos que não seria possível anteriormente como por exemplo o aluno de 9 anos no Ensino Médio. É algo talvez possível, embora bastante incomum.  

Usualmente trabalharemos com dados estruturados, ou seja, dados numéricos ou textuais organizados em tabelas (linhas e colunas) mas é cada vez mais frequente o uso de dados não estruturados no formato de texto, figuras, imagens e áudio.

Outro fenômeno contemporâneo diz respeito ao grande volume de dados a que se tem acesso atualmente em razão do avanço da tecnologia da informação. A este fenômeno tem-se dado o nome de Big Data. 



## **Classificação dos dados** 

Os dados podem ser classificados de diversas maneiras. **Quanto a sua origem**, ou seja, à forma como foram obtidos, os dados podem ser classificados em **experimentais** e **observacionais**.

**Quanto a sua estrutura**, os dados podem ser classficados em **dados de corte transversal**, **séries temporais** e **dados de painel**.

Já **quanto ao tipo**, os dados podem ser **quantitativos** ou **qualitativos**.

Mais recentemente fala-se também em **dados estruturados** e **dados não estruturados**.



### **_Classificação quanto a origem_**

**Dados Experimentais** são aqueles provenientes de experimentos concebidos para a investigação de um efeito causal. Como exemplo desse tipo de dado pode-se citar aqueles colhidos em um experimento conduzido com a finalidade de estudar o impacto de um novo fertilizante sobre a produtividade de uma determinada cultura. O fato a se observar é que o pesquisador pode controlar as condições sob as quais o experimento é conduzido.

**Dados Observacionais** são aqueles provenientes da observação dos fenômenos naturais, sociais, econômicos, etc, sem qualquer interferência do pesquisador. Exemplo deste tipo de dado são os registros de óbitos e da receita arrecadada em determinado período num município.



### **_Classificação quanto ao tipo_**

**Dados Quantitativos** são aqueles que expressam quantidades medidas em uma escala numérica, podendo ser classificados em **contínuos** ou **discretos**.

Dados discretos são aqueles que representam contagens, sendo expressos por números inteiros (escala discreta). Exemplo desse tipo de dado é o número de filhos que um casal tem.  Já os dados contínuos são aqueles que assumem valores num intervalo numérico. Exemplo desse tipo de dado é o salário mensal de um indivíduo.

**Dados Qualitativos** são aqueles que representam atributos dos indivíduos. Exemplos desse tipo de dado são o sexo de uma pessoa (`masculino` ou `feminino`) e o dia da semana (`dom`, `2a`, `3a`, `4a`, `5a`, `6a` e `sab`).

Os dados qualitativos são, ainda, classificados em **nominais** ou **ordinais**. Os dados qualitativos ordinais possuem uma ordenação implícita, como é o caso do dia da semana, onde os valores da variável possuem uma ordenação temporal. Já a variável sexo não possui tal ordenação. 



### **_Classificação quanto a estrutura_**

**Dados de Corte Transversal** são aqueles que se referem a mensurações feitas em distintas unidades de observação em determinado ponto no tempo. Como exemplo deste tipo de dado pode-se citar o conjunto de dados `arfile.RData` que contém, para cada cliente em débito com uma determinada empresa o valor devido pelo mesmo na data de 31/12/2001:

```{r, echo=FALSE, results='asis'}

load('Estatistica_Basica_R/arfile.RData')
knitr::kable(head(arfile))
```

**Séries Temporais** são dados que representam mensurações feitas ao longo do tempo, em geral em períodos igualmente espaçados de tempo. Como exemplo deste tipo de dado pode-se citar o registro da quantidade de estupros registrados no Estado do Rio de Janeiro no período de janeiro de 2005 a dezembro de 2011 contidos no conjunto de dados `estupro.RData`. 

```{r, echo=FALSE}
load('../2_Dados/estupro.RData')
knitr::kable(estupro)
```

**Dados de Painel**, também conhecidos como dados longitudinais, são dados que combinam características dos dois tipos anteriores. Como nos dados de corte transversal, referem-se a observações feitas em distintas unidades de observação e, como as séries temporais, em dois ou mais períodos de tempo.

O conjunto de dados a `ifdm.RData` ilustra este tipo de dado.

```{r, echo=FALSE}

load('../2_Dados/ifdm.RData')
knitr::kable(head(ifdm[,1:7]))

```

Na tabela acima, são apresentados os valores do Índice FIRJAN de Desenvolvimento Municipal (IFDM-Geral) para cada município (unidade de observação) e para os anos base de 2005 a 2013.



## **Escalas de mensuração**

Uma escala de mensuração é uma regra que associa a um atributo de um indivíduo um valor numérico ou simbólico.

De acordo com a escala proposta por Stevens, os níveis de mensuração são quatro: **nominal**, **ordinal**, **intervalar** e de **razão**.


**Escala Nominal** - Nesta escala os valores são usados para classiﬁcar um indivíduo com relação a um determinado atributo. Neste nível de mensuração a única operação possível é a contagem das unidades de observação que possuam o mesmo atributo (frequência). Como exemplo de variáveis medidas nesta escala tem-se o estado civil, o sexo e as funções de governo.

**Escala Ordinal** - Nesta escala os valores atribuídos às unidades de observação destinam-se a assinalar a posição das unidades de observação que estejam organizadas em categorias que possuem entre si uma relação hierárquica. Existe uma ordem entre as unidades de observação. As operações possíveis neste nível são a contagem e a comparação. Como exemplos de variáveis mensuradas nesta escala tem-se o nível de instrução, as  classes socio-econômicas e a graduação na hierarquia militar.

**Escala Intervalar** - Esta escala caracteriza-se pelo fato de que as medidas possuem uma origem arbitrária e uma unidade de medida. Nesta escala são possíveis, além das operações de contagem e comparação (>, <, =, >=, <=), as operações adição e subtração. O exemplo clássico de variável medida nesta escala é a temperatura medida em graus *Celsius* ou *Fahrenheit*. Veja que 0 grau centígrado não representa ausência de temperatura.

**Escala de Razão** - Diferentemente da escala intervalar, a escala de razão possui um zero absoluto, ou seja, atribuir-se o valor zero a um atributo signiﬁca a ausência do atributo. Nesta escala são possíveis todas as operações permitidas na escala anterior e mais as operações de multiplicação e divisão, possíveis graças à existência de uma origem ﬁxa ou zero absoluto. Exemplos de variáveis medidas nesta escala são a altura e a renda.



## **Armazenamento de dados**  

Antes de iniciar qualquer análise em seus dados, o técnico deverá obtê-los junto às entidades onde esteja realizando seu trabalho ou deverá colhê-los na internet ou, ainda, poderá obtê-los nos sistemas de informação da instituição em que trabalha.

Para que a análise seja eﬁciente, estes dados deverão estar em formato eletrônico. Não obstante, dependendo do tipo de arquivo em que os dados estejam armazenados, o técnico terá mais ou menos diﬁculdade em dispor deles num formato adequado para análise. Por exemplo, se os dados forem fornecidos em um arquivo do processador de texto *Word* (`.docx`) ou em *Portable Document Format* (`.pdf`), o técnico deverá realizar um trabalho de pré-processamento dos dados para que possa realizar sua análise com o uso de softwares de análise de dados. Assim, deverá obter os dados de que necessita em formatos que facilitem sua análise posterior.

Existem hoje diversos formatos de arquivos nos quais os dados podem estar armazenados. Apresentaremos aqui, brevemente, os mais frequentemente encontrados na prática.

Dados armazenados em planilhas eletrônicas, das quais o Excel é a mais conhecida, é o mais comum e dada a importância prática deste formato, a seção seguinte será dedicada a ele.

Os arquivos texto são o padrão para o intercâmbio de dados entre sistemas, já que praticamente todos os aplicativos dispõem de mecanismos que possibilitam a exportação de dados neste formato.

Dados armazenados neste formato apresentam duas variantes principais: dados em colunas de tamanho ﬁxo e dados com colunas separadas por delimitadores.

O arquivo texto em colunas de formato ﬁxo caracteriza-se pelo fato de que cada coluna tem um tamanho ﬁxo e normalmente necessita estar acompanhado de indicações quanto ao início e ﬁm de cada coluna. O documento contendo estas indicações é denominado *layout* do arquivo ou dicionário de variáveis. Os microdados da Pesquisa Nacional por Amostras de Domicílios (PNAD) do IBGE são exemplos de dados disponibilizados aos usuários neste formato.

Nos arquivos texto com colunas separadas por delimitadores os delimitadores mais usuais são o ponto e vírgula (`;`) e o marcador de tabulação (`\t`). Os arquivos que possuem ponto e vírgula como delimitador de campo normalmente tem a extensão `.csv` em razão de sua denominação em inglês: `comma separated values`. O Banco Central do Brasil desponibiliza ao público em seu site várias séries de dados econômicos que podem ser exportadas neste formato.

Arquivos que tenham o marcador de tabulação como delimitador normalmente têm a extensão `.txt`, mas isso não é regra. O recomendável e sempre abrir o arquivo no aplicativo bloco de notas e inspecionar o seu conteúdo.

Os arquivos de texto são também conhecidos como arquivos planos (*`ﬂat ﬁles`*).

Os dados podem também estar, e frequentemente estão, armazenados em banco de dados, nos quais são armazenados em tabelas numa estrutura relacional. Existem hoje diversos aplicativos de banco de dados, sendo possível citar o MS Access em razão de sua enorme popularidade, cujos arquivos de dados têm a extensão `.mdb`.

Como exemplo de dados distribuídos neste formato pode-se citar os dados ﬁscais dos municípios disponibilizados pela Secretaria do Tesouro Nacional (STN).

O DATASUS disponibiliza uma grande quantidade de dados no formato `.dbf` que é um arquivo produzido pelo aplicativo DBase. Dados neste formato podem ser abertos no Excel.

</br>



### **_Organizando dados no Excel_**

O Excel é usado com muita frequência para armazenar dados em razão de sua grande ﬂexibilidade.

Para que os dados armazenados em planilhas possam ser facilmente importados por aplicativos de análise de dados é necessário que os mesmos sejam organizados de forma adequada. Em geral, a melhor forma de organizar os dados é aquela em que os dados estejam em um arranjo tabular, onde as linhas (também chamadas de observações ou registros) representam os indivíduos nos quais são feitas as medições e as colunas (também chamadas de campos ou variávei) constituem os atributos medidos nestes indivíduos. O exemplo a seguir ilustra este arranjo:

![](https://drive.google.com/uc?export=view&id=1AGrZYqrrHvQVrVb6lEcMGHvm7t6UA4D2)

</br>

Na organização dos dados para análise, recomenda-se observar as seguintes orientações:

* Sempre que possível, organize os dados no formato tabular mostrado na ﬁgura acima, também conhecido como lista;   
* Use nomes para identiﬁcar cada coluna de dados;   
* Mantenha os nomes das colunas o mais curto possível. Isto facilita trabalhar com os dados se os mesmos forem importados por outros aplicativos;   
* Não misture dados com análise ou gráﬁcos na mesma planilha.   

Quanto a este tópico recomendamos a leitura do artigo `Data Organization in Spreadsheets` de Karl W. Broman e Kara H. Woo.



## **Organização dos dados**

Conforme mencionado na seção anterior, o formato de lista é o mais indicado para se armazenar dados para análise. Neste formato os dados são organizados em um formato tabular com linhas e colunas. As linhas (ou observações, registros, casos) representarão os indivíduos e as colunas as variáveis medidas nos indivíduos.   

Quando os dados, estruturados neste formato, satisfazem às três condições abaixo dizemos que os mesmos estão `organizados`.  

1. Cada variável consta de uma coluna;   
2. Cada observação consta de uma linha;   
3. Cada tipo de unidade observacional constará de uma tabela de dados própria; 

Dados "organizados" constituem uma forma padronizada para relacionar sua strutura física com a semântica (seu significado). 

Considere o conjunto de dados a seguir:

Pessoa | Tratamento A | Tratamento B   
:-----:|:------------:|:------------:  
Maria  | -            | 2
José   | 16           | 11
João   | 3            | 1

Este arranjo, embora em um formato de lista, viola a regra 1 acima, já que as colunas são na verdade valores de uma variável que indica o tipo de tratamento. Uma versão deste arranjo que satisfaz aos quesitos acima é a seguinte:

Pessoa | Tratamento | Valor  
:------|:----------:|------:
Maria  | A          | - 
José   | A          | 16 
João   | A          | 3
Maria  | B          | 2 
José   | B          | 11 
João   | B          | 1 

É possível argumentar que a primeira tabela é mais eficiente ao organizar os dados por não permitir redundância, fato que ocorre na segunda tabela. Isso é fato, mas realizar análise com dados organizados no segundo formato é mais conveniente.

Para um tratamento mais detalhado sobre este tópico recomendamos a leitura do artigo *Tidy Data* de autoria de Hadley Wickham publicado em agosto de 2014 no *Journal of Statistical Software*.

Os dados podem estar em um formado denominado *longo* (segunda tabela) ou num formato denominado *amplo* (primeira tabela). O R disponibiliza funções que permitem passar de um formato a outro.



# **<font color="blue">Estatística descritiva**<font>

Neste capítulo apresentaremos as principais medidas resumo, aquelas que têm por objetivo sintetizar um conjunto de dados mediante o cálculo de medidas de tendência central, medidas de variabilidade (as que buscam expressar o grau de espalhamento dos dados), medidas de assimetria e curtose, bem como medidas de associação e correlação entre variáveis.



## **Distribuições de frequências**  

Tendo colhido os dados necessários à realização de seu trabalho no formato de tabela descrito no capítulo anterior em arquivos nos quais possam ser facilmente acessados, o técnico sentirá de imediato a necessidade de reduzir o conjunto de dados de forma a ter uma melhor compreensão da distribuição das variáveis nele contidas. Uma técnica usualmente utilizada é obter a distribuição de frequências das variáveis nas quais esteja interessado.

Obter a distribuição de frequências de uma variável consiste em relacionar em uma tabela os valores possíveis desta variável e determinar a frequência com que cada um dos valores ocorre no conjunto de dados. Estes valores são denominados frequências absolutas ou simplesmente frequências ($f_i$). A tabela assim construída denomina-se **tabela de frequências**.

A construção de tabelas de frequências será ilustrada com o uso do conjunto de dados `rh.RData` que contém dados relativos aos funcionários de uma empresa. O conjunto de dados pode ser carregado no R da seguinte forma:




In [None]:
load('Estatistica_Basica_R/rh.RData')
rh <- apply(rh, 2, iconv, from="latin1", to="utf8")
head(rh)

### **_Distribuição de frequências de variáveis qualitativas_**

A tabela de frequências para variáveis qualitativas é construída listando-se os valores assumidos pela variável de interesse e veriﬁcando quantas vezes cada um dos possíveis valores aparece no conjunto de dados.

Representando-se por $n_i$ a frequência com que o valor $i$ da variável ocorre no conjunto de dados e por $n$ a quantidade de observações, a tabela de frequências para a variável `Estado.Civil` do conjunto de dados `rh` pode ser esquematizada da seguinte forma:

<br>

<center>

Estado Civil | $n_i$ | $f_i$  
:------------|------:|------:
Casado        | 3449  | 0.6898 
Divorciado   | 419   | 0.0838  
Solteiro     | 790   | 0.1580 
Viúvo        | 333   | 0.0666 
NA           | 9     | 0.0018 

</center>

<br>

Além das frequências absolutas $n_i$, também foi incluída uma coluna denominada $f_i$, contendo a frequência relativa, deﬁnida como sendo a razão entre a frequência absoluta do valor $i$ ($n_i$) e a quantidade total de observações no conjunto de dados ($n$), ou seja, $f_i = n_i / n$. A frequência relativa é útil quando se deseja comparar distribuições de frequências provenientes de conjuntos de dados com diferentes quantidades de observações.

No R, as funções `table()` e `prop.table()` nos permitem calcular as frequencias absolutas e relativas com as quais podemos montar a tabela de frequências:


In [None]:
# Cálculo das frequências absolutas
freq_abs <- table(rh$Estado.Civil, useNA = 'ifany')

# Cálculo das frequências relativas
#freq_rel <- prop.table(freq_abs)

# Montagem da tabela de frequências
#cbind(freq_abs, freq_rel)

# Adição de linha de totalização
#addmargins(cbind(freq_abs, freq_rel), 1)


### **_Distribuição de frequências de variáveis quantitativas_**

A distribuição de frequências para uma variável quantitativa discreta pode ser elaborada da mesma forma que a descrita para as variáveis qualitativas. 

Relacionam-se os valores que a variável pode assumir e conta-se a frequência de ocorrência de cada valor no conjunto de dados. Observe-se, no entanto, que esta metodologia é adequada quando a variável em questão assume poucos valores distintos; caso contrário, a distribuição de frequências poderá ﬁcar semelhante ao próprio conjunto de dados.

Quando a variável em estudo é contínua ou discreta com muitos valores distintos, a metodologia para a construção da distribuição de frequências consiste em determinar-se faixas de valores ou intervalos de classe e calcular o número de observações contidas em cada classe $n_i$.

O exemplo a seguir ilustra a construção da distribuição de frequências para a variável `Salário` do conjunto de dados `rh` que registra os valores dos salários recebidos pelos funcionários.

Considerando que esta variável assume valores no intervalo [`r range(rh$Salário, na.rm=TRUE)`], pode-se deﬁnir 16 intervalos de classe  de igual tamanho, resultando na seguinte tabela de frequências:

<center>

classe    | freq_abs
:--------:|:--------:
[0-10]    | 2815
]10-20]   | 1115
]20-30]   | 573
]30-40]   | 248
]40-50]   | 128
]50-60]   | 48
]60-70]   | 35
]70-80]   | 15
]80-90]   | 6
]90-100]  | 3
]100-110] | 2
]110-120] | 1
]120-130] | 1 
]130-140] | 0
]140-150] | 1
]150-160] | 1

</center>


Para variáveis qualitativas ordinais e variáveis quantitativas é as vezes conveniente adicionar-se mais uma coluna à tabela de frequência contendo as frequências acumuladas ($f_{ac}$), cujo valor para cada classe consiste na soma da frequência relativa de cada classe com as frequências das classes anteriores.

Como o leitor pode ter notado, a determinação da quantidade de classes foi feita de forma um tanto arbitrária. Na prática, existem algumas regras para a determinação do número de classes, sendo a regra de `Sturges` a mais conhecida. Outras são: `Scott` e `Freedman-Diaconis`, que podem ser calculadas, respectivamente, com as funções `nclass.scott()` e `nclass.FD()`. A função `nclass.Sturges()` calcula a quantidade de classes utilizano a regra de Sturges.

O número de classes ($k$) pela regra de Sturges é dado pela seguinte fórmula:

<br>

$$k = 1 + 3,3 \times log_{10}(n)$$

<br>

Assim, pela regra de Sturges, a quantidade de classes para o exemplo em questão seria $k = 1 + 3.3 * log10(5000) = 13,2066$ que pode ser aproximado para 14 classes.



## **Apresentação gráfica das distribuições de frequência**




### **_Gráfico de barras_**

O gráﬁco de barras é indicado para representar as frequências absolutas ou relativas de uma distribuição de frequências. No R, este gráfico pode ser elaborado com a função `barplot()`. 

A seguir apresenta-se o gráﬁco de barras correspondente à distribuição de frequências da variável `Estado.Civil` do conjunto de dados `rh`.


In [None]:
barplot(table(rh$Estado.Civil))

Deve-se observar que a forma do gráﬁco não se alteraria caso fossem utilizadas as frequências relativas na construção do mesmo.

Em se tratando de variáveis nominais é boa prática apresentar o gráfico com  as categorias ordenadas de acordo com os valores das frequências de ocorrência das mesmas. Exemplo:


In [None]:
barplot(sort(table(rh$Estado.Civil), decreasing=TRUE),
        main='Estado Civil - Empresa X', cex.main=0.9,
        ylab='Qtd. Funcionários', cex.lab=0.8)


### **_Gráfico de setores ( pizza )_**

O gráﬁco de setores, ou gráﬁco de pizza, é um gráfico muito comum em revistas, jornais e relatórios financeiros ou gerenciais mas cuja utilização não é recomendada por especialistas em visualização de dados. Edward Tufte, renomado autor nesta área, diz que " *o único desenho gráﬁco pior do que um gráﬁco de pizza são vários deles juntos*"^[Citado por J. Norberto W. Dachs em *Métodos Estatísticos em Economia e Gestão da Saúde*]

Como regras gerais para a construção de gráﬁcos de setores pode-se mencionar:

* sempre que possível evitar o gráﬁco de setores;   
* usar o gráﬁco de setores para apresentar preferencialmente proporções que em conjunto somem 100%;   
* nunca usar gráﬁcos de setores com efeito tridimensional, pois eles são ainda piores que os gráﬁcos de setores bidimensionais;   
* evitar realizar comparações com o uso de mais de dois gráﬁcos de setores.   

O gráﬁco de setores para a frequência relativa da variável `Estado.Civil` é apresentado a seguir:


In [None]:
pie(table(rh$Estado.Civil), col=heat.colors(4))

### **_Histograma_**

O histograma consiste em retângulos justapostos cujas larguras das bases correspondem à amplitude dos intervalos de classe da distribuição de frequências e as alturas às frequências absolutas ou relativas das observações em cada intervalo. A seguir, apresenta-se o histograma para representar graﬁcamente a distribuição de frequências da variável `Salário` do conjunto de dados `rh`:



In [None]:
hist(rh$Salário, breaks=40,
     main='Distribuição dos Salários',
     xlab='Vlr. dos Salários',
     ylab='Qtd. Funcionários',
     col='lightgreen')

Embora seja mais comum a construção de histogramas com intervalos de classe de mesma amplitude, também é possível construir histogramas com intervalos de classe de amplitudes desiguais. Isso é possível passando-se ao argumento `breaks=` da função `hist()` as quebras desejadas.



## **Medidas de tendência central**

Medidas de tendência central são medidas que buscam representar o valor típico em um conjunto de dados.


### **_Média aritmética simples_**

A média aritmética é a medida de tendência central mais comumente utilizada. Dado um conjunto de $n$ valores $x_1, x_2, x_3, ···, x_n$, a média destes valores ($\bar{x}$) é dada por:

<br>

$$\bar{x} = \frac{\sum_{i = 1}^{n}{x_i}}{n}$$

</br>

A média tem como característica marcante o fato de ser muito sensível a valores extremos, também denominados *outliers*. O cálculo da média é feito utizando a função `mean()`. 

Exemplo: calcular a média da variável `Salário` no conjunto de dados `rh`.


In [None]:
mean(rh$Salário, na.rm=TRUE)

### **_Média aritmética simples aparada_**

Para reduzir o efeito dos valores extremos sobre a média, pode-se utilizar a média aparada, cujo cálculo consiste em excluir do conjunto de dados os $m/2$ maiores e os $m/2$ menores valores e calcular a média aritmética simples dos valores restantes. O valor de $m$ usualmente corresponde a uma percentagem entre 0% a 50% do total dos valores.

Esta supressão objetiva eliminar do cálculo da média os valores muito altos e muito baixos, ou seja, os *outliers*.

No R, esta esta estatística é calculada com a função `mean()` definindo-se o argumento `trim=` com o valor adequado (um número entre 0 e 0.5).

Como exemplo, vamos calcular a média aparada a 20% da variável `Salário` do conjunto de dados `rh`:



In [None]:
mean(rh$Salário, na.rm=TRUE, trim=0.2)

De 12.8, a média caiu para 9.2, com a remoção dos 10% maiores e 10% menores valores, uma redução bem significativa.

### **_Média ponderada_**

Quando, por alguma razão, existe a necessidade de se atribuir pesos aos valores como forma de se atribuir distintos graus de importância aos dados, utiliza-se a média aritmética ponderada, que consiste em somar os valores $x_1, x_2, x_3, ···, x_n$ multiplicados pelos seus correspondentes pesos $p_1, p_2, p_3, ···, p_n$ e depois dividir pela soma dos pesos.

A fórmula para o cálculo da média ponderada é apresentada a seguir:

<br>

$$\bar{x}_p = \frac{x_1 p_1 + x_2 p_2 + \dotsb + x_n p_n}{p_1 + p_2 + \dotsb + p_n} = \frac{\sum_{i=1}^n{x_i p_i}}{\sum_{i=1}^n{p_i}} $$

<br>

A média aritmética simples pode ser vista como um caso particular da média ponderada, em que todos os valores têm peso iqual a 1.

No R a média ponderada pode ser calculada coma a função `weighted.mean()`.



### Mediana

A mediana de um conjunto de $n$ valores $x_1, x_2, x_3, ···, x_n$ é o valor que coloca metade das observações abaixo e metade dos valores acima dela.

Se a quantidade de valores ($n$) é ímpar, a mediana é o valor central do conjunto de dados ordenado de forma crescente. Se a quantidade de valores ($n$) é par, a mediana é dada pela média aritmética simples dos dois valores centrais do conjunto de dados ordenado.

Assim, se $n$ é ímpar,

<br>

$$med = x_{(\frac{n + 1}{2})}$$

<br>

E, se $n$ é par,

<br>

$$med = \frac{x_{(\frac{n}{2})} + x_{(\frac{n}{2} + 1)}}{2} $$

<br>

Em distribuições fortemente assimétricas, a mediana é a medida de tendência central mais adequada para sintetizar o conjunto de dados, devendo ser preferida à média aritmética simples.

A função para o cálculo da mediana é `median()`. A mediana da variável `Salários` do conjunto de dados `rh` pode ser calculada da seguinte forma:


In [None]:
median(rh$Salário, na.rm=TRUE)

Observe a diferença existente entre a mediana e a média para a variável em questão.

```
Para pensar...

    A média aritimética e o desvio padrão (cujo cálculo depende da média) são
medidas calculadas com frequência para sumarizar um conjunto de dados sem
muita preocupação com a distribuição dos valores ou a existência de *outliers*.

    Na sua opinião em que circunstâncias faz sentido calcular estas estatísticas
para resumir um conjunto de dados?

```

## **Separatrizes**

Separatrizes são estatísticas de ordem, das quais os percentis, decis e quartis são os exemplos mais comuns.

O percentil de ordem $100p$ de um conjunto de dados dispostos em ordem crescente é um valor tal que $100p%$ das observações são iguais ou inferiores a ele, e $100(1−p)%$ são superiores a ele. $(0 < p < 1)$

Separatrizes especiais são os quartis e os decis. Os quartis dividem o conjunto de dados em quatro partes iguais e os decis em dez.

Os valores que dividem o conjunto de dados ordenados de forma crescente em quatro partes iguais são denominados quartis. Assim, tem-se três quartis: $Q1$, $Q2$ e $Q3$.

O valor $Q1$, o percentil de ordem 25, é denominado quartil inferior ou primeiro quartil e constitui o valor que divide o conjunto de dados de forma que $25\%$ são iguais ou inferiores a ele e $75\%$ são iguais ou superiores. $Q2$ é o percentil de ordem 50, ou seja, a mediana, e $Q3$ é o percentil de ordem 75, também conhecido como quartil superior.

Medidas envolvendo os quartis são:

* Intervalo interquartil ($IQR$): $Q_3 − Q_1$      
* Quartil médio: $\frac{1}{2}(Q_1 + Q_3)$   
* Intervalo semiquartil: $\frac{1}{2}(Q_3 − Q_1)$   
* Trimédia: $\frac{1}{4}Q_1 + \frac{1}{2}Q_2 + \frac{1}{4}Q_3$      

Os decis são os percentis de ordem $10, 20, ..., 90$ que dividem o conjunto de dados em dez partes iguais.

Todos estas medidas podem ser calculadas no R com a função `quantile()`. 

Por exemplo, para calcular os quartis da variável `ideb15` do conjunto de dados `ideb.RData` pode-se fazer da seguinte forma:



In [24]:
load('Estatistica_Basica_R/ideb.RData')

print(quantile(ideb$ideb15, probs = c(0.25, 0.5, 0.75), na.rm = TRUE))

25% 50% 75% 
3.5 4.2 4.8 


## **Medidas de dispersão ou de variabilidade**  

As medidas de dispersão ou variabilidade são medidas que objetivam quantiﬁcar o espalhametno dos dados.


### **_Amplitude e desvio médio_**

A amplitude de um conjunto de dados é simplesmente a diferença entre o maior e o menor valor de um conjunto de dados.

Assim, $A = x_{max} − x_{min}$.

No R, a função `range()` retorna um vetor com os valores mínimo e máximo de um conjunto de dados.

Outra medida de dispersão é o desvio médio (DM) deﬁnido como a média dos módulos dos desvios das observações em relação à sua média. 

<br>

$$DM = \frac{\sum_{i=1}^n{|x_i - \bar{x}|}}{n} $$

### **_Variância e desvio padrão_**

Embora não sejam medidas de variabilidade tão intuitivas como a amplitude e o desvio médio, a variância e o desvio padrão são as medidas de variabilidade mais frequentemente utilizadas. A variância ($s^2$) de um conjunto de dados é dada pela média dos quadrados dos desvios das observações à sua média, conforme a fórmula a seguir: 

<br>

$$s^2 = \frac{\sum_{i=1}^n{(x_i - \bar{x})^2}}{n-1}  $$

<br>

A variância tem o inconveniente de expressar o resultado em uma unidade de medida que é o quadrado da unidade em que os dados estão. Este inconveniente é contornado extraindo-se a raiz quadrada da variância, o que dá origem a uma nova medida de variabilidade conhecida como desvio padrão ($s$), cuja unidade de medida é a mesma dos dados. 

<br>

$$s = \sqrt{s^2}$$

<br>

Embora seja uma medida de variabilidade muito usada na prática, o desvio padrão não é uma medida tão intuitiva como o desvio médio.

O desvio padrão é uma medida útil para descrever a variabilidade de um conjunto de dados cuja distribuição de frequências seja próxima à distribuição normal. Assim, se a distribuição não é aproximadamente normal, o desvio padrão não é uma medida muito útil para descrever a variabilidade do conjunto de dados.

As funções `var()` e `sd()` calculam, respectivamente, a variância e o desvio padrão de um conjunto de dados. Vamos ilustrar o uso destas funções com a variável `Salário` que, como já tivemos oportunidade de ver, possui uma distribuição assimétrica.


In [None]:
var(rh$Salário, na.rm=TRUE)
sd(rh$Salário, na.rm=TRUE)

### **_Coeﬁciente de variação_**

O coeﬁciente de variação é uma medida de dispersão relativa dada pelo quociente entre o desvio padrão e a média. O coeﬁciente de variação é uma medida adimensional (não possui unidade de medida) útil quando se deseja comparar duas distribuições e também para avaliar o quanto a média é representativa de um conjunto de dados. 

<br>

$$ cv = \frac{s}{\bar{x}}$$

<br>

Em geral, um coeﬁciente de variação de até 30% indica que a média é representativa do conjunto de dados.

# **<font color="blue">Análise Exploratória de Dados<font>**

A Análise Exploratória de Dados (EDA, na sigla em inglês) tem origem no trabalho do estatístico John Tukey (1915-2000) entitulado [*Exploratory Data Analysis*](https://www.amazon.ca/Exploratory-Data-Analysis-John-Tukey/dp/0201076160) publicado em 1977. Neste livro Tukey refere-se à análise exploratória de dados nos seguintes termos:

> _Análise Exploratória de Dados é trabalho de detetive, trabalho de detetive com números, trabalho de detetive com contagem ou trabalho de detetive com gráﬁcos._

> _Um detetive investigando um crime necessita tanto de ferramentas como de entendimento. Se ele não dispor de material para recolhimento de impressões digitais falhará em encontrar as impressões digitais em boa parte das superfícies. Se ele não dispõe de entendimento sobre onde o criminoso mais provavelmente tenha deixado as impressões não olhará nos lugares certos._ 

> _Igualmente, o analista de dados também necessita de ferramentas e entendimento. O propósito deste livro é fornecer um pouco de ambos._

A análise exploratória de dados é uma **abordagem de análise de dados** que utiliza uma variedade de técnicas (principalmente gráﬁcas) com os seguintes objetivos:  

* Maximizar o *insight* acerca do conjunto de dados;   
* Descobrir estrutura subjacente aos dados;   
* Ajudar a identiﬁcar variáveis relevantes;   
* Detectar *outliers* e outras anomalias;   
* Testar suposições acerca do conjunto de dados.   

Para alcançar estes objetivos a EDA recorre largamente a resumos numéricos e a gráﬁcos.

Um ponto importante a considerar é que estas técnicas foram desenvolvidas quando os computadores pessoais não eram largamente utilizados, de forma que boa parte das técnicas foram desenvolvidas com vistas a serem elaboradas manualmente. Não obstante, muitas ainda são bastante úteis, como será visto neste capítulo.



## **Ramo e folhas**   

O ramo-e-folhas é uma representação semi-gráﬁca de dados numéricos que permite sua organização de forma a chamar a atenção para algumas características do conjunto de dados, tais como:

* Forma da destribuição (simetria);   
* Dispersão (espalhamento dos dados);    
* Existência de *outliers*;   
* Existência de lacunas entre os dados.   

Pode-se ainda mencionar como características do ramo-e-folhas o fato de possuir muita semelhança com o histograma, tendo porém a vantagem de exibir o formato da distribuição sem que haja perda de informação. A desvantagem do ramo-e-folhas está no fato de ser um gráﬁco que deve ser utilizado com conjuntos dados com poucas observações.

Para a construção do ramo-e-folhas o R dispõe da função `stem()` cujo uso será ilustrado a seguir com o conjunto de dados `ilc.RData` que registra os índices de liquidez corrente para 100 empresas, das quais 50 são solventes e 50 são insolventes.

O ramo-e-folhas para este conjunto de dados pode ser elaborado da seguinte forma:



In [None]:
load('ilc.RData')
stem(ilc$ilc)

Observando o gráﬁco acima, pode-se perceber que o mesmo é construído separando-se os dados em duas partes, uma que constitui o "ramo", e outra que é utilizada para construir as "folhas". Por exemplo o menor valor, `0,32`, transforma-se em `0 | 3`.

Uma melhoria no gráfico pode ser feita fazendo-se uma modificação no argumento `scale=` da função que realiza uma expansão na escala do gráfico.

Modiﬁcando o argumento `scale=` da função para 2 (a opção padrão é 1), obtém-se o seguinte resultado:


In [None]:
stem(ilc$ilc, scale = 2)

O ramo-e-folhas acima mostra duas empresas que tem um índice de liquidez corrente que se distancia um pouco dos demais. Esta informação não fica visível no gráfico anterior.

O pacote `aplpack` disponibiliza as funções `stem.leaf()` e `stem.leaf.backback()` que implementam o ramo-e-folhas. Os comandos a seguir mostram o uso destas funções no conjunto de dados `ilc`.

In [None]:
library(aplpack)
stem.leaf(ilc$ilc, m=4, rule.line = "Sturges", style="bare")

In [None]:
solvente   <- ilc$ilc[ilc$situacao == 'solvente']
insolvente <- ilc$ilc[ilc$situacao == 'insolvente']

stem.leaf.backback(solvente, insolvente,
                   m=6, rule.line = "Sturges",
                   style="bare")


## **Gráfico de pontos**    

O gráfico de pontos (*dotcharts*) também é uma boa opção para a visualização de pequenos conjuntos de dados. Ainda com o conjunto de dados `ilc.RData` este gráfico pode ser feito com a função `stripchart()` da seguinte forma:  



In [None]:
par(bty="n")
stripchart(ilc$ilc, method='stack',
           at=0.1, pch=16, col='blue',cex=1.5)

In [None]:
par(bty="n")
stripchart(ilc ~ situacao, data=ilc, method='jitter',
           pch=16, col='blue',cex=1.5)

O gráfico confirma a existência de dois valores que se distanciam dos demais valores do conjunto de dados.
