# WORKSHOP - ESTAT√çSTICA B√ÅSICA COM R - GRUPO TURING

**Tabela de Conte√∫dos**

- üìÇ [Importando dados em R](#parte1)
    - [Importando um csv](#importando_csv)
    - [Boas pr√°ticas em cria√ß√£o de bases de dados](#boas_praticas)
    - [Importando os dados do Workshop](#importando_ws)
    <br><br>
- üîé [Estat√≠stica b√°sica em R](#parte2)
    - [Tipos de dados](#tipos_de_dados)
        - [Dados Qualitativos](#quali)
        - [Dados Quantitativos](#quant)
    - [Estat√≠stica Descritiva](#descritiva)
        - [Medidas de tend√™ncia central](#tendencia_central)
            - [M√©dia](#media)
            - [Mediana](#mediana)
            - [Percentis](#percentil)
            - [Summary](#summary)
        - [Medidas de varia√ß√£o uni e multivariadas](#variacao)
            - [Amplitude](#amplitude)
            - [Amplitude interquartil](#amplitude_interquartil)
            - [Vari√¢ncia](#variancia)
            - [Desvio Padr√£o](#desv_pad)
            - [Covari√¢ncia](#covar)
            - [Coeficiente de Correla√ß√£o](#ccor)
            <br><br>
- üìë [Manipulando dados em R](#parte3)
    - [Dados Faltantes](#dados_faltantes)
    - [Deep dive in dplyr](#dplyr)
        - [mutate() - criando novas vari√°veis](#mutate)
        - [select() - selecionando colunas](#select)
        - [filter() - filtrando a base de dados](#filter)
        - [summarise() - a tabela din√¢mica do R](#summarise)
        - [arrange() - alterando a ordem das linhas](#arrange)
        - [Combinando os verbos](#varios_verbos)
        <br><br>
- üìâ [Visualizando dados em R](#parte4)
<br><br>
- ‚ùì [Infer√™ncia Estat√≠stica em R](#parte5)
    - [Testes de hip√≥tese](#testes_de_hipotese)
        - [Amostra vs Popula√ß√£o](#amostra_pop)
        - [Testes param√©tricos VS Testes n√£o param√©tricos](#par_vs_npar)
        - [Teste de Kolgomorov-Smirnov](#ks)
        - Testes Param√©tricos
            - [Teste T](#t_test)
            - [ANOVA de um fator](#anova)
    - [Regress√£o Linear](#rl)


## <a id = "parte1"></a> <span style="color: orange;"> Parte 1 - Importando dados em R </span>

Quando vamos fazer nossa an√°lise de dados, comumente devemos trazer esses dados de algum outro arquivo, o que nos pede um pouco de cuidado. <br> Por exemplo, √© importante sabermos qual √© o tipo de arquivo que estamos importando, pois isso pode fazer nosso programa ler os dados err√¥neamente. <br> Um dos formatos mais comums para a an√°lise de dados √© o **CSV**, ou *Comma separeted values*.

Assim, se for salvar uma planilha de dados, n√£o se esque√ßa de salvar como CSV.

![img](img/csv_meme.jpg)

Outro fator importante que devemos levar em conta na hora de importar o arquivo √© o local em que ele est√° salvo. Se ele for salvo no mesmo diret√≥rio que o programa que se est√° usando para ler os dados, ou alguma pasta dentro deste, isso acarretar√° que podemos apenas escrever o nome do arquivo, sem a necessidade de escrever todo o caminho. <br> Vamos ver um exemplo abaixo:

### <a id="importando_csv"></a>Importando um arquivo CSV 

```R
mydata <- read.csv("Data.csv", header=TRUE)
```

Aqui ```mydata``` √© o nome da vari√°vel que atribuiremos o conte√∫do do arquivo que estamos lendo <br>
A fun√ß√£o ```read.csv``` l√™ arquivos que possuem este formato, a√≠ uma import√¢ncia de sabermos o formato do arquivo que estamos trabalhando. <br>
O nome do arquivo deve vir dentro de aspas (simples ou dupla). Neste caso o arquivo est√° no mesmo diret√≥rio em que o nosso programa est√° sendo salvo, por isso n√£o h√° necessidade de especificar diret√≥rios anteriores. <br>
Um argumento diferente da fun√ß√£o deve ser separado por v√≠rgula, aqui colocamos a fun√ß√£o ```header=TRUE``` que significa que a primeira linha do nosso arquivo cont√©m o nome das colunas (*labels*). Caso a primeira linha j√° contenha dados, vc deve trocar esse argumento por ```header=FALSE``` .

Caso o arquivo esteja em um diret√≥rio diferente, √© necess√°rio identific√°-lo. Vamos ver um exemplo:

```R
mydata <- read.csv("C:/Usuarios/Caminho/do/arquivo/Data.csv", header=TRUE)
```

### Alguns problemas 

√â comum importarmos um arquivo e este n√£o parecer estar com um formato adequado, como por exemplo uma coluna sem dados, ou duplicada. Nestes casos, √© importante checar se os dados est√£o da mesma forma que seu programa est√° lendo. Uma forma de descobrir isso √© abrir os dados em um programa como o excel, ou leitor de texto e verificar se a divis√£o das colunas est√° sendo feita por v√≠rgula ```,``` ou ponto e v√≠rgula ```;```.

Caso o separador n√£o seja a v√≠rgula, podemos usar o argumento  ```sep=" "``` como o separador desejado:

``` R 
mydata4 <- read.csv("Data3.csv", header=TRUE, sep=";")
```

## <a id="boas_praticas"></a> Boas Pr√°ticas 

Caso voc√™ n√£o queira ter problemas na hora de importar dados para fazer suas an√°lises, s√£o necess√°rias algumas boas pr√°ticas na hora de criar seu arquivo.

Neste WorkShop, usaremos o dataset Adults, que possui dados do censo norte americano sobre fatores socioecon√¥micos. Vamos visualiz√°-lo no Excel para entender sua estrutura:

![img2](img/excel_adults.png)

Datasets tamb√©m podem ser montados num simples arquivo de texto:

```
Id,age,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
16280,34,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K
16281,58,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K
```

### Como escrever ent√£o seu arquivo de dados?

1. Comece pela primeira linha e primeira coluna, ou seja, n√£o pule c√©lulas
2. Inclua uma linha de t√≠tulos para cada coluna
3. Tenha certeza que o n√∫mero de t√≠tulos √© igual ao n√∫mero de colunas dos seus dados
4. N√£o junte c√©lulas, isso pode fazer seu programa ter problemas na hora de ler o arquivo
5. No caso de arquivos de texto, use preferencialmente ```,``` como separador dos dados

## <a id="importando_ws"></a> Importando o arquivo do Workshop 

Note que por padr√£o, R l√™ seu arquivo CSV como se fosse separado por ```,``` <br>
O que acontece ent√£o se usarmos outro separador?

<img src="img/surprised_face.jpg" width="300"/>

## <a id = "parte2"></a><span style="color: orange;">  Parte 2 -  Estat√≠stica B√°sica em R </span>

Agora que j√° vimos o b√°sico de importa√ß√£o de dados em **R**, estamos prontos para entender como essa linguagem √© utilizada efetivamente para fazer an√°lises estat√≠sticas!

Mas n√£o se preocupe, vamos explorando os diversos temas de estat√≠stica enquanto aprendemos mais sobre **R**.

## <a id="tipos_de_dados"></a> Tipos de Dados

Um dos pontos base da Estat√≠stica consiste em entender nossas informa√ß√µes e como elas elas s√£o organizadas: os **dados**. Esses dados podem ser divididos em dois tipos diferentes: dados **qualitativos** e dados **quantitativos**.

### <a id="quali"></a>Dados Qualitativos

Esses dados representam **categorias** do nosso espa√ßo, ou seja, eles dividem os indiv√≠duos em diversas classes que n√£o se intersectam. Por exemplo, a cor de uma flor √© um tipo de dado qualitativo, j√° que as categoriza em classes como: *'amarelo'*, *'rosa'*, *'vermelho'*, *'azul'*, etc. Esses dados s√£o bem √∫teis para representar caracter√≠sticas que n√£o s√£o facilmente descritas por n√∫meros, como qualidades (da√≠ vem o nome).

In [1]:
# Montando um Dataframe de Cores de Flores

Flor = c("Margarida", "Hort√™nsia", "Violeta", "Rosa")
Cor = c("Amarelo", "Azul", "Azul", "Vermelho")
flores = data.frame(Flor, Cor)
flores

Flor,Cor
<fct>,<fct>
Margarida,Amarelo
Hort√™nsia,Azul
Violeta,Azul
Rosa,Vermelho


In [2]:
# Mostrando as flores de cor Azul

flores[...,]

### <a id="quant"></a> Dados Quantitativos

S√£o tipos de dados **num√©ricos**, ou seja, s√£o mensur√°veis e podem ser manipulados matematicamente. Essa categoria engloba os dados represent√°veis por n√∫meros, como a altura de uma pessoa ou a √°rea de um terreno. Esses dados s√£o mais vers√°teis, j√° que conseguimos fazer compara√ß√µes, m√©dias e outros tipos de opera√ß√µes aritm√©ticas que n√£o s√£o poss√≠veis com os dados qualitativos.

In [3]:
# Montando um Dataframe de Altura de Pessoas

Nome = c("Marcela", "Alexandre", "Rafaela", "Mariana", "Victor")
Altura = c(161, 184, 172, 174, 169)
alturas = data.frame(Nome, Altura)
alturas

Nome,Altura
<fct>,<dbl>
Marcela,161
Alexandre,184
Rafaela,172
Mariana,174
Victor,169


In [4]:
# Selecionando as pessoas com altura maior que 170 cm

alturas[...,]

## <a id="descritiva"></a>Estat√≠stica Descritiva

O tipo de an√°lise estat√≠stica mais b√°sico √© a **Estat√≠stica Descritiva**, que busca simplesmente resumir e descrever os nossos dados da melhor maneira poss√≠vel. Esse ramo utiliza de diversas medidas para expressar caracter√≠sticas diferentes dos nossos dados, como veremos a seguir.

### <a id="tendencia_central"></a>Medidas de Tend√™ncia Central

As **Medidas de Tend√™ncia Central** procuram representrar um valor central em torno do qual os dados se agrupam. Voc√™ provavelmente j√° ouviu falar de alguns exemplos desse tipo de medida, como a **m√©dia** e a **mediana**.

#### <a id="media"></a> M√©dia

A **M√©dia** √© a medida num√©rica que representa a posi√ß√£o central dos nossos dados. Seu valor √© obtido ao dividir a soma de todos os nossos dados pela sua quantidade.

$$\large \bar x ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}$$

In [5]:
# M√©dia de horas trabalhadas dos indiv√≠duos

mean(adult$hours.per.week)

In [6]:
# M√©dia de idade dos indiv√≠duos divorciados e n√£o-casados

media_a = ...(adult$age[adult$marital.status == "Divorced"])
media_b = ...(adult$age[adult$marital.status == "Never-married"])

# As pessoas divorciadas s√£o, na m√©dia, mais velhas que as que nunca casaram

cat(media_a, " > ", media_b)

In [7]:
# N√£o √© poss√≠vel calcular a m√©dia de dados qualitativos

...(adult$marital.status)

#### <a id="mediana"></a>Mediana

A **Mediana** √© a medida num√©rica que representa o dado que se encontra na metade da nossa distribui√ß√£o quanto esta se encontra ordenada. Ou seja, a mediana √© o valor que divide os nossos dados de tal forma que metade deles sejam maiores que a mediana e a outra metade seja menor.

In [8]:
# Mediana do grau de escolaridade dos trabalhadores do setor privado

median(adult$education.num[adult$workclass == "Private"])

In [9]:
# N√£o √© poss√≠vel calcular a mediana de dados qualitativos

...(adult$workclass)

#### <a id="percentil"></a>Percentil

O **Percentil** n√£o √© uma medida de tend√™ncia central, mas se relaciona bastante com a Mediana. Os percentis s√£o medidas que dividem as nossas amostras tal que **p%** delas sejam menores que o percentil. O **50¬∫ percentil**, portanto, √© a nossa j√° conhecida mediana, enquanto o **25¬∫ percentil** √© denominado primeiro quartil.

In [10]:
# Obtendo os quartis das horas trabalhadas pelos indiv√≠duos

quartis = ...(adult$hours.per.week)

# Transpondo o resultado para ficar mais visualiz√°vel
t(quartis)

In [11]:
# Obtendo os percentis 30%, 60% e 90% das horas trabalhadas pelas mulheres

percentis = ...(adult$hours.per.week[adult$sex == "Female"], c(..., ..., ...))

# Transpondo o resultado para ficar mais visualiz√°vel
t(percentis)

#### <a id="summary"></a> Summary

Uma maneira bem simples de mostrar v√°rios dos valores que vimos at√© agora √© utilizando a fun√ß√£o ```summary()```. Ela nos apresenta o *m√≠nimo*, o *1¬∫ quartil*, a *mediana*, a *m√©dia*, o *3¬∫ quartil* e o *m√°ximo* da vari√°vel em quest√£o, da seguinte forma:

In [12]:
# Resumo do grau de escolaridade dos indiv√≠duos

...(adult$education.num)

### <a id="variacao"></a> Medidas de Varia√ß√£o

As **Medidas de Varia√ß√£o** medem o *grau de afastamento* dos dados em torno de um valor central. Elas s√£o importantes para medir a homogeneidade dos dados, indicando se nossas amostras est√£o pr√≥ximas entre si ou muito afastadas.

#### <a id="amplitude"></a> Amplitude

A medida mais simples de varia√ß√£o √© a **Amplitude**, que mede simplesmente a diferen√ßa entre a maior e a menor amostra. Entretanto, essa medida √© bem sens√≠vel outliers em suas extremidades.

$$ \large A =  x_{max} - x_{min} $$

In [13]:
# Calculando a amplitude de idade dos homens

amplitude = ...(adult$age[adult$sex == "Male"]) - ...(adult$age[adult$sex == "Male"])

amplitude

#### <a id="amplitude_interquartil"></a> Amplitude Interquartil

Uma outra medida de varia√ß√£o mais precisa √© a **Amplitude Interquartil**, definida como a diferen√ßa entre o 3¬∫ e o 1¬∫ quartil. Por desprezar os valores mais extremos, essa medida √© menos sujeita a flutua√ß√µes que a amplitude normal.

In [14]:
# Calculando a amplitude interquartil da idade dos homens

...(adult$age[adult$sex == "Male"])

#### <a id="variancia"></a> Vari√¢ncia

A **Vari√¢ncia** √© uma medida de varia√ß√£o que mensura a dispers√£o das amostras com rela√ß√£o √† m√©dia.

Seu valor √© obtido a partir do c√°lculo da m√©dia do quadrado das diferen√ßas entre os dados e a m√©dia, da seguinte forma:
<br>
<br>

$$\large s^2 = {\frac{\sum_{i=1}^{N}(x_{i} -\bar{x})^2}{N-1}}$$

In [15]:
# Calculando a vari√¢ncia das horas trabalhadas de quem possui mais de 30 anos

...(adult$hours.per.week[adult$age > 30])

#### <a id="desv_pad"></a> Desvio Padr√£o

O **Desvio Padr√£o** √© uma outra medida de varia√ß√£o obtida simplesmente pela raiz quadrada da vari√¢ncia. Essa raiz √© feita para que a unidade de medida seja a mesma dos nossos dados.
<br>
<br>

$$\large s = \sqrt{\frac{\sum_{i=1}^{N}(x_{i} -\bar{x})^2}{N-1}}$$

In [16]:
# Calculando o desvio padr√£o das horas trabalhadas de quem possui mais de 30 anos

...(adult$hours.per.week[adult$age > 30])

#### <a id="covar"></a> Covari√¢ncia

A **Covari√¢ncia** √© a medida da *rela√ß√£o linear* entre duas vari√°veis: seu valor representa o quanto elas "caminham juntas". Se a covar√¢ncia √© positiva, significa que as duas crescem juntas; se a covari√¢ncia √© negativa, significa que conforme uma cresce, a outra decresce.

Seu valor √© obtido da seguinte forma:
<br>

$$\large s_{x,y}=\frac{\sum_{i=1}^{N}(x_{i}-\bar{x})(y_{i}-\bar{y})}{N-1}$$

In [17]:
# Calculando a covar√¢ncia entre o grau de escolaridade e as horas trabalhadas dos indiv√≠duos

...(adult$education.num, adult$hours.per.week)

A covari√¢ncia positiva significa que quanto maior a idade do indiv√≠duo, maior √© a chance dele trabalhar mais horas

#### <a id="ccor"></a>Coeficiente de Correla√ß√£o

O **Coeficiente de Correla√ß√£o** tamb√©m mede a rela√ß√£o linear entre duas vari√°veis, mas √© obtida a partir da divis√£o da covari√¢ncia pelos desvios padr√µes individuais de cada vari√°vel. Dessa forma, encontramos uma medida **normalizada** da rela√ß√£o entre as duas. 
<br>
<br>

$$\large r_{x,y}= \frac{s_{x,y}}{s_{x} s_{y}}$$

Quanto mais pr√≥ximo de 1, maior a _rela√ß√£o linear positiva_ entre as duas vari√°veis, e seu gr√°fico se aproxima de uma linha reta _crescente_. Quanto mais pr√≥ximo de -1, maior a _rela√ß√£o linear negativa_ entre as duas vari√°veis, e seu gr√°fico se aproxima de uma linha reta _decrescente_. Quando seu valor √© pr√≥ximo de 0, n√£o existe uma rela√ß√£o muito grande entre as duas vari√°veis.

In [18]:
# Calculando o coeficiente de correla√ß√£o entre o grau de escolaridade e as horas trabalhadas dos indiv√≠duos

...(adult$education.num, adult$hours.per.week)

O grau de escolaridade dos indiv√≠duos tem uma rela√ß√£o linear positiva fraca com as horas semanais de trabalho.

## <a id = "parte3"></a><span style="color: orange;"> Parte 3 - Manipula√ß√£o de dados em R </span>

A linguagem R tem como um de seus grandes destaques o pacote Tidyverse.<br>
Para falar a verdade, o Tidyverse n√£o √© um pacote em si, mas sim um conjunto de pacotes.<br>
Dentro dele, encotramos o `dplyr`, que √© instaldo automaticamente com o `install.packages("tidyverse")`.
<br>
Aqui uma [Cheat Sheet do dplyr](https://github.com/rstudio/cheatsheets/blob/master/data-transformation.pdf)
<br>

In [19]:
library(dplyr)


Attaching package: ‚Äòdplyr‚Äô


The following objects are masked from ‚Äòpackage:stats‚Äô:

    filter, lag


The following objects are masked from ‚Äòpackage:base‚Äô:

    intersect, setdiff, setequal, union




### <a id="dados_faltantes"></a>Dados faltantes
<br>
Dados faltantes podem ser um grande problema quando estamos lidando com uma base de dados. Assim, uma abordagem geralmente aplicada √© simplesmente remov√™-los da sua base de dados. No R, muitas fun√ß√µes (a grande maioria delas) exibe um par√¢metro `na.rm` que abrevia "remover NAs (dados faltantes)".

In [20]:
vetor <- c(2,3,4,5,NA,7) 
#definimos aqui um vetor, vamos ver o que acontece quando aplicamos a fun√ß√£o mean()  a ele


In [21]:
#Agora com o na.rm = TRUE


Outra coisa que podemos querer fazer √© inputar algum dado padr√£o aos dados faltantes, isso pode ser feito da seguinte maneira:

Vamos dar uma olhada na base adult, vamos ver se ela tem algum dado faltante, messa base eles est√£o representados como "?" ent√£o temos que arrumar isso.

Temos cerca de 4262 dados faltantes na base

### <a id="dplyr"></a>Deep dive in dplyr
Vamos agora nos aprofundar na biblioteca `dplyr`. <br>
Essa biblioteca √© boa porque deixa o nosso c√≥digo extremamente leg√≠vel para um ser humano.<br>
Isso ocorre porque ela usa uma estrutura de "verbos" que regem o que ser√° feito com a base de dados.<br>
Os verbos existentes na biblioteca s√£o os seguintes:
1. `mutate()` - que adiciona novas vari√°veis (colunas) ao dataset a partir de opera√ß√µes/ aplica√ß√£o de fun√ß√µes nas vari√°veis existentes 
2. `select()` - seleciona as colunas com base em crit√©rios de nome
3. `filter()` - filtra os dados com base em valores.
4. `summarise()` - reduz um grande n√∫mero de valores para valores resumo (como m√©dia, contagem, desvio, etc). Para quem mexe com excel, aqui seria algo para criar uma tabela din√¢mica (pivot table). Em geral √© usado com `group_by()`
5. `arrange()`- muda a ordena√ß√£o das linhas com base em algum crit√©rio
<br>
<br>
Todos esses verbos podem ser performados tendo como crit√©rio um grupo, usando o `group_by()` , mas √© mais comum usar isso no `summarise()`. <br>

A estrutura de utiliza√ß√£o dos verbos √© bem simples: <br>
`base de dados %>% verbo` <br>
Podemos aplicar v√°rios verbos em seguida tamb√©m, com a seguinte estutura (a ordem de execu√ß√£o ser√° a ordem desses verbos): <br>
`base de dados %>% verbo1 %>% verbo2 %>% verbo3`

#### <a id="mutate"></a> `mutate()` - adicionando vari√°veis

In [22]:

            # a fun√ß√£o if_else tem quatro argumentos. O primeiro √© a 'afirma√ß√£o l√≥gica' a ser avaliada
            # no caso, essa afirma√ß√£o √© verificar se a idade √© maior que 65 anos 
            # o segundo argumento √© o que ser√° inputado no caso da afirma√ß√£o ser verdadeira
            # o terceiro, o que ser√° inputado no caso de falsa
            # e o quarto, o que ser√° inputado no caso de missing value (valor faltante)


#### <a id="select"></a>`select()` - selecionando valores com base em nome

Esse comando √© bem simples, n√≥s podemos selecionar as colunas com o crit√©rio baseado no nome. 
<br>Isso pode incluir "come√ßa com": `starts_with(padr√£o procurado)`, "termina com": `ends_with(padr√£o procurado)`, "cont√©m": `contains(padr√£o procurado)`... <br>
Pra quem manja mais, pode usar express√µes regulares com `matches()` ou muitos outros crit√©rios que vc pode dar uma conferida [aqui!](https://www.rdocumentation.org/packages/tidyselect/versions/1.0.0/topics/select_helpers)

Vamos selecionar as vari√°vis que cont√©m a palavra "capital"

#### <a id="filter"></a> `filter()` - Filtrando nossa base de dados!

Vamos supor que voc√™ quer analisar sua base de dados e segmentar essa an√°lise com base em algum crit√©rio.. Isso √© s√≥ um dos cen√°rios em que pode ser muito importante voc√™ usar filtros!<br>
Vamos aqui filtrar a base para pessoas com educa√ß√£o formal acima da m√©dia

#### <a id="summarise"></a> `summarise()` - "Tabelas din√¢micas" no R

Usar o verbo `summarise()` vai produzir um √∫nico n√∫mero com a(s) medida(s) resumo escolhidas. <br>
Mas como, muitas vezes, n√≥s queremos segmentar a an√°lise para subgrupos diferentes do dataset, o `summarise()` costuma ser utilizado com o `group_by()`. <br>
O `group_by()` vai fazer com que as medidas resumos sejam feitas com base nos diferentes valores tidos em uma coluna.

Vamos, primeiro, usar o `summarise()` puro. Perceba que ele devolve a medida escolhida levando em considera√ß√£o todas as linhas.

Agora, utilizando o `group_by()` podemos segmentar os n√∫meros com base em uma ou mais categorias.

Perceba que nos √© devolvida uma medida para cada combina√ß√£o poss√≠vel de grupos

#### <a id="arrange"></a> `arrange()` - Alterando a ordem das linhas do seu dataset

Esse √© provavelmente o verbo mais f√°cil de ser usado. Voc√™ passa como argumento um ou mais crit√©rios de ordena√ß√£o (sendo que a ordem de prefer√™ncia √© a ordem passada). <br>
Caso queira que a ordena√ß√£o seja decrescente, √© s√≥ utilizar a fun√ß√£o `desc()`.

### <a id="varios_verbos"></a> Usando v√°rios verbos ao mesmo tempo

Uma coisa legal do `dplyr` √© que a gente pode usar v√°rios verbos ao mesmo tempo

Aqui vamos pegar uma base apenas com aqueles com anos de educa√ß√£o acima da m√©dia, depois vamos avaliar as combina√ß√µes de ra√ßa e sexo poss√≠ves, para cada uma dando sua m√©dia de idade e m√©dia de anos de educa√ß√£o. Finalmente, vamos fazer com que os resultados sejam ordenados da maior m√©dia de anos de educa√ß√£o para a menor

## <a id = "parte3"></a><span style="color: orange;"> Parte 4 - Visualiza√ß√£o de dados em R com ggplot2 </span>

__ggplot2__ foi desenvolvido para apresenta√ß√µes gr√°ficas de qualidade em segundos. 

Este pacote √© baseado em **gram√°tica de gr√°ficos**, a ideia √© que voc√™ possa construir qualquer gr√°fico combinando adequadamente elementos da gram√°tica, do mesmo modo que √© feito na l√≠ngua portuguesa.

### Vantagens

- Baseado em __gram√°tica de gr√°ficos__;
- Alto n√≠vel de abstra√ß√£o em plots;
- Flexibilidade;
- Sistema de temas para melhorar apar√™ncia de gr√°ficos;
- Muitos usu√°rios ativos na comunidade open source;

### O que n√£o fazer com ggplot2?

- Gr√°ficos de 3 dimens√µes (vide biblioteca [rgl](https://www.rdocumentation.org/packages/rgl/versions/0.100.50));
- Gr√°ficos iterativos (vide biblioteca [ggvis](https://ggvis.rstudio.com/));
- Gr√°ficos de teoria dos grafos (vide biblioteca [igraph](https://igraph.org/r/));

In [23]:
library(tidyverse) # pacote que vamos usar em quase todas as an√°lises de dados

ERROR: Error in library(tidyverse): there is no package called ‚Äòtidyverse‚Äô


Esse warning mostra as fun√ß√µes do tidyverse que conflitam com as fun√ß√µes do R base. Se precisar explicitar de onde a fun√ß√£o vem, basta usar a nota√ß√£o ```package::function()```:
```R
# exemplo

ggplot2::ggplot()
```

## A gram√°tica de gr√°ficos
Esse conceito foi introduzido pelo estat√≠stico Leland Wilkinson, em [Grammar of Graphics](https://www.springer.com/gp/book/9780387245447) (1999).

### Os elementos

1. __Dados__ - o conjunto de dados da visualiza√ß√£o;
2. __Est√©tica__ - descreve como vari√°veis s√£o mapeadas em propriedades visuais;
3. __Geometrias__ - o formato que os dados assumem nos plots;
4. __Facetas__ - plots de pequenos multiplos;
5. __Estat√≠sticas__-  representa√ß√£o dos dados para auxiliar o entendimento;
6. __Coordenadas__ - o espa√ßo em que os dados s√£o plotados;
7. __Temas__ - todo material sem dados;

## Entendendo a l√≥gica do ggplot2


### C√≥digos base

#### [Inicializando objeto](https://ggplot2.tidyverse.org/reference/ggplot.html)

```R
# exemplo
ggplot(data = adult)
```

- dados
- mapeamento est√©tico (opcional)

#### [Mapeamento Est√©tico](https://ggplot2.tidyverse.org/reference/aes.html)

```R
# exemplo
aes(x = age, y = hours.per.week)
```

- atribui vari√°veis aos eixos;
- adicionar detalhes (cores, contorno, preenchimento, ...)

In [None]:
# exemplo teste com ggplot e aes


#### [Geometrias](https://ggplot2.tidyverse.org/reference/index.html#section-layer-geoms)

- Gr√°fico de barras - geom_bar()
- Histograma - geom_histogram()
- Dispers√£o - geom_point() ou geom_jitter()

In [None]:
# exemplo teste com geom_jitter


#### [O CheatSheet do ggplot2](https://github.com/rstudio/cheatsheets/blob/master/data-visualization-2.1.pdf)

### Boas Pr√°ticas de Visualiza√ß√£o de Dados

- T√≠tulos
- Nome dos Eixos
- Unidades dos eixos

```R
# inserindo textos nos graficos
labs(
    x = "Idade", y = "Horas Semanais (h)",
    title = "Idade X Horas Semanais"
)
```

- Cores

```R
aes(
    #color = income,
    color = "red",
)
```

In [None]:
# exemplo teste com nomes dos eixos e cores


### Analisando o Dataset

In [None]:
# N√∫mero de pessoas por sexo


In [None]:
# N√∫mero de pessoas por grau de educa√ß√£o


In [None]:
# numero de pessoas por tipo de receita e estado civil


In [None]:
# Contagem de pessoas por idade e sexo


In [None]:
# ajuste de curva renda x horas semanais x idade



In [None]:
# violin plot horas semanais x renda




## <a id = "parte5"></a><span style="color: orange;"> Parte 5 - Infer√™ncia Estat√≠stica em R </span>

### <a id="testes_de_hipotese"></a>Testes de Hip√≥tese
Muitas vezes, quando estamos fazendo alguma an√°lise, queremos provar que **duas m√©dias s√£o diferentes**. <br>
Por exemplo, temos dois grupos de pacientes, um que tomou analg√©sico e outro que tomou um placebo, e queremos saber se existe diferen√ßa na nota que eles atribuem para sua dor antes e depois de tomar o rem√©dio/placebo. <br>
<br>
Esse √© o t√≠pico cen√°rio em que devemos aplicar um **teste de hip√≥tese**.
<br>
#### <a id="amostra_pop"></a> Amostra vs Popula√ß√£o
![censovssample](img/census-vs-sample.jpg)
Os testes de hip√≥tese precisam ser feitos porque, muitas vezes, n√≥s n√£o temos a totalidade dos dados e sim uma **amostra**.
<br> <br>
Existem teoremas matem√°ticos que garantem que as m√©dias tiradas de amostras aleatorias de uma popula√ß√£o convergem para a pr√≥pria m√©dia da popula√ß√£o.
Mas pode ser que, por acaso, vc tenha pegado uma amostra extrema que n√£o representa essa popula√ß√£o - **os testes de hip√≥tese s√£o uma forma de verificar qual √© essa probabilidade e se ela √© consider√°vel**.
Os **testes de hip√≥teses** t√™m uma estrutura comum. Eles assumem uma *hip√≥tese nula* e uma *hip√≥tese alternativa*.<br>
Em geral: <br>
$H_0 =$ (hip√≥tese nula) as m√©dias s√£o iguais <br>
$H_A =$ (hip√≥tese alternativa) as m√©dias s√£o diferentes (voc√™ pode mudar isso para "maior" ou "menor" tamb√©m
<br>
O que o teste de hip√≥tese nos retorna √© o **p-valor**, ele nos d√° **a probabilidade de cometer um erro ao falar que $H_A$ est√° certa** . <br>
Em geral, quando o $p-valor \leq 0.05$ aceitamos $H_A$, pois a probabilidade de "estarmos falando besteira" √© menor do que 5%

#### <a id="par_vs_npar"></a> Testes param√©tricos VS n√£o-param√©tricos
![distribuicaonormal](img/normal.jpeg)
Os testes de hip√≥tese podem ser divididos entre param√©tricos e n√£o param√©tricos.
<br>
Os testes **param√©tricos** assumem a **distribui√ß√£o normal dos dados**, enquanto os **n√£o param√©tricos** n√£o possuem tal premissa.<br>
A distribui√ß√£o normal √© a famosa curva de sino, em que a maioria dos valores est√£o pr√≥ximos de uma m√©dia.
#### <a id="ks"></a> Kolgomorov-Smirnov
Para saber se devemos ou n√£o aplicar um teste param√©trico ou n√£o param√©trico, precisamos saber se nossos dados seguem ou n√£o uma distribui√ß√£o normal. Para isso usamos o teste de *Kolgomorov-Smirnov* comparando a nossa amostra com uma distribui√ß√£o normal.
Nesse teste, as hip√≥teses s√£o as seguintes:<br>
$H_0 = $ a distribui√ß√£o √© normal <br>
$H_A = $ a distribui√ß√£o n√£o √© normal


Aplicando o ks nas vari√°veis da base adult, vemos que praticamente todas s√£o n√£o param√©tricas

Vamos criar vari√°veis aleat√≥rias que seguem uma distribui√ß√£o normal, atrav√©s da fun√ß√£o `rnorm()`. Na segunda, vamos multiplicar ela por 30

In [None]:
r_1 = rnorm(1000, 1.01, 1.002)
r_2 = rnorm(1000, 300, 10)
r_3 = rnorm(1000, 1.031, 1.012)

#### <a id="ttest"></a> Teste T

Existem dois testes mais conhecidos para comparar m√©dias, o teste T e o teste Z. O teste Z √© mais usado para comparar uma m√©dia amostral com uma m√©dia te√≥rica, apesar de poder ser usado para comparar duas m√©dias amostrais tamb√©m. <br>
O teste Z n√£o √© nativo do R, mas aceitando-se $H_A$ de teste T = tamb√©m aceitaria-se ela via teste Z
<br>
Vamos aqui aplicar um teste que compara as m√©dias, o teste t. A hip√≥tese nula √© de que as m√©dias s√£o iguais e a alternativa √© de que s√£o diferentes. <br>
Esse teste precisa saber se as vari√¢ncias s√£o iguais ou diferentes. Pra isso vamos aplicar um teste chamado teste F. <br>
Para o teste  F, a hip√≥tese nula √© de que as vari√¢ncias s√£o diferentes.

Vemos aqui que $r_1$ e $r_3$ tem vari√¢ncias que podem ser consideradas iguais, enquanto $r_2$ e $r_3$ tem vari√¢ncias que podem ser consideradas diferentes

In [None]:

print(paste("Valor p do teste: ",))

In [None]:

print(paste("Valor p do teste: ", ))

Fazendo o teste T, vemos que as m√©dias de $r_1$e $r_3$ podem ser consideradas iguais

In [None]:

print(paste("Valor p do teste: ", ))


Vemos que $r_2$ e $r_3$ s√£o diferentes

In [None]:

print(paste("Valor p do teste: ", ))


#### <a id="anova"></a> ANOVA de um fator

Para comparar tr√™s ou mais m√©dias, utilizaremos um teste de hip√≥teses chamado ANOVA (An√°lise de vari√¢ncia) de um fator<br>
Aqui, a $H_A$ √© que *alguma das m√©dias √© diferentes da outras*

In [None]:
r_1_name = rep("r_1", 1000)
r_2_name = rep("r_2", 1000)
r_3_name = rep("r_3", 1000)
nomes = c(r_1_name, r_2_name, r_3_name)
valores = c(r_1,r_2,r_3)
data = data.frame(nomes, valores)

Temos que `Pr(>F)` √© o nosso valor P, ele √© bem baixo, ent√£o alguma das m√©dias √© diferente das outras.

#### <a id="rl"></a> Regress√£o Linear

Os principais tipos de correla√ß√£o estat√≠stica s√£o: <br>
**Spearmann** = correla√ß√£o n√£o param√©trica <br>
**Pearson** = correla√ß√£o param√©trica <br>

P valor baixo, a rela√ß√£o entre os dois √© significativa