# 04 - Praticando: média, mediana e moda

Já aprendemos sobre Tendências Centrais: Média Aritmética, mediana e moda. Veremos como isso se aplica ao R.

Vamos começar com uma sequência de números quaisquer no R:

In [1]:
numeros <- c(1,2,3,4,5)

Lembrando que ao digitarmos `numeros`, conseguimos visualizar essa lista:

In [2]:
numeros

Para que o programa calcule a Média Aritmética desses números, usamos `mean( )`:

In [4]:
mean(numeros)

A palavra "mean" significa "média" em inglês. E para o cálculo da mediana, usamos `median( )`:

In [5]:
median(numeros)

Nesse caso em particular a média e a mediana são iguais.

Vamos gravar uma nova lista de números:

In [7]:
lista <- c(2,3,7,8,1,3,4,8,22,67,19)

Calculando a média e a mediana:

In [8]:
mean(lista)

In [9]:
median(lista)

O R calcula bem rápido essas medidas e, neste momento, somos nós que estamos ditando esses dados de entrada. Mais adiante saberemos como importá-los de arquivos CSV. Infelizmente o R não possui uma função própria para a moda, porém podemos escrevê-la manualmente. No entanto, agora não é o momento, pois isso requer maior conhecimento de R, e esse não é o foco da aula.

Vimos anteriormente que é importante saber se a distribuição é Normal ou não. No R rodamos um Teste de Hipótese, que veremos melhor em outro momento, para saber se os dados obedecem uma Normal. Para tal, digitamos `shapiro.test( )`:

In [10]:
shapiro.test(numeros)


	Shapiro-Wilk normality test

data:  numeros
W = 0.98676, p-value = 0.9672


Devemos observar o valor de `p-value`; se este for muito pequeno, algo em torno de `0,05`, **não é Normal**. Nesse caso ele é próximo de `1`, logo, devemos acreditar que trata-se de uma Normal.

Façamos o teste com `lista`:

In [11]:
shapiro.test(lista)


	Shapiro-Wilk normality test

data:  lista
W = 0.634, p-value = 6.77e-05


Para `lista`, o número é bem pequeno: 6.77e-05 — o `e-05` representa o número 10 **elevado a** -5, que está multiplicando 6,77. Isso significa que `lista` não é uma distribuição normal.

Outro método que costuma ser usado no R é o `summary( )`, que nos passa várias informações importantes como a média e a mediana:

In [12]:
summary(lista)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1.00    3.00    7.00   13.09   13.50   67.00 

Esse método resume o que já sabíamos anteriormente:

* Média: 13,09
* Mediana: 7
* Valor mínimo: 1
* Valor máximo: 67
Em próximas aulas descobriremos o que são o 1º e 3º quartis.

Vamos rodar o seguinte código no R:

In [13]:
mode <- function(x) {
     ux <- unique(x)
     ux[which.max(tabulate(match(x, ux)))]
}

É criada uma função chamada `mode()`, que calcula a moda para uma lista de números.

Teste esse método e diga qual a moda para os números `1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 7`.

In [14]:
new_list = c(1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 7)
mode(new_list)

Nesse curso estamos vendo a linguagem R, muito usada pelos cientistas. No entanto, há outra linguagem, não menos popular ou importante na área de estatística e ciência de dados.

O **Python** está ganhando o seu espaço, e a biblioteca **Pandas** está ficando cada vez mais famosa. Ela permite a criação de *Data Frames* como no R e a análise dos dados. Além disso, os nomes das funções são bem parecidos. Veja um exemplo de como calcular as Tendências Centrais com Pandas:

```
>>> import pandas
>>> df = pandas.DataFrame([1, 1, 50, 50, 50, 50, 50, 50, 50, 60, 60, 65, 70, 200, 250, 300, 700])
>>> df.mean()
121.0
>>> df.median()
50.0
>>> df.quantile() #moda
50.0
```

## Aprendemos:

* Como funciona o cálculo de Média, com `mean()`;
* Como funciona o cálculo de mediana, com `median()`;
* Como descobrir se a distribuição é Normal ou não, utilizando `shapiro.test()`;
* Se **p-value** for abaixo de 0.05, a distribuição não é Normal;
* Se **p-value** for próximo de 1, a distribuição é Normal;
* Como resumir as informações de uma lista de dados utilizando `summary()`.