<a href="https://colab.research.google.com/github/santossousa/Statistics-Probability/blob/main/Measures_of_Central_Tendency.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Índices**

- [Importação das libs](#libs)
- [Media](#media)
- [Mediana](#mediana)
- [Moda](#moda)
- [Percentil](#Percentil)
- [Quartil](#quartil)
- [Variância](#variancia)
- [Desvio Padrão](#std)
- [Assimetria](#assim)
- [Curtose](#curtose)



<a name='libs'/>

##Impotação das libs

In [15]:
import pandas as pd
from scipy import stats
from IPython.display import display, Latex
data = pd.Series([19,23,19,18,25,16,17,19,15,23,21,23,21,11,6])

As medidas de dispersão fornecem uma medida quantitativa da dispersão de uma distribuição. Eles fornecem uma ideia se os valores em uma distribuição estão situados em torno do valor central ou espalhados. A seguir estão as medidas comumente usadas de
dispersão.

<a  name='media'/>

##Média

A média é o valor médio de um conjunto de dados. É calculado somando todos os valores em um conjunto de dados e dividindo pelo número de valores.

### Propriedades da média
- A soma dos desvios dos itens de sua média aritmética é sempre zero, ou seja, $∑(x – \overline x) = 0.$
- A soma dos desvios quadrados dos itens da Média Aritmética (A.M) é mínima, que é menor que a soma dos desvios quadrados dos itens de quaisquer outros valores.
- Se cada item da série aritmética for substituído pela média, então a soma dessas substituições será igual à soma dos itens específicos.
- É influenciado pelo valor de cada item da série.
- É um valor medido e não baseado na posição na série.
- É alterado por itens extremos, como itens muito pequenos e muito grandes. ou seja, sensível a outliers.
- Raramente pode ser identificado por inspeção.
- Em alguns casos, A.M. não representa o item original. Por exemplo, a média de pacientes internados em um hospital é de 10,7 por dia.
- A média aritmética não é adequada em distribuições extremamente assimétricas.

In [16]:
data.mean()

18.4

<a name='mediana'/>


##Mediana
A mediana é o valor do meio de um conjunto de dados quando os valores são organizados em ordem de tamanho. Representa o percentil 50 dos valores.

### Propriedades da Mediana
- A mediana não depende de todos os valores de dados em um conjunto de dados.
- O valor mediano é fixado pela sua posição e não é refletido pelo valor individual.
- A distância entre a mediana e o restante dos valores é menor que a distância de qualquer outro ponto.
- Cada matriz tem uma única mediana.
- A mediana não pode ser manipulada algebricamente. Não pode ser pesado e combinado.
- em um procedimento de agrupamento, a mediana é estável.
- A mediana não é aplicável a dados qualitativos.
- Os valores devem ser agrupados e ordenados para cálculo.
- A mediana pode ser determinada para razão, intervalo e escala ordinal.
- Outliers e dados distorcidos têm menos impacto na mediana.
- Se a distribuição for assimétrica, a mediana é uma medida melhor quando comparada à média.

In [17]:
data.median()

19.0

<a name='moda'/>

##Moda
A moda é o valor que ocorre com mais frequência em um conjunto de dados com valores discretos.

### Propriedades do Moda
- O modo é usado quando se deseja o caso mais típico.
- A moda pode ser usada quando os dados são nominais ou categóricos, como preferência religiosa, gênero ou filiação política.
- A moda nem sempre é única. Um conjunto de dados pode ter mais de uma moda ou a moda pode não existir para um conjunto de dados.

In [18]:
data.mode()

0    19
1    23
dtype: int64

<a name='percentil'/>

##Percentil

Um percentil é uma medida da porcentagem de valores abaixo de um valor específico. A mediana corresponde ao percentil 50.

In [19]:
data.quantile(0.1)

12.600000000000001

<a name='quartil'/>

##Quartil


Um quartil é um valor que divide os valores em um conjunto de dados ordenado em quatro grupos iguais. $Q_1$ (ou o primeiro quartil) corresponde ao 25º percentil, $Q_2$ corresponde à mediana e $Q_3$ corresponde ao 75º percentil.



In [20]:
data = data.sort_values(ascending=True)
data = data.reset_index(drop=True)
Q_1 = data.quantile(0.25)
Q_2 = data.quantile(0.5)
Q_3 = data.quantile(0.75)
display(Latex(f'$Q_1 = {Q_1}$'))
display(Latex(f'$Q_2 = {Q_2}$'))
display(Latex(f'$Q_3 = {Q_3}$'))

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>

<IPython.core.display.Latex object>



##Média aparada
Essa média é similar a média normal, mas ela não é sensivel a outliers

In [21]:
stats.trim_mean(data, 0.1)

18.846153846153847

<a name='variancia'/>

##Variância

É uma medida de quantos valores em um conjunto de dados estão dispersos em torno do valor médio. O valor da variância é uma boa indicação de se a média é representativa dos valores no conjunto de dados. Uma pequena variação indicaria que a média é uma medida apropriada de tendência central. A seguinte fórmula dá a variância:
$$\sigma^2 = \frac{\sum (x-\mu)^2}{N}$$
    
Onde $\mu$ é a média e $N$ é o número de valores no conjunto de dados.

A **Variância da amostra** é dada por:

$$S^2 = \frac{\sum (x-\overline x)^2}{n-1}$$

Onde $\overline x$ é a média da amostra e $n$ é o número de valores na amostra.


In [10]:
data.var()

343.71666666666664

<a name='std'/>

##Desvio padrão

 essa medida é calculada tirando a raiz quadrada da variação. A variância não está nas mesmas unidades dos dados, pois leva o quadrado das diferenças; portanto, tomar a raiz quadrada da variância traz para as mesmas unidades que os dados. Por exemplo, em um conjunto de dados sobre a precipitação média em centímetros, a variância daria o valor em $cm^2$, que não seria interpretável, enquanto o desvio padrão em $cm$ daria uma ideia do desvio da precipitação média em centímetros.

In [9]:
data.std()

18.53959726279583

<a name='assim'/>

##Assimetria

**simétrica:** mede o grau de assimetria de uma distribuição

![](https://upload.wikimedia.org/wikipedia/commons/c/cc/Relationship_between_mean_and_median_under_different_skewness.png)

**assimetria positiva:** uma distribuição com distorção positiva é caracterizada por muitos valores discrepantes na região superior ou cauda direita. Diz-se que uma distribuição assimétrica positiva é assimétrica para a direita por causa de sua cauda superior (direita) relativamente longa.

**assimetria negativa:** uma distribuição com distorção negativa tem uma quantidade desproporcionalmente grande de outliers que se enquadram em sua cauda inferior (esquerda). Diz-se que uma distribuição assimétrica negativa é assimétrica para a esquerda por causa de sua longa cauda inferior.

In [12]:
stats.skew(data)#simetrica = 0 , assimetrica positiva > 0 e assimetrica negativa < 0

3.183776487515089

<a name='curtose'/>

##Curtose

 a curtose é uma medida que indica se uma determinada distribuição de dados é curva, pontiaguda ou plana.

![](https://brewcode.stringlab.org/wp-content/uploads/2020/08/image-28.png)

In [14]:
stats.kurtosis(data)#K=0,263 e é chamada de mesokurtic. Se K>0,263 a curva de distribuição é platykurtic e se K<0,263 a curva é leptokurtic. 

9.285994517165694