## Importação das bibliotecas

In [22]:
# Importa a biblioteca Pandas
import pandas as pd
import statistics

In [18]:
# Criamos uma série de dados numéricos para exemplificar usando pd.Series
dados = pd.Series([10, 12, 15, 20, 25, 30, 35, 40, 45, 45, 50])
count = dados.count()
print(f"A série de tempo: {(dados)}")
print(f"O número de valores na série é: {count}")

A série de tempo: 0     10
1     12
2     15
3     20
4     25
5     30
6     35
7     40
8     45
9     45
10    50
dtype: int64
O número de valores na série é: 11


## Média
Média é a soma dos valores dividida pelo número de valores. Representa o valor central ou típico dos dados.

A média é representada pelo símbolo $\bar{x}$ ou μ, dependendo se os dados são de uma amostra ou de uma população.

$\bar{x} = \frac{\sum_{i=1}^n x_i}{n}$

Representação do nosso exemplo:

$\bar{x} = \frac{(10 + 12 + 15 + 20 + 25 + 30 + 35 + 40 + 45 + 45 + 50)}{11} \\ \bar{x} = 29.727272727272727$


In [13]:
# Calcula a média
media = dados.mean()
print(f"A média é: {media}")

A média é: 29.727272727272727


## Mediana
A mediana é uma medida de posição estatística que representa o valor que divide o conjunto de dados ordenados em duas partes iguais. 

Ela é calculada encontrando o valor central dos dados se eles tiverem um número ímpar de elementos, ou a média dos dois valores centrais se eles tiverem um número par de elementos. 

A mediana é representada pelo símbolo $M$ ou $Q_2$​, dependendo se os dados são de uma amostra ou de uma população.

$M = \begin{cases} x_{\frac{n+1}{2}}, & \text{se } n \text{ é ímpar} \\ \frac{x_{\frac{n}{2}} + x_{\frac{n}{2} + 1}}{2}, & \text{se } n \text{ é par} \end{cases}$

Observando nosso exemplo, $(10, 12, 15, 20, 25, 30, 35, 40, 45, 45, 50)$, logo usaremos a seguinte fórmula:
$M = x_{\frac{11+1}{2}} \\ \text{n = número de elementos no exemplo = 11} \\ M = x_{6} \\ \text{6 é a posição do elemento} \\ M = 30 \\ (10, 12, 15, 20, 25, \boxed{30}, 35, 40, 45, 45, 50)$

Caso usássemos um conjunto de elementos pares, conforme a serie a seguir, $(10, 12, 15, 20, 25, 30, 35, 40, 45, 45)$, usamos a outra fórmula:

$M = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2} + 1}}{2} 
\\ 
\text{n = número de elementos = 10} 
\\  
M = \frac{x_{\frac{10}{2}} + x_{\frac{10}{2} + 1}}{2} 
\\
M = \frac{x_{5} + x_{6}}{2} 
\\ 
\text{Encontramos as posições que devemos substituir na fórmula posição 5 e posição 6} 
\\ 
M = \frac{{25} + {30}}{2} 
\\ 
(10, 12, 15, 20, \boxed{25}, \boxed{30}, 35, 40, 45, 45) 
\\ 
M = 27.5
$

In [19]:
# Calcula a mediana da série criada
mediana_impar = dados.median()
# Criamos uma série de dados numéricos para exemplificar 10 elementos
dados_sample2 = pd.Series([10, 12, 15, 20, 25, 30, 35, 40, 45, 45])
mediana_par = dados_sample2.median()

print(f"A mediana com os elementos impar é: {mediana_impar}")
print(f"A mediana com os elementos par é: {mediana_par}")

A mediana com os elementos impar é: 30.0
A mediana com os elementos par é: 27.5


## Moda
A moda é uma medida de posição estatística que representa o valor mais frequente de um conjunto de dados. 

Ela é calculada contando quantas vezes cada valor aparece nos dados e escolhendo o que tem a maior frequência. 

A moda é representada pelo símbolo $M_o$​ ou $f_m$​, dependendo se os dados são de uma amostra ou de uma população.

$M_o = \text{valor de } x_i \text{ que maximiza } f_i$

No exemplo temos uma repetição, $(10, 12, 15, 20, 25, 30, 35, 40, \boxed{45}, \boxed{45}, 50)$


In [23]:
# Calcula a moda
# Se a série tiver mais de um valor mais frequente, vai retornar uma série com todos eles
moda = statistics.mode(dados)
print(f"A moda é {moda}")


A moda é 45


## Percentis
Os percentis são medidas de posição estatística que representam os valores que dividem o conjunto de dados ordenados em 100 partes iguais. 

Eles são usados para comparar a distribuição dos dados e identificar valores extremos ou atípicos. 

O método Tukey é um dos métodos para definir os percentis, baseado na seguinte fórmula:

$P_k = Q_1 + k \times (Q_3 - Q_1)$

Onde Pk​ é o percentil de ordem k, Q1​ é o primeiro quartil, Q3​ é o terceiro quartil e k é um fator que depende do valor de k. 
O método Tukey usa os seguintes valores de k:

$\text{Se k = 0.25, então Pk​=Q1​, o primeiro quartil.} \\ \text{Se k=0,5, então Pk​=Q2​, a mediana ou o segundo quartil.} \\ \text{Se k=0,75, então Pk​=Q3​, o terceiro quartil.} \\ \text{Se k=1, então Pk​ é o limite superior ou inferior do intervalo interquartílico, usado para detectar valores atípicos.}$

In [27]:
# Calcula os quartis
# Por padrão, usa os percentis 0.25, 0.5 e 0.75 para definir os quartis
# Por padrão, usa o método 3 (Tukey) para definir os quartis
quartis = statistics.quantiles(dados)
print(f"Os quartis são {quartis} respectivamente os percentis Q1 = 25%, Q2 = 50% e Q3 = 75%.")

Os quartis são [15.0, 30.0, 45.0] respectivamente os percentis Q1 = 25%, Q2 = 50% e Q3 = 75%.


Outra maneira do python descrever os dados da serie a ser analisada usando .describe()

In [10]:
dados.describe()

count    11.000000
mean     29.727273
std      14.311470
min      10.000000
25%      17.500000
50%      30.000000
75%      42.500000
max      50.000000
dtype: float64