# Quartis

## Explicação Teórica dos Quartis


Os **quartis** são medidas estatísticas que dividem um conjunto de dados ordenado em quatro partes iguais. Eles são amplamente utilizados na análise exploratória de dados para entender a distribuição e a dispersão dos dados.

Existem três quartis principais:

1.  **Primeiro Quartil (Q1)**: Também conhecido como quartil inferior, ele representa o valor abaixo do qual 25% dos dados estão localizados. Em outras palavras, Q1 é a mediana da primeira metade dos dados.

2.  **Segundo Quartil (Q2)**: Este é o valor central do conjunto de dados, ou seja, a **mediana**. 50% dos dados estão abaixo de Q2 e 50% estão acima. É o ponto que divide o conjunto de dados em duas metades iguais.

3.  **Terceiro Quartil (Q3)**: Também conhecido como quartil superior, ele representa o valor abaixo do qual 75% dos dados estão localizados. Isso significa que 25% dos dados estão acima de Q3. Q3 é a mediana da segunda metade dos dados.

#### Interpretação:

*   A diferença entre Q3 e Q1 é chamada de **Intervalo Interquartil (IIQ)**, que é uma medida da dispersão dos 50% centrais dos dados. Um IIQ pequeno indica que os dados estão mais concentrados perto da mediana, enquanto um IIQ grande sugere maior variabilidade.
*   Os quartis são menos sensíveis a *outliers* (valores extremos) do que a média, tornando-os úteis para descrever a tendência central e a dispersão em distribuições assimétricas ou com valores atípicos.

## Dados

In [2]:
import numpy as np

In [20]:
data = np.array([150, 151, 152, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156,
                  157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162,
                  163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172,
                  173])

In [3]:
data_odd = [150,151,152,152,153,154,155,155,155]

In [21]:
grouped_data = {"inferior": [150,154,158,162,166,170],
        "superior": [154,158,162,166,170,174],
        "fi": [5,9,11,7,5,3]}

dataset = pd.DataFrame(grouped_data )

dataset["xi"] = (dataset["superior"] + dataset["inferior"]) / 2

dataset["fi.xi"] = dataset["fi"] * dataset["xi"]

dataset["Fi"] = dataset["fi"].cumsum()

dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,5
1,154,158,9,156.0,1404.0,14
2,158,162,11,160.0,1760.0,25
3,162,166,7,164.0,1148.0,32
4,166,170,5,168.0,840.0,37
5,170,174,3,172.0,516.0,40


## Calculo manual

In [4]:
np.median(data_odd)
print(f'Q2: {np.median(data_odd)}')

Q2: 153.0


In [5]:
median_index = data_odd.index(np.median(data_odd))
print(f'Índice da mediana: {median_index}')

Índice da mediana: 4


In [6]:
left = data_odd[:median_index]
print(f'Esquerda: {left}')

Esquerda: [150, 151, 152, 152]


In [7]:
Q1 = np.median(left)
print(f'Q1: {Q1}')

Q1: 151.5


In [8]:
right = data_odd[median_index+1:]
print(f'Direita: {right}')

Direita: [154, 155, 155, 155]


In [9]:
Q3 = np.median(right)
print(f'Q3: {Q3}')

Q3: 155.0


## Bibliotecas

### Numpy

In [11]:
Q1 = np.quantile(data_odd, 0.25)
print(f'Q1: {Q1}')

Q2 = np.quantile(data_odd, 0.5)
print(f'Q2: {Q2}')

Q3 = np.quantile(data_odd, 0.75)
print(f'Q3: {Q3}')



Q1: 152.0
Q2: 153.0
Q3: 155.0


In [18]:
Q1 = np.quantile(data, 0.25)
print(f'Q1: {Q1}')
Q2 = np.quantile(data, 0.5)
print(f'Q2: {Q2}')
Q3 = np.quantile(data, 0.75)
print(f'Q3: {Q3}')

Q1: 155.75
Q2: 160.0
Q3: 164.0


### Scipy

In [16]:
import scipy.stats as stats

stats.scoreatpercentile(data, [25, 50, 75])


array([155.75, 160.  , 164.  ])

### Pandas

In [15]:
import pandas as pd

dataset = pd.Series(data)
dataset.quantile([0.25, 0.5, 0.75])


Unnamed: 0,0
0.25,155.75
0.5,160.0
0.75,164.0


In [17]:
dataset.describe()

Unnamed: 0,0
count,40.0
mean,160.375
std,5.903877
min,150.0
25%,155.75
50%,160.0
75%,164.0
max,173.0


## Quartis - Dados Agrupados

A fórmula geral para calcular um quartil (Qk) para dados agrupados é:

$$Q_k = L + \left(\frac{\frac{k \cdot N}{4} - F}{f}\right) \cdot h$$

Onde:
- $Q_k$: É o k-ésimo quartil que queremos calcular (Q1, Q2, Q3).
- $L$: É o limite inferior da classe onde o quartil está localizado.
- $N$: É o número total de observações (soma das frequências).
- $k$: É o número do quartil (1 para Q1, 2 para Q2, 3 para Q3).
- $F$: É a frequência acumulada da classe imediatamente anterior à classe do quartil.
- $f$: É a frequência da classe do quartil.
- $h$: É a amplitude da classe (limite superior - limite inferior).

**Passos para calcular os quartis para dados agrupados:**

1.  **Organize os dados** em uma distribuição de frequência com classes, frequências e frequências acumuladas.
2.  **Determine a posição do quartil** desejado usando $\frac{k \cdot N}{4}$. Por exemplo, para Q1, a posição é $\frac{N}{4}$. Para Q2, é $\frac{2N}{4} = \frac{N}{2}$. Para Q3, é $\frac{3N}{4}$.
3.  **Localize a classe do quartil**: Encontre a classe em que a frequência acumulada é igual ou excede a posição do quartil.
4.  **Aplique a fórmula** para calcular o valor do quartil.

In [72]:

def quantile_calculator(dataset, k):

  # Calculating the total number of observations
  N = dataset['fi'].sum()

  # Determining the quartile position for Q
  position_Q = (k* N) / 4

  # Locating the Q class: Find the first class where the cumulative frequency is >= position_Q
  q_class_row = dataset[dataset['Fi'] >= position_Q].iloc[0]

  # Extracting values for the formula
  L_Q = q_class_row['inferior']
  f_Q = q_class_row['fi']
  h_Q = q_class_row['superior'] - q_class_row['inferior']

  # Determining the cumulative frequency of the class immediately preceding the Q class
  q_class_index = q_class_row.name
  F_Q = dataset.loc[q_class_index - 1, 'Fi']

  # Calculating Q using the formula
  Q_grouped = L_Q + ((position_Q - F_Q) / f_Q) * h_Q

  # Printing the results
  print(f"Total observations (N): {N}")
  print(f"Position of Q{k}: {position_Q}\n")
  print(f"Q{k} Class Row:\n{q_class_row}\n")
  print(f"Lower limit of Q{k} class (L_Q{k}): {L_Q}")
  print(f"Cumulative frequency of previous class (F_Q{k}): {F_Q}")
  print(f"Frequency of Q{k} class (f_Q{k}): {f_Q}")
  print(f"Class amplitude (h_Q{k}): {h_Q}")
  print(f"Calculated Q{k}: {Q_grouped:.2f}")

In [73]:
q1 = quantile_calculator(dataset, 1)
q1

Total observations (N): 40
Position of Q1: 10.0

Q1 Class Row:
inferior     154.0
superior     158.0
fi             9.0
xi           156.0
fi.xi       1404.0
Fi            14.0
Name: 1, dtype: float64

Lower limit of Q1 class (L_Q1): 154.0
Cumulative frequency of previous class (F_Q1): 5
Frequency of Q1 class (f_Q1): 9.0
Class amplitude (h_Q1): 4.0
Calculated Q1: 156.22


In [74]:
q2 = quantile_calculator(dataset, 2)
q2

Total observations (N): 40
Position of Q2: 20.0

Q2 Class Row:
inferior     158.0
superior     162.0
fi            11.0
xi           160.0
fi.xi       1760.0
Fi            25.0
Name: 2, dtype: float64

Lower limit of Q2 class (L_Q2): 158.0
Cumulative frequency of previous class (F_Q2): 14
Frequency of Q2 class (f_Q2): 11.0
Class amplitude (h_Q2): 4.0
Calculated Q2: 160.18


In [75]:
q3 = quantile_calculator(dataset, 3)
q3

Total observations (N): 40
Position of Q3: 30.0

Q3 Class Row:
inferior     162.0
superior     166.0
fi             7.0
xi           164.0
fi.xi       1148.0
Fi            32.0
Name: 3, dtype: float64

Lower limit of Q3 class (L_Q3): 162.0
Cumulative frequency of previous class (F_Q3): 25
Frequency of Q3 class (f_Q3): 7.0
Class amplitude (h_Q3): 4.0
Calculated Q3: 164.86
