# Medidas de Posição e Dispersão.

## **Estatística Descritiva**

A Estatística Descritiva é o ramo da estatística que se ocupa em coletar, organizar, resumir e apresentar dados de forma significativa. Seu objetivo principal é descrever as características de um conjunto de dados por meio de tabelas, gráficos e medidas numéricas, facilitando a compreensão e a análise inicial dos fenômenos estudados. Ela não tira conclusões sobre a população, mas sim organiza e sumariza as informações existentes.

## **Base dados**

In [1]:
import numpy as np
import math
import statistics
import pandas as pd
from scipy import stats

In [2]:
data = np.array([150, 151, 152, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156,
                  157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162,
                  163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172,
                  173])

## **Medidas de Posição para Dados Não Agrupados**

### Média, Mediana e Moda

Estas são as medidas de tendência central mais comuns, que buscam representar o valor 'típico' ou central de um conjunto de dados:

*   **Média:** É a soma de todos os valores de um conjunto de dados dividida pelo número total de valores. É a medida mais utilizada, mas é sensível a valores extremos (outliers).

$$
\bar{X} = \frac{\sum_{}x_i}{n}
$$

*   **Mediana:** É o valor central de um conjunto de dados quando os dados estão ordenados em ordem crescente ou decrescente. Se o número de dados for ímpar, é o valor do meio. Se for par, é a média dos dois valores centrais. É menos afetada por outliers que a média.
    * Quando é par
$$
\text{Mediana} = x_{\left(\frac{n+1}{2}\right)}
$$
    * Quando é impar:
    $$
      \text{Mediana} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2}
    $$



*   **Moda:** É o valor que mais aparece em um conjunto de dados. Um conjunto de dados pode ter uma moda (unimodal), várias modas (multimodal) ou nenhuma moda.

#### Média aritmética simples

In [3]:
data.sum() / len(data)

np.float64(160.375)

In [4]:
data.mean()

np.float64(160.375)

In [5]:
statistics.mean(data)

np.int64(160)

#### Moda

In [6]:
statistics.mode(data)

np.int64(160)

In [7]:
stats.mode(data)

ModeResult(mode=np.int64(160), count=np.int64(5))

#### Mediana

In [8]:
# Odd (Impar)
odd_data = [150, 151, 152, 152, 153, 154, 155, 155, 155]
position = len(odd_data) / 2
position

4.5

In [9]:
odd_position = math.ceil(position)
odd_position

5

In [10]:
value = odd_data[odd_position - 1]
value

153

In [11]:
# Even (Par)
even_position = len(data) // 2
even_position

20

In [12]:
data[even_position - 1], data[even_position]

(np.int64(160), np.int64(160))

In [13]:
median = (data[even_position - 1] + data[even_position]) / 2
median

np.float64(160.0)

In [14]:
# Using library
print(f"numpy.median: {np.median(data)}")
print(f"statistics.median odd: {statistics.median(odd_data)}")
print(f"statistics.median even: {statistics.median(data)}")

numpy.median: 160.0
statistics.median odd: 153
statistics.median even: 160.0


### Média Aritmética Ponderada



A **Média Aritmética Ponderada** é um tipo de média que atribui diferentes pesos a cada valor em um conjunto de dados, refletindo a importância relativa de cada valor. É calculada multiplicando cada valor pelo seu peso correspondente, somando esses produtos e, em seguida, dividindo essa soma pela soma de todos os pesos.

É amplamente utilizada em situações onde nem todos os dados têm a mesma relevância, como no cálculo de notas em que diferentes avaliações têm pesos distintos ou na média de preços de produtos com diferentes volumes de venda.

$$ \bar{X}_w = \frac{\sum_{i=1}^{n} (x_i \cdot w_i)}{\sum_{i=1}^{n} w_i} $$

Onde:
*   $\bar{X}_w$ é a média aritmética ponderada.
*   $x_i$ é o i-ésimo valor do conjunto de dados.
*   $w_i$ é o peso atribuído ao i-ésésimo valor.
*   $n$ é o número total de valores.

In [15]:
# manual
score = np.array([9,8,7,3])
weight = np.array([1,2,3,4])

In [16]:
weighted_average = (score * weight).sum() / weight.sum()
weighted_average

np.float64(5.8)

In [17]:
# Numpy
np.average(score, weights=weight)

np.float64(5.8)

## **Medidas de Posição para Dados Agrupados**


### Criando o Dataset

Quando trabalhamos com dados agrupados em classes de frequência, as medidas de posição (média, mediana e moda) são calculadas de maneira um pouco diferente, pois não temos acesso aos valores individuais de cada observação, mas sim aos intervalos e suas respectivas frequências.


![Dados agrupados](https://github.com/AdrianoR85/Estatistica-para-Machine-Learning/blob/e7bbdb1db2c19632727fcf78bc4f98e6b529ed50/assets/dados_agrupados.png?raw=true)

In [18]:
data = {"inferior": [150,154,158,162,166,170],
        "superior": [154,158,162,166,170,174],
        "fi": [5,9,11,7,5,3]}
dataset = pd.DataFrame(data)
dataset

Unnamed: 0,inferior,superior,fi
0,150,154,5
1,154,158,9
2,158,162,11
3,162,166,7
4,166,170,5
5,170,174,3


In [19]:
dataset["xi"] = (dataset["superior"] +  dataset["inferior"]) / 2
dataset

Unnamed: 0,inferior,superior,fi,xi
0,150,154,5,152.0
1,154,158,9,156.0
2,158,162,11,160.0
3,162,166,7,164.0
4,166,170,5,168.0
5,170,174,3,172.0


In [20]:
dataset["fi.xi"] = dataset["fi"] * dataset["xi"]
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi
0,150,154,5,152.0,760.0
1,154,158,9,156.0,1404.0
2,158,162,11,160.0,1760.0
3,162,166,7,164.0,1148.0
4,166,170,5,168.0,840.0
5,170,174,3,172.0,516.0


In [21]:
dataset["Fi"] = dataset["fi"].cumsum()
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,5
1,154,158,9,156.0,1404.0,14
2,158,162,11,160.0,1760.0,25
3,162,166,7,164.0,1148.0,32
4,166,170,5,168.0,840.0,37
5,170,174,3,172.0,516.0,40


### Média para Dados Agrupados

Para calcular a média de dados agrupados, utilizamos o ponto médio de cada classe como uma estimativa dos valores dentro daquela classe. Cada ponto médio é então ponderado pela frequência da sua classe.

$$ \bar{X} = \frac{\sum (f_i \cdot x_i)}{N} $$

Onde:
*   $\bar{X}$ é a média.
*   $f_i$ é a frequência da i-ésima classe.
*   $x_i$ é o ponto médio da i-ésima classe.
*   $N$ é o número total de observações (soma de todas as frequências).

In [22]:
dataset["fi.xi"].sum() / dataset["fi"].sum()

np.float64(160.7)

In [23]:
# Using Numpy
np.average(dataset["xi"], weights=dataset["fi"])

np.float64(160.7)

### Mediana para Dados Agrupados

A mediana para dados agrupados é encontrada primeiro identificando a classe mediana (a classe onde a frequência acumulada atinge ou ultrapassa $N/2$) e, em seguida, usando uma fórmula de interpolação:

$$ \text{Mediana} = L + \left( \frac{\frac{N}{2} - F}{f} \right) \cdot h $$

Onde:
*   $L$ é o limite inferior da classe mediana.
*   $N$ é a frequência total.
*   $F$ é a frequência acumulada da classe imediatamente anterior à classe mediana.
*   $f$ é a frequência da classe mediana.
*   $h$ é a amplitude da classe mediana.

In [41]:
# Frequancia total
N = dataset['fi'].sum()
print(f"N: {N}")

# # Encontrar a classe mediana (a primeira classe onde Fi é maior ou igual a N/2)
median_class_index = dataset[dataset['Fi'] >= (N/2)].index[0]
median_class = dataset.loc[median_class_index]

# Limite inferior da classe mediana
L = median_class['inferior']
print(f"L: {L}")

# Frequência acumulada da classe anterior
F = dataset.loc[median_class_index - 1, 'Fi']
print(f"F: {F}")

# Frequencia da classe mediana
f = median_class['fi']
print(f"f: {f}")

# Amplitude
h = median_class['superior'] - median_class['inferior']
print(f"h: {h}")

median_result = L + ( ( ( ( N/2 ) - F ) / f ) * h )
print(f"Mediana: {median_result:.2f}")

L: 158.0
N: 40
F: 14
f: 11.0
h: 4.0
Mediana: 160.18


### Moda para Dados Agrupados

A moda para dados agrupados é geralmente estimada pela classe modal (a classe com a maior frequência). Para uma estimativa mais precisa, pode-se usar a seguinte fórmula de interpolação:

$$ \text{Moda} = L + \left( \frac{\Delta_1}{\Delta_1 + \Delta_2} \right) \cdot h $$

Onde:
*   $L$ é o limite inferior da classe modal.
*   $\Delta_1$ (delta 1) é a diferença entre a frequência da classe modal e a frequência da classe precedente.
*   $\Delta_2$ (delta 2) é a diferença entre a frequência da classe modal e a frequência da classe sucessora.
*   $h$ é a amplitude da classe modal.

In [24]:
# Encontrar a classe modal (a classe com a maior frequência 'fi')
modal_class_index = dataset['fi'].idxmax()
modal_class = dataset.loc[modal_class_index]

# L: limite inferior da classse modal
L = modal_class['inferior']

# h: Amplitude da classe modal
h = modal_class['superior'] - modal_class['inferior']

# f_modal: Frequência da classe modal
f_modal = modal_class['fi']

# Delta 1: Diferença entre a frequência da classe modal e a frequência da classe precedente
f_preceding = dataset.loc[modal_class_index - 1, 'fi']
delta1 = f_modal - f_preceding

# Delta 2: Diferença entre a frequência da classe modal e a frequência da classe sucessora
f_succeeding = dataset.loc[modal_class_index + 1, 'fi' ]
delta2 = f_modal - f_succeeding

# Calculando a moda agrupada
moda = L + (delta1 / (delta1 + delta2)) * h

# Resultado
print(f"Moda para Dados Agrupados: {moda:.2f}")

Moda para Dados Agrupados: 159.33
