## Medidas de posição e dispersão

In [1]:
# Bibliotecas
import numpy as np
import statistics
from scipy import stats
import math

In [2]:
# Base de Dados
dados1 = np.array([
    150, 151, 152, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156,
    157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162,
    163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172, 173
])

### Média aritmética simples

In [3]:
# Média de forma manual
dados1.sum() / len(dados1)

160.375

In [4]:
# Usando o numpy
dados1.mean()

160.375

In [5]:
# Usando a lib statistics
statistics.mean(dados1)

160

### Moda

In [6]:
# Usando a lib statistics
statistics.mode(dados1)

160

In [7]:
# Usando a lib stats
stats.mode(dados1, keepdims=True)

ModeResult(mode=array([160]), count=array([5]))

### Mediana

In [8]:
# Dados com índice ímpar 
dados_impar = [150, 151, 152, 152, 153, 154, 155, 155, 155]

### Cálculo manual (ímpar)

In [9]:
# Definido a posição
posicao = len(dados_impar) / 2
posicao

4.5

In [10]:
# Arredondando para cima
posicao = math.ceil(posicao)
posicao

5

In [11]:
# Visualizando o valor
dados_impar[posicao - 1]

153

### Cálculo manual (par)

In [12]:
# Definido a posição
posicao = len(dados1) // 2
posicao

20

In [13]:
# Visualizando as duas posição 
dados1[posicao - 1], dados1[posicao]

(160, 160)

In [14]:
# Definido a mediana
mediana = (dados1[posicao - 1] + dados1[posicao]) / 2
mediana

160.0

### Bibliotecas

In [15]:
# Usando o numpy no dados ímpar
np.median(dados_impar)

153.0

In [16]:
# Usando o numpy no dados par
np.median(dados1)

160.0

In [17]:
# Usando o statistics no dados ímpar
statistics.median(dados_impar)

153

In [18]:
# Usando o statistics no dados par
statistics.median(dados1)

160.0

### Média Aritmética Ponderada

In [19]:
# Notas e o peso
notas = np.array([9, 8, 7, 3])
pesos = np.array([1, 2, 3, 4])

In [20]:
# Fazendo o cálculo 
(9 * 1 + 8 * 2 + 7 * 3 + 3 * 4) / (1 + 2+ 3 + 4)

5.8

In [21]:
# Criando a media ponderada
media_ponderada = (notas * pesos).sum() / pesos.sum()
media_ponderada

5.8

In [22]:
# Usando o numpy
np.average(notas, weights=pesos)

5.8

### Média aritmética, moda e mediana com distribuição de frequência (dados agrupados)

In [23]:
# Criando os dados
dados = {
    'inferior': [150, 154, 158, 162, 166, 170],
    'superior': [154, 158, 162, 166, 170, 174],
    'fi': [5, 9, 11, 7, 5, 3]
}

In [24]:
# Importando o pandas e criando o dataframe
import pandas as pd
ds = pd.DataFrame(dados)
ds

Unnamed: 0,inferior,superior,fi
0,150,154,5
1,154,158,9
2,158,162,11
3,162,166,7
4,166,170,5
5,170,174,3


In [25]:
# Calculando ponto médio da classe 
ds['xi'] = (ds['superior'] + ds['inferior']) / 2
ds

Unnamed: 0,inferior,superior,fi,xi
0,150,154,5,152.0
1,154,158,9,156.0
2,158,162,11,160.0
3,162,166,7,164.0
4,166,170,5,168.0
5,170,174,3,172.0


In [26]:
# A media da classe
ds['fi.xi'] = ds['fi'] * ds['xi']
ds

Unnamed: 0,inferior,superior,fi,xi,fi.xi
0,150,154,5,152.0,760.0
1,154,158,9,156.0,1404.0
2,158,162,11,160.0,1760.0
3,162,166,7,164.0,1148.0
4,166,170,5,168.0,840.0
5,170,174,3,172.0,516.0


In [27]:
# Criando a frequência acumulada 
fra = []
somatorio = 0
for linha in ds.iterrows():
    somatorio += linha[1][2]
    fra.append(somatorio)

fra

[5.0, 14.0, 25.0, 32.0, 37.0, 40.0]

In [28]:
# Adicionado ao dataset
ds['Fi'] = fra
ds

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,5.0
1,154,158,9,156.0,1404.0,14.0
2,158,162,11,160.0,1760.0,25.0
3,162,166,7,164.0,1148.0,32.0
4,166,170,5,168.0,840.0,37.0
5,170,174,3,172.0,516.0,40.0


### Média

In [29]:
# Visualizando a média da frequência 
ds['fi.xi'].sum() / ds['fi'].sum()

160.7

### Moda

In [30]:
# Visualizado a linha da moda da frequência 
ds[ds['fi'] == ds['fi'].max()]

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
2,158,162,11,160.0,1760.0,25.0


In [31]:
# Visualizando a moda
ds[ds['fi'] == ds['fi'].max()]['xi'].values[0]

160.0

### Mediana

In [32]:
# Criando a posição da mediana 
fi_2 = ds['fi'].sum() / 2
fi_2

20.0

In [33]:
# Verificando a posição 
limite_inferior, frequencia_classe, id_frequencia_anterior = 0, 0, 0
for linha in ds.iterrows():
    limite_inferior = linha[1][0]
    frequencia_classe = linha[1][2]
    id_frequencia_anterior = linha[0]
    if linha[1][5] >= fi_2:
        id_frequencia_anterior -= 1
        break


limite_inferior, frequencia_classe, id_frequencia_anterior

(158.0, 11.0, 1)

In [34]:
# Criando a frequência anterior 
Fi_anterior = ds.iloc[[id_frequencia_anterior]]['Fi'].values[0]
Fi_anterior

14.0

In [35]:
# Visualizando a mediana
mediana = limite_inferior + ((fi_2 - Fi_anterior) * 4) / frequencia_classe
mediana

160.1818181818182

In [36]:
# Função completa para moda média e mediana
def get_estatisticas(dataframe):
    media = dataframe['fi.xi'].sum() / dataframe['fi'].sum()
    moda = dataframe[dataframe['fi'] == dataframe['fi'].max()]['xi'].values[0]

    fi_2 = dataframe['fi'].sum() / 2
    limite_inferior, frequencia_classe, id_frequencia_anterior = 0, 0, 0
    for i, linha in enumerate(dataframe.iterrows()):
        limite_inferior = linha[1][0]
        frequencia_classe = linha[1][2]
        id_frequencia_anterior = linha[0]
        if linha[1][5] >= fi_2:
            id_frequencia_anterior -= 1
        break
    Fi_anterior = dataframe.iloc[[id_frequencia_anterior]]['Fi'].values[0]
    mediana = limite_inferior + ((fi_2 - Fi_anterior) * 4) / frequencia_classe

    return media, moda, mediana

In [37]:
# Usando a função
get_estatisticas(ds)

(160.7, 160.0, 162.0)

## Média geométrica, harmônica e quadrática

### Média geométrica

In [38]:
# Importado a lib
from scipy.stats.mstats import gmean

In [39]:
# A Média geométrica
gmean(dados1)

160.26958390038902

### Média harmônica

In [40]:
# Importado a lib
from scipy.stats.mstats import hmean

In [41]:
# Média harmônica
hmean(dados1)

160.1647194799467

### Média quadrática

In [42]:
# Criando a função
def quadratic_mean(dados):
    return math.sqrt(sum(n * n for n in dados) / len(dados))

In [43]:
# Usando a função
quadratic_mean(dados1)

160.48091786876097

### Quartis com distribuição de frequência (dados agrupados)

In [44]:
# Usando uma função
def get_quartil(dataframe, q1 = True):
    if q1 == True:
        fi_4 = dataframe['fi'].sum() / 4
    else:
        fi_4 = (3 * dataframe['fi'].sum()) / 4

    limite_inferior, frequencia_classe, id_frequencia_anterior = 0, 0, 0
    for linha in dataframe.iterrows():
        limite_inferior = linha[1][0]
        frequencia_classe = linha[1][2]
        id_frequencia_anterior = linha[0]
        if linha[1][5] >= fi_4:
            id_frequencia_anterior -= 1
            break
    Fi_anterior = dataframe.iloc[[id_frequencia_anterior]]['Fi'].values[0]
    q = limite_inferior + ((fi_4 - Fi_anterior) * 4) / frequencia_classe

    return q

In [45]:
# Usando a função para visualizar os quartis
get_quartil(ds), get_quartil(ds, q1= False)

(156.22222222222223, 164.85714285714286)

### Desvio Padrão com dados agrupados

In [46]:
# Criando a Coluna Xi²
ds['xi_2'] = ds['xi'] * ds['xi']
ds

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi,xi_2
0,150,154,5,152.0,760.0,5.0,23104.0
1,154,158,9,156.0,1404.0,14.0,24336.0
2,158,162,11,160.0,1760.0,25.0,25600.0
3,162,166,7,164.0,1148.0,32.0,26896.0
4,166,170,5,168.0,840.0,37.0,28224.0
5,170,174,3,172.0,516.0,40.0,29584.0


In [47]:
# Criando a coluna Fi-Xi²
ds['fi_xi_2'] = ds['fi'] * ds['xi_2']
ds

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi,xi_2,fi_xi_2
0,150,154,5,152.0,760.0,5.0,23104.0,115520.0
1,154,158,9,156.0,1404.0,14.0,24336.0,219024.0
2,158,162,11,160.0,1760.0,25.0,25600.0,281600.0
3,162,166,7,164.0,1148.0,32.0,26896.0,188272.0
4,166,170,5,168.0,840.0,37.0,28224.0,141120.0
5,170,174,3,172.0,516.0,40.0,29584.0,88752.0


In [48]:
# Ordenado as colonas
colunas_ordenadas = ['inferior', 'superior', 'fi', 'xi', 'fi.xi', 'xi_2', 'fi_xi_2', 'Fi']

In [49]:
# Dataset com colunas ordenadas
ds = ds[colunas_ordenadas]
ds

Unnamed: 0,inferior,superior,fi,xi,fi.xi,xi_2,fi_xi_2,Fi
0,150,154,5,152.0,760.0,23104.0,115520.0,5.0
1,154,158,9,156.0,1404.0,24336.0,219024.0,14.0
2,158,162,11,160.0,1760.0,25600.0,281600.0,25.0
3,162,166,7,164.0,1148.0,26896.0,188272.0,32.0
4,166,170,5,168.0,840.0,28224.0,141120.0,37.0
5,170,174,3,172.0,516.0,29584.0,88752.0,40.0


In [50]:
# Calculo do desvio padrão
dp = math.sqrt(
    ds['fi_xi_2'].sum() / ds['fi'].sum() - math.pow(
        ds['fi.xi'].sum() / ds['fi'].sum(), 2
    )
)
dp

5.719265687131764