# **Aula 4**
---

## **Medidas de tendência central**

Uma **medida de tendência central** é um valor que representa uma **observação típica** ou central de um conjunto de dados.

**Média**: A média é a soma dos valores dividida pelo número de valores.
    
- **Média populacional** = μ = Σx / n

- **Média amostral** = x̅ = Σx / n

**<font color="red">Atenção:</font>** A média pode ser muito afetada por outliers, ou seja, valores muito discrepantes do restante dos dados. Por isso, é importante analisar os dados antes de calcular a média.

**Mediana**: A mediana é o valor que divide um conjunto de dados em duas partes iguais. Para encontrar a mediana, os valores devem ser colocados em ordem crescente ou decrescente. Se o número de valores for ímpar, a mediana é o valor central. Se o número de valores for par, a mediana é a média dos dois valores centrais.

**Moda**: A moda é o valor que ocorre com maior frequência em um conjunto de dados. Se todos os valores ocorrem com a mesma frequência, não há moda.

**As conclusões que são tomadas com base em um conjunto de dados que contém outliers podem ser falhas.**

*Vamos exemplificar tudo isso com um conjunto de dados de idades de alunos de uma turma:*


In [40]:
idades = pd.Series([20, 20, 20, 20, 20, 20, 21,
                  21, 21, 21, 22, 22, 22, 23,
                  23, 23, 23, 24, 24, 65]) # cria uma série com os valores das idades

media = idades.mean() # calcula a média
print(f'A média da distribuição de idades é {media}.')
mediana = idades.median() # calcula a mediana
print(f'A mediana da distribuição de idades é {mediana}.')
moda = list(idades.mode()) # calcula a moda (o método mode retorna uma série, por isso é necessário converter para lista)
print(f'A moda da distribuição de idades é {moda[0]}.')

A média da distribuição de idades é 23.75.
A mediana da distribuição de idades é 21.5.
A moda da distribuição de idades é 20.



A média considera todos os valores, então é muito afetada por outliers. Por outro lado, a mediana e a moda são menos afetadas por outliers, mesmo levando em consideração todos os valores.

- **Média ponderada**: A média ponderada é uma média em que cada valor é multiplicado por um peso. A média ponderada é calculada dividindo a soma dos valores ponderados pelo número de valores. **(x̅ = Σ(x * w) / n)**

Por exemplo:

In [18]:
notas = pd.DataFrame({'Notas':[86, 96, 82, 98, 100],
                      'Pesos':[0.5, 0.15, 0.2, 0.1, 0.05]}) # cria um DataFrame com as notas e os pesos
notas.index = ['Média do teste', 'Prova bimestral', 'Prova final',
               'Informática', 'Dever de casa'] # define os índices do DataFrame
display(notas)


Unnamed: 0,Notas,Pesos
Média do teste,86,0.5
Prova bimestral,96,0.15
Prova final,82,0.2
Informática,98,0.1
Dever de casa,100,0.05


A média ponderada vai ser a soma de cada nota multiplicada pelo peso dividido pela soma dos pesos.

In [19]:
media_ponderada = sum(notas['Notas'] * notas['Pesos']) / notas['Pesos'].sum()
print(f'A média final é {media_ponderada}.')

A média final é 88.6.


Também é possível calcular usando o numpy, como no exemplo abaixo:

In [20]:
media_ponderada = np.average(a=notas['Notas'], weights=notas['Pesos']) # a representa os valores e weights os pesos
print(f'A média final é {media_ponderada}.')

A média final é 88.6.


## **Média de uma distribuição de frequência**

A média de uma distribuição de frequência é calculada multiplicando cada valor pela sua frequência e dividindo o resultado pela soma das frequências → **(x̅ = Σ(x * f) / Σf)**, em que x são os pontos médios e f é a frequência.

Para exemplificar isso, vamos usar os valores de preços de GPS usados anteriormente:

In [47]:
display(nova_dist_freq)
preco = (nova_dist_freq['Frequência']*nova_dist_freq['Pontos médios']).sum()/observacoes # pega o produto entre a frequência e os pontos médios e divide pelo total de observações
print(f'O preço médio de um navegador GPS é de US${preco:.2f}.')

Unnamed: 0,Classe,Frequência,Pontos médios,Frequência relativa,Frequência acumulada
0,"(65, 105]",6,85.0,0.2,6
1,"(105, 145]",9,125.0,0.3,15
2,"(145, 185]",6,165.0,0.2,21
3,"(185, 225]",4,205.0,0.133333,25
4,"(225, 265]",2,245.0,0.066667,27
5,"(265, 305]",1,285.0,0.033333,28
6,"(305, 345]",2,325.0,0.066667,30


O preço médio de um navegador GPS é de US$162.33.


## **Formas das distribuições**

A **forma** de uma distribuição de frequência é a forma que ela apresenta. Existem três formas principais de distribuição de frequência: **simétrica, assimétrica à direita e assimétrica à esquerda**.

- Uma distribuição de frequência é **simétrica** quando os valores são distribuídos igualmente em ambos os lados do ponto médio. (média = mediana = moda)

    <img src="https://i.imgur.com/1hmbDLf.png" height=300 width=300>

- Uma distribuição de frequência é **assimétrica à direita** quando a maioria dos valores está localizada à esquerda do ponto médio. (média > mediana > moda)

    <img src="https://i.imgur.com/UrMd2yq.png" height=300 width=300>

- Uma distribuição de frequência é **assimétrica à esquerda** quando a maioria dos valores está localizada à direita do ponto médio. (média < mediana < moda)

    <img src="https://i.imgur.com/PFCeFkx.png" height=300 width=300> 