# 1. População, amostra e medidas de tendência central

In [1]:
## bibliotecas de comandos
## !pip3 install statistics

In [2]:
import statistics
import numpy as np

## 1.1 População (μ) e amostra (n)

Como pesquisadores, estamos interessados em encontrar resultados que se apliquem a toda uma população de pessoas ou coisas.
A população pode ser geral (todos os seres humanos) ou muito pequena (todos os gatos siameses de nome Bob).
Cientistas raramente (senão nunca) terão acesso a cada membro da população. Portanto, coleta-se dados de um subgrupo da população, chamado amostra, e usamos estes dados para inferir coisas sobre toda a população.
Quanto maior a amostra, maior a probabilidade de ela refletir a população inteira.

Os dados a seguir são as temperaturas do anel de vedação do motor do foguete do ônibus espacial Challenger nos testes de acionamento ou lançamento real (Presidential Commission on the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131).

In [3]:
a = [84,49,61,40,83,67,45,66,70,69,
     80,58,68,60,67,72,73,70,57,63,
     70,78,52,67,53,67,75,61,70,81,
     76,79,75,76,58,31]

## 1.2 Média aritmética

**Definição:** valor hipotético que representa um resumo de dados. É um dos modelos mais simples da estatística. Precisa ser validado para determinar a sua precisão (ex: desvios, erro total, soma dos erros ao quadrado, variância...).

**Objetivo da média:** representar um conjunto de dados por um único valor.

**Observação:** não existe uma medida central universalmente mais precisa para representar o valor central do conjunto: o que precisamos levar em consideração é a situação que estamos analisando para fazer a melhor escolha de medida central.
Somatório de todos os elementos da série divididos pelo número de elementos.

Equação:

$$\text{Média aritmética} = \frac{{x_1 + x_2 + \ldots + x_n}}{n}$$


$$ \text{Média aritmética} = \frac{1}{n} \sum_{i=1}^{n} X_i $$


**onde:**

* **$X_i$**: são os valores individuais do conjunto X;
* **$\sum$**: é o símbolo de somatório, que indica que devemos somar os valores de \(X_i\) de \(i = 1\) até \(i = n\);
* **$n$**: é o número de elementos no conjunto X.

In [4]:
print(a)

[84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 73, 70, 57, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 75, 76, 58, 31]


In [7]:
media_aritmetica = statistics.mean(a)
print("média aritmética: {:.2f}".format(media_aritmetica))

média aritmética: 65.86


**Observação importante:** o valor da média é afetado pelo valor dos extremos. Por exemplo, dada uma amostra de salários, em que a maior parte for notadamente mais baixa, se houver uma pequena porcentagem de salários altos, a média indicará um alto valor salarial.

In [7]:
import random

# Amostra de salários com maior parte baixa
salarios_baixos = [random.randint(800, 1500) for _ in range(100)]

# Cálculo da média
media_salarios_baixos = sum(salarios_baixos) / len(salarios_baixos)

print(f"Média dos salários baixos: R$ {media_salarios_baixos:.2f}")

# Amostra de salários com alguns salários altos
salarios_altos = [random.randint(5000, 10000) for _ in range(10)]

# Cálculo da média
media_salarios_altos = sum(salarios_altos) / len(salarios_altos)

print(f"Média dos salários altos: R$ {media_salarios_altos:.2f}")


Média dos salários baixos: R$ 1166.14
Média dos salários altos: R$ 7844.70


## 1.3 Moda

A moda é o valor que ocorre mais vezes ou com maior frequência.

In [35]:
print(a)

[31, 40, 45, 49, 52, 53, 57, 58, 58, 60, 61, 61, 63, 66, 67, 67, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 80, 81, 83, 84]


In [8]:
moda = statistics.mode(a)
print(f"Moda: {moda}")

Moda: 67


## 1.4 Mediana

A mediana é determinada ordenando-se os dados de forma crescente ou decrescente e determinando o valor central da série.

**Cálculo:**

  - Devemos ordenar o conjunto de dados em ordem crescente;
  - Se o número de elementos for par, então a mediana é a média dos dois valores centrais. 
    Soma os dois valores centrais e divide o resultado por 2
  - Se o número de elementos for ímpar, então a mediana é o valor central.

In [37]:
a.sort()
print(a)

[31, 40, 45, 49, 52, 53, 57, 58, 58, 60, 61, 61, 63, 66, 67, 67, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 80, 81, 83, 84]


In [9]:
mediana = statistics.median(a)
print(f"Mediana: {mediana}")

Mediana: 67.5


## 1.5 Média geométrica

É utilizada para representação de conjuntos que se comportam como progressão geométrica.

A média geométrica é obtida extraindo-se a raiz n-ésima da multiplicação dos n termos da série numérica.

Também ela é empregada na geometria, para comparar lados de prismas e cubos de mesmo volume, ou quadrados e retângulos de mesma área. Há também aplicação em problemas da matemática financeira que envolvam taxa percentual acumulada, ou seja, porcentagem sob porcentagem.

Fórmula: <img src="https://static.mundoeducacao.uol.com.br/mundoeducacao/2020/05/formula-media-geometrica.png">

**Exemplo 01:** Um produto, durante três meses, teve aumentos consecutivos, o primeiro foi de 20%, o segundo de 10% e o terceiro de 25%. Qual foi o aumento médio percentual ao final desse período?

**Resolução:**

O produto custava inicialmente 100%, logo no primeiro mês ele passou a custar 120%, que, na sua forma decimal, escreve-se 1,2. Esse raciocínio será o mesmo para os três aumentos, então queremos a média geométrica entre: 1,2; 1,1; e 1,25.

In [25]:
a = [1.2, 1.1, 1.25]
media_geometrica = statistics.geometric_mean(a)
print("Média geométrica: {:.3f}".format(media_geometrica))
aumento_percentual = (media_geometrica - 1) * 100
print("O aumento é de {:.1f}% por mês em média.".format(aumento_percentual))

Média geométrica: 1.182
O aumento é de 18.2% por mês em média.


## 1.6 Média harmônica

Medidas centrais que fazem esse mesmo papel: mediana e a moda.
Emprega-se quando trabalhamos com grandezas inversamente proporcionais.
A média harmônica é calculada pela divisão de n (quantidade de elementos) pela soma dos inversos dos elementos.

<img src="https://static.mundoeducacao.uol.com.br/mundoeducacao/2020/05/11.jpg">

**Mh:** média harmônica

**n:** quantidade de elementos

----------------------------

**Exemplo 1:** Aplicação no cálculo da velocidade média.

Um carro realiza um percurso duas vezes. 
Na ida, ele faz o percurso com uma velocidade v1 = 80 km/h. 
Na volta, ele realiza o mesmo percurso com velocidade de v2 = 120 km/h. 
Qual foi a velocidade média ao juntar-se ida e volta?

**Análise:**

Primeiro o que precisa ficar claro é o motivo de usarmos a média harmônica. 
Note que a distância é a mesma, para a ida e para a volta, o que muda é a velocidade e, consequentemente, o tempo. 
Se eu aumento a velocidade, o tempo que eu levo para percorrer uma mesma distância diminuirá, logo, essas grandezas são inversamente proporcionais. 
Quando eu estou trabalhando com grandezas inversamente proporcionais, utilizamos a média harmônica.

In [13]:
a = [120,80]
media_harmonica = statistics.harmonic_mean(a)
print("Média harmônica: {} km/h".format(media_harmonica))

Média harmônica: 96.0 km/h


-----------------

**Exemplo 2:** Vazão de torneiras.

Para encher um tanque, uma torneira leva 12 horas. 
Para encher esse mesmo tanque, outra torneira leva 6 horas. 
Caso as duas torneiras fossem abertas ao mesmo tempo, quanto tempo elas levariam para encher o tanque?

**Análise:**

Vazão e tempo são grandezas inversamente proporcionais, pois, quanto maior a vazão da torneira, 
menor será o tempo que ela levará para encher o tanque. 
Desse modo, utilizaremos a média harmônica para encontrarmos o tempo das duas torneiras.

In [15]:
a = [12,6]
media_harmonica = statistics.harmonic_mean(a)
print("Média harmônica: {} horas".format(media_harmonica))

Média harmônica: 8.0 horas


## 1.7 Média ponderada

É a média que leva em consideração o peso atribuído a cada um dos valores dos quais queremos calcular a média. Quanto maior o peso de determinado valor, maior será o impacto dele na média, tornando esses valores mais relevantes.

A média ponderada é aplicada, por exemplo, em situações que envolvem notas, ou quando há acúmulos de frequência para determinados valores.

O peso faz com que alguns valores tenham mais impactos no cálculo da média.

<img src="https://4.bp.blogspot.com/_bkHmXGOWek0/TK-IBIaDLRI/AAAAAAAAALM/Kum2EhE3JjQ/s1600/imagem1.bmp" />

**Exemplo 1:** Temos o número de funcionários de uma empresa para cada cargo e seus respectivos salários:
    
    
| Função           | Quantidade | Salário  |
|------------------|------------|----------|
| Auxiliar admin.  | 5          | 1100     |
| Atendente        | 16         | 2000     |
| Gerente          | 3          | 5500     |
| Gestor           | 1          | 12500    |


In [19]:
salarios = np.array([1100,2000,5500,12500])
pesos = np.array([5,16,3,1])

media_ponderada = np.average(salarios, weights=pesos)
print("Média ponderada: R$ {:.2f}".format(media_ponderada))

Média ponderada: R$ 2660.00


--------------------------------------

**Exemplo 2:** A nota final de uma disciplina da faculdade é constituída por 4 critérios, sendo eles:

apresentação do trabalho, peso 2;

atividades feitas em casa, peso 3;

primeira avaliação discursiva, peso 2,5;

segunda avaliação discursiva, peso 2,5.

Se um estudante tirou na apresentação do trabalho 8 pontos; na atividade em sala, 10 pontos; na primeira avaliação discursiva, 4 pontos; e na segunda avaliação discursiva, 6 pontos, então a média obtida por esse estudante foi de:

In [21]:
notas = np.array([8, 10, 4, 6])
pesos = np.array([2, 3, 2.5, 2.5])

media_ponderada = np.average(notas, weights=pesos)
print("Média ponderada: {:.2f}".format(media_ponderada))

Média ponderada: 7.10


## Fonte

Montgomery, DC; Runger, GC. Estatística aplicada e probabilidade para engenheiros. Rio de Janeiro: LTC Editora, 2012 (5ª Edição).