A média das médias
==================



## Objetivo



Crie ou obtenha um conjunto de dados numéricos que representa uma variável aleatória (certifique-se que seu conjunto de dados tem pelo menos 100 itens). Considere que este conjunto de dados é a sua população. Compute e reporte a média desta população.

Realize o processo de amostragem aleatória sem reposição neste conjunto de dados 100 vezes. Cada vez que realizar a amostragem, colete um certo número de dados (algo entre 25% e 75% dos dados, escolha o valor que preferir), compute a média das suas amostras e registre estas médias em uma lista.

Compute a média da lista de médias que obteve e compare este valor com a média da população. Discuta seu resultado.





## Imports e funções

<p style='text-align: justify'> Para essa análise, usamos os módulos <code>numpy</code>, <code>statistics</code> e <code>random</code>. Também usamos as funções <code>media</code> para computar a média e <code>amostragem</code> para realizar a amostragem dos dados. Além disso, coletamos amostras aleatórias de 25% e 75% da população nas outras seções. 

In [13]:
import numpy as np
import statistics as st
import random


def media(array):
    """Calcula a média a partir de um array.
  
      A função recebe um array e calcula a média usando a função "mean",
      retornando-a.

      Args:
        array: Recebe um array com os valores que serão calculados.

      Returns:
        Retorna o valor da média
      """
    media = np.mean(array)
    return media


def desvio_pd(array):
    """Calcula o desvio padrão a partir de um array.

  A função recebe um array e calcula o desvio padrão usando a função "pstdev",
  retornando-a.

  Args:
    array: Recebe um array com os valores que serão calculados.

  Returns:
    Retorna o valor do desvio padrão.
  """
    desvio = np.std(array)
    return desvio


def amostragem(populacao, tamanho):
    """Realiza uma amostragem de certo tamanho a partir de uma população.
  
      A função recebe uma população e a porcentagem do tamanho da amostra 
      desejada em fração decimal, realizando a amostragem.

      Args:
        populacao: Recebe um array com os indíviduos de uma população.
        tamanho: fração da população desejado para a amostragem.

      Returns:
        Retorna um array com a amostra.
      """
    populacao = list(populacao)
    fração = len(populacao)*tamanho
    fração_inteira = int(fração)
    amostra = np.random.choice(populacao, fração_inteira, replace=False)
    return amostra

### Amostra de 25% da população

In [14]:
tamanho_populacao = 100
populacao = np.random.randint(100, size=tamanho_populacao)


media_populacao = media(populacao)
print(f"Média da população: {media_populacao}")
print("________________________________________________________\n")


num_medias = [1, 5, 10, 1000, 10000]
for numero in num_medias:
    lista_de_medias = []

    for i in range(numero):
        amostra = amostragem(populacao, 0.25)
        media_amostra = media(amostra)
        lista_de_medias.append(media_amostra)


    media_das_medias = media(lista_de_medias)
    desvio_padrao_das_medias = desvio_pd(lista_de_medias)
    diferenca = abs(media_populacao - media_das_medias)
    print(f"Média das médias das amostras (número de médias = {numero}): {media_das_medias}")
    print(f"Diferença em relação à média da população: {diferenca}")
    print(f"O desvio padrão da lista de médias é de: {desvio_padrao_das_medias}\n") 

Média da população: 52.83
________________________________________________________

Média das médias das amostras (número de médias = 1): 56.44
Diferença em relação à média da população: 3.6099999999999994
O desvio padrão da lista de médias é de: 0.0

Média das médias das amostras (número de médias = 5): 55.879999999999995
Diferença em relação à média da população: 3.049999999999997
O desvio padrão da lista de médias é de: 4.319925925290848

Média das médias das amostras (número de médias = 10): 55.08399999999999
Diferença em relação à média da população: 2.2539999999999907
O desvio padrão da lista de médias é de: 4.92524760798886

Média das médias das amostras (número de médias = 1000): 52.97668
Diferença em relação à média da população: 0.14668000000000347
O desvio padrão da lista de médias é de: 5.432318563707398

Média das médias das amostras (número de médias = 10000): 52.812596
Diferença em relação à média da população: 0.017403999999999087
O desvio padrão da lista de médias é de

### Amostra de 75% da população

In [15]:
print(f"Média da população: {media_populacao}")
print("________________________________________________________\n")


num_medias = [1, 5, 10, 1000, 10000]
for numero in num_medias:
    lista_de_medias = []

    for i in range(numero):
        amostra = amostragem(populacao, 0.75)
        media_amostra = media(amostra)
        lista_de_medias.append(media_amostra)


    media_das_medias = media(lista_de_medias)
    desvio_padrao_das_medias = desvio_pd(lista_de_medias)
    diferenca = abs(media_populacao - media_das_medias)
    print(f"Média das médias das amostras (número de médias = {numero}): {media_das_medias}")
    print(f"Diferença em relação à média da população: {diferenca}")
    print(f"O desvio padrão da lista de médias é de: {desvio_padrao_das_medias}\n")

Média da população: 52.83
________________________________________________________

Média das médias das amostras (número de médias = 1): 50.946666666666665
Diferença em relação à média da população: 1.8833333333333329
O desvio padrão da lista de médias é de: 0.0

Média das médias das amostras (número de médias = 5): 53.53066666666666
Diferença em relação à média da população: 0.7006666666666632
O desvio padrão da lista de médias é de: 2.4639682537637437

Média das médias das amostras (número de médias = 10): 53.459999999999994
Diferença em relação à média da população: 0.6299999999999955
O desvio padrão da lista de médias é de: 1.6877835564234343

Média das médias das amostras (número de médias = 1000): 52.85738666666666
Diferença em relação à média da população: 0.027386666666664894
O desvio padrão da lista de médias é de: 1.8148618843806759

Média das médias das amostras (número de médias = 10000): 52.830105333333336
Diferença em relação à média da população: 0.00010533333333739847


## Resultado e discussão



<p style='text-align: justify'>Foi possível perceber que conforme se aumenta o número de médias amostrais (ou seja, o tamanho da lista de médias), a média das médias se aproxima cada vez mais com a média da população total. Acredito que isso ocorre porque o processo de amostragem aleatória tende a atenuar o impacto de outliers presentes em uma única amosta.  Portanto, quanto mais amostras você coletar e calcular as médias, mais se reduz o efeito de anomalias, resultando em uma média amostral mais próxima da média da população. Isso é estabelecido pelo Teorema do Limite Central, que diz que independentemente da distribuição da população original, a distribuição das médias amostrais se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta.

<p style='text-align: justify'>Além disso, uma comparação interessante pode ser feita entre as amostras que representam 25% e 75% da população. Observou-se que o desvio padrão da lista de médias diminui à medida que o tamanho das amostras aumenta. Isso pode ser visto ao comparar as amostras de 25% e 75% da população, que é possível perceber que o desvio padrão das amostras de 75% é significativamente menor. 

## Referências



Escreva nesta seção as referências consultadas.



## Playground

