## Introdução

Em estatística, existem duas análises de dados possíveis: a populacional e a amostral. O estudo da população é referente à coleta e análise de dados de todos os indivíduos ou elementos do conjunto alvo de intresse, enquanto a amostra é referente à apenas uma parcela ou subconjunto da população. O estudo da população é sempre preferível na análise estatística, entretanto, tal processo é quase sempre inviável, de modo que o estudo de amostras se mostra predominante e mais realista.

Neste trabalho, foi feita uma comparação de estatísticas de um conjunto de dados disponível na biblioteca Seaborn do Python sobre a duração de erupções do geiser de Old Faithful (EUA) em seu todo (população) e de 100 amostragens aleatórias com 25~75% desse mesmo conjunto de dados, calculando a média de cada um deles e , posteriormente, calcualndo a média dessas médias. Foi feita, também, o cálculo do mínimo, máximo e desvio padrão das médias das amostragens, a fim de melhor comparação. Para isso, contou-se com o apoio das bibliotecas Numpy e Pandas, além da biblioteca Seaborn, da qual tiramos o dataset analisado.

In [25]:
import seaborn as sb
import numpy as np
import pandas as pd

df = sb.load_dataset("geyser")
df

Unnamed: 0,duration,waiting,kind
0,3.600,79,long
1,1.800,54,short
2,3.333,74,long
3,2.283,62,short
4,4.533,85,long
...,...,...,...
267,4.117,81,long
268,2.150,46,short
269,4.417,90,long
270,1.817,46,short


In [26]:
medias =[]
for i in range(100):
    amostra = df["duration"].sample(100)
    media = round(np.mean(amostra),3)
    medias.append(media)
    
print(medias)


[3.55, 3.559, 3.508, 3.554, 3.415, 3.661, 3.411, 3.504, 3.468, 3.43, 3.374, 3.476, 3.556, 3.567, 3.452, 3.525, 3.597, 3.476, 3.512, 3.45, 3.476, 3.583, 3.424, 3.358, 3.465, 3.393, 3.461, 3.542, 3.642, 3.505, 3.551, 3.487, 3.483, 3.468, 3.428, 3.425, 3.385, 3.369, 3.567, 3.481, 3.485, 3.387, 3.581, 3.48, 3.483, 3.564, 3.581, 3.59, 3.491, 3.683, 3.468, 3.409, 3.397, 3.419, 3.604, 3.44, 3.475, 3.462, 3.416, 3.554, 3.606, 3.542, 3.566, 3.382, 3.454, 3.678, 3.405, 3.516, 3.5, 3.668, 3.547, 3.293, 3.567, 3.383, 3.492, 3.565, 3.417, 3.472, 3.402, 3.464, 3.631, 3.51, 3.407, 3.343, 3.585, 3.47, 3.439, 3.615, 3.428, 3.524, 3.436, 3.526, 3.481, 3.55, 3.476, 3.527, 3.445, 3.565, 3.483, 3.531]


In [27]:
media = np.mean(df["duration"])
media_medias = np.mean(medias)
print(f"A média da população da duração dos gêiseres é de {media} min.")
print(f"A média das médias de 100 amostras aleatórias dentre a população da duração dos gêiseres é de {media_medias} min.")
print(f"As médias mínima e máxima dentre as amostras aleatórias são: {min(medias)} min e {max(medias)} min")

print(f"O desvio padrão das médias de 100 amostras aleatórias dentre a população da duração dos gêiseres é de {np.std(medias)} min.")

A média da população da duração dos gêiseres é de 3.4877830882352936 min.
A média das médias de 100 amostras aleatórias dentre a população da duração dos gêiseres é de 3.49398 min.
As médias mínima e máxima dentre as amostras aleatórias são: 3.293 min e 3.683 min
O desvio padrão das médias de 100 amostras aleatórias dentre a população da duração dos gêiseres é de 0.0790363182340878 min.


### Discussões

Nesse processo de cálculo de média de 100 amostragens aleatórias, pudemos identificar que não há grandes variações entre as médias obtidas, visto que todas se encontram no intervalo [3.293 , 3.683], sendo a média da população de 3.488. A média das médias das amostras (3.494) se aproxima muito da média da população, com apenas 0.006 minutos de diferença, e o desvio padrão (erro) das médias também é muito próximo dé zero (0.079 min). Desse modo, é notável o quanto estatísticas de amostragem se aproximam das estatísticas da população, comprovando que a análise de dados amostrais é efetivo para estudo geral de uma população.

## Conclusão
Assim, com a análise das médias de 100 amostragens aleatórias em comparação com a média da população de dados de duração de erupções do geiser Old Faithful (EUA), foi possível compreender o estudo estatístico através de amostras quando não é viável o estudo de toda a população, visto que, empiricamente, obtvemos resultados extremamente próximos para as médias da população e das amostras (3.488 e 3.494). Além disso, o desvio padrão entre as médias obtidas na amostragem se mostra mínimo, reforçando que as estatísticas de cada amostra se arpoxima - e muito - das estatísticas da população.

### Referências 
CASSAR, DR. LMA-203 2.0 População, amostra e correlação. Microsoft Teams, T03-LMA-203 - Probabilidade e Estatística, Material de Aula. 

Waskon, M. Seaborn: Statistical data visualization. Disponível em: https://seaborn.pydata.org/.

Waskon, M. Seaborn Data: Data repository for seaborn examples. GitHub, Inc. Disponível em: https://github.com/mwaskom/seaborn-data.

Old Faithful Geyser Data. Disponível em: https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/faithful.html.

Harris, C.R., Millman, K.J., van der Walt, S.J. et al. Array programming with NumPy. Disponível em: https://numpy.org/.

McKinney, W. Pandas: Data structures for statistical computing in python. Disponível em: https://pandas.pydata.org/.