<a href="https://colab.research.google.com/github/kellygaioni/ds_by_kelly/blob/main/Amostragem.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Amostragem

In [69]:
# Resumo:

# Amostragem aleátoria simples:
  # Basicamente, criamos uma tabela ou matriz de números aleatórios e selecionamos a quantidade de registros que desejamos como amostras.
  # Ex.: Se temos uma população de 80, e queremos uma amostragem de 5 unidades, selecionamos 5 registros de 2 dígitos (80)
  # Ex.: Se temos uma população de 400, e queremos uma amostragem de 5 unidades, selecionamos 5 registros de 3 dígitos (400)
  # No python, podemos criar a função:
def amostragem_aleatoria_simples(dataset, amostras): # Seleciona a quantidade de registros aleátórios definido da amostra
  return dataset.sample(n = amostras, random_state=1) # random_state travar a geração de número aleatorio toda vez que roda o código

# Amostragem sistêmica:
  # Basicamente, dividimos a população, selecionamos o primeiro registro aleatório, e depois executamos um somatório.
  # Ex.: Se temos uma população de 28 e queremos uma amostra de 5: 28 / 5 = 5,6 = 6
  # Selecionamos aleatoriamente um registro entre o 1º e o 6º registro -> Vamos colocar como exemplo, selecionamos o registro 3
  # Do 3 em diante, somamos 6. Os números aleatórios são: 3, 3+6=9, 9+6= 15, 15+6 = 21, 21+6=27
  # No python, podemos criar a função:
def amostragem_sistematica(dataset, amostras):
  intervalo = len(dataset) // amostras # Intervalo para o incremento
  random.seed(1) # Travar a geração de número aleatorio toda vez que roda o código
  inicio = random.randint(0, intervalo) # Selecionando o primeiro registro aleatorio entre 0 e o intervalo
  indices = np.arange(inicio, len(dataset), step = intervalo) # Indices são os incrementos somados ao início, do 0 até o final da base
  amostra_sistematica = dataset.iloc[indices] # relaciona os índices da amostras com os dados do dataset
  return amostra_sistematica

# Amostragem por grupo:
  # Basicamente, nessa amostragem selecionamos grupos na população, e retornamos todos os itens dentro desse grupo como amostra
  # O grupo não é definido de forma aleátorio, é sequencial e escolhemos quantos grupos queremos (28 casas divididas em 4 grupos)
  # , depois é selecionado com amostragem aleatoria simples um grupo da amostra, e retorna todos os itens desse grupo
  # No python, podemos criar a função:
def amostragem_agrupamento(dataset, numero_grupos):
  intervalo = len(dataset) / numero_grupos # Definimos o intervalo que vamos separar os elementos dentro do grupo

  # Atribuindo um numero de grupo a cada item da base, de acordo com o intervalo acima
  grupos = []
  id_grupo = 0
  contagem = 0
  for _ in dataset.iterrows():
    grupos.append(id_grupo)
    contagem += 1
    if contagem > intervalo:
      contagem = 0
      id_grupo += 1

  dataset['grupo'] = grupos # Acrescentando uma coluna de grupo na base inicial
  random.seed(1) # Travando a geração aleatoria toda vez que rodamos o código
  grupo_selecionado = random.randint(0, numero_grupos - 1) # Seleciona um grupo com amostra aleatodia simples
  return dataset[dataset['grupo'] == grupo_selecionado] # Retornamos todos os itens desse grupo escolhido

# Amostragem estratificada:
  # Basicamente, vamos gerar uma amostra estratificando alguma variável, pegando de forma aleatorio e proporcional.
  # Há dois conceitos associados aqui, de probabilidade e de proporção. Vamos explorar em um exemplo abaixo:
  # Se uma populção de 90 pessoas, 54 mulheres e 36 homens, e queremos pegar 10% da população, precisamos proporcionar:
  # 54 mulheres * 10% = 5,4 = 5 mulheres | 36 homens * 10% = 3,6 = 4 homens = 9 amostras e selecionamos aleatorio simples para a definição
  # Se pegarmos 9 amostras na população de 90, sem nenhuma proporção, a probabilidade de termos uma amostra só de mulheres é alta,
  # Por isso precisamos proporcionar a amostra;
  # No python, podemos criar a função:
def amostragem_estratificada(dataset, percentual): # Função que perde qual a porcentagem de amostra desejada
  split = StratifiedShuffleSplit(test_size=percentual, random_state=1) # definindo a amostra aleatoria de acordo com a porcentagem
  for _, y in split.split(dataset, dataset['income']): # 'StratifiedShuffleSplit' já seleciona de forma proporcional a coluna que definimos
    df_y = dataset.iloc[y]
  return df_y

# Amostra de reservatório:
  # Não muito usado, aplicado em data stream: dados continuos que toda hora chega na base de dados, exemplo dados da web
  # A análise é feita com os dados que vão chegando no sistema. Exemplo, uma linha de produção de garrafas e precisamos selecionar algumas para
  # fazer teste de qualidade. Definimos um ponto na esteira para pegar a garrafa uma unica vez, e todas devem ter a mesma probabilidade de ser
  # selecionada.
  # No python, podemos criar a função:
def amostragem_reservatorio(dataset, amostras):
  stream = []

  # Adicionando um índice para cada item do df e adicionando na variavel stream
  for i in range(len(dataset)):
    stream.append(i)

  i = 0
  tamanho = len(dataset)

  # Aqui vamos criar uma lista de acordo com a amostra: [0, 1, 2] (exemplo 3 amostras) para depois associar o número aleatorio
  reservatorio = [0] * amostras
  for i in range(amostras):
    reservatorio[i] = stream[i]

  while i < tamanho: # Fazendo a seleção dos valores de fatos
    j = random.randrange(i + 1) # Selecionando de forma aleatório entre um item e um item + 1
    if j < amostras:
      reservatorio[j] = stream[i]
    i += 1

  return dataset.iloc[reservatorio]


## Carregamento da base de dados

In [2]:
import pandas as pd
import random
import numpy as np

In [3]:
dataset = pd.read_csv('census.csv')

In [4]:
dataset.shape

(32561, 15)

In [5]:
# head mostra os 5 primeiros registros
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [6]:
# head mostra os 5 últimos registros (tail significa calda, rabo)
dataset.tail()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K


## Amostragem aleatória simples

In [7]:
# n retorna a quantidade de registros aleatórios
# O random_state=1 retorna sempre a mesma base aleátoria, diferente de quanto está 0 que, toda vez que rodar essa célula, roda uma nova
# base de dados
df_amostra_aleatoria_simples = dataset.sample(n = 100, random_state = 1)

In [8]:
df_amostra_aleatoria_simples.shape

(100, 15)

In [9]:
df_amostra_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
9646,62,Self-emp-not-inc,26911,7th-8th,4,Widowed,Other-service,Not-in-family,White,Female,0,0,66,United-States,<=50K
709,18,Private,208103,11th,7,Never-married,Other-service,Other-relative,White,Male,0,0,25,United-States,<=50K
7385,25,Private,102476,Bachelors,13,Never-married,Farming-fishing,Own-child,White,Male,27828,0,50,United-States,>50K
16671,33,Private,511517,HS-grad,9,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,<=50K
21932,36,Private,292570,11th,7,Never-married,Machine-op-inspct,Unmarried,White,Female,0,0,40,United-States,<=50K


In [10]:
# Criando uma função que gera amostras aleatorios de uma quantidade de amostras como variável
def amostragem_aleatoria_simples(dataset, amostras):
  return dataset.sample(n = amostras, random_state=1)

In [11]:
df_amostra_aleatoria_simples = amostragem_aleatoria_simples(dataset, 100)
df_amostra_aleatoria_simples.shape

(100, 15)

In [12]:
df_amostra_aleatoria_simples.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
9646,62,Self-emp-not-inc,26911,7th-8th,4,Widowed,Other-service,Not-in-family,White,Female,0,0,66,United-States,<=50K
709,18,Private,208103,11th,7,Never-married,Other-service,Other-relative,White,Male,0,0,25,United-States,<=50K
7385,25,Private,102476,Bachelors,13,Never-married,Farming-fishing,Own-child,White,Male,27828,0,50,United-States,>50K
16671,33,Private,511517,HS-grad,9,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,0,40,United-States,<=50K
21932,36,Private,292570,11th,7,Never-married,Machine-op-inspct,Unmarried,White,Female,0,0,40,United-States,<=50K


## Amostragem sistemática

In [13]:
dataset.shape

(32561, 15)

In [15]:
# Queremos selecionar uma amostra de 100 registros
# Como queremos arredondar para nenhuma casa decimal, em vez de dividir '/' simples, colocamos '//' duplo
len(dataset) // 100

325

In [16]:
# Para selecionar o primeiro registro aleatorio entre 0 e 325 usamos a função .randint(0, 325)
# Quando queremos travar a amostra aleatório, e não ficar gerando uma diferente toda vez, usamos o .seed()
random.seed(1)
random.randint(0, 325)

68

In [17]:
# Após o primeiro número aleatório, é só fazer um somatório de 325, iniciando em 68 e indo até o final da base
np.arange(68, len(dataset), step = 325)

array([   68,   393,   718,  1043,  1368,  1693,  2018,  2343,  2668,
        2993,  3318,  3643,  3968,  4293,  4618,  4943,  5268,  5593,
        5918,  6243,  6568,  6893,  7218,  7543,  7868,  8193,  8518,
        8843,  9168,  9493,  9818, 10143, 10468, 10793, 11118, 11443,
       11768, 12093, 12418, 12743, 13068, 13393, 13718, 14043, 14368,
       14693, 15018, 15343, 15668, 15993, 16318, 16643, 16968, 17293,
       17618, 17943, 18268, 18593, 18918, 19243, 19568, 19893, 20218,
       20543, 20868, 21193, 21518, 21843, 22168, 22493, 22818, 23143,
       23468, 23793, 24118, 24443, 24768, 25093, 25418, 25743, 26068,
       26393, 26718, 27043, 27368, 27693, 28018, 28343, 28668, 28993,
       29318, 29643, 29968, 30293, 30618, 30943, 31268, 31593, 31918,
       32243])

In [18]:
def amostragem_sistematica(dataset, amostras):
  intervalo = len(dataset) // amostras # Intervalo para o incremento
  random.seed(1) # Travar a geração de número aleatorio toda vez que roda o código
  inicio = random.randint(0, intervalo) # Selecionando o primeiro registro aleatorio entre 0 e o intervalo
  indices = np.arange(inicio, len(dataset), step = intervalo) # Indices são os incrementos somados ao início, do 0 até o final da base
  amostra_sistematica = dataset.iloc[indices] # relaciona os índices da amostras com os dados do dataset
  return amostra_sistematica

In [19]:
df_amostra_sistematica = amostragem_sistematica(dataset, 100)
df_amostra_sistematica.shape

(100, 15)

In [20]:
df_amostra_sistematica.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
68,49,Self-emp-inc,191681,Some-college,10,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,50,United-States,>50K
393,34,State-gov,98101,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,45,?,>50K
718,22,Private,214399,Some-college,10,Never-married,Sales,Own-child,White,Female,0,0,15,United-States,<=50K
1043,44,Private,167005,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,7688,0,60,United-States,>50K
1368,52,Private,152234,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,Asian-Pac-Islander,Male,99999,0,40,Japan,>50K


## Amostragem por grupos

In [21]:
# Estamos divindo a base por 10 para montar 10 grupos com 3256 elementos em cada
len(dataset) / 10

3256.1

In [22]:
# A alocação do grupo não é aleatoria, é sequencia. Logo, no for abaixo, percorremos todos os itens base e contamos 3256 e associamos o grupo 0,
# depois contamos mais 3256 e associamos o grupo 1, assim por diante até o grupo 10 que definimos
grupos = []
id_grupo = 0
contagem = 0
for _ in dataset.iterrows():
  grupos.append(id_grupo)
  contagem += 1
  if contagem > 3256:
    contagem = 0
    id_grupo += 1

In [24]:
# Para fazer um check, conseguimos verificar os grupos distintos que temos na base e a quantidade de elementos em cada grupo,
# e como podemos ver, exatamente 3257 registros em cada grupo, num total de 10 grupos selecionados inicialmente.
# o últimos grupo pode ser menor quando a base não divide pela amostra sem gerar resto
np.unique(grupos, return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3257, 3248]))

In [26]:
# Olhando se temos a quantidade de linhas em grupos e no dataset
np.shape(grupos), dataset.shape

((32561,), (32561, 15))

In [28]:
# Adicionando a coluna de grupos na base de dados
dataset['grupo'] = grupos

In [29]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,0
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,0
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,0
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,0
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,0


In [30]:
dataset.tail()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K,9
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K,9
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K,9
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K,9
32560,52,Self-emp-inc,287927,HS-grad,9,Married-civ-spouse,Exec-managerial,Wife,White,Female,15024,0,40,United-States,>50K,9


In [35]:
# Após a criação do grupo, é só escolher um deles de forma aletoria simples
random.randint(0, 9)

7

In [36]:
# Retornamos a amostra com todos os elementos no grupo 7, aplicando o filtro na base:
df_agrupamento = dataset[dataset['grupo'] == 7]
df_agrupamento.shape

(3257, 16)

In [37]:
df_agrupamento['grupo'].value_counts()

7    3257
Name: grupo, dtype: int64

In [38]:
def amostragem_agrupamento(dataset, numero_grupos):
  intervalo = len(dataset) / numero_grupos # Definimos o intervalo que vamos separar os elementos dentro do grupo

 # Atribuindo um numero de grupo a cada item da base, de acordo com o intervalo acima
  grupos = []
  id_grupo = 0
  contagem = 0
  for _ in dataset.iterrows():
    grupos.append(id_grupo)
    contagem += 1
    if contagem > intervalo:
      contagem = 0
      id_grupo += 1

  dataset['grupo'] = grupos # Acrescentando uma coluna de grupo na base inicial
  random.seed(1) # Travando a geração aleatoria toda vez que rodamos o código
  grupo_selecionado = random.randint(0, numero_grupos - 1) # Seleciona um grupo com amostra aleatodia simples
  return dataset[dataset['grupo'] == grupo_selecionado] # Retornamos todos os itens desse grupo escolhido

In [39]:
df_amostra_agrupamento = amostragem_agrupamento(dataset, 325)
df_amostra_agrupamento.shape, df_amostra_agrupamento['grupo'].value_counts()

((101, 16),
 68    101
 Name: grupo, dtype: int64)

In [40]:
df_amostra_agrupamento.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
6868,32,Private,128016,HS-grad,9,Married-spouse-absent,Other-service,Unmarried,White,Female,0,0,20,United-States,<=50K,68
6869,46,Private,360096,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,15024,0,60,United-States,>50K,68
6870,30,Private,170154,Bachelors,13,Never-married,Tech-support,Not-in-family,White,Female,0,0,40,United-States,>50K,68
6871,35,Private,337286,Masters,14,Never-married,Exec-managerial,Not-in-family,Asian-Pac-Islander,Male,0,0,40,United-States,<=50K,68
6872,52,Private,204322,Assoc-voc,11,Married-civ-spouse,Tech-support,Husband,White,Male,5013,0,40,United-States,<=50K,68


## Amostra estratificada

In [46]:
# sklearn é uma biblioteca super conhecida de ML
from sklearn.model_selection import StratifiedShuffleSplit

In [47]:
# Na nossa base, vamos estratificar por ganhos anuais na coluna 'income'
dataset['income'].value_counts()

 <=50K    24720
 >50K      7841
Name: income, dtype: int64

In [48]:
# Calculando como exemplo a representatividade das classificações: 24% ganham >50K, e 76% ganham <=50K
7841 / len(dataset), 24720 / len(dataset)

(0.2408095574460244, 0.7591904425539756)

In [49]:
# Essa função 'StratifiedShuffleSplit' já seleciona de forma proporcional a coluna que definimos no for

split = StratifiedShuffleSplit(test_size=0.1) # Estamos definindo aqui que queremos uma amostra de 10% da população
for x, y in split.split(dataset, dataset['income']): # Criando duas variáveis, uma terá 10% da base de dados, e a outra terá 90%
  df_x = dataset.iloc[x] # 90%
  df_y = dataset.iloc[y] # 10%

In [50]:
df_x.shape, df_y.shape

((29304, 16), (3257, 16))

In [51]:
df_y['income'].value_counts()

 <=50K    2473
 >50K      784
Name: income, dtype: int64

In [52]:
def amostragem_estratificada(dataset, percentual): # Função que perde qual a porcentagem de amostra desejada
  split = StratifiedShuffleSplit(test_size=percentual, random_state=1) # definindo a amostra aleatoria de acordo com a porcentagem
  for _, y in split.split(dataset, dataset['income']): # 'StratifiedShuffleSplit' já seleciona de forma proporcional a coluna que definimos no for
    df_y = dataset.iloc[y]
  return df_y

In [53]:
df_amostra_estratificada = amostragem_estratificada(dataset, 0.0030711587481956942)
df_amostra_estratificada.shape

(100, 16)

## Amostragem de reservatório

In [54]:
# Temos o conceito mesmo de stream de dados, que é quando temos os dados contínuos
stream = []
for i in range(len(dataset)):
  stream.append(i) # Adicionando um índice na lista stream para cada linha da tabela

In [56]:
def amostragem_reservatorio(dataset, amostras):
  stream = []
  for i in range(len(dataset)):
    stream.append(i) # Adicionando um índice na lista stream para cada linha da tabela

  i = 0
  tamanho = len(dataset)

  reservatorio = [0] * amostras # O reservatório inicia zerado e vamos preencher com os dados selecionados
  for i in range(amostras): # o for vai percorrer o numero de amostras
    reservatorio[i] = stream[i] # Se tivermos 100 amostras, o nosso reservatório terá 100 amostras ao final

  while i < tamanho: # Fazendo a seleção dos valores de fatos
    j = random.randrange(i + 1) # Selecionando de forma aleatório entre um item e um item + 1
    if j < amostras:
      reservatorio[j] = stream[i]
    i += 1

  return dataset.iloc[reservatorio]


In [57]:
df_amostragem_reservatorio = amostragem_reservatorio(dataset, 100)
df_amostragem_reservatorio.shape

(100, 16)

In [58]:
df_amostragem_reservatorio.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income,grupo
29608,41,Self-emp-inc,114580,Prof-school,15,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,2415,55,United-States,>50K,293
21696,37,Federal-gov,329088,HS-grad,9,Married-civ-spouse,Adm-clerical,Husband,Black,Male,0,0,40,United-States,<=50K,214
30676,42,Private,355728,Assoc-voc,11,Never-married,Craft-repair,Not-in-family,White,Male,0,0,44,United-States,<=50K,303
28550,43,Private,110970,Bachelors,13,Married-civ-spouse,Prof-specialty,Husband,White,Male,0,1902,40,United-States,>50K,282
8768,52,Federal-gov,221532,Bachelors,13,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,45,United-States,>50K,86


## Comparativo dos resultados

In [59]:
# A média da idade da população inteira
dataset['age'].mean()

38.58164675532078

In [61]:
# A média da amostra usando o método de aleatorio simples
df_amostra_aleatoria_simples['age'].mean()

39.41

In [62]:
# A média da amostra usando o método de amostragem sistematica
df_amostra_sistematica['age'].mean()

37.57

In [63]:
# A média da amostra usando o método de amostragem por agrupamento
df_amostra_agrupamento['age'].mean()

40.06930693069307

In [64]:
# A média da amostra usando o método de amostragem estratificado
df_amostra_estratificada['age'].mean()

36.9

In [65]:
# A média da amostra usando o método de amostragem de reservatorio
df_amostragem_reservatorio['age'].mean()

37.85