# Exercícios - Estatística

### Questão 1

Uma relação bem importante entre uma população e uma amostra, é que uma amostra pode ser significativa daquela população (ou seja, podemos inferir que a média e variância da amostra será bem próximo do valor real da população), isto quando essa amostra for grande o suficiente para isso. Vamos fazer algumas simulações utilizando o _Python_ para testar esses conceitos, resolvendo os itens a seguir:

__A)__ Crie uma lista com número aleatórios entre 20 e 50 e que essa lista contenha 1 milhão de elementos;

__B)__ Calcule a média e a variância para essa lista;

__C)__ Faça amostra aleatórias de diversos tamanhos (10, 100, 1.000 e 10.000 elementos) e calcule as mesmas métricas que o item anterior, para avaliar o conceito proposto no enunciado

In [1]:
import numpy as np 
import pandas as pd

In [2]:
# A)
np.random.seed(51)
A = list(np.random.randint(20, 50, 1000000))
A[:5]

[45, 25, 20, 29, 25]

In [5]:
# B)
print(f'A média da lista é: {np.round(np.mean(A), 2)}.')
print(f'A variância da lista é: {np.round(np.var(A), 2)}.')

A média da lista é: 34.51.
A variância da lista é: 74.82.


In [6]:
# C)

# Import da biblioteca random para os samples
import random

# Cria uma lista com os diversos tamanhos de amostras
n_amostras = [10, 100, 1000, 10000]

# Loop para fazer a amostra aleatória e calcular as métricas
for n in n_amostras:
    amostra = list(random.sample(A, n))
    print(f'Amostra com {n} elementos')
    print('Média:     ', np.round(np.mean(amostra),2))
    print('Variância: ', np.round(np.var(amostra),2))
    print('=================================')

Amostra com 10 elementos
Média:      29.6
Variância:  90.84
Amostra com 100 elementos
Média:      35.4
Variância:  89.8
Amostra com 1000 elementos
Média:      34.38
Variância:  79.29
Amostra com 10000 elementos
Média:      34.56
Variância:  73.6


### Questão 2

Neste exercício vamos demonstrar a importância de uma amostragem estratificada quando temos grupos significantes dentro da população. Faça os seguintes itens:

__A)__ Crie 3 listas de números aleatórios sendo elas:
    - uma lista com números aleatórios entre 40 e 50 contendo 10.000 elementos;
    - uma lista com números aleatórios entre 10 e 20 contendo 6.000 elementos;
    - uma lista com números aleatórios entre 80 e 90 contendo 4.000 elementos.
    
__B)__ Calcule a média e a variância para cada uma das 3 listas;

__C)__ Calcule a média e a variância para a população, onde a população seja as 3 listas juntas;

__Dica.:__ Neste caso, temos que trabalhar com média e variância ponderada!

__D)__ Una as 3 listas em uma só e retire uma amostra de 1% da lista resultante. Calcule a média e a variância para esta amostra;

__E)__ Por fim, faça uma amostra estratificada da seguinte forma: faça uma amostra aleatória de 1% de cada uma das 3 listas e em seguida calcule a média e a variância para a amostra estratificada (será necessário utilizar a média e variância ponderada!).

__F)__ Compare o resultado das métricas para a amostra e a amostra estratificada com o valor das métricas da população.

In [9]:
np.random.seed(51)
# A)

lista1 = list(np.random.randint(40, 50, 10000))
lista2 = list(np.random.randint(10, 20, 6000))
lista3 = list(np.random.randint(80, 90, 4000))

# B)

print(f'A média da lista 1, 2 e 3 são, respectivamente: {np.round(np.mean(lista1), 2), np.round(np.mean(lista2), 2), np.round(np.mean(lista3), 2)}.')
print(f'A variância da lista 1 é: {np.round(np.var(lista1), 2), np.round(np.var(lista2), 2), np.round(np.var(lista3), 2)}.')

# C) 

populacao = lista1 + lista2 + lista3

# pesos
p1 = len(lista1)/len(populacao)
p2 = len(lista2)/len(populacao)
p3 = len(lista3)/len(populacao)

# média ponderada

media_populacao = p1*np.mean(lista1) + p2*np.mean(lista2) + p3*np.mean(lista1)
var_populacao = np.var(lista1) + np.var(lista2) + np.var(lista3)

print(f'A média da população é: {np.round(media_populacao, 2)}.')
print(f'A variância da população é: {np.round(var_populacao, 2)}.')

A média da lista 1, 2 e 3 são, respectivamente: (44.47, 14.48, 84.5).
A variância da lista 1 é: (8.24, 8.18, 8.28).
A média da população é: 35.47.
A variância da população é: 24.69.


In [10]:
# D)

len(populacao)

20000

In [11]:
amostra_pop = list(random.sample(populacao, 200))

print(f'A média da população é: {np.round(np.mean(amostra_pop), 2)}.')
print(f'A variância da população é: {np.round(np.var(amostra_pop), 2)}.')

A média da população é: 43.94.
A variância da população é: 577.51.


In [12]:
# E)

# Amostra 1
# Define a amostra de uma população
amostra1 = list(random.sample(lista1, 100))

# Metricas amostra 1
mean_amostra1 = np.round(np.mean(amostra1),2)
var_amostra1 = np.round(np.var(amostra1),2)

# Print das metricas da amostra
print('Amostra 1 com {} elementos'.format(100))
print('Média:     ', mean_amostra1)
print('Variância: ', var_amostra1)
print('=================================')

# Amostra 2
# Define a amostra de uma população
amostra2 = list(random.sample(lista2, 60))

# Metricas amostra 1
mean_amostra2 = np.round(np.mean(amostra2),2)
var_amostra2 = np.round(np.var(amostra2),2)

# Print das metricas da amostra
print('Amostra 2 com {} elementos'.format(60))
print('Média:     ', mean_amostra2)
print('Variância: ', var_amostra2)
print('=================================')

# Amostra3
# Define a amostra de uma população
amostra3 = list(random.sample(lista3, 40))

# Metricas amostra 1
mean_amostra3 = np.round(np.mean(amostra3),2)
var_amostra3 = np.round(np.var(amostra3),2)

# Print das metricas da amostra
print('Amostra 3 com {} elementos'.format(40))
print('Média:     ', mean_amostra3)
print('Variância: ', var_amostra3)
print('=================================')

Amostra 1 com 100 elementos
Média:      44.3
Variância:  8.63
Amostra 2 com 60 elementos
Média:      14.63
Variância:  6.4
Amostra 3 com 40 elementos
Média:      83.8
Variância:  8.61


In [13]:
# F)

# Média Ponderada das listas
mean_amostra_N = p1*mean_amostra1 + p2*mean_amostra2 + p3*mean_amostra3

# Variância Ponderada das listas
var_amostra_N = var_amostra1 + var_amostra2 + var_amostra3

# Print das métricas da população
print('Métricas da Amostra total: ')
print('Amostra com {} elementos'.format(200))
print('Média Ponderada:     ', mean_amostra_N)
print('Variância Ponderada: ', var_amostra_N)

# Percebe-se que a amostragem estratificada foi melhor do que a amostragem simples! Visto que há diferenças entre os grupos estudados

Métricas da Amostra total: 
Amostra com 200 elementos
Média Ponderada:      43.299
Variância Ponderada:  23.64


### Questão 3

 Uma máquina de sorvete está regulada de modo a servir uma média de 120g por casquinha. Se a quantidade servida por casquinha seguir uma distribuição normal com desvio padrão de 18g, determine a porcentagem de casquinhas que conterão mais de 150g de sorvete.

In [17]:
import scipy.stats as st
import numpy as np

In [19]:
media = 120
desvio = 18
X = 150

Z = (X - media) / desvio

print('A probabilidade de ter mais que 150g é igual a:', np.round((1 - st.norm.cdf(Z))*100, 2),'%')

A probabilidade de ter mais que 150g é igual a: 4.78 %


### Questão 4

O peso médio de 500 estudantes do sexo masculino de uma determinada universidade é 71 Kg e o desvio padrão é 5,3 Kg. Admitindo que os pesos são normalmente distribuídos, determine a porcentagem de estudantes que pesam entre 65 e 72,5 kg

In [22]:
n = 500
media = 71 
desvio = 5.3

x1 = 65
x2 = 72.5

z1 = (x1 - media) / desvio
z2 = (x2 - media) / desvio

print('A probabilidade de ter mais que 62.5 kg e menos 72.5 kg é igual a:', np.round((st.norm.cdf(z2))*100 - st.norm.cdf(z1)*100, 2),'%')

A probabilidade de ter mais que 62.5 kg e menos 72.5 kg é igual a: 48.26 %


### Questão 5

Uma fábrica anuncia que o índice de cafeína em um refrigerante de uma dada marca é igual a 20 mg por lata. Um laboratório realiza 20 análises do índice obtendo: 22, 19, 21, 22, 20, 18, 27, 20, 21, 19, 20, 22, 17, 20, 21,18, 25, 16, 20, 21. Sabe-se que o índice de cafeína do refrigerante dessa marca se distribui normalmente com variância 4 mg$^2$. Pode-se aceitar a afirmação do fabricante, ao nível de 5%?

In [21]:
# h0 = 20 
# h1 > 20

h0 = 35
desvio = 2
n = len([[37, 34, 36, 37, 35, 32, 30, 35, 34, 36, 39, 38, 34, 35, 31, 30, 33, 35, 36, 31]])
media = np.mean([37, 34, 36, 37, 35, 32, 30, 35, 34, 36, 39, 38, 34, 35, 31, 30, 33, 35, 36, 31])
alfa = 95
z = 1.96

Xm = [] # distribuição da média amostral

# loop para gerar diversas amostras para o nosso teste
for s in range(1, 1000):
    x = np.random.normal(h0, desvio, n) # sorteia uma amostra de tamanho n
    Xm.append(np.mean(x))

# Valor Crítico
xc = np.percentile(Xm, alfa)
print('Xc=', xc, '  Xobs = ', media)

# Verifica se acieta ou rejeita H0
if(media < xc):
    print("Aceitamos H0")
else:
    print("Rejeitamos H0")

Xc= 38.25543670620876   Xobs =  34.4
Aceitamos H0


In [13]:
import pandas as pd
import numpy as np
from scipy.stats import norm
from scipy.stats import t

In [5]:

(2/20)*(3/19)

0.015789473684210527

In [9]:
from scipy.stats import binom

n = 30
p = 0.4
k = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

#Calculando cada parcela
print(binom.pmf(0,  n, p) + binom.pmf(1,  n, p) + binom.pmf(2,  n, p)+ binom.pmf(3,  n, p) + binom.pmf(3,  n, p) + binom.pmf(4,  n, p) + binom.pmf(5,  n, p)+ binom.pmf(6,  n, p) + binom.pmf(7,  n, p) + binom.pmf(8,  n, p) + binom.pmf(9,  n, p)+ binom.pmf(10,  n, p) + binom.pmf(11,  n, p)+ binom.pmf(12,  n, p) )

#Utilizando a função cdf (acumulado do menor até um certo valor)
print(1 - binom.cdf(12, n, p)) #usando o complementar

#Utilizando a função sf
print(binom.sf(12, n, p))

0.5787316722836195
0.42153427145388245
0.42153427145388245


In [10]:
gravida = 0.6
n_gravida = 1 - gravida
TP = 0.96
FN = 0.04
FP = 0.01
TN = 0.99

Q1 = gravida*TP / (gravida*TP + n_gravida*FP)

In [11]:
Q1

0.993103448275862

In [15]:
Z = 10 / 8
1 - norm.cdf(Z)

0.10564977366685535

In [18]:
media = 7 
desvio = 2

x1 = 4
x2 = 11

z1 = (x1 - media) / desvio
z2 = (x2 - media) / desvio

print('A probabilidade de ter mais que 62.5 kg e menos 72.5 kg é igual a:', np.round((st.norm.cdf(z2))*100 - st.norm.cdf(z1)*100, 2),'%')

A probabilidade de ter mais que 62.5 kg e menos 72.5 kg é igual a: 91.04 %


In [20]:
n = 1440
from scipy.stats import poisson

poisson.pmf(3,1)

0.06131324019524039