## Exercícios de Preparação para Prova

In [11]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats
from scipy.stats import f
from statsmodels.stats import weightstats
from scipy.stats import norm

### Questão 1 
Considere duas máquinas de evase de perfumes A e B. Simule uma amostra de 50 frascos produzidos pela máquina A, com média 200 ml e desvio padrão de 3 ml. Em seguida, simule uma amostra de 50 frascos produzidos pela máquina B, com média 202 ml e desvio padrão de 2 ml. Para a simulação, use np.random.normal \
Por fim, realize um teste Z com as duas amostras e informe se as máquinas A e B estão produzindo perfumes da mesma forma. Calculcar com 95% de confiança.

In [12]:
# Hipoterse nula: A == B
# Hipotese alternativa: A != B


# (normal, desvio, quantidade)
m1 = np.random.normal(200, 3, 50)
m2 = np.random.normal(202, 2, 50)

weightstats.ztest(m1,m2)

# Se pValue < que teste de confiança, falhamos em rejeitar e aceitamos hipótese alternativa
# Se pValue > que teste de confiança, rejeitamos e mantemos hipótese nula

# Como o pValue < 0.05, rejeitamos a hipótese nula. As máquinas não estão produzindo com a mesma média.

(np.float64(-3.0298978290973637), np.float64(0.002446364809847891))

### Questão 2 
Considere o dataset "penguins" do Seaborn. Realize um teste de hipótese Z no qual a hipótese nula seja que pinguins machos têm o mesmo peso que pinguins fêmeas. O peso de cada pinguim está no campo "body_mass_g". Note que é preciso eliminar as linhas que contém NaN nos campos "body_mass_g" e "sex". Calcular com 95% de confiança.

In [13]:
# hipotese nula: PesoPenguimMacho == PesoPenguimFemea
# hipotese alternativa: PesoPenguimMacho != PesoPenguimFemea

df = sns.load_dataset('penguins')
df = df.sample(frac=0.3, random_state=400)
df = df.dropna() # remove valores nulos/NaN

df_macho = df[df['sex'] == 'Male']
df_femea = df[df['sex'] == 'Female']

# grafico
# sns.catplot(data=df, x="sex", y="body_mass_g", kind='box')

weightstats.ztest(df_macho['body_mass_g'],df_femea['body_mass_g'])

# Como pValue < 0.05 rejeitamos a hipótese nula. Pinguins machos e fêmeas não tem o mesmo peso médio.

(np.float64(3.9106936791064526), np.float64(9.203142895489397e-05))

### Questão 3 
Avaliou-se em 240 Kg o desvio padrão das tensões de ruptura de certos cabos produzidos por uma fábrica. Depois de ter sido introduzida uma mudança no processo de fabricação desses cabos, as tensões de ruptura de uma amostra de 8 cabos apresentaram o desvio padrão de 300 Kg. É possível afirmar que houve mudança no desvio padrão (nível de confiança: 90%).

In [14]:
# Hipotese nula: u_antes = u_depois
# Hipotese alternativa: u_antes != u_depois

# chi_sq_cal
chi_sq_cal = (8-1)*(300**2)/(240**2)
print(f"chi_sq_cal: {chi_sq_cal}")

# Faixa de criticos
print(f'Minima: {stats.chi2.isf(0.95, 7)} / Maxima: {stats.chi2.isf(0.05, 7)}')

# Como o Χ calculado (10.9) está dentro da faixa dos X críticos (2.17 e 14.07), falhamos em rejeitar a hipótese nula. Portanto, não houve mudança no desvio padrão.

chi_sq_cal: 10.9375
Minima: 2.167349909298058 / Maxima: 14.067140449340167


### Questão 4 
As especificações dos pentes de memória RAM para computadores fabricados pela Companhia Boa Memória indicam que a porcentagem de pentes defeituosos não excede 5%. Uma amostra de cem desses pentes apresentou sete defeituosos. \
Com base nesse resultado, podemos afirmar que as especificações estão incorretas? (Nível de confiança = 95%).

In [15]:
# Hipotese nula: p <= p0
# Hipotese alternativa: p > p0

stats.binomtest(7, 100, p=0.05, alternative='greater')

# Como pValue > 0.05, falhamos em rejeitar a hipótese nula. Portanto, as especificações estão corretas.

BinomTestResult(k=7, n=100, alternative='greater', statistic=0.07, pvalue=0.23398601598516827)

### Questão 5 
Sabe-se que o consumo mensal “per capita” de um determinado produto tem distribuição normal, com desvio padrão 2 Kg. A diretoria de uma empresa que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo “per capita” fosse menor que 8 Kg. Foi realizada uma pesquisa de mercado, tomando-se uma amostra de 25 indivíduos e verificou-se que: Σ xi = 180 Kg, onde xi representa o consumo mensal do i-ésimo indivíduo da amostra. \
a) Com base nos resultados da amostra e com um nível de confiança de 95%, qual deveria ser a decisão da diretoria? \
b) Se a diretoria tivesse fixado o nível de confiança em 99% a decisão seria a mesma? Justifique sua resposta.

In [16]:
# A)

media = 180/25
z_calc = (media-8)/(2/np.sqrt(25))
z_crit = norm.ppf(0.05)

# z_calc < z_crit, portanto z_calc está dentro da área crítica. Assim, rejeitamos a hipótese nula. O consumo médio é menor que 8 Kg e o produto deve ser retirado da linha de prosução.

In [17]:
# B)

z_crit = norm.ppf(0.01)
z_crit

# Com alpha = 0.01, temos z_calc > z_crit. Neste caso, z_calc não estã dentro da área crítica. Assim, falhamos em rejeitar a hipótese nula. 
# O consumo médio é maior que 8 kg e o produto deve ser mantido na linha de produção.

np.float64(-2.3263478740408408)

### Questão 6
O PISA - Programme for International Student Assessment - é uma avaliação comparada aplicada de forma amostral a estudantes na faixa etária dos 15 anos, idade em que se pressupõe o término da escolaridade básica obrigatória na maioria dos países. Os países nórdicos têm notadamente um excelente desempenho no PISA. Utilizando o dataset "pisa.csv", realize um teste de hipótese que verifique se o desempenho ddos estudantes da Suécia (SWE), Finlândia (FIN) e Noruega (NOR) em matemática (PISAMATH) é equivalente (mesma média). NO seu teste você deve utilizar o SUBJECT "TOT" e objter a média de "Value" referente aos anos (TIME). Realize o teste com confiança de 95%.

In [18]:
# hipotese nula: mediaSweNota = MediaFinNota = MeidaNorNota
# hipotese alternativa: Médias não são iguais

df = pd.read_csv('pisa.csv')

df = df[(df['SUBJECT'] == 'TOT') & (df['INDICATOR'] == 'PISAMATH')]

swe = df[df['LOCATION'] == 'SWE']['Value'] 
fin = df[df['LOCATION'] == 'FIN']['Value'] 
nor = df[df['LOCATION'] == 'NOR']['Value'] 

stats.f_oneway(swe, fin, nor)

# Como pvalue < 0.05, rejeitamos a hipótese nula. As médias não são iguais.

F_onewayResult(statistic=np.float64(13.170154107168115), pvalue=np.float64(0.0004987485159035))

### Questão 7
O dataset 'salaries_final.csv' exibe os salários (Base Pay) de profissionais de uma universidade americana. Queremos saber se os professores associados (Associate Professor) de 3 diferentes Colleges dessa universidade receberam, em média, o mesmo salário no ano de 2019. Os Colleges são: 
- CAS: College of Arts and Science; 
- CALS: College of Agriculture and Life Sciences; 
- CESS: College of Educations and Social Services. 

Realize o teste de hipótese com confiança de 95%.

In [None]:
# hipotese nula: professor1 = professor2 = professor3
# hipotese alternativa: Médias não são iguais

df = pd.read_csv('salaries_final.csv')
dff = df[(df['Primary Job Title']=='Associate Professor') & (df['Year']==2019)]

cas = df[df['College'] == 'CAS']['Base Pay']
cals = df[df['College'] == 'CALS']['Base Pay']
cess = df[df['College'] == 'CESS']['Base Pay']

stats.f_oneway(cas, cals, cess)

# Como pValue > 0.05, falhamos em rejeitar a hipótese nula. Portanto, a média salarial dos professores associados dos 3 colleges é igual.

# TAMBEM PODE SER FEITO DA SEGUINTE MANEIRA QUE PRODUZ UM RESULTADO MAIS DETALHADO
# import statsmodels.stats.oneway as oneway
# oneway.anova_oneway([cas, cals, cess], use_var = 'equal')

F_onewayResult(statistic=np.float64(75.93157863338187), pvalue=np.float64(3.0981594328670574e-33))