# **MÓDULO 19**
# Exercício: Estatística Aplicada

**Efetividade de Duas Estratégias de Ensino**

Imagine que uma escola esteja avaliando a eficácia de duas estratégias de ensino de matemática para alunos do ensino médio. Eles querem determinar se há uma diferença significativa no desempenho médio dos alunos entre as duas estratégias.

# **Hipóteses:**

* Hipótese nula (H0): A média das notas dos alunos na estratégia A é igual à média das notas dos alunos na estratégia B.
* Hipótese alternativa (H1): A média das notas na Estratégia B é maior do que a média das notas na Estratégia A.

# **Dados:**

* Amostra da Estratégia A: Notas de 50 alunos que receberam a Estratégia A.
* Amostra da Estratégia B: Notas de 50 alunos que receberam a Estratégia B.

Usaremos um teste Z para comparar as médias das notas entre as duas amostras.

Se o p-valor do teste Z for menor que um nível de significância pré-determinado (por exemplo, α = 0.05), rejeitamos a hipótese nula e concluímos que há uma diferença significativa nas médias das notas entre as duas estratégias de ensino.

In [32]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from scipy import stats


Os dados são criados a seguir:

In [33]:
# Definindo médias e desvios padrão para as notas nas duas estratégias
media_estrategia_A = 70
desvio_padrao_estrategia_A = 10

media_estrategia_B = 75
desvio_padrao_estrategia_B = 12

# Gerando as amostras de notas para cada estratégia de ensino da nossa base
np.random.seed(0)  # Para garantir a reprodutibilidade dos resultados
amostra_estrategia_A = np.random.normal(loc=media_estrategia_A, scale=desvio_padrao_estrategia_A, size=50)
amostra_estrategia_B = np.random.normal(loc=media_estrategia_B, scale=desvio_padrao_estrategia_B, size=50)

print("Notas da Estratégia A:", amostra_estrategia_A[:5])
print("Notas da Estratégia B:", amostra_estrategia_B[:5])

Notas da Estratégia A: [87.64052346 74.00157208 79.78737984 92.40893199 88.6755799 ]
Notas da Estratégia B: [64.25440127 79.64282997 68.87033835 60.83241379 74.66181326]


# 1) De acordo com as informações analisadas o nosso teste é unilateral á direita, esquerda ou bicaudal? Justifique.




Unicaudal à direita, já que buscamos determinar se a amostra B é maior que a amostra A.

# 2) Calcule as médias para as duas amostragens e as variâncias. Quais insights você pode retirar comparando os dados?

In [34]:
med_amostra_A = np.mean(amostra_estrategia_A)
med_amostra_B = np.mean(amostra_estrategia_B)
var_amostra_A = np.var(amostra_estrategia_A)
var_amostra_B = np.var(amostra_estrategia_B)

stat = pd.DataFrame({'Estratégia': ['A', 'B'],
                     'Média Populacional': [media_estrategia_A, media_estrategia_B],
                    'Média Amostral': [med_amostra_A, med_amostra_B],
                       'Variância Populacional':[desvio_padrao_estrategia_A**2, desvio_padrao_estrategia_B**2],
                     'Variância Amostral': [var_amostra_A, var_amostra_B]})
stat

Unnamed: 0,Estratégia,Média Populacional,Média Amostral,Variância Populacional,Variância Amostral
0,A,70,71.405593,100,126.680184
1,B,75,74.748681,144,108.26062


Conforme a tabela acima, vemos diferenças entre as médias e variâncias amostral e populacional. Todavia, não é possível inferir se as diferenças são realmente significativas antes de um teste de hipótese.

# 3) Imprima os resultados da estatística do teste Z, p value e indique se rejeitaremos ou não a hipótese nula. Justifique sua resposta.

In [35]:
n = len(amostra_estrategia_A)

z= (med_amostra_B - med_amostra_A)/(((var_amostra_B +var_amostra_A)/n)**0.5)

p_value = 2*(1-stats.norm.cdf(abs(z)))

print('Valor do teste Z:', z)
print('p_value', p_value)

sig = 0.05
if p_value < sig:
    print('Rejeitamos a hipótese nula e há diferença estatística significativa entre as amostras')
else:
    print('Aceitamos a hipótese nula e não há diferença estatística significativa entre as amostras')

Valor do teste Z: 1.542245935902539
p_value 0.12301384127809167
Aceitamos a hipótese nula e não há diferença estatística significativa entre as amostras


# 4) Para finalizar monte o gráfico da distribuição da estatística do nosso teste Z e explique o que pode ser observado através dele.

In [36]:
x = np.linspace(-4,4,1000)
y = stats.norm.pdf(x,0,1)
y_z = [0, stats.norm.pdf(z, 0,1)]
reg_crit = stats.norm.ppf(0.975)

x_r = x[x >= reg_crit]
y_r = y[x >= reg_crit]


fig = go.Figure()

fig.add_traces(go.Scatter(x=x,
                          y=y,
                          name = 'Distribuição Normal Padrão',
                          marker_color = 'purple'))

fig.add_traces(go.Scatter(x=[z, z],
                          y = y_z,
                          name = 'Valor do teste estatístico',
                          marker_color = 'orchid'))



fig.add_traces(go.Scatter(x=x_r,
                          y= y_r,
                          name = 'Área crítica',
                          fill = 'tozeroy',
                          marker_color = 'royalblue',
                          mode= None
                          ))

fig.update_layout(title_text = 'Distribuição estatística')
fig.show()


Da distribuição acima, vemos que o resultado da estatística Z calculada está fora da área crítica de significância. Nesse sentido, aceitamos a hipótese nula de que não há diferença estatística significativa entre as estratégias de ensino A e B.