## Imports

In [None]:
import pandas as pd
import numpy as np
from scipy import stats

## Preparation

In [None]:
data = pd.read_csv('../AIRPOL_data.csv', sep=';')

#Converter para float
data['Air_Pollution_Average[ug/m3]'] = pd.to_numeric(data['Air_Pollution_Average[ug/m3]'].str.replace(',', '.'), errors='coerce')

# Foi utilizado uma significância de 0.05
significancia = 0.05

data_pt = data[data['Country'] == 'Portugal']
data_alb = data[data['Country'] == 'Albania']

# Samples
sample_pt = data_pt.sample(n=50)
sample_alb = data_alb.sample(n=50)

levels_alb = sample_alb['Air_Pollution_Average[ug/m3]'].dropna()
levels_pt = sample_pt['Air_Pollution_Average[ug/m3]'].dropna()


## Resolution

In [None]:
# =============================================================================
# 2. Testar se o número médio dos níveis de poluição de Portugal é inferior ao número homólogo na Albânia
# =============================================================================

print("Teste 2")
print("=========================================================")

#Teste de normalidade
sw_pt = stats.shapiro(levels_pt)
sw_alb = stats.shapiro(levels_alb)

print("Teste de Shapiro-Wilk:")
print("Portugal p-value:", sw_pt.pvalue)
print("Albânia p-value:", sw_alb.pvalue)

print("_____________________________")
print("T-Test :")
# Teste t de indução de duas amostras
if sw_pt.pvalue > significancia and sw_alb.pvalue > significancia:
    t_stat, p_value = stats.ttest_ind(levels_pt, levels_alb, equal_var=True, nan_policy='omit', alternative='greater')
else:
    t_stat, p_value = stats.ttest_ind(levels_pt, levels_alb, equal_var=False, nan_policy='omit', alternative='greater')

print(f"Statistic: {t_stat}")
print(f"p-value: {p_value}")


if p_value < significancia:
    print("=========================================================")
    print("Rejeita-se a hipótese")
else:
    print("=========================================================")
    print("Não há evidências para rejeitar a hipótese")
