## Imports

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import itertools

## Preparation

In [None]:
data = pd.read_csv('../AIRPOL_data.csv', sep=';', decimal=',')

countries_pm25 = ['Portugal', 'Spain', 'France', 'Italy']
pm25_data = data[(data['Air_Pollutant'] == 'PM2.5') & (data['Country'].isin(countries_pm25))]

pm25_dict = pm25_data.groupby('Country')['Air_Pollution_Average[ug/m3]'].apply(list).to_dict()

## Resolution

In [None]:
# =============================================================================
# 4.3.1 Dados relativos aos niveis medio do poluente PM2.5 e respetiva tabela de correlação
# =============================================================================

# Calcular a correlação entre os países emparelhando os vetores
corr_matrix = pd.DataFrame(index=countries_pm25, columns=countries_pm25, dtype=float)

for c1, c2 in itertools.product(countries_pm25, repeat=2):
    arr1 = np.array(pm25_dict[c1])
    arr2 = np.array(pm25_dict[c2])
    n_common = min(len(arr1), len(arr2))
    if n_common > 1:
        r, _ = stats.pearsonr(arr1[:n_common], arr2[:n_common])
        corr_matrix.loc[c1, c2] = r
    else:
        corr_matrix.loc[c1, c2] = np.nan

print("Tabela de Correlação entre níveis de PM2.5:")
print(corr_matrix)