# Trabalho Prático - Análise de Dados em Informática

## Análise e exploração de dados

1.Construa um gráfico que permita visualizar os níveis médios do poluente O3 nas diversas regiões de 
Portugal (NUTS Code). Indique a região com nível médio de O3 mais elevado. 


In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Carregar os dados
df = pd.read_csv("AIRPOL_data.csv", sep=';')

# Filtrar dados de Portugal e O3
df_portugal_o3 = df[(df['Country'] == 'Portugal') & (df['Air_Pollutant'] == 'O3')]

# Verificar dados
if df_portugal_o3.empty:
    print("Não existem dados de O3 para Portugal.")
    exit()

# Converter a coluna 'Air_Pollution_Average[ug/m3]' para float
df_portugal_o3['Air_Pollution_Average[ug/m3]'] = df_portugal_o3['Air_Pollution_Average[ug/m3]'].str.replace(',', '.').astype(float)
df_portugal_o3['NUTS_Code'] = df_portugal_o3['NUTS_Code'].astype(str)

# Calcular média por região (NUTS_Code)
o3_means = df_portugal_o3.groupby('NUTS_Code')['Air_Pollution_Average[ug/m3]'].mean()

# Gráfico de barras
plt.figure(figsize=(10, 6))
o3_means.plot(kind='bar', color='skyblue')
plt.title('Níveis Médios de O3 por Região em Portugal (2022)')
plt.xlabel('Região (NUTS Code)')
plt.ylabel('Nível Médio de O3')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Identificar região com maior nível médio
max_region = o3_means.idxmax()
max_value = o3_means.max()
print(f"Região com maior nível médio de O3: {max_region} ({max_value:.4f})")

2.Usando boxplots, construa um gráfico que permita comparar as distribuições dos níveis médios do
poluente PM2.5 em Portugal, Espanha, Franca e Itália.

In [None]:
import seaborn as sns

# Filtrar países e PM2.5
countries = ['Portugal', 'Spain', 'France', 'Italy']
df_pm25 = df[(df['Country'].isin(countries)) & (df['Air_Pollutant'] == 'PM2.5')]

# Criar o boxplot
plt.figure(figsize=(10, 6))  # Define o tamanho do gráfico
sns.boxplot(x='Country', y='Air_Pollution_Average[ug/m3]', data=df_pm25, palette='Set2')  # Gera o boxplot
plt.title('Distribuição dos Níveis Médios de PM2.5 por País (2022)')  # Título
plt.xlabel('País')  # Eixo X
plt.ylabel('Nível Médio de PM2.5')  # Eixo Y
plt.tight_layout()  # Ajusta o layout
plt.yticks(range(0, 101, 10))  # Define os ticks do eixo Y
plt.show()  # Exibe o gráfico

3.Usando  uma  representação  gráfica adequada,  compare  as  distribuições  do  número  de mortes prematuras (Value) em Portugal, Espanha, França e Itália.

In [None]:

# Filtrar dados dos países e mortes prematuras
df_mortes = df[df['Country'].isin(countries)]

# Converter a coluna 'Value' para float
df_mortes['Value'] = df_mortes['Value'].str.replace(',', '.').astype(float)

plt.figure(figsize=(10, 6))
sns.boxplot(x='Country', y='Value', data=df_mortes, palette='Set3')
plt.title('Distribuição do Número de Mortes Prematuras por País ')
plt.xlabel('País')
plt.ylabel('Número de Mortes Prematuras')
plt.yscale('log')
plt.tight_layout()
plt.show()


4.Construa uma tabela que indique, os valores da média, quartis, desvio padrão, assimetria e curtose, do 
número de mortes prematuras (Value) associado a STROKE para cada um dos países: Espanha,  França, 
Itália e Grécia (apresente os resultados com 4 casas decimais)

In [None]:
# Filtrar dados de mortes prematuras associadas a STROKE para os países especificados
df_stroke = df[(df['Country'].isin(countries)) & (df['Outcome'] == 'Stroke')]

# Converter a coluna 'Value' para float
df_stroke['Value'] = df_stroke['Value'].str.replace(',', '.').astype(float)

# Função para calcular as estatísticas
def calc_stats(group):
    return pd.Series({
        'Média': group.mean(),
        'Q1': group.quantile(0.25),
        'Mediana': group.median(),
        'Q3': group.quantile(0.75),
        'Desvio Padrão': group.std(),
        'Assimetria': skew(group),
        'Curtose': kurtosis(group)
    })

# Calcular estatísticas por país
stats_table = df_stroke.groupby('Country')['Value'].apply(calc_stats)

# Arredondar para 4 casas decimais
stats_table = stats_table.round(4)

# Exibir a tabela horizontalmente
print(stats_table.unstack().T)
