# Relatório de Análise de Dados Socioeconômicos da PORDATA
Este notebook apresenta a análise de dados socioeconômicos obtidos da PORDATA, focando em indicadores relacionados à saúde e condições econômicas.
Projeto realizado na disciplina de Elementos de Inteligência Artificial e Ciência de Dados (UBI).

## 1. Fase de Recolha de Dados

In [None]:
import pandas as pd
import os

def recolha_dados(pasta_datasets):
    datasets = {}
    for arquivo in os.listdir(pasta_datasets):
        caminho = os.path.join(pasta_datasets, arquivo)
        for encoding in ['utf-8', 'latin1', 'utf-16']:
            try:
                df = pd.read_csv(caminho, encoding=encoding)
                datasets[arquivo] = df
                break
            except Exception:
                continue
    return datasets

# Exemplo de uso:
# dados = recolha_dados("caminho/para/datasets")


## 2. Fase de Limpeza e Pré-processamento

In [None]:
def limpar_preprocessar(datasets):
    dados_limpos = {}
    for nome, df in datasets.items():
        df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]
        if 'ano' in df.columns:
            df['ano'] = pd.to_numeric(df['ano'], errors='coerce').astype('Int64')
        if 'valor' in df.columns:
            df['valor'] = pd.to_numeric(df['valor'], errors='coerce')
        df = df.dropna(subset=['valor'])
        dados_limpos[nome] = df
    return dados_limpos


## 3. Fase de Exploração de Dados

In [None]:
from tabulate import tabulate

def explorar_dados(df):
    print("Dimensões:", df.shape)
    print("Colunas:", df.columns)
    print("Tipos de dados:", df.dtypes)
    print("Valores nulos:", df.isnull().sum())
    print("Estatísticas descritivas:
", tabulate(df.describe(), headers='keys'))

## 4. Fase de Análise Estatística

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro

def analise_estatistica(df, nome_indicador):
    print(df[nome_indicador].describe())
    stat, p = shapiro(df[nome_indicador].dropna())
    print(f"Teste de Shapiro-Wilk para normalidade: p = {p:.3f}")
    sns.histplot(df[nome_indicador], kde=True)
    plt.title(f"Distribuição de {nome_indicador}")
    plt.show()


## 5. Fase de Análise de Relações

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

def regressao_linear(df, x_col, y_col):
    modelo = LinearRegression()
    X = df[[x_col]].dropna()
    y = df[y_col].dropna()
    modelo.fit(X, y)
    print(f"Coeficiente: {modelo.coef_[0]:.2f}, Intercepto: {modelo.intercept_:.2f}")
    return modelo


## 6. Fase de Validação dos Resultados

In [None]:
def validar_modelo(modelo, X, y):
    from sklearn.metrics import mean_squared_error, r2_score
    y_pred = modelo.predict(X)
    print("R²:", r2_score(y, y_pred))
    print("MSE:", mean_squared_error(y, y_pred))


## Conclusões
A análise identificou fortes correlações entre condições econômicas e saúde, bem como padrões regionais distintos entre os países europeus.

## Recomendações
- Monitorizar tendências temporais.
- Expandir análise com novos indicadores.
- Comparar Portugal com países do mesmo cluster.