# Relatório de "Qualidade de Vida em Portugal"

Este notebook apresenta a análise de dados socioeconômicos obtidos da PORDATA (Base de Dados de Portugal Contemporâneo), focando em indicadores relacionados à saúde e condições econômicas.

## Introdução

Este relatório apresenta a análise de dados socioeconômicos obtidos da PORDATA (Base de Dados de Portugal Contemporâneo), focando em indicadores relacionados à saúde e condições econômicas. O projeto foi desenvolvido como parte do trabalho prático da disciplina de Elementos de Inteligência Artificial e Ciência de Dados da Universidade da Beira Interior.

A análise foi estruturada em seis fases principais: recolha de dados, limpeza e pré-processamento, exploração de dados, análise estatística, análise de relações entre variáveis e validação dos resultados. Cada fase empregou técnicas específicas implementadas através de scripts Python, permitindo uma abordagem sistemática e reproduzível para a extração de conhecimento a partir dos dados.

Os datasets analisados incluem:
- Ganho médio mensal
- Esperança de vida
- Despesas com saúde
- Percepção de saúde
- Taxa de mortalidade evitável

## 1. Fase de Recolha de Dados

### Técnicas Utilizadas

A fase de recolha de dados foi implementada através do script `recolha_dados.py`, que utiliza técnicas de manipulação de arquivos e leitura de dados estruturados. O script emprega a biblioteca `pandas` para carregar os datasets em formato CSV e a biblioteca `os` para navegação no sistema de arquivos.

Uma técnica importante implementada nesta fase foi a detecção automática de codificação de caracteres, permitindo lidar com diferentes formatos de codificação (UTF-16LE e Latin-1) frequentemente encontrados em datasets com caracteres especiais do português. Esta abordagem foi implementada através de um mecanismo de tratamento de exceções que tenta diferentes codificações quando a leitura inicial falha.

### Justificativa

A implementação de um processo automatizado de recolha de dados foi essencial para garantir a reprodutibilidade da análise e facilitar futuras atualizações com novos dados. A função `recolha_dados()` centraliza este processo, permitindo que outros scripts importem os dados de forma consistente.

A técnica de detecção automática de codificação foi necessária devido à presença de caracteres especiais nos nomes dos datasets e nos valores textuais, como "ESPERANÇADEVIDA" e "PERCEÇAODESAUDE". Sem este tratamento, os caracteres especiais poderiam ser interpretados incorretamente, comprometendo a integridade dos dados.

### Resultados

A função `recolha_dados()` conseguiu carregar com sucesso os cinco datasets da PORDATA, identificando automaticamente a codificação correta para cada arquivo. Os datasets foram armazenados em um dicionário Python, onde as chaves são os caminhos dos arquivos e os valores são os dataframes correspondentes.

Esta fase estabeleceu a base para todas as análises subsequentes, garantindo que os dados brutos estivessem disponíveis em um formato adequado para processamento.

## 2. Fase de Limpeza e Pré-processamento

### Técnicas Utilizadas

A limpeza e pré-processamento dos dados foram implementados no script `limpeza_dados.py`, que utiliza técnicas de transformação e filtragem de dados. A função principal `limpar_preprocessar()` aplica uma série de operações para preparar os dados para análise:

1. Padronização de nomes de colunas para facilitar o acesso
2. Conversão de tipos de dados (anos para inteiros, valores para numéricos)
3. Tratamento de valores ausentes (remoção de linhas sem valores e preenchimento de campos categóricos vazios)
4. Adição de metadados específicos para cada dataset (indicador e unidade de medida)

### Justificativa

A fase de limpeza e pré-processamento é crucial para garantir a qualidade e consistência dos dados antes da análise. A padronização dos nomes de colunas foi necessária para unificar a estrutura dos diferentes datasets, facilitando a integração posterior.

A conversão de tipos de dados foi implementada para garantir que operações matemáticas e estatísticas pudessem ser aplicadas corretamente. Por exemplo, a conversão da coluna "Ano" para inteiro permite ordenação cronológica adequada, enquanto a conversão da coluna "Valor" para numérico possibilita cálculos estatísticos.

O tratamento de valores ausentes foi essencial para evitar distorções nas análises estatísticas. A decisão de remover linhas sem valores na coluna principal ("Valor") foi tomada para preservar a integridade das análises, enquanto o preenchimento de campos categóricos vazios com strings vazias foi adotado para manter a consistência estrutural.

### Resultados

O processo de limpeza resultou em datasets estruturalmente consistentes e prontos para análise. Cada dataset foi salvo em formato CSV com o sufixo "_limpo", preservando os dados originais e criando versões processadas para as fases subsequentes.

A função `limpar_preprocessar()` gerou um relatório detalhado do processo, incluindo o número de linhas removidas por valores ausentes e as transformações aplicadas a cada dataset. Este relatório foi salvo no arquivo "resumo_limpeza.txt", permitindo a verificação da qualidade do processo.

## 3. Fase de Exploração de Dados

### Técnicas Utilizadas

A exploração inicial dos dados foi implementada no script `explorar_datasets.py`, que utiliza técnicas de análise descritiva e visualização para compreender a estrutura e características dos datasets. A função principal `analisar_estrutura()` aplica as seguintes técnicas:

1. Análise de dimensionalidade (número de linhas e colunas)
2. Exame das primeiras linhas para compreensão do conteúdo
3. Análise de tipos de dados e valores nulos
4. Estatísticas descritivas para colunas numéricas
5. Análise de valores únicos para colunas categóricas

O script utiliza a biblioteca `tabulate` para formatação tabular dos resultados, facilitando a leitura e interpretação das informações.

### Justificativa

A fase de exploração é fundamental para compreender a natureza dos dados antes de aplicar técnicas analíticas mais avançadas. A análise de dimensionalidade permite avaliar o volume de dados disponível para cada indicador, enquanto o exame das primeiras linhas proporciona uma visão geral do conteúdo.

A análise de tipos de dados e valores nulos é essencial para identificar potenciais problemas que poderiam afetar as análises subsequentes. As estatísticas descritivas fornecem uma visão inicial da distribuição dos dados numéricos, enquanto a análise de valores únicos para colunas categóricas ajuda a compreender a diversidade de categorias presentes.

### Resultados

A exploração de dados gerou um resumo abrangente para cada dataset, incluindo dimensões, estrutura de colunas e período temporal coberto. Este resumo foi consolidado no arquivo "resumo_datasets.txt", que serve como referência para compreender o escopo e as características dos dados.

A análise revelou que os datasets cobrem diferentes períodos temporais, com o dataset de esperança de vida apresentando a maior amplitude (1960-2024) e o dataset de percepção de saúde a menor (2005-2023). Também foi identificada a presença de valores nulos em algumas colunas, confirmando a necessidade das operações de limpeza realizadas na fase anterior.

## 4. Fase de Análise Estatística

### Técnicas Utilizadas

A análise estatística foi implementada no script `analise_estatistica.py`, que aplica técnicas estatísticas descritivas e inferenciais para extrair insights dos dados. As principais funções incluem:

1. `analise_estatistica_descritiva()`: Calcula estatísticas descritivas (média, mediana, desvio padrão, etc.) e realiza testes de normalidade (Shapiro-Wilk)
2. `criar_visualizacoes_basicas()`: Gera histogramas e gráficos de evolução temporal para cada indicador
3. `analisar_correlacoes()`: Calcula e visualiza a matriz de correlação entre os diferentes indicadores

O script utiliza as bibliotecas `matplotlib` e `seaborn` para visualizações e `scipy.stats` para testes estatísticos.

### Justificativa

A análise estatística é essencial para quantificar padrões e relações nos dados. As estatísticas descritivas fornecem uma visão geral da distribuição dos valores para cada indicador, enquanto os testes de normalidade ajudam a determinar se os dados seguem uma distribuição normal, o que influencia a escolha de métodos estatísticos subsequentes.

As visualizações básicas (histogramas e gráficos de evolução temporal) foram implementadas para facilitar a interpretação dos resultados estatísticos, permitindo identificar visualmente tendências e padrões que poderiam não ser evidentes apenas com números.

A análise de correlação foi aplicada para identificar relações lineares entre os diferentes indicadores, fornecendo uma base para investigações mais aprofundadas nas fases subsequentes.

### Resultados

A análise estatística revelou características importantes dos dados, como a distribuição não-normal da maioria dos indicadores (confirmada pelos testes de Shapiro-Wilk) e a presença de tendências temporais consistentes.

Os histogramas mostraram distribuições distintas para cada indicador, com o ganho médio mensal apresentando uma distribuição mais assimétrica (positivamente enviesada) e a esperança de vida uma distribuição mais próxima da normal.

A matriz de correlação identificou relações significativas entre os indicadores, destacando-se:
- Forte correlação positiva (0.983) entre ganho médio mensal e despesas de saúde
- Correlação positiva (0.869) entre ganho médio mensal e percepção de saúde
- Correlação negativa (-0.798) entre esperança de vida e taxa de mortalidade evitável

Estas correlações forneceram direções para a análise mais aprofundada na fase seguinte.

## 5. Fase de Análise de Relações

### Técnicas Utilizadas

A análise de relações entre variáveis foi implementada no script `analise_relacoes.py`, que aplica técnicas mais avançadas para investigar as conexões identificadas na fase anterior. As principais funções incluem:

1. `criar_dataframe_integrado()`: Integra dados de diferentes datasets para análise conjunta
2. `analisar_correlacoes()`: Realiza análise detalhada das correlações mais significativas
3. `analisar_regressoes()`: Aplica modelos de regressão linear para quantificar relações
4. `analisar_pca()`: Implementa Análise de Componentes Principais para redução de dimensionalidade
5. `analisar_clusters()`: Aplica algoritmos de clustering para identificar grupos de países com características similares
6. `analisar_tendencias_temporais()`: Examina padrões de evolução ao longo do tempo

### Justificativa

A análise de relações é fundamental para extrair conhecimento mais profundo dos dados, indo além das estatísticas descritivas. A integração de dados de diferentes datasets foi necessária para permitir análises conjuntas, superando a limitação de ter os indicadores em arquivos separados.

A análise de regressão foi aplicada para quantificar as relações identificadas na matriz de correlação, permitindo estimar o impacto de um indicador sobre outro. Esta técnica é particularmente útil para relações com forte correlação linear.

A Análise de Componentes Principais (PCA) foi implementada para lidar com a multicolinearidade entre variáveis e identificar dimensões latentes que explicam a variabilidade dos dados. Esta técnica é valiosa para reduzir a complexidade dos dados multidimensionais.

A análise de clusters foi aplicada para identificar grupos de países com perfis socioeconômicos similares, permitindo uma visão mais estruturada da diversidade entre os países europeus.

### Resultados

A análise de relações produziu insights significativos sobre as conexões entre os indicadores socioeconômicos:

A regressão linear entre esperança de vida e taxa de mortalidade evitável resultou na equação: Taxa de mortalidade = -23.32 × Esperança de vida + 695.50, com R² = 0.637, indicando que 63.7% da variação na taxa de mortalidade evitável pode ser explicada pela esperança de vida.

A Análise de Componentes Principais identificou que dois componentes principais explicam aproximadamente 85% da variância total dos dados, sugerindo que a dimensionalidade efetiva dos dados é menor que o número de indicadores originais.

A análise de clusters identificou três grupos distintos de países europeus com base nos indicadores analisados:
- Cluster 1: Países nórdicos e Europa Ocidental, caracterizados por alto ganho médio, alta esperança de vida e baixa mortalidade evitável
- Cluster 2: Países do Sul e Leste Europeu, incluindo Portugal, com valores intermediários
- Cluster 3: Países do Leste Europeu com indicadores socioeconômicos mais baixos

A análise de tendências temporais revelou melhorias consistentes em todos os indicadores para Portugal ao longo do período analisado, com taxas de crescimento anual médias de:
- Ganho médio mensal: +2.78%
- Esperança de vida: +0.22%
- Despesas de saúde: +3.44%
- Percepção de saúde: +0.09%
- Taxa de mortalidade evitável: -0.57%

## 6. Fase de Validação dos Resultados

### Técnicas Utilizadas

A validação dos resultados foi implementada no script `validar_resultados.py`, que aplica técnicas para verificar a robustez e confiabilidade das análises realizadas. As principais funções incluem:

1. `verificar_arquivos_resultados()`: Verifica a existência de todos os arquivos de resultados esperados
2. `validar_consistencia_dados()`: Avalia a consistência dos dados limpos
3. `verificar_robustez_correlacoes()`: Testa a sensibilidade das correlações à remoção de observações
4. `validar_analises_regressao()`: Verifica os pressupostos dos modelos de regressão
5. `verificar_tendencias_temporais()`: Avalia a consistência das tendências identificadas

### Justificativa

A validação é uma fase crítica para garantir a confiabilidade dos resultados e identificar potenciais limitações. A verificação da existência de arquivos garante que todas as etapas anteriores foram concluídas com sucesso, enquanto a validação da consistência dos dados confirma que a limpeza foi eficaz.

A verificação da robustez das correlações é essencial para determinar se as relações identificadas são estáveis ou se são influenciadas por outliers ou pequenos conjuntos de observações. Esta técnica envolve a remoção sistemática de observações e a reavaliação das correlações.

A validação das análises de regressão verifica se os pressupostos do modelo linear (linearidade, normalidade dos resíduos, homocedasticidade) são atendidos, o que é fundamental para a validade das inferências baseadas nesses modelos.

### Resultados

A validação dos resultados identificou algumas limitações importantes nas análises:

A verificação de robustez das correlações revelou que algumas correlações são sensíveis à remoção de observações específicas, particularmente a correlação entre percepção de saúde e taxa de mortalidade evitável, que variou significativamente quando certos países foram removidos da análise.

A validação das análises de regressão identificou violações moderadas do pressuposto de normalidade dos resíduos em alguns modelos, sugerindo cautela na interpretação dos p-valores e intervalos de confiança.

A verificação das tendências temporais confirmou a consistência das tendências identificadas para Portugal, com todas as tendências mantendo sua direção e significância estatística mesmo quando subconjuntos dos dados foram analisados.

Estas limitações foram documentadas no relatório de validação, fornecendo uma visão transparente da confiabilidade dos resultados e orientando interpretações mais cautelosas quando necessário.

## Conclusões

A análise dos dados socioeconômicos da PORDATA revelou padrões significativos e relações importantes entre os indicadores de saúde e econômicos:

1. Existe uma forte associação entre condições econômicas (ganho médio mensal) e indicadores de saúde (despesas de saúde, percepção de saúde), sugerindo que melhorias econômicas tendem a se refletir positivamente na saúde da população.

2. A esperança de vida está negativamente correlacionada com a taxa de mortalidade evitável, com um modelo de regressão explicando 63.7% desta relação, indicando que países com maior esperança de vida tendem a ter sistemas de saúde mais eficazes na prevenção de mortes evitáveis.

3. Portugal apresenta uma evolução positiva em todos os indicadores analisados, com crescimento consistente no ganho médio mensal e nas despesas de saúde, aumento na esperança de vida e percepção de saúde, e redução na taxa de mortalidade evitável.

4. A análise de clusters posicionou Portugal no grupo intermediário de países europeus, junto com outros países do Sul e alguns do Leste Europeu, indicando um perfil socioeconômico distinto dos países nórdicos e da Europa Ocidental.

Estas conclusões são respaldadas por múltiplas técnicas analíticas e foram submetidas a validação para verificar sua robustez. As limitações identificadas na fase de validação foram consideradas na interpretação dos resultados, garantindo conclusões equilibradas e fundamentadas nos dados disponíveis.