## Introdução
O projeto tem como objetivo o desenvolvimento de um modelo preditivo de riscos ESG (Environmental, Social, Governance) para investimentos sustentáveis. A seguir, detalho a arquitetura, as etapas do desenvolvimento e as decisões tomadas.

## Configuração Inicial do Ambiente de Desenvolvimento
1. **Criação do Ambiente Virtual**
   Para isolar as dependências, configurei o ambiente virtual com os seguintes comandos:
   ```bash
   cd /Users/tatiana.massoco/Desktop/TCC_ESG_Model
   python3 -m venv esg_model_env
   source esg_model_env/bin/activate
   pip install pandas numpy matplotlib seaborn scikit-learn flask
   ```

2. **Controle de Versão com Git**
   Configurei o controle de versão para rastrear alterações e evitar perda de dados:
   ```bash
   git init
   git remote add origin https://github.com/Tati-Prado/TCC_ESG_Model.git
   git add .
   git commit -m "Início do controle de versão do projeto TCC_ESG_Model"
   git push origin main
   ```

## Organização dos Dados
- **Script: `load_datasets.py`**
   - Verifica a existência dos arquivos usando `os`.
   - Carrega os arquivos com `pandas` e inspeciona a estrutura.
   - Identifica e trata erros, como arquivos ausentes.

Após análise, identifiquei `ESGData.csv` como o dataset principal, contendo métricas ESG por país de 1960 a 2020.

## Limpeza e Transformação dos Dados
- **Remoção de Colunas Irrelevantes**: Excluí colunas com valores nulos, como `Unnamed: 66`.
- **Transformação Logarítmica**: Usei `log1p` para normalizar distribuições e lidar com outliers.
- **Visualização das Distribuições**: Gerei histogramas antes e depois da transformação.

### Código para Transformação Logarítmica
```python
import numpy as np

anos_para_transformacao = ["1960", "1970", "1980", "1990", "2000", "2010", "2020"]
for ano in anos_para_transformacao:
    if ano in dados.columns:
        dados[f"{ano}_log"] = np.log1p(dados[ano])