### TCC 6 – individual - Tatiana Prado Santos Massoco

# Desenvolvimento de Modelo Preditivo de Risco ESG para Investimentos Sustentáveis

Fonte de daddos: https://www.kaggle.com/datasets/tunguz/environment-social-and-governance-data/data

# Introdução

## Definição do Tema
O projeto tem como objetivo o desenvolvimento de um **modelo preditivo de riscos ESG (Environmental, Social, Governance) para investimentos sustentáveis**. Este modelo permitirá identificar e analisar riscos associados a fatores ESG, possibilitando decisões mais informadas e alinhadas com critérios de sustentabilidade.

- **Por que escolhi este tema?**

O tema é relevante para atender à crescente demanda por análises baseadas em ESG, especialmente no contexto de finanças sustentáveis e responsabilidade corporativa.

## Como os Indicadores ESG Influenciam Decisões de Investimento?
Os investidores utilizam métricas ESG para alinhar suas decisões com valores sustentáveis e mitigar riscos associados a práticas inadequadas de governança, impacto ambiental ou vulnerabilidades sociais. Abaixo estão os principais impactos dos indicadores ESG nas decisões de investimento:

- **Mitigação de Riscos:** indicadores como emissões de CO₂ ou nitrous oxide revelam vulnerabilidades ambientais que podem acarretar sanções regulatórias, desastres naturais ou perda de reputação.


- **Identificação de Oportunidades:** métricas de inovação, como pedidos de patentes, indicam competitividade e adaptação tecnológica, que frequentemente estão ligadas a oportunidades de crescimento e retorno no longo prazo.


- **Atração de Capital:** empresas e países com altos índices de igualdade de gênero, inclusão social ou investimento em educação frequentemente atraem capital de investidores que priorizam governança moderna e responsabilidade social.


- **Eficácia Operacional:** indicadores relacionados à eficiência energética ou acesso à eletricidade sinalizam maior controle de custos e maior produtividade, aumentando a atratividade de investimentos.


- **Resiliência a Crises:** governos ou empresas com baixa desigualdade (Gini Index) e políticas de redistribuição de renda são mais resilientes a crises econômicas e sociais, criando um ambiente de investimento mais previsível.


## Aplicação da Base de Dados escolhida para treinamento do modelo:

Os países na base de dados serão analisados de forma semelhante à forma como empresas seriam analisadas para investimentos em um contexto de avaliação ESG (Ambiental, Social e Governança). Essa abordagem é válida, pois muitos indicadores utilizados (como emissões de carbono, igualdade social e governança) são aplicáveis tanto a empresas quanto a países, especialmente quando o objetivo é avaliar riscos e oportunidades de investimento sustentável.


**Razões para usar essa abordagem:**

- Indicadores ESG como Avaliadores de Risco: assim como em empresas, indicadores ESG para países ajudam a identificar riscos relacionados a políticas ambientais, estabilidade social e práticas de governança. Por exemplo: 
    - Um país com altas emissões de carbono pode enfrentar regulamentações mais severas ou custos mais elevados para transição energética.
    - Problemas sociais, como desemprego elevado ou baixa escolaridade, podem impactar a produtividade e a estabilidade econômica.
    - Governança fraca, como corrupção ou desigualdade extrema, aumenta o risco de instabilidade política e econômica.
    
    
**Impacto no Investimento:**

- Investidores utilizam ESG para avaliar como fatores não financeiros podem afetar retornos no longo prazo. Isso é válido ao considerar países, especialmente em decisões relacionadas a:
    - Investimento em títulos soberanos.
    - Alocação de recursos em projetos de infraestrutura ou desenvolvimento.
    - Escolha de regiões para operar negócios.
    

**Metodologia Similar:**

- Tanto para empresas quanto para países, a análise ESG envolve:
    - Identificar fatores de risco e oportunidade em cada pilar (E, S, G).
    - Estabelecer métricas relevantes e comparáveis.
    - Justificar decisões com base em dados robustos

## Descrição do Banco de Dados

O banco de dados contém informações relacionadas a métricas de ESG (Ambiental, Social e Governança) organizadas em formato de séries temporais para diversos países. Aqui estão os principais pontos sobre a estrutura do arquivo:

**Estrutura do banco de dados**

Colunas principais:
- **Country Name**: Nome do país.
- **Country Code**: Código ISO de três letras do país.
- **Indicator Name**: Nome do indicador.
- **Indicator Code**: Código do indicador.
- **Anos**: os dados estão organizados por ano, começando em 1960, com algumas colunas extras, como "2050" (provavelmente para projeções futuras) e uma coluna não nomeada (**Unnamed: 66**), que parece conter apenas valores nulos.

**Exemplos de Indicadores:**

A coluna **Indicator Name** contém 33 indicadores únicos, como por exemplo:

- **Ambiental**:
  - "Access to clean fuels and technologies for cooking (% of population)": Acesso a combustíveis limpos e tecnologias para cozinhar.
  - "Adjusted savings: net forest depletion (% of GNI)": Depleção líquida de florestas como percentual do GNI.
- **Social**:
  - "Access to electricity (% of population)": Percentual da população com acesso à eletricidade.
- **Governança**:
  - Indicadores relacionados ao impacto de políticas econômicas ou sociais podem ser incluídos aqui, mas precisam ser verificados.

Valores: Cada célula para um ano específico contém o valor do indicador para aquele país e ano (quando disponível).

#### O que representam os números nas métricas do indicadores?

- **Valores Absolutos ou Percentuais**: dependendo do indicador, esses números podem ser:
  - Um valor absoluto (ex.: toneladas de CO₂ per capita, kWh por pessoa).
  - Um percentual (ex.: % de eletricidade proveniente de carvão, % de área florestal).
  - Uma taxa ou proporção (ex.: razão entre homens e mulheres no mercado de trabalho).

- **Indicador Específico**: cada número reflete a medição ou estimativa do indicador para aquele ano e país. Por exemplo:
  - Se o indicador é "CO2 emissions (metric tons per capita)", o valor de 1960 para "Arab World" reflete a quantidade média de CO₂ emitida per capita naquela região em 1960.

#### Como esses números são calculados?

1. **Fontes de Dados**: os valores vêm de medições ou estimativas realizadas por órgãos governamentais, organizações internacionais (como o Banco Mundial ou a ONU), ou agências de pesquisa.
   - **Exemplo**: Emissões de CO₂ são estimadas a partir de dados de consumo de combustíveis fósseis, produção industrial e uso de energia.

2. **Metodologias Específicas por Indicador**:

   - **Indicadores Ambientais**:
     - CO2 emissions: calculado usando o consumo de combustíveis fósseis e fatores de emissão padrão por tipo de combustível.
     - Methane/Nitrous oxide emissions: baseado em atividades agrícolas, industriais e manejo de resíduos.
     - Forest area (%): medido por imagens de satélite e estimativas de perda/florestamento.

   - **Indicadores Sociais**:
     - Life expectancy: calculado usando taxas de mortalidade específicas por idade.
     - Literacy rate: percentual de adultos alfabetizados baseado em censos nacionais.

   - **Indicadores de Governança**:
     - Gini index: calculado a partir de distribuições de renda coletadas em pesquisas nacionais.
     - Patent applications: número total de patentes registradas em agências locais.

3. **Ajustes e Normalizações**:
   - Dados podem ser ajustados para eliminar discrepâncias entre países ou tornar os indicadores comparáveis (ex.: converter energia para "equivalentes de petróleo").

4. **Atualizações e Projeções**:
   - Para anos futuros (como "2050"), os valores podem ser projeções baseadas em modelos estatísticos e tendências históricas.

#### Como verificar a origem e o cálculo exato?

- **Documentação**: Cada indicador geralmente tem uma documentação associada que descreve detalhadamente a fonte dos dados e as metodologias de cálculo. No Kaggle, por exemplo, essa informação está disponível no arquivo de descrição do dataset ou no link da fonte original: https://datacatalog.worldbank.org/search/dataset/0037651


- **Organizações Referentes**:
  - Indicadores ambientais: IPCC, Banco Mundial.
  - Indicadores sociais: UNESCO, OMS.
  - Indicadores de governança: Banco Mundial, relatórios de desenvolvimento humano. 


---

# Planejamento do Projeto - Parte 1

## Arquitetura do Projeto

### Estrutura do Projeto

- `data/`: Armazena os datasets do projeto.
- `src/`: Contém os scripts Python para análise e processamento de dados.
- `notebooks/` (talvez apagarei): Cadernos Jupyter para análises exploratórias.
- `esg_model_env/`: Ambiente virtual para gerenciar dependências.
- `README.md`: Documentação do projeto.
- `requirements.txt`: Lista de dependências do projeto.

### Ferramentas e Tecnologias

- **Análise Exploratória:** Jupyter Notebook com Anaconda.
- **Python**: Para análise de dados, pré-processamento e construção do modelo.
- **Bibliotecas utilizadas**: pandas, numpy, seaborn, Scikit-learn, matplotlib, Flask.
- **Deploy:** Docker para containerização.
- **Git**: Controle de versão e rastreamento de alterações no projeto.
- **GitHub**: Para hospedagem do repositório remoto e colaboração.
- **Ambiente virtual (venv)**: Gerenciamento de dependências do projeto.
- **MLOps:** MLflow para controle de versões e Prometheus/Grafana para métricas.

### Componentes Chave:

**ETL Pipeline:**

Conjunto de processos utilizados para extrair, transformar e carregar dados de uma ou várias fontes em um destino:

- Extração e carregamento dos dados do Kaggle (dados ESG).
- Transformações aplicadas durante o pré-processamento, incluindo cálculos do ESG Risk Score.

**Modelo de Machine Learning:**

- Algoritmos de classificação e/ou regressão para prever o nível de risco ESG.

**Serviço em Produção:**

- API desenvolvida com Flask para facilitar previsões de risco ESG em tempo real.

**Monitoramento e Manutenção:**
- Prometheus e Grafana para monitoramento em produção.
- CI/CD com GitHub Actions para automação do deploy.


## Pipeline do Projeto

### Coleta e Pré-processamento dos Dados:

- **Entrada:** Conjunto de dados ESG do Kaggle.
- **Transformações:**

  - Limpeza de dados.
  - Cálculo de métricas como ESG Risk Score com base em pesos definidos.
  

### Treinamento e Validação do Modelo:

- Divisão do conjunto de dados em treino e teste.
- Seleção de algoritmos de classificação e regressão.
- Validação cruzada para garantir robustez.

### Automação com CI/CD:

- GitHub Actions configurado para automatizar testes e deploy.
- Docker utilizado para empacotamento e execução em produção.


### Monitoramento em Produção:

- Prometheus para coleta de métricas.
- Grafana para visualização de dashboards e alertas.
- Retreinamento baseado em mudanças nos dados ou desempenho do modelo.

### Manutenção e Atualizações:

- Logs detalhados de todas as versões do modelo.
- Retreinamento automático integrado no pipeline. 

## Decisões Tomadas e Justificativas

### Por que usei Python?
Python é uma linguagem versátil com um ecossistema rico para análise de dados e machine learning, além de sua ampla aceitação na comunidade de ciência de dados.

### Por que criei um repositório no Git?
A criação do repositório Git garante que todas as alterações no projeto sejam rastreadas, promovendo um fluxo de trabalho organizado e permitindo colaborações futuras.

### Por que implementei a análise de outliers?
Identificar valores extremos é essencial para garantir que os dados não prejudiquem a qualidade do modelo preditivo. Isso ajuda a decidir quais ajustes são necessários, como normalizações ou transformações.

### Por que adotei a transformação logarítmica?
A transformação logarítmica foi aplicada para normalizar as distribuições de dados com alta variância, o que facilita a análise e melhora a performance dos modelos preditivos.

## Códigos e Alterações Realizadas
### Código Inicial
```python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Caminho para o dataset principal
caminho_dataset = "/Users/tatiana.massoco/Desktop/TCC_ESG_Model/data/ESGData.csv"

# Carregar o dataset
dados = pd.read_csv(caminho_dataset)

# Informações do dataset
print(dados.info())
```

### Código Alterado com Análise de Outliers
```python
# Identificar outliers para anos específicos
anos_para_analisar = ["1960", "1970", "1980", "1990", "2000", "2010", "2020"]
for ano in anos_para_analisar:
    if ano in dados.columns:
        outliers = dados[[ano, "Country Name", "Country Code"]].sort_values(by=ano, ascending=False).head(10)
        print(f"Valores mais altos para o ano {ano}:")
        print(outliers)
```

### Código Alterado com Transformação Logarítmica
```python
import numpy as np

# Aplicar transformação logarítmica
anos_para_transformacao = ["1960", "1970", "1980", "1990", "2000", "2010", "2020"]
for ano in anos_para_transformacao:
    if ano in dados.columns:
        dados[f"{ano}_log"] = np.log1p(dados[ano])
        print(f"Transformação logarítmica aplicada para o ano {ano}")
```

## Próximos Passos
1. Visualizar as distribuições transformadas para comparar com as originais.
2. Selecionar os indicadores mais relevantes para o modelo preditivo.
3. Normalizar as colunas e lidar com valores ausentes de forma sistemática.
4. Iniciar o pré-processamento final dos dados para construção do modelo.

---

Planejamento do Projeto - Parte 2
=================================

**Estrutura do Projeto Atual**
- Diretório principal: `TCC_ESG_Model`
  - `data/`: Contém os datasets utilizados no projeto.
  - `esg_model_env/`: Ambiente virtual configurado.
  - `Imagens_data_cleaning/`: Imagens geradas durante a análise de dados.
  - `notebooks/`: Pasta destinada aos notebooks Jupyter.
  - `README.md`: Arquivo de descrição do projeto.
  - `requirements.txt`: Lista de dependências do projeto.
  - `src/`: Scripts Python organizados para cada etapa do pipeline.
  

**Decisões Tomadas e Justificativas**

1. **Estrutura do Projeto**

   - A organização foi definida para manter um fluxo de trabalho claro e reprodutível.
   - Scripts separados em `src/` permitem modularidade e reutilização do código.
   - Notebooks para prototipagem rápida (pasta `notebooks/`) facilitam a análise interativa.
   

2. **Uso do Controle de Versão com Git**

   - Justificativa: Acompanhar mudanças no código, garantir colaboração eficiente e versionar todas as etapas.
   - Comandos principais utilizados:
     - `git add`: Para adicionar arquivos ou alterações ao controle de versão.
     - `git commit`: Para salvar as alterações localmente com mensagens claras.
     - `git push`: Para sincronizar o repositório local com o remoto no GitHub.
     

3. **Uso do Jupyter Notebook**

   - Decisão de utilizar notebooks para as etapas de:
     - Análise Exploratória de Dados (EDA).
     - Prototipagem de Modelos.
   - Justificativa: Maior facilidade na visualização de dados e na documentação interativa.

4. **Automação com Scripts**

   - Scripts criados para limpeza de dados (`src/data_cleaning.py`) e, futuramente, para modelagem e deploy.
   - Justificativa: Garantir que processos repetitivos sejam automatizados.

**Passos Executados**

1. **Transformação Logarítmica e Visualização**

   - Implementado no script `src/data_cleaning.py`:
     - Transformação logarítmica aplicada aos anos específicos (1960, 1970, ... 2020).
     - Gráficos gerados para analisar as distribuições transformadas.

2. **Preparação para Análise Exploratória**

   - Decisão de utilizar o Jupyter Notebook para criar o arquivo `notebooks/EDA.ipynb`.
   - Incluir análise de correlação, tendências, e gráficos interativos.

**Próximos Passos**

1. **Finalizar Limpeza de Dados**

   - Validar distribuições transformadas.
   - Salvar dataset limpo e pronto para análise em `data/ESGData_cleaned.csv`.

2. **Iniciar Análise Exploratória**

   - Criar o arquivo `EDA.ipynb` e realizar as análises sugeridas:
     - Estatísticas descritivas.
     - Identificação de padrões e correlações.

3. **Controle de Versão para Notebooks**

   - Configurar commits frequentes usando os comandos Git diretamente no terminal:
     - `git add Nome_do_Notebook.ipynb`
     - `git commit -m "Descrição"`
     - `git push origin main`.

4. **Instalação do nbgitpuller (Opcional)**

   - Extensão para facilitar o controle de versão dentro do Jupyter Notebook.
   - Comando para instalação:
     ```
     pip install nbgitpuller
     ```
   - Justificativa: Automatizar sincronização de notebooks para colaboração.

**Recomendações**

- Manter a documentação clara no README.md para facilitar o entendimento do projeto.
- Sempre validar as alterações antes de realizar commits.
- Utilizar notebooks para análises iterativas e scripts para automação.

**Observações**
Este documento será atualizado conforme o progresso do projeto.

---

# Planejamento do Projeto - Parte 3

## Análise das Distribuições Logarítmicas

### Resultado da Transformação Logarítmica
- A transformação logarítmica foi aplicada aos anos selecionados (1960, 1970, 1980, 1990, 2000, 2010, 2020).
- Gráficos de distribuição logarítmica foram gerados para observar a nova distribuição dos dados após a transformação.
- Os resultados mostraram que:
  - Os valores extremos foram suavizados.
  - A transformação ajudou a reduzir a assimetria dos dados em alguns casos.

### Por Que Tomei Esta Decisão?
1. **Transformação logarítmica:** Reduz a influência de outliers e normaliza os dados, o que melhora a performance de muitos modelos de machine learning.
2. **Foco em anos relevantes:** Analisar o impacto da transformação nos dados históricos e recentes ajuda a decidir quais períodos utilizar na modelagem.

---

## Revisão de Dados Ausentes

### Próxima Etapa
Agora, antes de prosseguir com a análise exploratória e modelagem, é necessário tratar os dados ausentes, pois:
- Valores ausentes podem causar erros na modelagem.
- Decisões sobre exclusão ou imputação afetam diretamente a qualidade do modelo.

### Decisões Tomadas

1. **Explorar os dados ausentes:**
   - Verificar a proporção de valores ausentes por coluna e linha.
   - Identificar padrões nos dados ausentes.
   
2. **Definir estratégia de tratamento:**
   - Remoção de colunas com muitos valores ausentes (ex.: mais de 50% ausentes).
   - Imputação de valores usando mediana, interpolação ou preenchimento com valor padrão.
   

### Por Que Tomei Esta Decisão?

1. **Qualidade dos dados:** Garantir que o conjunto final esteja limpo e utilizável.
2. **Relevância:** Permitir que anos recentes (2010-2020) sejam priorizados na modelagem.
3. **Eficiência do pipeline:** A limpeza agora facilita todas as etapas subsequentes.

---

## Ações a Serem Tomadas

### Atualizar o Script `data_cleaning.py`
- Incluir análise e tratamento de valores ausentes no pipeline.

### Próximos Passos
1. Adicionar o código para análise de dados ausentes.
2. Decidir estratégias para tratamento (remoção, imputação).
3. Gerar o dataset atualizado após o tratamento.
4. Verificar os resultados do tratamento e validar as alterações.

### Controle de Versão
- Após cada modificação no `data_cleaning.py`, realizar commit e push para o repositório GitHub:
```bash
git add src/data_cleaning.py
git commit -m "Adiciona tratamento de dados ausentes ao pipeline de limpeza"
git push origin main
```

---

## Planejamento do Projeto - Resumo Atualizado
1. **Limpeza e Transformação Inicial (Concluído):**
   - Remoção de colunas irrelevantes.
   - Aplicação de transformação logarítmica.
2. **Tratamento de Dados Ausentes (Em Progresso):**
   - Analisar e tratar valores ausentes para garantir um dataset limpo.
3. **Análise Exploratória e Modelagem (Futuro):**
   - Utilizar os dados transformados e tratados para análise e construção de modelos.

---


# Planejamento do Projeto - Parte 4

## **Resumo das Atividades Realizadas**

### **Análise de Valores Ausentes**

1. **Visualização com Mapa de Calor**:

![Figure_MapaCalor_ValorAusente.png](attachment:Figure_MapaCalor_ValorAusente.png)

   - Foi gerado um mapa de calor para identificar a distribuição de valores ausentes ao longo do dataset.
   - No mapa de calor:
        - Amarelo = valores ausentes.
        - Roxo = valores presentes.


2. **Porcentagem de Valores Ausentes por Coluna**:


In [11]:
import pandas as pd

# Carregar o dataset limpo
df = pd.read_csv('/Users/tatiana.massoco/Desktop/TCC_ESG_Model/data/ESGData_clean.csv')

# Calcular a porcentagem de valores ausentes para cada coluna
missing_percentage = df.isnull().sum() / len(df) * 100

# Exibir as colunas com valores ausentes acima de 90%
print(missing_percentage[missing_percentage > 90])

# Exibir as colunas com valores ausentes entre 40% e 60%
print(missing_percentage[(missing_percentage >= 40) & (missing_percentage <= 60)])

# Exibir as colunas com menos de 40% de valores ausentes
print(missing_percentage[missing_percentage < 40])

1960    91.556860
2020    97.108599
2050    95.178917
dtype: float64
1990    58.808468
1991    59.339287
1992    56.797602
1993    58.177731
1994    57.852994
1995    56.116905
1996    50.271654
1997    54.418285
1998    48.504340
1999    54.911634
2001    47.854868
2003    40.317242
2015    40.092425
2016    46.505964
2017    53.656404
2018    58.171486
dtype: float64
Country Name       0.000000
Country Code       0.000000
Indicator Name     0.000000
Indicator Code     0.000000
2000              38.724786
2002              38.119028
2004              39.193156
2005              37.132330
2006              38.662337
2007              36.370449
2008              38.943359
2009              37.844252
2010              35.621058
2011              37.138575
2012              35.439955
2013              39.143196
2014              38.431275
dtype: float64


 - Análise das Porcentagens de Valores Ausentes por Coluna

Colunas com Altas Porcentagens de Valores Ausentes (>90%):

- 1960: 91.56%
- 2020: 97.11%
- 2050: 95.18%

Essas colunas possuem muitos valores ausentes e podem não ser adequadas para modelagem, a menos que você implemente estratégias de imputação robustas.

Colunas Intermediárias (1990-2000): Valores Ausentes Variando Entre 40-60%:

- Exemplos:

  - 1990: 58.81%
  - 1993: 58.18%
  - 1998: 48.50%

Essas colunas estão no meio-termo, com lacunas significativas, mas podem ser úteis dependendo das estratégias de preenchimento ou exclusão.

Colunas com Menores Porcentagens de Valores Ausentes (<40%):

- 2000-2015:

  - 2000: 38.72%
  - 2010: 35.62%
  - 2012: 35.44%

Essas colunas são as mais completas, especialmente para anos mais recentes, tornando-as mais adequadas para modelagem.

Interpretação e Uso:

- Para modelagem ou análise de séries temporais:

  - Utilizar preferencialmente os dados mais recentes (anos após 2000), que possuem menos valores ausentes.
  
- Para imputação ou limpeza de dados:

  - Foco em anos intermediários (1990-2000) pode ser viável com estratégias adequadas de preenchimento.
  
- Descarte inicial:

  - Colunas como 1960, 2020 e 2050 podem ser descartadas temporariamente, já que a falta de dados é significativa.


## **Decisões Tomadas**

1. **Porque Decidimos Tratar Valores Ausentes**:

   - Garantir que os dados utilizados no modelo sejam robustos e minimizem o impacto de informações faltantes.
   - Facilitar a análise exploratória e a modelagem sem introduzir viés por dados inconsistentes.

2. **Decisão de Estratégia para Valores Ausentes**:

   - Remover colunas com mais de 90% de valores ausentes, pois essas colunas têm pouca contribuição para a modelagem.
   - Remover linhas que possuem mais de 50% de valores ausentes, para eliminar registros incompletos.
   - Preencher valores ausentes restantes com a mediana das respectivas colunas, garantindo que os dados permaneçam representativos.

## **Próximos Passos**

### **Implementação do Tratamento de Valores Ausentes**

1. **Etapas a Seguir**:

   - Adicionar ao script `src/data_cleaning.py` o código para:
   
     - Remover colunas com mais de 90% de valores ausentes.
     - Remover linhas com mais de 50% de valores ausentes.
     - Preencher valores ausentes restantes com a mediana das colunas.

2. **Workflow**:

   - Após implementar o código, executar o script e revisar o dataset resultante.
   - Realizar um novo commit com as alterações.

3. **Próxima Decisão**:

   - Validar o impacto do tratamento de valores ausentes no dataset e decidir como seguir com a análise exploratória.

---

**Estrutura do Código Adicionado:**
```python
# 9. Lidar com valores ausentes

# Remover colunas com mais de 90% de valores ausentes
limite_colunas = 90  # Limite percentual
colunas_para_remover = valores_ausentes[valores_ausentes > limite_colunas].index
dados = dados.drop(columns=colunas_para_remover)
print(f"\nColunas removidas por exceder {limite_colunas}% de valores ausentes: {list(colunas_para_remover)}")

# Remover linhas com mais de 50% de valores ausentes
limite_linhas = len(dados.columns) * 0.5  # 50% do total de colunas
dados = dados.dropna(thresh=limite_linhas, axis=0)
print(f"\nLinhas restantes após remoção de linhas com mais de 50% de valores ausentes: {len(dados)}")

# Preencher valores ausentes restantes com a mediana da coluna
dados = dados.fillna(dados.median())
print("\nValores ausentes restantes preenchidos com a mediana das colunas.")
```

---

**Arquivo Atualizado**:
Salve o arquivo atualizado e lembre-se de realizar o commit e push com a seguinte mensagem:
`"Adiciona tratamento de valores ausentes no dataset"`

---

**Status Atual**:
O projeto avança para garantir que o dataset final esteja pronto para análise exploratória e modelagem, com foco em dados mais recentes e representativos. 

---

# Planejamento do Projeto - Parte 5

## **Atualizações do Projeto**
1. - Finalizei a limpeza de dados no script `src/data_cleaning.py`.
2. - Resolvi desafios relacionados ao tratamento de valores ausentes nas colunas numéricas.
3. - Gerei e salvei o arquivo final do dataset limpo: `ESGData_clean_final.csv`.



## Contexto

Nesta etapa, o foco foi preparar um conjunto de dados estruturado e limpo para a análise exploratória de dados (EDA). Durante o processo, foram encontrados desafios relacionados a valores ausentes e erros no código, que precisaram ser corrigidos para garantir a consistência dos dados.


## Desafios Enfrentados

1. **Valores Ausentes nas Colunas Numéricas**:
   - Muitas colunas numéricas apresentavam valores ausentes. Inicialmente, foi tentado preencher todas as colunas utilizando a mediana, mas isso gerou problemas ao incluir colunas categóricas no cálculo.

2. **Erro de Conversão**:
   - Durante o preenchimento, ocorreu o erro `TypeError: Cannot convert [...] to numeric`, causado pela tentativa de calcular a mediana em colunas não numéricas.

3. **Problemas no Terminal**:
   - Algumas execuções apresentaram falhas devido a conflitos no ambiente virtual. Foi necessário reativar o ambiente com:
     ```
     source esg_model_env/bin/activate
     ```

4. **Validação do Arquivo de Saída**:
   - Após cada execução, foi necessário verificar se o arquivo `ESGData_clean.csv` ou `ESGData_clean_final.csv` estava sendo atualizado corretamente.


## Decisões Tomadas

1. **Selecionar Apenas Colunas Numéricas**:
   - Atualizei o código para usar `select_dtypes` e garantir que apenas colunas numéricas fossem preenchidas com a mediana. Isso eliminou os erros de conversão.

2. **Revisão Manual**:
   - Validei os arquivos de saída gerados em cada etapa para confirmar que os valores ausentes foram tratados corretamente.

3. **Planejamento da EDA**:
   - Decidi avançar para a análise exploratória de dados utilizando o notebook `EDA.ipynb` para realizar visualizações e explorar correlações e padrões no conjunto de dados.


## Passos Executados

1. **Ajuste no Preenchimento de Valores Ausentes**:
   - Modifiquei o script para tratar apenas colunas numéricas, utilizando a mediana para preencher os valores ausentes.
   
**Lidar com valores ausentes**: código - remover colunas com mais de 90% de valores ausentes

2. **Atualização do Repositório Git**:
   - Controle de versão foi mantido com os seguintes comandos:
     ```
     git add src/data_cleaning.py
     git commit -m "Corrige preenchimento de valores ausentes para colunas numéricas"
     git push origin main
     ```

3. **Geração do Dataset Final**:
   - Após ajustes e validações, o arquivo limpo foi salvo como `ESGData_clean_final.csv`.


## Próximos Passos

1. **Criação do Notebook EDA.ipynb**:
   - Desenvolver o arquivo `EDA.ipynb` para realizar análises como:
     - Estatísticas descritivas.
     - Identificação de padrões e correlações.

2. **Exploração Interativa**:
   - Usar o notebook para criar gráficos e análises detalhadas dos indicadores ESG.

3. **Documentação**:
   - Atualizar o README.md com as etapas concluídas, incluindo detalhes sobre o dataset final e os desafios superados.


## Conclusão

Apesar dos desafios enfrentados, o conjunto de dados foi limpo com sucesso, e os valores ausentes foram tratados adequadamente. O próximo passo será explorar os dados para identificar tendências e padrões que possam guiar a modelagem preditiva.

---

Planejamento do Projeto - Parte 6
=================================

**Atualizações do Projeto**
Nesta etapa, concentrei-me na organização do repositório, no controle de versão e na preparação para a análise exploratória de dados (EDA) no notebook Jupyter.

**Decisões Tomadas e Justificativas**
1. **Atualização do Repositório no GitHub**:
   - Incluí os arquivos limpos, imagens geradas durante a etapa de limpeza e o novo notebook `EDA.ipynb`.
   - Justificativa: Garantir que o repositório contenha todas as informações relevantes para análise futura.

2. **Remoção de Arquivos Temporários (.DS_Store)**:
   - Removi todos os arquivos `.DS_Store` do repositório e atualizei o `.gitignore` para evitar que esses arquivos sejam adicionados novamente.
   - Justificativa: Manter o repositório limpo e organizado, evitando arquivos desnecessários.

3. **Criação do Notebook de EDA**:
   - Criei o arquivo `EDA.ipynb` na pasta `notebooks/`.
   - Justificativa: Iniciar a análise exploratória de dados de maneira interativa e documentar insights e padrões.

**Passos Executados**
1. **Adição de Arquivos ao GitHub**:
   - Adicionei os seguintes itens ao repositório:
     - Arquivo final de dados limpos: `ESGData_clean_final.csv`.
     - Imagens geradas na etapa de limpeza, salvas na pasta `Imagens_data_cleaning/`.
     - Notebook de EDA: `EDA.ipynb`.
   - Comandos utilizados:
     ```
     git add .
     git commit -m "Add cleaned data files, images, and EDA notebook"
     git push origin main
     ```

2. **Remoção de Arquivos Temporários**:
   - Removi os arquivos `.DS_Store` e atualizei o `.gitignore`:
     - Comandos utilizados:
       ```
       git rm --cached .DS_Store Imagens_data_cleaning/.DS_Store data/.DS_Store
       git commit -m "Remove .DS_Store and update .gitignore"
       git push origin main
       ```

3. **Preparação do Ambiente para EDA**:
   - Ativei o ambiente virtual e confirmei que todos os pacotes necessários estão instalados.
   - Verifiquei que o notebook `EDA.ipynb` está pronto para uso.

**Próximos Passos**
1. **Análise Exploratória de Dados (EDA)**:
   - Iniciar o trabalho no notebook `EDA.ipynb`, incluindo:
     - Estatísticas descritivas para entender a distribuição dos dados.
     - Gráficos interativos para identificar correlações entre os indicadores ESG.

2. **Documentação**:
   - Registrar os resultados e decisões tomadas durante a EDA no notebook.
   - Atualizar o README.md para incluir informações sobre o progresso do projeto.

3. **Planejamento de Modelagem**:
   - Após a EDA, planejar a implementação do modelo preditivo para avaliação de risco ESG.

**Conclusão**
Com o repositório atualizado e o notebook de EDA preparado, estou pronta para explorar o conjunto de dados limpo e identificar padrões e insights que irão orientar as próximas etapas do projeto. 


---

Planejamento do Projeto - Parte 7
=================================

**Atualizações do Projeto**
- Durante esta etapa, defini os indicadores-chave para os três pilares do ESG (Ambiental, Social e Governança).
- Justifiquei a seleção dos indicadores com base em referências confiáveis e alinhadas às práticas de investimento ESG.
- Finalizei a estrutura conceitual para as próximas etapas do EDA, focando nos indicadores definidos.

**Decisões Tomadas e Justificativas**
1. **Definição de Indicadores-Chave**
   - Escolhi 20 indicadores distribuídos entre os pilares Ambiental, Social e Governança.
   - Justificativa: Esses indicadores representam fatores relevantes que influenciam o risco ESG de países, conforme literatura e práticas de mercado.

2. **Priorização de Indicadores Relevantes**
   - Foquei nos indicadores que têm maior impacto no desempenho ESG, com base em dados confiáveis e critérios bem definidos.
   - Justificativa: Priorização permite uma análise mais eficiente e direcionada, eliminando dados redundantes.

3. **Planejamento do EDA**
   - Estruturei os próximos passos do EDA para explorar distribuições, correlações e tendências temporais com base nos indicadores-chave.
   - Justificativa: Garantir que o EDA forneça insights claros e utilizáveis para o modelo preditivo.

**Próximos Passos**
1. **Exploração de Distribuições**
   - Criar histogramas para visualizar a distribuição de valores dos indicadores-chave selecionados, observando padrões e possíveis outliers.
   - Ajustar o tamanho dos gráficos para melhor visualização e documentação.

2. **Análise de Correlações**
   - Gerar uma matriz de correlação entre os indicadores-chave para identificar relações significativas.

3. **Tendências Temporais**
   - Visualizar como os indicadores-chave mudam ao longo do tempo para diferentes países.

4. **Atualização do Notebook**
   - Documentar cada etapa executada no notebook `EDA.ipynb`, incluindo análises e gráficos.

5. **Próxima Atualização do Planejamento**
   - Após executar as análises mencionadas acima, revisar este documento e detalhar as decisões tomadas e os próximos passos subsequentes.

**Observações**
Este documento será atualizado conforme o progresso do projeto.

---

Planejamento do Projeto - Parte 8
=================================

**Atualizações do Projeto**  

- Nesta etapa, iniciei a exploração de distribuições dos indicadores ESG selecionados por meio de histogramas e curvas de densidade (KDE) para identificar padrões, outliers e tendências.  
- Documentei observações importantes sobre as distribuições dos indicadores-chave, como tendências gerais e outliers significativos.  
- Realizei commits para atualizar o repositório com os avanços realizados no EDA e nos notebooks associados.  

**Decisões Tomadas e Justificativas**  

1. **Análise de Distribuições dos Indicadores**  

   - Decisão: Gerar gráficos para visualizar a distribuição de valores dos indicadores selecionados para os anos 1970, 1980, 1990, 2000 e 2010.  
   - Justificativa: Entender a dispersão e os padrões gerais dos dados é fundamental para a etapa de modelagem.  

2. **Documentação no Notebook**  

   - Decisão: Atualizar o notebook `EDA.ipynb` com as análises realizadas, incluindo gráficos gerados e observações dos outputs.  
   - Justificativa: Manter a transparência e o registro claro do progresso do projeto.  


**Passos Executados**  

1. **Exploração de Distribuições**  

   - Criei histogramas para os indicadores do pilar ambiental, observando distribuições enviesadas à direita e a presença de outliers.  
   - Documentei observações relacionadas à dispersão crescente ao longo do tempo e fatores associados aos outliers.  

     ```

**Próximos Passos**  
1. **Automatizar Análise de Distribuições**  
   - Desenvolver um loop para gerar gráficos de distribuição automaticamente para todos os indicadores selecionados de cada pilar (Ambiental, Social, Governança).  

2. **Revisar Outputs**  
   - Identificar padrões gerais e priorizar indicadores com distribuições incomuns ou que apresentem desafios específicos para análise detalhada.  

3. **Preparar para Análise de Correlações**  
   - Criar uma matriz de correlação para os indicadores-chave e explorar relações significativas.  

4. **Documentar no Notebook**  
   - Continuar a registrar as etapas e observações no notebook `EDA.ipynb` para manter uma linha de progresso clara e consistente.  

**Observações**  
Este documento será atualizado novamente após a execução das próximas etapas planejadas.

Planejamento do Projeto - Parte 9
=================================

**Atualizações do Projeto**

Nesta etapa, finalizei a análise exploratória de dados (EDA) para os indicadores ESG, abrangendo os pilares Ambiental, Social e Governança. Além disso, documentei os padrões identificados e defini os próximos passos para o desenvolvimento do modelo preditivo de risco ESG para investimentos sustentáveis.

**Análises Realizadas**

1. **Exploração de Distribuições**

   - Criação de histogramas com curvas de densidade (KDE) para visualizar a distribuição dos valores dos indicadores selecionados por ano e pilar.
   - Identificação de padrões gerais, outliers e tendências.

2. **Análise Estatística**

   - Coleta de estatísticas descritivas (mínimo, máximo, média, desvio padrão) para os indicadores selecionados.
   - Identificação de outliers e indicadores constantes.

3. **Interpretação dos Resultados**

   - Verificação da dependência de combustíveis fósseis e emissões altas em vários países.
   - Identificação de tendências positivas em indicadores sociais e econômicos, mas com desigualdades ainda perceptíveis.

**Decisões Tomadas e Justificativas**

1. **Tratar Outliers**

   - Decidi verificar os países responsáveis pelos valores extremos em indicadores como "CO2 emissions".
   - Justificativa: Outliers podem impactar significativamente o desempenho do modelo.

2. **Investigar Dados Constantes**

   - Indicadores com desvio padrão zero, como "Income share held by lowest 20% em 1970", serão analisados para determinar sua relevância.
   - Justificativa: Dados constantes podem não agregar valor à análise.

3. **Explorar Correlações**

   - Criação de uma matriz de correlação para identificar relações significativas entre os indicadores.
   - Justificativa: Entender as interdependências dos indicadores é essencial para criar um modelo robusto.

4. **Visualizar Tendências Temporais**

   - Criação de gráficos de linha para visualizar a evolução dos indicadores ao longo do tempo.
   - Justificativa: Identificar mudanças e tendências históricas pode ajudar a prever padrões futuros.

**Próximos Passos**

1. **Tratar Outliers**

   - Identificar os países com valores extremos para os indicadores selecionados.
   - Decidir entre normalização, transformação logarítmica ou exclusão desses valores.

2. **Investigar Dados Constantes**

   - Avaliar a relevância de indicadores com desvio padrão zero ou valores constantes.

3. **Explorar Correlações**

   - Gerar uma matriz de correlação para identificar relações significativas entre os indicadores ESG.

4. **Preparar Dados para Modelagem**

   - Realizar a normalização e padronização dos dados.
   - Dividir o dataset em conjuntos de treino, validação e teste.

5. **Desenvolver o Modelo Preditivo**

   - Selecionar algoritmos de aprendizado de máquina para prever o risco ESG.
   - Treinar o modelo e ajustar hiperparâmetros.

6. **Implementar o Modelo**

   - Criar um pipeline para implantação do modelo em produção.
   - Integrar monitoramento contínuo para avaliar o desempenho do modelo.

7. **Documentar Resultados**

   - Atualizar o notebook com observações, gráficos e decisões tomadas durante o processo.
   - Criar um relatório final para apresentação do projeto.

**Justificativa para o Planejamento**

As etapas definidas garantem que cada aspecto relevante dos dados seja tratado adequadamente antes de iniciar a modelagem. Isso minimiza erros e melhora a robustez do modelo preditivo de risco ESG.

**Observações**

Este documento será atualizado conforme o progresso do projeto.