<a href="https://colab.research.google.com/github/Yurovskyy/CDD/blob/main/TrabalhoGovernanca.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Formalização do problema

## 1.1. Contextualização

Existem várias maneiras de avaliar o desempenho de uma empresa para decidir se é válido comprar ações da mesma. Alguns métodos existentes são:

CAPM (Modelo de precificação de ativos de capital). É um método que analise a relação entre o risco e o retorno que é esperado de um investimento, obtido a partir de princípios de diversificação com pressupostos simplificados. Inicialmente é irrealista (principalmente no Brasil).

HME (Hipótese do mercado eficiente). Essa hipótese afirma que os mercados são eficientes, ou seja, um agente não consegue alcançar consistentemente retornos superioers à média do mercado, pois os preços dos ativos refletem toda a informação disponível em um dado momento de tempo. É importante citar que o mercado não é 100% racional.

Análise técnica. É uma busca por padrões recorrentes e previsíveis nos preços do ativo. Esse método é negado pelo HME.

Análise Fundamentalista. Utiliza indicadores financeiros, de gestão, do negócio e do risco da empresa, além de índices macroeconômicos na busca de determinar o valor presente descontado dos fluxos de caixa da empresa para chegar ao valor justo de cada ação. Esse método é quase todo negado pelo HME.

## 1.2. Motivação

Podemos usar outro método de avaliação de empresas chamado Indice de Governança para definir conjuntos de empresas com boas governanças. Empresas com boa governança tendem a lucrar.

## 1.3. Importância

Esse novo modelo é importante, pois agrupa as empresas em conjuntos(clusters) que tendem a ser semelhantes. Isso significa que quando uma empresa foi bem avaliada usando os métodos citados em Contextualização (1.1), as outras empresas provavelmente também vão ser bem avaliadas usando esses métodos.
Ou seja, esse modelo nos ajudará a decidir se devemos ou não comprar as ações desse grupo de empresas.

## 1.4. Abordagem analítica

Vamos usar um algoritmo de MachineLearning para clusterizar as empresas.

# 2. Hipótese a ser investigada

## 2.1. Objetivo geral

Temos como objetivo obter conjuntos(clusters) que indicam empresas de boa governança.

## 2.2. Etapas para atingir o objetivo

Devemos
1. Definir o problema
2. Obter os dados
3. Explorar os dados
4. Preparar os dados
5. Construir o modelo
6. Avaliar o modelo

## 2.3. Metodologia experimental

# 3. Revisão bibliográfica

## 3.1 Duas referências de artigos científicos

https://revistas.pucsp.br/rad/article/view/685
https://periodicos.fgv.br/rbfin/article/view/1143


## 3.2 Dois projetos semelhantes

https://paperswithcode.com/method/k-means-clustering (achar outro)
https://github.com/andymcdgeo/Andys_YouTube_Notebooks

## 3.3 Como esses quatro estão inseridos no contexto do seu trabalho

Os dois artigos comparam o indice de governança com a lucratividade da empresa. Os dois projetos ensinam a utilizar o algoritmo de clusterização usando o k-means.

# 4. Base de dados utilizada

## 4.1. Porquê essa base de dados é adequada?

Essa base de dados é adequada pois ela nos diz as respostas das empresas em relação as 5 categorias de governança.

## 4.2. Apresentar a base de dados

Serão extraídos de https://github.com/Yurovskyy/sitedeploy/raw/gh-pages/docs/dataset_CGVN.xlsx?download=. Vou converter os mesmos para CSV e coloca-lo no github do trabalho atual.

Como se trata de um algoritmo de clusterização, não precisamos de um dataset de teste.

## 4.3. Detalhe a base de dados

Como o arquivo origina pesava 100mb, não foi possível formatar o mesmo por meio desse notebook, pois isso exigiria que eu fizesse upload do arquivo no github, mas o github barra arquivos de serem enviados acima de 50mb.

Por causa disso, criei um script local que retira as colunas do csv que eu não preciso para esse algoritmo e fiz upload do csv formatado no github.

> O script de limpeza usado se encontra no final do notebook. O script não é para ser executado.

O dataset formatado está no seguinte link: https://github.com/Yurovskyy/CDD/blob/main/dataset_CGVN.csv

No total, o dataset tem 115.722 entradas. Cada empresa em cada ano contém 54 Itens (entradas), logo o total de Itens que serão usados (Total das Prticas_adotadas) é 2.143 😀

No dataset temos as seguintes colunas
1. Data_Referencia
2. Versao
3. Nome_Empresarial
4. ID_Item
5. Pratica_Adotada

### 1. Data_Referencia

O item 1 refere-se a data em que as respostas foram colhidas. Algumas empresas mandam suas respostas desde 2018 (que é a data de inicio do dataset), outras começaram em 2019 por exemplo.

Vamos avaliar a governança empresarial de cada ano caso a empresa tenha uma entrada por ano. Dessa maneira, podemos também avaliar se a governança da empresa melhorou ou piorou com o passar do tempo.

> Tecnicamente falando, vamos contatenar a data ao Nome_Empresarial para diferenciar a empresa no tempo

### 2. Versao

O item 2 refere-se a versão das respostas. A empresa pode ter mandado uma resposta incompleta e ter submetido outra durante a data de entrega anual. Essa coluna não é relevante, pois sempre vamos considerar o resultado final.

### 3. Nome_Empresarial

O item 3 é um item para identificação da empresa -nome da empresa - (juntamente com a Data_Referencia)

### 4. ID_Item

O item 4 refere-se ao item de governança. Cada item tem um texto o descrevendo, que pode ser encontrado no seguinte link

https://yurovskyy.github.io/sitedeploy/

(Clique em dados e depois em governança). A tabela no final da página contém o ID_item e sua descrição (Princípio e prática recomendada).

### 5. Pratica_Adotada

o item 5 é o mais importante do dataset, pois nele temos a informação que queremos. Temos 4 **variáveis categóricas** condizentes as respostas das empresas de acordo com os ID_itens (item 4). Vamos realizar a seguinte transformação

- Sim → +1
- Não → -1
- Não se aplica → +0
- Parcialmente → +0,5

Se a resposta da empresa é sim, ela cumpre com a prática recomendada (ID_Item), se é não, ela não cumpre.
O Não se aplica se deve a empresas que essa prática não faz sentido.
O parcialmente é um meio termo entre o sim e o não

> Em iterações futuras do trabalho, acredito que devo trabalhar essa transformação de categóricas de uma forma mais aprofundada, pois o professor Marcos me disse que essa parte é bem importante. Rumo aos dados perfeitos!
> ### Perfect Data → Perfect Model → Perfect Results

Como os dados já estão sendo trabalhados a algum tempo (artigo), não existem valores faltantes 😀

# 5. Utilize uma biblioteca de autoML para ter o resultado inicial

## 5.1. Porquê essa biblioteca?

## 5.2. Qual é a métrica de avaliação utilizada?

## 5.3. Apresente os resultados

# 6. Discussão e Considerações finais

## 6.1. Os resultados são bons?

## 6.2. Existe algum ganho em usar indicadores estatíticos para os dados?

## 6.3. A proposta é adequada para ser utilizada ao longo do curso?


### 1.1.2. Motivação

Todas as empresas tem uma certa governança. Se essa governança for verdadeiramente boa para a empresa, ela tenderá a lucrar. Podemos criar um modelo que cria conjunto de boas empresas para nos ajudar a escolher se devemos ou não comprar ações dessa empresa.

### 1.1.3. Importância

Um dos problemas do HME é que o ser humano não é 100% racional nas suas decisões, principalmente quando se trata de dinheiro. Esse modelo de machine learning pode ajudar o mercado a se tornar mais eficiente (racional).

## 1.2. Abordagem

Devemos ser capazes de clusterizar as empresas e de construir um modelo que clusteriza novas empresas automaticamente. A clusterização é uma criação de conjuntos não definidos pelo usuário, e sim pelo algoritmo de machine learning.

> Isso é bom, pois temos alguns modelos aprendidos em Engenharia Financeira como o CAPM e HME. Esse resultado teoricamente deve corroborar com esses modelos.


#### 1.2.1. O chat-gpt fala isso sobre clusterização:


Clustering, ou clusterização em português, é uma técnica de aprendizado de máquina não supervisionado que envolve a divisão de um conjunto de dados em grupos significativos, chamados de clusters. O objetivo é agrupar itens de dados semelhantes em um mesmo cluster, enquanto itens de dados diferentes são colocados em clusters distintos. A ideia é encontrar estruturas intrínsecas nos dados sem a necessidade de rótulos ou categorias pré-definidas.

Existem diferentes algoritmos de clusterização, cada um com suas próprias abordagens e características. Os mais famosos são: K-Means, DBSCAN, Hierarchical Clustering, Gaussian Mixture Models (GMM)

### 1.2.2. Métrica de desempenho

Com base no índice de governança, podemos ter uma noção de boas empresas. É esperado que a clusterização agrupe essas boas empresas que já são conhecidas.

# 2. Obtenção dos dados

Serão extraídos de https://yurovskyy.github.io/sitedeploy/. Vou converter os mesmos para CSV e coloca-lo no github do trabalho atual.

Como se trata de um algoritmo de clusterização, não precisamos de um dataset de teste.

#### 2.1.1. O chat-gpt fala isso sobre esse tópico:

Algoritmos de clusterização não são tipicamente avaliados da mesma maneira que os algoritmos de aprendizado supervisionado, onde há um conjunto de dados de treinamento e um conjunto de dados de teste. Em vez disso, os algoritmos de clusterização geralmente operam apenas no conjunto de dados disponível para identificar padrões e agrupar os dados em clusters.

Avaliar a qualidade dos clusters gerados por algoritmos de clusterização é uma tarefa subjetiva e muitas vezes depende do contexto específico do problema e dos objetivos do projeto. Além disso, a avaliação pode envolver métodos como validação interna, validação externa ou até mesmo avaliação visual.

No entanto, é possível usar técnicas de validação interna para avaliar a qualidade dos clusters gerados. Por exemplo, métricas como a silhueta (silhouette score) podem ser usadas para avaliar a coesão intra-cluster e a separação inter-cluster dos dados. Essas métricas podem ser calculadas usando apenas o conjunto de dados original sem a necessidade de um conjunto de dados de teste separado.

É importante observar que, embora os algoritmos de clusterização não usem explicitamente conjuntos de treinamento e teste, ainda é possível avaliar a estabilidade dos clusters gerados e a capacidade do algoritmo de generalizar para novos dados, dependendo da abordagem adotada para a avaliação.

### Ou seja, o que foi dito em métricas (1. Definição do problema)

## 2.1. Identificando os dados disponíveis e necessários

Como o arquivo origina pesava 100mb, não foi possível formatar o mesmo por meio desse notebook, pois isso exigiria que eu fizesse upload do arquivo no github, mas o github barra arquivos de serem enviados acima de 50mb.

Por causa disso, criei um script local que retira as colunas do csv que eu não preciso para esse algoritmo e fiz upload do csv formatado no github.

O dataset formatado está no seguinte link: https://github.com/Yurovskyy/CDD/blob/main/dataset_CGVN.csv

O script de limpeza local está descrito abaixo:
# **NAO EXECUTE ESSE SCRIPT, ELE É UM EXEMPLO!**

# 3. Exploração dos dados

Essa seção depende muito do dataset que temos. Se fosse um algoritmo de ML de **Classificação** ou **Regressão**, ela seria mais importante.

> Sobre a qualidade dos dados, acredito que posso mudar a variável categória "parcialmente" para um valor decimal condizente com o seu impacto. Será necessário uma análise minuciosa para isso. Depois que isso for feito, teremos os **dados perfeitos**.
> ### Perfect Data → Perfect Model → Perfect Results

No total, o dataset tem 115.723 entradas 😀


## 3.1. Dicionário de dados

## 3.2. Tipos de cada variável

## 3.3. Porcentagem de valores faltantes

Como os dados já estão sendo trabalhados a algum tempo (artigo), não existem valores faltantes 😀

## 3.4. Distribuição estatística dos dados



# 4. Preparação dos dados

Devemos formatar os dados para que os mesmos se adequem ao framework que vamos usar. Nesse caso vamos usar o H20, especificadamente o autoH20 com o **H20KMeansEstimator**

https://docs.h2o.ai/h2o/latest-stable/h2o-py/docs/modeling.html#h2okmeansestimator

Esse link é a documentação sobre o framework (módulo) H20.

#5. 6. Construção do modelo e avaliação

Usaremos um autoML

In [None]:
!pip install h2o
import h2o
h2o.init()

In [None]:
# import pandas as pd

# Carregar o arquivo CSV
df = pd.read_csv('C:\\Users\\Yuri\\Desktop\\artigo\\backend\\novoscript\\results\\dataset_CGVN.csv',sep=";")

# Selecionar as colunas necessárias
colunas_desejadas = ['Data_Referencia', 'Versao', 'Nome_Empresarial', 'ID_Item', 'Pratica_Adotada']
df = df[colunas_desejadas]

# Salvar o arquivo CSV modificado
df.to_csv('dataset_CGVN.csv', index=False)
