# Projeto 2 - Ciência dos Dados

Nome: _Marco Tulio Masselli Rainho Teixeira_

Nome: _Talissa Gonçalves Albertini_

# Classificador automático de qualidade de investimentos em ações


<div id="indice"></div>

### Índice

- [Instrodução](#intro)
- [Objetivo](purpose)
- [Técnica utilizada](#technique)
    - [Por que analizar o comportamento de indicadores finaceiros e não apenas o dos preços de ações ?](#ind)
    - [Por que utilizar Regressão Logística Multinomial ?](#lr)
    - [Por que utilizar Random Forest ?](#rf)
    - [Por que utilizar Gradient Boosting](#gb)
- [Descrição da Base de Dados](#dataset)
- [1. Preparação do ambiente do Jupyter](#imports)
- [2. Carregando a base de dados com os indicadores](#excel)
- [3. Tratamento do banco de dados](#database_cleaning)
- [4. Análise exploratória dos dados](#EDA)
- [5. Preparação do DataSet para os classificadores](#data_prep)
- [6. Classificação por Regressão Logistica Multinominal](#class_lr)
- [7. Classificação por Random Forest](#class_rf)
- [8. Classificação por Gradient Boosting](#class_gb)
- [9. Classificação pela combinação das 3 técnicas anteriores](#class_comp)
- [10. Análise de resultados](#analysis)
    - [10.1. Comparação de desempenho](#analysis_1)
    - [10.2. Proceso de aperfeicoamento ](#analysis_2)
    - [10.3 Possiveis melhorias](#analysis_3)
- [11. Bibliografia](#bibl)


<div id='intro'></div>
    
### Instrodução

Decisões acerca da transação de ações são fundamentalmente associadas a estimativa do valor intrínseco que a empresa possuirá em um determinado período.
Este projeto se baseia na hipótese de que é possíveis extrair informações relevantes para a realização dessa estimativas de indicadores financeiros das empresas.

O valor por trás de um classificador como este é a padronização do processo de seleção de bons investimentos 


<div id='objetivo'></div>

### Objetivo 

Este projeto tem como objetivo realizar uma análise sistemática de indicadores financeiros de uma determinada ação e responder a seguinte questão: No período de um mês, uma determinada ação valorizará ou não ? 

Inicialmente, a aplicação desse modelo foi pensada para a gestão de um portfólio de ações cujas operações de compra e venda fossem realizadas a cada mês, então o teste seria realizado para todas as ações do portfólio e para eventuais ações que despertassem interesse de aquisição. No caso das ações do portfólio, o resultado positivo para valorização resultaria na decisão de mantê-la, caso contrário seria vendida.


<div id='technique'></div>

### Técnica utilizada

A técnica utilizada nesse projeto foi a classificação de indicadores financeiros por quatro métodos, a Regressão Logística Multinominal, Random Forest, Gradiente Boosting e uma combinação dos três anteriores em paralelo.


<div id='ind'></div>

#### Por que analisar o comportamento de indicadores financeiros e não apenas o dos preços de ações ?

O comportamento do preço de ações, assim como o de qualquer outro ativo financeiro (imóveis, moeda, obrigações etc ), é caracterizado por relativamente alta volatilidade pois é influenciado por muitos fatores de naturezas diversas, como estabilidade financeira mundial, nível de apreensão no mercado financeiro, fatores comportamentais de indivíduos específicos (como líderes de estado), desastres naturais, entre outros. Por isso, a análise puramente dos preços das ações pode gerar resultados promissores por um tempo, mas a tendência é de que sua acurácia seja naturalmente reduzida conforme o Base de dados de treinamento é preenchida com dados de períodos influenciados pelos fatores de naturezas diversas citados anteriormente.

Já a análise dos indicadores é mais fundamentada, completa e fiel na compreensão do comportamento da empresa ao longo do tempo. Por exemplo, alguns indicadores mostram a frequência com que acionista são pagos, a lucratividade por cada ação dessa empresa (diferente da lucratividade apenas) ou até a qualidade dos investimentos que essa empresa faz nela mesma. 

Esses indicadores podem ser traduzidos, por exemplo: no quão confiável a empresa é para pagar seus acionistas, quão eficiente ela é em gerar lucro e o quão capaz ela é para realizar bons investimentos com o dinheiro dos acionistas. Assim, eles representam informações muito mais versáteis para se interpretar e combinar com outras estatísticas, comparado com apenas o preço da ação.

<div id='lr'></div>

#### Regressão Logística Multinominal 

Regressão Logística funciona com base no método de Máxima Probabilidade (MLE), em que os parâmetros da função são maximizados para que esta represente o máximo possível dos dados de treinamento. No contexto da análise dos indicadores financeiros, a ideia é relaciona-los com a variável ‘target’, um binário que representa se a ação valorizou ou desvalorizou no determinado mês.



<div id='rf'></div>

#### Random Forest 

Random Forest é um método de classificação que tem como base um outro modelo de classificação mais fundamental, a arvore de decisões. A diferencial do Random Forest é que ele cria inúmeras arvores de decisão reorganizando os criterioso de classificação, ele permuta os dados do DataSet de treinamento e cria novos com esse valores, e para cada um cria uma arvore de decisões com critérios particulares de cada novo DataSet.

<div id='gb'></div>

#### Gradient Boosting 

Assim como Random Forest, esse método tem como base um modelo simples e fraco, que quando passado por um processo de inúmeras permutações, repetições e adaptações da própria estrutura passa a ser muito eficiente, analisando os próprios erros de classificação nos dados de treinamento. Esse modelo base é ainda mais simples do que arvores de decisao e é conhecido como 'Stump', que é basicamente uma arvore de decisões com apenas um ramo e 2 folhas. 

<div id='daataset'></div>

### Descrição da Base de Dados 

A base de dados utilizada neste projeto é composta por indicadores financeiros coletados ao longo de 34 anos (1986-2020) da empresa Microsoft. Seu arquivo foi coletado do banco de dados financeiros da Bloomberg Professional Services

Indicadores coletado com frequência trimestral
* NET_INCOME:           A diferença entre o lucro bruto e as despesas da empresa. (em $10^6$ dólares)
* CF_FREE_CASH_FLOW:    Dinheiro da empresa que está disponível para ser distribuído aos acionistas.
* CF_CASH_FROM_OPER:    Fluxo de dinheiro gerado pela empresa por suas atividades regulares.
* CF_CASH_FROM_INV_ACT: Fluxo de dinheiro investido pela empresa.
* CF_CASH_FROM_FNC_ACT: Fluxo de débitos, por exemplo: lucro gerado por um empréstimo - valor do empréstimo. 
* CUR_RATIO:            Liquidez dos ativos da empresa, a facilidade com que a empresa pode transformar seus ativos em dinheiro.
* TOT_DEBT_TO_COM_EQY:  Razão entre o débito e o patrimônio líquido da empresa.
* RETURN_COM_EQY:       Razão entre os lucros da empresa e o dinheiro dos acionistas.

Indicadores coletado com frequência diária
* CUR_MKT_CAP :         Valor de mercado, valor de uma ação vezes o número total de ações.
* TURNOVER :            Indica o quão rápido a empresa consegue arrecadar dinheiro com o seu inventário.
* PX_LAST :             Preço da ação .
* EQY_SH_OUT :          Numero de ações em posse de acionistas. 
* PE_RATIO :            Razão entre o valor total das ações e o lucro da empresa.
* PX_TO_BOOK_RATIO :    Razão entre o preço de uma ação e o valor de venda da empresa por ação. 
* EQY_DPS :             Razão entre o dinheiro pago aos acionistas e o número de ações .

<div id='imports'></div>

### 1. Preparando o ambiente do Jupyter

In [3]:
%matplotlib inline
import datetime as dt
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sb

from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
from sklearn import linear_model
import statsmodels.api as sm

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import classification_report, confusion_matrix
from sklearn.ensemble import GradientBoostingClassifier

___
### 2. Carregando a base de dados com os indicadores
<div id='excel'></div>

Nessa célula o arquivo Excel é carregado e uma de suas planilhas passa por uma filtragem.

In [4]:
xls = pd.ExcelFile('Dados BBG.xlsx')
df1_raw = pd.read_excel(xls, 'MSFT-format')

df1 = df1_raw.iloc[4:, :] 

df1.head()

FileNotFoundError: [Errno 2] No such file or directory: 'Dados BBG.xlsx'

___
### 3. Tratamento do banco de dados
<div id='dataset_cleaning'></div>


#### 3.1. Criação da lista de indicadores 
Como o DataFrame já é importado com os nomes dos indicadores nas suas respectivas colunas, não há a necessidade de atribui-los novamente. Esta célula apenas cria uma lista com os indicadores para ser usada ao longo do código.

In [None]:
indicators_row = 5
indicators_1 = df1_raw.iloc[indicators_row-2, 1:].array.dropna()
indicators_1 =  np.array(indicators_1).tolist()

#### 3.2. Retificação das variáveis
Os valores do DataSet precisam ser convertidos para os tipos de variável correto para evitar incongruências futuras no código, nesse caso a coluna de datas é associada ao tipo de DateTime e as demais ao tipo float

In [None]:
for indicator in indicators_1:
    df1[indicator] = df1[indicator].astype(float)
df1.iloc[:, 0] = df1.iloc[:, 0].dt.date
df1['data'] = pd.to_datetime(df1['data'])

#### 3.3.  Atribuição das datas como índice
Nesta célula, o índice numérico padrão é substituído pelo índice no formato DateTime. Isso foi feito para facilitar a manipulação dos dados já que estes são todos atribuídos a uma data

In [None]:
df1 = df1.set_index('data')
df1.dtypes.to_frame()

#### 3.4. Conversão da unidade de tempo do DataSet 
Nessa célula, o DataSet diário é convertido para mensal. Esse é um processo delicado pois o DataSet é diário, mas alguns indicadores são trimestrais, ou seja, cada linha do DataSet representa 1 dia , mas há indicadores que apresentam um valor apenas a cada 90 dias. Nesse caso, a estratégia foi fixar os valores do trimestre anterior até o próximo, e para isso foi utilizada a função “fillna()” com o parâmetro “method = 'ffill'” que preenche espaços vazios com o último valor. A função para fracionar os trimestres em meses foi  “resample()” com o parâmetro “BM”, para indicar que a nova unidade é mês financeiro (business month). No caso dos primeiros dados não um “valor anterior” dos indicadores trimestrais, e por isso foi utilizado novamente a funcao “fillna()”, mas desta vez com atributo “method=bfill” para preencher espaços vazios com o próximo valor.

In [None]:
df1m = df1.fillna(method = 'ffill').resample('BM').mean().fillna(method = 'bfill')
df1m.head()

#### 3.5. Criação da variável target 

A variável target é o “padrao” cujos classificadores vão comparar com os indicadores, ela representa o alvo da classificação, que no caso desse projeto é a valorização da ação no período de um mês, por isso os valores dessa variável são binários, “1” para valorização e “0” para desvalorização.  Os valores da coluna dessa variável (return) foram construídos fazendo a diferença entre o preço da ação no determinado mês e o do anterior, e atribuindo o valor ”1” caso essa diferença fosse positiva e “0” caso fosse negativa

In [None]:
df1m['return'] = (df1m['PX_LAST'].diff()>0).astype('int')