# Projeto 2 - Ciência dos Dados

Nome: _Marco Tulio Masselli Rainho Teixeira_

Nome: _Talissa Gonçalves Albertini_

# Classificador automático de qualidade de investimentos em ações


<div id="indice"></div>

### Índice

- [Instrodução](#intro)
- [Objetivo](purpose)
- [Técnica utilizada](#technique)
    - [Por que analizar o comportamento de indicadores finaceiros e não apenas o dos preços de ações ?](#ind)
    - [Por que utilizar Regressão Logística Multinomial ?](#lr)
    - [Por que utilizar Random Forest ?](#rf)
    - [Por que utilizar Gradient Boosting](#gb)
- [Descrição da Base de Dados](#dataset)
- [1. Preparação do ambiente do Jupyter](#imports)
- [2. Carregando a base de dados com os indicadores](#excel)
- [3. Tratamento do banco de dados](#database_cleaning)
- [4. Análise exploratória dos dados](#EDA)
- [5. Preparação do DataSet para os classificadores](#data_prep)
- [6. Classificação por Regressão Logistica Multinominal](#class_lr)
- [7. Classificação por Random Forest](#class_rf)
- [8. Classificação por Gradient Boosting](#class_gb)
- [9. Classificação pela combinação das 3 técnicas anteriores](#class_comp)
- [10. Análise de resultados](#analysis)
    - [10.1. Comparação de desempenho](#analysis_1)
    - [10.2. Proceso de aperfeicoamento ](#analysis_2)
    - [10.3 Possiveis melhorias](#analysis_3)
- [11. Bibliografia](#bibl)


<div id='intro'></div>
    
### Instrodução

Decisões acerca da transação de ações são fundamentalmente associadas a estimativa do valor intrínseco que a empresa possuirá em um determinado período.
Este projeto se baseia na hipótese de que é possíveis extrair informações relevantes para a realização dessa estimativas de indicadores financeiros das empresas.

O valor por trás de um classificador como este é a padronização do processo de seleção de bons investimentos 


<div id='objetivo'></div>

### Objetivo 

Este projeto tem como objetivo realizar uma análise sistemática de indicadores financeiros de uma determinada ação e responder a seguinte questão: No período de um mês, uma determinada ação valorizará ou não ? 

Inicialmente, a aplicação desse modelo foi pensada para a gestão de um portfólio de ações cujas operações de compra e venda fossem realizadas a cada mês, então o teste seria realizado para todas as ações do portfólio e para eventuais ações que despertassem interesse de aquisição. No caso das ações do portfólio, o resultado positivo para valorização resultaria na decisão de mantê-la, caso contrário seria vendida.


<div id='technique'></div>

### Técnica utilizada

A técnica utilizada nesse projeto foi a classificação de indicadores financeiros por quatro métodos, a Regressão Logística Multinominal, Random Forest, Gradiente Boosting e uma combinação dos três anteriores em paralelo.


<div id='ind'></div>

#### Por que analisar o comportamento de indicadores financeiros e não apenas o dos preços de ações ?

O comportamento do preço de ações, assim como o de qualquer outro ativo financeiro (imóveis, moeda, obrigações etc ), é caracterizado por relativamente alta volatilidade pois é influenciado por muitos fatores de naturezas diversas, como estabilidade financeira mundial, nível de apreensão no mercado financeiro, fatores comportamentais de indivíduos específicos (como líderes de estado), desastres naturais, entre outros. Por isso, a análise puramente dos preços das ações pode gerar resultados promissores por um tempo, mas a tendência é de que sua acurácia seja naturalmente reduzida conforme o Base de dados de treinamento é preenchida com dados de períodos influenciados pelos fatores de naturezas diversas citados anteriormente.

Já a análise dos indicadores é mais fundamentada, completa e fiel na compreensão do comportamento da empresa ao longo do tempo. Por exemplo, alguns indicadores mostram a frequência com que acionista são pagos, a lucratividade por cada ação dessa empresa (diferente da lucratividade apenas) ou até a qualidade dos investimentos que essa empresa faz nela mesma. 

Esses indicadores podem ser traduzidos, por exemplo: no quão confiável a empresa é para pagar seus acionistas, quão eficiente ela é em gerar lucro e o quão capaz ela é para realizar bons investimentos com o dinheiro dos acionistas. Assim, eles representam informações muito mais versáteis para se interpretar e combinar com outras estatísticas, comparado com apenas o preço da ação.

<div id='lr'></div>

#### Regressão Logística Multinominal 

Regressão Logística funciona com base no método de Máxima Probabilidade (MLE), em que os parâmetros da função são maximizados para que esta represente o máximo possível dos dados de treinamento. No contexto da análise dos indicadores financeiros, a ideia é relaciona-los com a variável ‘target’, um binário que representa se a ação valorizou ou desvalorizou no determinado mês.



<div id='rf'></div>

#### Random Forest 

Random Forest é um método de classificação que tem como base um outro modelo de classificação mais fundamental, a arvore de decisões. A diferencial do Random Forest é que ele cria inúmeras arvores de decisão reorganizando os criterioso de classificação, ele permuta os dados do DataSet de treinamento e cria novos com esse valores, e para cada um cria uma arvore de decisões com critérios particulares de cada novo DataSet.

<div id='gb'></div>

#### Gradient Boosting 

Assim como Random Forest, esse método tem como base um modelo simples e fraco, que quando passado por um processo de inúmeras permutações, repetições e adaptações da própria estrutura passa a ser muito eficiente, analisando os próprios erros de classificação nos dados de treinamento. Esse modelo base é ainda mais simples do que arvores de decisao e é conhecido como 'Stump', que é basicamente uma arvore de decisões com apenas um ramo e 2 folhas. 

<div id='daataset'></div>

### Descrição da Base de Dados 

A base de dados utilizada neste projeto é composta por indicadores financeiros coletados ao longo de 34 anos (1986-2020) da empresa Microsoft. Seu arquivo foi coletado do banco de dados financeiros da Bloomberg Professional Services

Indicadores coletado com frequência trimestral
* NET_INCOME:           A diferença entre o lucro bruto e as despesas da empresa. (em $10^6$ dólares)
* CF_FREE_CASH_FLOW:    Dinheiro da empresa que está disponível para ser distribuído aos acionistas.
* CF_CASH_FROM_OPER:    Fluxo de dinheiro gerado pela empresa por suas atividades regulares.
* CF_CASH_FROM_INV_ACT: Fluxo de dinheiro investido pela empresa.
* CF_CASH_FROM_FNC_ACT: Fluxo de débitos, por exemplo: lucro gerado por um empréstimo - valor do empréstimo. 
* CUR_RATIO:            Liquidez dos ativos da empresa, a facilidade com que a empresa pode transformar seus ativos em dinheiro.
* TOT_DEBT_TO_COM_EQY:  Razão entre o débito e o patrimônio líquido da empresa.
* RETURN_COM_EQY:       Razão entre os lucros da empresa e o dinheiro dos acionistas.

Indicadores coletado com frequência diária
* CUR_MKT_CAP :         Valor de mercado, valor de uma ação vezes o número total de ações.
* TURNOVER :            Indica o quão rápido a empresa consegue arrecadar dinheiro com o seu inventário.
* PX_LAST :             Preço da ação .
* EQY_SH_OUT :          Numero de ações em posse de acionistas. 
* PE_RATIO :            Razão entre o valor total das ações e o lucro da empresa.
* PX_TO_BOOK_RATIO :    Razão entre o preço de uma ação e o valor de venda da empresa por ação. 
* EQY_DPS :             Razão entre o dinheiro pago aos acionistas e o número de ações .


<div id='imports'></div>

### 1. Preparando o ambiente do Jupyter

In [1]:
%matplotlib inline
import datetime as dt
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sb

from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
from sklearn import linear_model
import statsmodels.api as sm

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import classification_report, confusion_matrix
from sklearn.ensemble import GradientBoostingClassifier

  import pandas.util.testing as tm


___
### 2. Carregando a base de dados com os indicadores
<div id='excel'></div>


Nessa célula o arquivo Excel é carregado e uma de suas planilhas passa por uma filtragem.

In [2]:
xls = pd.ExcelFile('Dados BBG.xlsx')
df1_raw = pd.read_excel(xls, 'MSFT-format')

df1 = df1_raw.iloc[4:, :] 

df1.head()

FileNotFoundError: ignored

___
### 3. Tratamento do banco de dados
<div id='dataset_cleaning'></div>


#### 3.1. Criação da lista de indicadores 
Como o DataFrame já é importado com os nomes dos indicadores nas suas respectivas colunas, não há a necessidade de atribui-los novamente. Esta célula apenas cria uma lista com os indicadores para ser usada ao longo do código.

In [None]:
indicators_row = 5
indicators_1 = df1_raw.iloc[indicators_row-2, 1:].array.dropna()
indicators_1 =  np.array(indicators_1).tolist()

#### 3.2. Retificação das variáveis
Os valores do DataSet precisam ser convertidos para os tipos de variável correto para evitar incongruências futuras no código, nesse caso a coluna de datas é associada ao tipo de DateTime e as demais ao tipo float

In [None]:
for indicator in indicators_1:
    df1[indicator] = df1[indicator].astype(float)
df1.iloc[:, 0] = df1.iloc[:, 0].dt.date
df1['data'] = pd.to_datetime(df1['data'])

#### 3.3.  Atribuição das datas como índice
Nesta célula, o índice numérico padrão é substituído pelo índice no formato DateTime. Isso foi feito para facilitar a manipulação dos dados já que estes são todos atribuídos a uma data

In [None]:
df1 = df1.set_index('data')
df1.dtypes.to_frame()

#### 3.4. Conversão da unidade de tempo do DataSet 
Nessa célula, o DataSet diário é convertido para mensal. Esse é um processo delicado pois o DataSet é diário, mas alguns indicadores são trimestrais, ou seja, cada linha do DataSet representa 1 dia , mas há indicadores que apresentam um valor apenas a cada 90 dias. Nesse caso, a estratégia foi fixar os valores do trimestre anterior até o próximo, e para isso foi utilizada a função “fillna()” com o parâmetro “method = 'ffill'” que preenche espaços vazios com o último valor. A função para fracionar os trimestres em meses foi  “resample()” com o parâmetro “BM”, para indicar que a nova unidade é mês financeiro (business month). No caso dos primeiros dados não um “valor anterior” dos indicadores trimestrais, e por isso foi utilizado novamente a funcao “fillna()”, mas desta vez com atributo “method=bfill” para preencher espaços vazios com o próximo valor.

In [None]:
df1m = df1.fillna(method = 'ffill').resample('BM').mean().fillna(method = 'bfill')
df1m.head()

#### 3.5. Criação da variável target 

A variável target é o “padrao” cujos classificadores vão comparar com os indicadores, ela representa o alvo da classificação, que no caso desse projeto é a valorização da ação no período de um mês, por isso os valores dessa variável são binários, “1” para valorização e “0” para desvalorização.  Os valores da coluna dessa variável (return) foram construídos fazendo a diferença entre o preço da ação no determinado mês e o do anterior, e atribuindo o valor ”1” caso essa diferença fosse positiva e “0” caso fosse negativa

In [None]:
df1m['return'] = (df1m['PX_LAST'].diff()>0).astype('int')

____
### 4. Análise exploratória dos dados
<div id='EDA'></div>

O objetivo da análise exploratória é facilitar a compreensão e interpretação dos dados e maximizar a escolha dos indicadores para a classificação, além de facilitar o reconhecimentos de falhas nos dados, como quantidades consideráveis de valores faltando e outliers.

#### 4.1. Medidas resumo

Embora não tenham uma interpretação visual muito direta, as medidas resumo podem ser bem úteis por apresentarem alta padronização, além de conterem valores que ajudam a compreensão do DataSet

In [None]:
df1m.describe().T

Antes do preenchimento das lacunas no DataSet havia muitos valores faltando pois vários indicadores começam em datas diferentes. A função dessa célula é simplesmente checar se não há valores faltando para não ter problemas nas etapas seguintes

In [None]:
df1m.isna().sum()


#### 4.2. Heat map de correlações

A função desse mapa, além de facilitar a compreensão dos indicadores do DataSet, é permitir a visualização da relação entre cada indicador, para que no fim esses resultados sejam comparados com os coeficientes calculados pelos métodos de classificação.

In [None]:
fig = plt.figure(figsize=(10,8))
sb.heatmap(df1m.corr(),annot=True,linewidths=.5);

#### 4.3. Gráfico dos indicadores no tempo

Nessa célula os indicadores são plotados em função do tempo. Essa visualização é muito importante principalmente para analisar anomalias mais grosseiras nos dados, como problemas de formatação ou falta excessiva de valores de alguns indicadores em relação a outros no DataSet.

In [None]:
fig, axes = plt.subplots(nrows=1,ncols=2,figsize=(12,20)) 
fig.subplots_adjust(top=0.96) 
df1m.plot(ax = axes[1],subplots=True); 
fig.suptitle('Indicadores x Tempo') 
plt.show()



#### 4.4. Box plot para análise de outliers 

A análise de outliers é fundamental para a acurácia dos processos de regressão e classificação.
Como as variáveis do DataSet utilizado são indicadores financeiros, é esperado que o comportamento destes tenham tendências de crescimento e decrescimento a longo prazo, mas não é esperado a existência de muitos outliers que de fato representam dados reais, a maioria é explicada por erros no DataSet

In [None]:
fig = plt.figure(figsize=(12, 21))
fig.subplots_adjust(top=0.96) 
for indicator in indicators_1:
    plt.subplot(6, 3, indicators_1.index(indicator)+1)
    sb.boxplot(x=df1m[indicator])
fig.suptitle('Box Plot dos indicadores') 
plt.show()



Essa analise mostra que alguns indicadores tem uma quantidade de outliers desproporcionalmente maior do que outros, parte porque alguns tem tendencia 
oscilatoria com periodos maiores, ou ate se mantem em longos regimes de crescimento ou decrescimento. A analise 
é mais eficaz se feita em conjunto com os graficos dos indicadores no tempo, a qual indica a natureza dos outiers (dados errados, falta de dados etc)


#### 4.5. Seleção de Indicadores 

As decisões de retirar indicadores na análise é feita fundamentalmente com base em um princípio: manter o menor número de variáveis que são responsáveis pela maior parte dos resultados da classificação, ou seja, as variáveis com maior relevância. Isso se dá pelo fato de que um número excessivo de variáveis aumenta a probabilidade de erros, pois quando mais variáveis, maior a chance de uma delas explicar uma parte do comportamento da variável target de maneira aleatória.

In [None]:
del df1m['PE_RATIO']
del df1m['RETURN_COM_EQY']
del df1m['NET_INCOME']
#del df1m['CF_CASH_FROM_INV_ACT']
#del df1m['TOT_DEBT_TO_COM_EQY']
# del df1m['EQY_SH_OUT']
# del df1m['PX_TO_BOOK_RATIO']

Os três indicadores retirados apresentaram P-valor muito superior a média, e essa alteração representou uma melhora significativa na acurácia nos resultados da maioria dos classificadores. 

___
### 5. Preparação do DataSet para os classificadores

<div id='data_prep'></div>

Nessa célula as variáveis 'features' e 'target' sao associadas aos classificações, além de dividir o DataSet em uma base de treino e uma de teste. Nesse projeto, as variáveis features são os indicadores financeiros e a target é um binário que indica se a ação valorizou ou desvalorizou.

A razão utilizada para as bases de teste e treinamento foi 80% de treinamento e 20% de teste. Um atributo utilizado foi o random_state=6, que tem a função de fixar os valores do teste. Essa utilização foi necessária pois o DataSet é relativamente pequeno, e os resultados refletem isso variando muito.



In [None]:
target = df1m.loc[:,'return']
indicators = df1m.iloc[:,:-1]
train_indicators, test_indicators, train_target, test_target = train_test_split(indicators, target, train_size=0.8, random_state=4)

___
### 6. Classificação por Regressão Logistica Multinominal

<div id='class_lr'></div>


In [None]:
# Regressao logistica multipla da biblioteca sklearn
modelo_lr = linear_model.LogisticRegression().fit(train_indicators, train_target)
# retorna valores de test_target, baseado nos valores de test_indicators
pred_lr = modelo_lr.predict(test_indicators)

In [None]:
print("Acurácia:",'{0:.4g}'.format(metrics.accuracy_score(test_target, pred_lr)*100),'%')
print("Precisão:",'{0:.4g}'.format(metrics.precision_score(test_target, pred_lr)*100),'%')

In [None]:
lr_matrix = metrics.confusion_matrix(test_target, pred_lr)
normalized_lr = lr_matrix / lr_matrix.astype(np.float).sum()
print("Verdadeiros positivos:", '{0:.4g}'.format(normalized_lr[0][0]*100),'%')
print("Verdadeiros negativos:", '{0:.4g}'.format(normalized_lr[1][1]*100),'%')
print("Falsos positivos:", '{0:.4g}'.format(normalized_lr[0][1]*100),'%')
print("Falsos negativos:", '{0:.4g}'.format(normalized_lr[1][0]*100),'%')

In [None]:
logit_model = sm.Logit(train_target,train_indicators)
result=logit_model.fit()
print(result.summary2())

___
### 7. Classificação por Random Forest
<div id="class_rf"></div>


Um n_estimators = 100 significa que foram criadas 100 arvores de decisão, que foi o valor que apresentou melhores resultados. O random_state=0 significa que a criação dos DataSets permutado não se altera a cada vez que o código é rodado. E o n_jobs=-1 indica que todos os processadores da CPU para realizar os cálculos em paralelo das arvores de decisão

In [None]:
clf = RandomForestClassifier(n_jobs=-1, random_state=0, n_estimators=100)

clf.fit(train_indicators, train_target)
pred_rf = clf.predict(test_indicators)

In [None]:
print("Acurácia:",'{0:.4g}'.format(metrics.accuracy_score(test_target, pred_rf)*100),'%')
print("Precisão:",'{0:.4g}'.format(metrics.precision_score(test_target, pred_rf)*100),'%')

In [None]:
rf_matrix = metrics.confusion_matrix(test_target, pred_rf)
normalized_rf = rf_matrix / rf_matrix.astype(np.float).sum()
print("Verdadeiros positivos:", '{0:.4g}'.format(normalized_rf[0][0]*100),'%')
print("Verdadeiros negativos:", '{0:.4g}'.format(normalized_rf[1][1]*100),'%')
print("Falsos positivos:", '{0:.4g}'.format(normalized_rf[0][1]*100),'%')
print("Falsos negativos:", '{0:.4g}'.format(normalized_rf[1][0]*100),'%')

___
### 8. Classificação por Gradient Boosting
<div id="class_gb"></div>


Um n_estimators = 20 significa que foram criadas 20 stumbs, que foi o valor que apresentou melhores resultados, provavelmente por não causar over-fitting, visto que o DataFrame é relativamnete pequeno. O random_state=0 significa que a criação dos DataSets permutados não se altera a cada vez que o código é rodado. O learning_rate=1 controla a atribuição dos pesos a cada atumb criado e analisado. O max_depth=2 limita o número de ramos de cada arvore de decisões a apenas 2. O max_features=2 limita o número de indicadores analisados para seguir para um novo ramo da árvore de decisões.

In [None]:
gb_clf = GradientBoostingClassifier(n_estimators=20, learning_rate=1, max_features=2, max_depth=2, random_state=0)
gb_clf.fit(train_indicators, train_target)

pred_gb = gb_clf.predict(test_indicators)

In [None]:
print("Acurácia:",'{0:.4g}'.format(metrics.accuracy_score(test_target, pred_gb)*100),'%')
print("Precisão:",'{0:.4g}'.format(metrics.precision_score(test_target, pred_gb)*100),'%')

In [None]:
gb_matrix = metrics.confusion_matrix(test_target, pred_gb)
normalized_gb = gb_matrix / gb_matrix.astype(np.float).sum()
print("Verdadeiros positivos:", '{0:.4g}'.format(normalized_gb[0][0]*100),'%')
print("Verdadeiros negativos:", '{0:.4g}'.format(normalized_gb[1][1]*100),'%')
print("Falsos positivos:", '{0:.4g}'.format(normalized_gb[0][1]*100),'%')
print("Falsos negativos:", '{0:.4g}'.format(normalized_gb[1][0]*100),'%')

___
### 9. Classificação pela combinação das 3 técnicas anteriores
<div id="class_comb"></div>

A associação dos três métodos anteriores foi feita comparando o resultado dos três classificados e selecionando o resultado mais frequente entre eles. Esse processo foi feito com um loop que percorre os arrays dos resultados, os compara e gera um novo array

In [None]:
pred_combination = []
for i in range(len(pred_lr)):
    if (pred_lr[i] + pred_rf[i] + pred_gb[i]) >= 2:
        pred_combination.append(1)
    else:
        pred_combination.append(0)

In [None]:
real = np.array(test_target)
results_df = pd.DataFrame({'real': real, 'pred_lr': pred_lr, 'pred_rf': pred_rf, 'pred_gb': pred_gb})
combination_df = pd.DataFrame({'pred_comb': pred_combination})

In [None]:
results_df['pred_comb'] = combination_df
results_df.head()

In [None]:
print("Acurácia:",'{0:.4g}'.format(metrics.accuracy_score(test_target, pred_combination)*100),'%')
print("Precisão:",'{0:.4g}'.format(metrics.precision_score(test_target, pred_combination)*100),'%')

In [None]:
comb_matrix = metrics.confusion_matrix(test_target, pred_combination)
normalized_comb = comb_matrix / comb_matrix.astype(np.float).sum()
print("Verdadeiros positivos:", '{0:.4g}'.format(normalized_comb[0][0]*100),'%')
print("Verdadeiros negativos:", '{0:.4g}'.format(normalized_comb[1][1]*100),'%')
print("Falsos positivos:", '{0:.4g}'.format(normalized_comb[0][1]*100),'%')
print("Falsos negativos:", '{0:.4g}'.format(normalized_comb[1][0]*100),'%')

___
### 10. Análise de resultados
<div id="analysis"></div>

#### 10.1. Comparação de desempenho
<div id="analysis_1"></div>

Dentre os 4 métodos de classificação, o que demonstrou melhor desempenho foi o Gradient Boosting, foi o mais responsivo às alterações feitas (retirada de indicadores baseada nos P-valores e utilização de atributos específicos em cada função) e foi o que apresentou maior acurácia (na maioria do testes entre 66 e  78%) na grande maioria dos testes com diferentes amostras do DataSet. Uma possível explicação para esse resultado é que seu funcionamento fragmentado em muitos processos de uma classificação simples (stumps), combinado com a auto avaliação e correção, resulta em um processo mais consistente, ideal para ser utilizado com DateSets relativamente reduzidos como o que foi utilizado nesse projeto.

A classificação utilizando Random Forest não resultou em tanta acurácia, responsividade e consistência como a do Gradient Boosting, mas apresentou resultados satisfatórias se considerar que na maioria dos testes variando a amostragem do DateSet de treinamento ele resultou em valores entre 56 e 66% de acurácia. O seu método interno de classificação é muito similar ao do Gradient Boosting, mas não conta com o processo de atribuição de pesos as amostras classificadas com cada arvore de decisões, talvez por isso não apresente consistência e acurácia tão altas.

O classificador com menor desempenho foi a Regressão Logística Multinominal, durante os testes foi o que apresentou menor responsividade as alterações nos indicadores e na maioria dos testes apresentou acurácia baixa, entre 48 e 55%. A Consistência entre suas medidas também fi a mais baixa, variando muito com as mudanças de amostragem do Dataset de treinamento.

Por fim, o classificador cujo resultados finai é uma “votação” entre os ter classificadores. Não houve uma performance espantosa, na maioria dos testes a acurácia de seus resultados ficou entre o Gradient Boosting e o Random Forest, entretanto apresentou menor consistência nesses valores. Uma possível explicação para o desempenho não muito alto foi a utilização da regressão multinominal, que possivelmente contribuiu para a redução de sua acurácia.


#### 10.2. Proceso de aperfeicoamento 
<div id="analysis_2"></div>

Na primeira versão do modelo, o DataSet diário havia sido convertido para trimestral, pois era a maior unidade de tempo presente (indicadores trimestrais), mas com essa alteração, o que inicialmente tinha 12477 linhas passou a ter 139, e isso é um grande problema para a acurácia de um classificador. Além disso, o DataSet utilizado estava na formatação do próprio Excel, mas ao se analisar os gráficos dos indicadores no tempo foi observado um número muito alto de outliers, por isso houve uma análise mais detalhada do Excel e foi  constatado que haviam diversos erros congruência entre as datas de cada indicador pelo tipo de formatação utilizada. 

Para a segunda versão, cada indicador foi tratado individualmente e ao final do processo de retificação do tipo dos tipos de viáveis, nomes de colunas, valores faltando etc., foi feita a fusão de todos eles em um único DataFrame. Essa estratégia não resolveu o problema das datas e na verdade o agravou, pois os erros presentes na coluna de cada indicador se propagaram com o processo de uni-los no mesmo DataFrame, e surgiram inúmeras linhas com a mesma data e valores diferente.

Para a versão final, as datas da planilha Excel da primeira versão foram retificadas, e o processo de seleção de datas que possuíam valores foi deixada para o Pandas, sendo que anteriormente houve a tentativa de se realizar essa tarefa no próprio Excel. Para confirmar o aperfeiçoamento, os gráficos foram novamente checados e foi observado que a quantidade de outliers havia sido reduzida significativamente. 




#### 10.3 Possiveis melhorias
<div id="analysis_3"></div>

* Incluir uma análise de sentimentos em redes sociais com Naive Bayes, tendo como objeto de análise palavras chave que remetam a empresa cujos indicadores estão sendo analisados e classificadores.
* Substituir a Regressão Logística Multinominal por outro método, por exemplo Redes Neurais
* Usar uma base de treinamento composta por indicadores de várias empresas 



___
### 11. Bibliografia
<div id="bibl"></div>


regressao logistica 1: https://dataaspirant.com/2017/05/15/implement-multinomial-logistic-regression-python/ 

regressao logistica 2: https://www.datacamp.com/community/tutorials/understanding-logistic-regression-python

outliers: https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba

datetime index: http://sergilehkyi.com/tips-on-working-with-datetime-index-in-pandas/

random forest: https://chrisalbon.com/machine_learning/trees_and_forests/random_forest_classifier_example/

gradient boosting: https://stackabuse.com/gradient-boosting-classifiers-in-python-with-scikit-learn/