<a href="https://colab.research.google.com/github/KaissonFerreira/Projeto-S-P500/blob/main/project_S%26P500.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**S&P 500 - (banco de dados retirados do Kaggle)**
https://www.kaggle.com/paytonfisher/sp-500-companies-with-financial-information


---

##Contexto de negócio##


---


  O S&P 500 é um índice ponderado por capitalização das **500 maiores empresas de capital aberto** dos Estados Unidos (significando as 500 maiores empresas com maior capitalização de mercado). O índice S&P 500 é um índice útil para estudar porque geralmente reflete a saúde de todo o mercado de ações dos Estados Unidos. 

  Nesse banco dados, podemos encontrar alguns dos principais indicadores para investir em uma empresa. Tais indicadores estão correlacionados com as 500 maiores empresas de capitalização dos EUA. Assim, um dos objetivos desse projeto é **analisar as empresas que possuem maiores chances de valorização em suas ações**. Entretanto, vale ressaltar, que por si só, esses indicadores não são suficientes para ter um alto grau de confiabilidade a longo prazo, mas é possível retirar alguns insight que possam **auxiliar** na tomada de decisão do investidor para escolher em qual ação investir.

  Para analisar uma determinada ação de uma empresa e verificar se vale a pena investir nela, há dois métodos de avaliação. O primeiro deles é a **análise fundamentalista**, que tem por objetivo obter lucros no investimento a médio e longo prazo, e a **análise técnica**, que tem por objetivo obter ganhos financeiros a curto prazo, e, que de modo simplório, esse tipo de análise tem como foco os padrões e movimentações das ações por meio de gráficos.

  Esse projeto aborda uma análise fundamentalista, mediante aos tipos de dados oferecidos. Esse tipo de análise consiste em fundamentos quantitativos e qualitativos.

* **Fundamentos quantitativos**: São aqueles que são medidos em números **(os 
dados do projetos estão inseridos nessa categoria)**.

* **Fundamentos qualitativos**: São fatores internos e externos que podem contribuir com a rentabilidade e crescimento da empresa, favorencendo seus ganhos financeiros, mas que também podem levar uma empresa ao prejuízo, e consequentemente, aos acionistas.






#**Cumprimento de alguns requisitos para geração de Insights**
Categorizando as empresas por setores, temos que:
* Identificar quais são os setores que tem uma maior lucrativade;
* Identificar quais são os setores que tem um maior retorno de dividendos para os acionistas;
* Identificar quais são os setores mais valiosos no mercado (Market cup);

Analisando as empresas dos principais setores, temos que: 

* Identificar quais são as melhores empresas para se investir em cada setor, analisando o P/E o dividendo Yeld;
* Analisar o Market Cup (capitalização de mercado) das empresas escolhidas;
* Analisar o número de ações de cada empresa;
* Identificar quais empresas apresentam uma melhor gestão operacional de caixa, sem atribuir os efeitos financeiros e de impostos; (Analisar o EBITDA)
* Identificar quais são as empresas que demonstram um maior potencial de crescimentos; (Analisar o Prices/book)

#**Passo a passo de um projeto de dados** :



1.   Entendimento do desafio
2.   Entendimento da área/empresa
3.   Extração/Obtenção de dados
4.   Ajuste de dados (tratamento/limpeza)
5.   Análise exploratória
6.   Modelagem + algorítmos (modelos de machine learning)
7.   Interpretação de resultados

## **Import**


Importando algumas bibliotecas que serão utilizadas no projeto:


In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


## **Extração e tratamento**

Importando a base de dados e verificando se há elementos faltantes.

In [18]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Projeto S&P 500/financials.csv')
display(df.head()) #Verificando os indicadores presentes no banco de dados
display(df.isnull().sum()) #Verificando e somando os elementos faltantes
df = df.rename(columns={'Price/Sales':'P/S','Price/Book':'P/B','Dividend Yield':'DY','Earnings/Share':'E/S','Price/Earnings':'P/E'}) # Renomeando alguns desses indicadores.


Unnamed: 0,Symbol,Name,Sector,Price,Price/Earnings,Dividend Yield,Earnings/Share,52 Week Low,52 Week High,Market Cap,EBITDA,Price/Sales,Price/Book,SEC Filings
0,MMM,3M Company,Industrials,222.89,24.31,2.332862,7.92,259.77,175.49,138721100000.0,9048000000.0,4.390271,11.34,http://www.sec.gov/cgi-bin/browse-edgar?action...
1,AOS,A.O. Smith Corp,Industrials,60.24,27.76,1.147959,1.7,68.39,48.925,10783420000.0,601000000.0,3.575483,6.35,http://www.sec.gov/cgi-bin/browse-edgar?action...
2,ABT,Abbott Laboratories,Health Care,56.27,22.51,1.908982,0.26,64.6,42.28,102121000000.0,5744000000.0,3.74048,3.19,http://www.sec.gov/cgi-bin/browse-edgar?action...
3,ABBV,AbbVie Inc.,Health Care,108.48,19.41,2.49956,3.29,125.86,60.05,181386300000.0,10310000000.0,6.291571,26.14,http://www.sec.gov/cgi-bin/browse-edgar?action...
4,ACN,Accenture plc,Information Technology,150.51,25.47,1.71447,5.44,162.6,114.82,98765860000.0,5643228000.0,2.604117,10.62,http://www.sec.gov/cgi-bin/browse-edgar?action...


Symbol            0
Name              0
Sector            0
Price             0
Price/Earnings    2
Dividend Yield    0
Earnings/Share    0
52 Week Low       0
52 Week High      0
Market Cap        0
EBITDA            0
Price/Sales       0
Price/Book        8
SEC Filings       0
dtype: int64

Observa-se que há alguns elementos vazios no indicador P/E (Price/Earnings ou preço da ação pelo lucro). Então podemos calcular as células faltantes pela razão entre os dados da coluna Price (Preço da ação) e da coluna E/S (Earnings/Shere ou lucro por ação).

In [17]:
df['P/E'].fillna(df['Price']/df['E/S'], inplace=True)
print(df['P/E'].isnull().sum()) #Verificando se de fato foram preenchidos os dados faltante na coluna Price/Earnings.

0


Os elementos vazios presentes na coluna P/B (Price/Book ou preço sobre valor patrimonial) não serão tratados no momento. Quando ocorrer as análises sobre esse indicador, poderemos afirmar de qual maneira ele poderá ser tratado.
Desse modo, terminamos a parte de tratamento e limpeza dos dados.

##**Análise Exploratória**


---



---


Na análise exploratória, poderemos retirar alguns dos insights propostos no inicio desse projeto. Para isso, será dividido em dois segmentos, um caracterizado pela análise entre setores e o outro carcterizado pela análise de empresas do mesmo setor (diga-se por passagem, que é uma análise bem mais conveniente).

###**Comparação de alguns indicadores entre o mesmo setor**


---
Primeiro será feito a categorização de dados por setor e armazenado em outra variável.

###**Comparação dos indicadores entre empresas do mesmo setor**
---
Como existem diversos setores, será avaliado os 5 primeiros setores com mais empresas.


0      False
1      False
2      False
3      False
4      False
       ...  
500    False
501    False
502    False
503    False
504    False
Name: P/B, Length: 505, dtype: bool
