# Projeto de dados do mercado financeiro


____
## Objetivo: ver como os bancos performaram durante a [crise financeira](https://en.wikipedia.org/wiki/Financial_crisis_of_2007%E2%80%9308) até o início de 2016.

## Obter dados

Usaremos o pandas para ler diretamente os dados das finanças do yahoo usando pandas!

Primeiro, precisamos começar com as importações adequadas:

* Nota: [Você precisará instalar pandas-datareader para que isso funcione!](Https://github.com/pydata/pandas-datareader) O datareader Pandas permite que você [leia informações de estoque diretamente da internet](http : //pandas.pydata.org/pandas-docs/stable/remote_data.html) Use estes links para orientação de instalação (** pip install pandas-datareader **), ou simplesmente acompanhe a conferência de vídeo. *


In [4]:
from pandas_datareader import data, wb
import pandas as pd
import numpy as np
import datetime
%matplotlib inline

ModuleNotFoundError: No module named 'pandas_datareader'

## Dados

Precisamos obter dados usando o datareader de pandas. Obteremos informações sobre ações para os seguintes bancos:
* Bank of America
* CitiGroup
* Goldman Sachs
* JPMorgan Chase
* Morgan Stanley
* Wells Fargo

** Vamos usar o período de ações de 1 de janeiro de 2006 a 1º de janeiro de 2016 para cada um desses bancos. Para isso foi definido cada banco como um dataframe separado, com o nome da variável para que esse banco seja seu símbolo de ticker. Isso envolveu algumas etapas: **
1. Usar datetime para definir objetos de início e fim de data e hora.
2. Descobrir o símbolo do ticker para cada banco.
2. Descubra como usar o datareader para pegar as cotações.



In [None]:
start = datetime.datetime(2006, 1, 1)
end = datetime.datetime(2016, 1, 1)

In [None]:
# Bank of America
BAC = data.DataReader("BAC", 'yahoo', start, end)

# CitiGroup
C = data.DataReader("C", 'yahoo', start, end)

# Goldman Sachs
GS = data.DataReader("GS", 'yahoo', start, end)

# JPMorgan Chase
JPM = data.DataReader("JPM", 'yahoo', start, end)

# Morgan Stanley
MS = data.DataReader("MS", 'yahoo', start, end)

# Wells Fargo
WFC = data.DataReader("WFC", 'yahoo', start, end)

In [None]:
# Could also do this for a Panel Object
df = data.DataReader(['BAC', 'C', 'GS', 'JPM', 'MS', 'WFC'],'yahoo', start, end)

** Criando uma lista dos símbolos dos tickers (como strings) em ordem alfabética. Nome da lista: tickers **

In [None]:
tickers = ['BAC', 'C', 'GS', 'JPM', 'MS', 'WFC']

** Usando pd.concat para concatenar os DataFrames do banco juntos em um único chamado bank_stocks. E definido o argumento das chaves igual à lista de tickers. **

In [None]:
bank_stocks = pd.concat([BAC, C, GS, JPM, MS, WFC],axis=1,keys=tickers)

** Definindo os níveis dos nomes das colunas: **

In [None]:
bank_stocks.columns.names = ['Bank Ticker','Stock Info']

** Verificando o cabeçalho do DataFrame bank_stocks. **

In [None]:
bank_stocks.head()

# Análise de dados exploratória

Nota: Antes de prosseguir, sugiro que você verifique a documentação no [Multi-Level Indexing](http://pandas.pydata.org/pandas-docs/stable/advanced.html) e [Usando .xs](http: // pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.xs.html).
Consulte as soluções se você não consegue descobrir como usar .xs (), uma vez que isso será uma parte importante desse projeto.

** Qual é o preço máximo de fechamento para o estoque de cada banco durante todo o período? **

In [None]:
bank_stocks.xs(key='Close',axis=1,level='Stock Info').max()

** O DataFrame returns conterá os retornos para o ação de cada banco. Os retornos geralmente são definidos por: **

$$r_t = \frac{p_t - p_{t-1}}{p_{t-1}} = \frac{p_t}{p_{t-1}} - 1$$

In [None]:
returns = pd.DataFrame()

** Usando o método pct_change () pandas na coluna close para criar uma coluna que represente esse valor de retorno. Depois criamos um loop for que vá e para cada Bank Stock Ticker cria essa coluna de retorno e configura-a como uma coluna nos dados DataFrame. **

In [None]:
for tick in tickers:
    returns[tick+' Return'] = bank_stocks[tick]['Close'].pct_change()
returns.head()

** Parplot utilizando seaborn no dataframe de retorno. **

In [None]:
#returns[1:]
import seaborn as sns
sns.pairplot(returns[1:])

** Usando o DataFrame returns, quero saber quais datas cada ação dos bancos teve o melhor e o pior dia de retorno. Notamos que 4 dos bancos compartilham o mesmo dia para a pior queda. Alguma coisa significante aconteceu naquele dia? **

In [None]:
returns.idxmin()

In [None]:
returns.idxmax()

** Dê uma olhada no desvio padrão dos retornos. Qual ação você classificaria como a mais arriscada durante todo o período de tempo? Qual você classificaria como a mais arriscado para o ano 2015? **

In [None]:
returns.std() # Citigroup é a mais arriscada

In [None]:
returns.ix['2015-01-01':'2015-12-31'].std() # Muito similares, mas podemos escolher Morgan Stanley ou BofA

** Crie um distplot usando seaborn dos retornos de 2015 para Morgan Stanley **

In [None]:
sns.distplot(returns.ix['2015-01-01':'2015-12-31']['MS Return'],color='green',bins=100)

** Crie um distplot usando seaborn dos retornos de 2008 para CitiGroup **

In [None]:
sns.distplot(returns.ix['2008-01-01':'2008-12-31']['C Return'],color='red',bins=100)

# Mais visualização

Muito desse projeto se concentrará em visualizações. Sinta-se livre para usar qualquer uma das suas bibliotecas de visualização preferidas para tentar recriar os plots descritos abaixo, seaborn, matplotlib, plotly e cufflinks, ou apenas pandas.

### Importações

In [2]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

** Crie um gráfico de linha mostrando o preço de fechamento para cada banco para todo o índice de tempo. (Sugestão: tente usar um loop for ou use [.xs](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.xs.html) para obter uma seção transversal dos dados .) **

In [3]:
for tick in tickers:
    bank_stocks[tick]['Close'].plot(figsize=(12,4),label=tick)
plt.legend()

NameError: name 'tickers' is not defined

In [None]:
bank_stocks.xs(key='Close',axis=1,level='Stock Info').plot()

## Médias móveis

Vamos analisar as médias móveis para essas ações no ano de 2008.

** Trace a média de 30 dias para o preço próximo do Bank Of America para o ano de 2008 **

In [None]:
plt.figure(figsize=(12,6))
BAC['Close'].ix['2008-01-01':'2009-01-01'].rolling(window=30).mean().plot(label='30 Day Avg')
BAC['Close'].ix['2008-01-01':'2009-01-01'].plot(label='BAC CLOSE')
plt.legend()

** Crie um mapa de calor da correlação entre os preços de fechamento das ações. **

In [None]:
sns.heatmap(bank_stocks.xs(key='Close',axis=1,level='Stock Info').corr(),annot=True)

** Opcional: use o clustermap do seaborn para agrupar as correlações: **

In [None]:
sns.clustermap(bank_stocks.xs(key='Close',axis=1,level='Stock Info').corr(),annot=True)

Definitivamente, muitos tópicos de finanças específicos aqui, então não se preocupe se você não os entendeu todos! A única coisa que você deve estar preocupado com a compreensão são os pandas básicos e operações de visualização.