# Regressão Linear
> Encontrando a melhor linha

- toc: true 
- badges: true
- comments: true
- categories: [machine learning, aprendizado supervisionado]
<!-- - image: images/chart-preview.png -->

## TL;DR

Regressão linear é um modelo supervisionado de machine learning, que busca encontrar a linha que melhor representa um grupo de pontos.

---

# Senta que lá vem história...

Quando eu morava nos Estados Unidos, estudando engenharia mecânica, eu tive um curso sobre experiências - como as incertezas das medidas vinda dos aparelhos se apresentavam nos resultados. Não muito importante. Mas no experimento, eu e meu parceiro (vamos chamá-lo de Túlio) deveríamos pesar um [béquer](https://pt.wikipedia.org/wiki/B%C3%A9quer) com um líquido várias vezes (com diferentes volumes) e decidir se esse líquido era de água ou não - através do post, vamos supor sim.

Eu sabia que independentemente do que fosse, a gente deveria ver uma linha de pontos, já que todos líquidos têm uma densidade constante, e a peso total é proporcional ao volume $peso_{total} = densidade \cdot volume + peso_{béquer}$. Mas para a minha surpresa não foi bem isso que observamos.

<!-- <div style="text-align:center"><img src="" /></div> --> - manim: expectativa vs realidade

**Porquê?**

A balança não é exata, e quando medimos o volume também cometemos erros. Quando levamos tudo me consideração, isso faz diferença dependendo da sensibilidade do nosso experimento. Essas erros aleatórios que variam, normalmente são pequenos e não podemos prever chamamos de [ruído](https://pt.wikipedia.org/wiki/Ru%C3%ADdo). Mas mesmo com esse ruído todo, é possível encontrar os pontos se não tivéssemos ruído nenhum?

## O setup

Estamos tentando aproximar a peso de um béquer com água, sendo que sabemos a peso do béquer {% fn 2 %}. Ou seja:

* $P \leftarrow$ funcao do peso total do liquido no becker
* $\rho \leftarrow$ densidade do liquido
* $P_{becker} \leftarrow$ peso do becker

$$P(V) = \rho V + P_{becker}$$

> Tip: Fique atento às letras aqui e o que elas significam, porque vamos usá-las ao longo do post

Isso é o que queremos aproximar, mas também observamos o ruído. Com o ruído, a equação pode ser escrita assim:

* $\epsilon \leftarrow$ ruído (um pequeno erro e aleatório)

$$P(V) = \rho V + P_{becker} + \epsilon$$

## Abordagem ingênua

Quando olhamos, fica claro que os pontos formam uma nuvem ao redor de uma reta. E também não é muito dificil de traçar uma linha na mão. Linha traçada e problema resolvido.

A primeira coisa que eu pensei foi: vou no olho! Quão difícil pode ser?

<!-- <div style="text-align:center"><img src="" width="30%"/></div> --> -manim: draw line

<div style="text-align:center"><img src="https://media.giphy.com/media/3ztiZa4eICWGs/giphy.gif" width="30%"/></div>

Mas era bom demais pra ser verdade - o Túlio resolveu ele traçar uma linha também. Que era muito parecida com a minha, mas ele insistia que a dele era uma aproximação melhor. Como que a gente poderia comparar as linhas? Qual era a melhor? Como eu poderia provar pra ele que a **minha** era melhor?

## A função do erro

Nós estamos tentando aproximar a linha que melhor representa os pontos, certo? E, pra cada volume que medimos nós temos um peso observado e o peso que a nossa linha (nossa função) estimava. A diferença entre os dois nos da o erro pra esse ponto! Se somarmos todos os pontos, temos um erro da nossa linha! Ou seja, quem tiver a menor soma de erros tem a melhor linha. Visualmente fica:

<!-- <div style="text-align:center"><img src="" /></div> --> - manim: erro vertical

Mas também temos que tomar cuidado já que temos erros positivos e negativos - se o nosso ponto está acima ou abaixo da linha. Uma maneira fácil de resolver isso é tirar o quadrado desses erros, já que qualquer número (real) ao quadrado vai gerar um outro número positivo. Também sugeri dividirmos pelo número de pontos, pra poder comparar com as aproximações de outros grupos (que coletaram um número diferente de observações).

> Note: Nós não precisaríamos dividir pelo número de pontos já para mim e para o Túlio esse número é igual, e estamos vendo quem tem o **menor** erro entre nós.

<!-- <div style="text-align:center"><img src="" /></div> --> - manim: mse inteiro

Na verdade, não estávamos sendo nem um pouco inovativos. Essa métrica para comparar erros de valores numéricos existe e há bastante tempo. Em estatística, é muito comum ver isso como o [erro quadrático médio](https://pt.wikipedia.org/wiki/Erro_quadr%C3%A1tico_m%C3%A9dio). Esse valor nos dá o quão bom uma função (no nosso caso uma linha) aproxima um grupo de pontos numéricos.

## Como melhorar o nosso chute?

Dúvida resolvida, e os números claramente mostravam que a minha aproximação tinha um erro menor. Mas depois disso, fiquei pensando: "se nós temos um erro da nossa função, não daria pra encontrar o mínimo dessa função e assim encontrar a menor linha possível?"

Sim. Podemos! Existem um grupo de algorítmos chamados de [algorítmos de otimização](https://pt.wikipedia.org/wiki/Otimiza%C3%A7%C3%A3o), que buscam fazer exatamente isso - encontrar mínimos (ou máximos) de uma função. Um desses algorítmos é o [gradient descent](https://murilo-cunha.github.io/inteligencia-superficial/machine%20learning/algoritmos%20de%20otimiza%C3%A7%C3%A3o/aprendizado%20supervisionado/2020/04/12/grad_desc.html).

Vamos ver como é que fica.

### A nossa linha

Antes de falar como fazemos pra melhorar a nossa aproximação, vamos lembrar da definição da nossa linha:

* $P \leftarrow$ função do peso total do líquido no béquer
* $\rho \leftarrow$ densidade do líquido
* $P_{becker} \leftarrow$ peso do béquer

$$P(V) = \rho V + P_{béquer}$$

E, mais formalmente falando, o que eu e o Túlio estávamos procurando são os melhores valores de $\rho$ e $P_{becker}$, já que são esses valores que definem a reta. E a função do erro então fica:

* $E \leftarrow$ função do erro da nossa linha baseado nas nossas observações
* $V_{obs} \leftarrow$ peso total observado
* $P_{obs} \leftarrow$ peso total observado
* $N \leftarrow$ número de observações


$$E(P_{béquer},\rho) =  \frac{1}{N}\sum_{obs=1}^{N}{(P(V_{obs}) - P_{obs})^2}$$

Eu sei que é mais intimidador quando colocamos tudo de uma vez em uma equação. Mas lembra que essa equação está descrevendo nada mais é do que discutimos [acima](##A-função-do-erro). Tome seu tempo pra verificar que faz sentido o que está acontecendo aqui - estamos somando os "erros verticais" ao quadrado, e dividindo a soma pelo número total de pontos.

Agora, como podemos ajustar os valores de $\rho$ e $P_{becker}$ pra melhorar nossa aproximação?

### Aplicando o gradient descent

Tudo o que precisamos fazer para aplicar o "gradient descent" (descida do gradiente) é definir uma função diferenciável que descreve o **erro** da nossa aproximação.

![]({{ site.baseurl }}/assets/manim/videos/grad_desc/480p15/CostSteps.gif "Passo-a-passo visualizado")

Lembre-se que em gradient descent, nós reduzimos o erro dando um passo na direção oposta do gradiente - ou seja, na direção oposta da derivada em cada dimensão{% fn 1 %}. Como que fica o update de cada parâmetro?

Mas antes de mergulharmos nas letrinhas, queria lembrar que essa provavelmente vai ser a parte mais confusa, especialmente se essa é a primeira vez que você está vendo isso. Mas vamos com calma. Vamos definir alguns termos daqui a pouco, mas também vamos explicá-los um por um, e até resolver um exemplo. Até o fim desse post tudo vai ficar mais claro. E fique à vontade para ler, pensar e reler, até que você fique confortável.

> Warning: Matemática à frente

<!-- <div style="text-align:center"><img src="" /></div> --> - manim: transformacoes da equacao

Ou então, um passo a passo mais detalhado (que parece mais complicado do que realmente é):

As derivadas parciais da nossa função de erro:

> Note: Para calcular as derivadas parciais da nossa função de erro nós devemos usar a [regra da cadeia](https://pt.khanacademy.org/math/ap-calculus-ab/ab-differentiation-2-new/ab-3-1a/a/chain-rule-review).

$$\frac{\partial E}{\partial P_{becker}}(P_{becker},\rho) =  \frac{2}{N}\sum_{obs=1}^{N}{(P(V_{obs}) - P_{obs})} \cdot \frac{\partial P}{\partial P_{becker}}(V_{obs})$$

$$\frac{\partial E}{\partial \rho}(P_{becker},\rho) =  \frac{2}{N}\sum_{obs=1}^{N}{(P(V_{obs}) - P_{obs})} \cdot \frac{\partial P}{\partial \rho}(V_{obs})$$

As [derivadas parciais](https://pt.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/partial-derivative-and-gradient-articles/a/introduction-to-partial-derivatives) da nossa linha (função que estamos tentando aproximar os pontos):

> Note: A derivada parcial $\frac{\partial f}{\partial x}(x,y)$ é coeficiente da linha tangente a $f$ se $y$ fosse um número constante.

$$\frac{\partial P}{\partial P_{becker}}(V_{obs}) = 1$$

$$\frac{\partial P}{\partial \rho}(V_{obs}) = \rho$$


O passo para cada dimensão:

* $\alpha \leftarrow$ a taxa de aprendizado

$$P_{becker} \leftarrow P_{becker} - \alpha \cdot \frac{\partial E}{\partial P_{becker}}(P_{becker},\rho)$$

$$\rho \leftarrow P_{becker} - \alpha \cdot \frac{\partial E}{\partial\rho}(P_{becker},\rho)$$

E colocando tudo junto:

$$P_{becker} \leftarrow P_{becker} - \alpha \cdot \frac{2}{N}\sum_{obs=1}^{N}{(P(V_{obs}) - P_{obs})} \cdot 1$$

$$\rho \leftarrow \rho - \alpha \cdot \frac{2}{N}\sum_{obs=1}^{N}{(P(V_{obs}) - P_{obs})} \cdot \rho$$

E é "só" isso!

<div style="text-align:center"><img src="https://media.giphy.com/media/Ni4cpi0uUkd6U/giphy.gif" width="30%"/></div>

> Tip: Não se sinta intimidado. Lembre-se que a única coisa que estamos fazendo aqui é reduzir o valor de uma função (função do erro). O porquê o algoritmo funciona, ou a intuição por trás do algoritmo não está no escopo desse post. Mas fique à vontade para ler o post sobre [gradient descent](todo_grad) onde mergulhamos mais a fundo.

Visualmente, ficaria mais ou menos assim:

<!-- <div style="text-align:center"><img src="https://media.giphy.com/media/Ni4cpi0uUkd6U/giphy.gif" width="30%"/></div> --> manim: points, noise, bad line, better line, best line! (with update on number of steps)

### Um exemplo

Eu sei que é meio confuso, então vamos resolver um exercício simples: vamos tentar aproximar uma linha com três pontos.

<div style="text-align:center"><img src="https://media.giphy.com/media/HBWbIuHvXI2Eo/giphy.gif" width="30%"/></div>

Nesse exemplo, a linha representaria a **densidade real** da água, enquanto os pontos seriam **experimentos realizados**, mas agora vamos usar os termos $x$ e $y$ para simplificar o problema de um jeito que seria mais fácil de generalizar para outros casos.

Vamos fingir que pra linha temos:

$$f(x) = y = 2 \cdot x + 1 $$

E para os pontos observados:

$$p_1 = (1, 2.5)$$
$$p_2 = (2, 3.5)$$
$$p_3 = (3, 6.5)$$

> Note: estamos procurando a linha que reduz o erro, e essa pode ser (e provavelmente seria) diferente da linha ideal, livre de ruído. Nesse exemplo o nosso erro é de sempre $±0.5$, o que não aconteceria na vida real. Por conta disso, o nosso chute vai se aproximar da linha ideal no nosso exemplo.

#### Chute inicial

Quando eu estava realizando os experimentos, nós tentamos dar um chute inicial que se aproximasse ao máximo da nossa função de verdade. Na prática não é assim que acontece. Um bom primeiro chute reduz o número de passos que vamos dar. Mas na prática, quando lidamos com problemas mais complexos, não sabemos exatamente o que seria um bom ou mal chute, então escolhemos valores aleatórios para os parâmetros nossa linha ($m$ e $b$) - que também podemos chamar de **pesos** da nossa função.

In [13]:
#hide_input
from typing import List
import numpy as np
import pandas as pd
import altair as alt

def y_linha(x_list: List[float], m: float, b: float) -> List:
    """Retorna os valores de y dado x seguindo comportamento linear."""
    return [m*x+b for x in x_list]

# lists
m_chute = -1
b_chute = 2
x = [1, 2, 3]

y_ideal = [3, 5, 7]
y_obs = [2.5, 5.5, 6.5]
y_chute = y_linha(x, m_chute, b_chute)

# dataframes
df_linhas = pd.DataFrame({
    'Y': y_ideal + y_chute,
    'X': x + x,
    'Linha': ['Ideal']*3 + ['Chute']*3
})

df_pontos = pd.DataFrame({
    'X': x,
    'Observado': y_obs,
    'Chute': y_chute
})

# plots
plt_linhas = alt.Chart(df_linhas).encode(
    x='X',
    y='Y',
    color='Linha:N'
)

plt_pontos = alt.Chart(df_pontos).encode(
    x='',
    y='Y',
)

plt_diff = alt.Chart(df_pontos).encode(
    alt.X('X:Q'),
    alt.Y('Chute:Q'),
    alt.Y2('Ideal:Q')
)


alt.layer(
    plt_linhas.mark_line(),
    plt_diff.mark_rule(color='red').encode(alt.X('X'), alt.Y('Chute'), alt.Y2('Observado')),
    plt_pontos.mark_circle(color='orange', opacity=1, size=40).encode(x='X', y='Observado'),
    plt_pontos.mark_circle(color='blue', opacity=1, size=40).encode(x='X', y='Chute'),
).properties(title='Observações').interactive()

Ou seja, o para o nosso chute inicial, escolhemos:

* $m = -1$
* $b = 2$

$\therefore f(x) = y = -1 \cdot x + 2$

As linhas vermelhas mostram o erro, e a gente consegue conferir que o erro quadratico médio é:

**ISSO TA ERRADO, VOCE TAVA VERIFICANDO COM O IDEAL, NAO COM O CHUTE**

$$E(m,b) =  \frac{1}{N}\sum_{obs=1}^{N}{(f(x_{obs}) - y_{obs})^2}$$
$$\therefore E(2,1) =  \frac{1}{3}\sum_{obs=1}^{N}{((-1 \cdot x_{obs} + 2) - y_{obs})^2}$$
$$\therefore E(2,1) =  \frac{1}{3}((-1 \cdot 1 + 2) - 2.5)^2 + ((-1 \cdot 2 + 2) - 3.5)^2 + ((-1 \cdot 3 + 2) - 6.5)^2)$$
$$\therefore E(2,1) =  32.917$$

Uma maneira de intrepertar esse erro é a diferença média ao quadrado. Poderíamos tirar a raiz quadrada do erro para termos um valor mais interpretável, mas como você vai ver daqui a pouco, vamos tirar a derivada desse valor. Raízes complicam esse processo. Além do mais, independentemente se ao quadrado ou não, estamos procurando o mínimo desse erro.

#### Melhorando o chute

Lembrando que os nossos são atualizados de acordo com o que discutimos acima:

$$m \leftarrow m - \alpha \cdot \frac{2}{N}\sum_{obs=1}^{N}{(f(x_{obs}) - y_{obs})} \cdot m$$

$$b \leftarrow b - \alpha \cdot \frac{2}{N}\sum_{obs=1}^{N}{(f(x_{obs}) - y_{obs})} \cdot 1$$

Vamos escolher nossa taxa de aprendizado arbitrariamente ($\alpha = 0.1$). Então os nossos novos pesos ficam:

$$m \leftarrow -1 - 0.1 \cdot \frac{2}{3}((-1 \cdot 1 +1) - 2.5) + ((-1 \cdot 2 + 1) - 3.5) + ((-1 \cdot 3 + 1) - 6.5)) \cdot -1$$

$$b \leftarrow 2 - 0.1 \cdot \frac{2}{3}((-1 \cdot 1 +1) - 2.5) + ((-1 \cdot 2 + 1) - 3.5) + ((-1 \cdot 3 + 1) - 6.5)) \cdot 1$$

$$\therefore$$

$$m \leftarrow ##$$

$$b \leftarrow $$

<!--  gif--> -- manim

In [21]:
#hide
import numpy as np


def mse(y_pred: np.array, y_true: np.array) -> float:
    """Calcule o erro quadrado médio entre dois vetores."""
    return (np.square(y_pred - y_true)).mean()

def _delta(var: float, y_pred: np.array, y_true: np.array, is_b: bool, alpha: float):
    """Calcule a diferença dos pesos. Ou seja, retorne a derivada do erro quadrático médio multiplicado pela gradiente.
    :param var: valor da variável que estamos querendo fazer o update (valor de m ou b)
    :param y_pred: numpy array dos valores previstos, do nosso chute
    :param y_true: numpy array dos pontos de y encontrados no experimento
    :param is_b: valor booleana que indica se estamos fazendo o update de b ou não
    :param alpha: a taxa de aprendizado
    :param n: número de pontos/experimentos realizados"""
    
    def _soma(y_pred: np.array, y_true: np.array):
        """Calcule o valor da soma que é parte da derivada."""
        return (y_pred - y_true).mean()
    
    assert y_pred.shape == y_true.shape, "Número de previsões e observados diferentes."
    assert y_pred.ndim == y_true.ndim == 1, "Y devem ser vetores."
    
    factor = int(not is_b) * var
    soma = _soma(y_pred, y_true)
    n = y_pred.size
    
    return alpha * (2/n) * soma * factor

# lists
m_chute = -1
b_chute = 2
x = [1, 2, 3]

y_ideal = [3, 5, 7]
y_obs = [2.5, 5.5, 6.5]

# converta a lista pra um numpy array
y_obs = np.array(y_obs)
y_chute = np.array(y_chute)

m_update = m_chute - _delta(m_chute, y_chute, y_obs, False, 0.01)
b_update = b_chute - _delta(b_chute, y_chute, y_obs, True, 0.01)
b_update
raise ValueError('Os valores nao estao melhorando.')

ValueError: Os valores nao estao melhorando.

In [15]:
np.array([1,2,3,4]).size()

TypeError: 'int' object is not callable

In [100]:
from vega_datasets import data
data.cars()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA
...,...,...,...,...,...,...,...,...,...
401,ford mustang gl,27.0,4,140.0,86.0,2790,15.6,1982-01-01,USA
402,vw pickup,44.0,4,97.0,52.0,2130,24.6,1982-01-01,Europe
403,dodge rampage,32.0,4,135.0,84.0,2295,11.6,1982-01-01,USA
404,ford ranger,28.0,4,120.0,79.0,2625,18.6,1982-01-01,USA


In [101]:
data = data.cars()

ax = data.vgplot(x='x', y='y')

# draw a line at y = 5
hline = pd.DataFrame({'x': data.Displacement,
                      'y': 5 * np.ones_like(data.Displacement)})
hline.vgplot(x='x', y='y', ax=ax)

AttributeError: 'DataFrame' object has no attribute 'vgplot'

In [69]:
p_obs.tolist() + p_ini.tolist()

[349.49141530112325,
 335.9035698828815,
 464.4088538100692,
 -0.9889557657527952,
 -61.24581945891832,
 -91.37425130550108,
 -121.50268315208383,
 -181.75954684524936]

In [72]:
v_obs.tolist() * 2,
#     'Pesos': p_obs.tolist() + p_ini.tolist()[1:-1]

([100, 150, 200, 100, 150, 200],)

In [None]:
# animacoes com os passos, mostra o erro e como ficaria o update do proximo passo
# desafio - como ficaria o nosso proximo passo depois desse? hide_output toggle button + info: clica no notebook pra ver como que eu programei isso

In [None]:
# Bota tudo em um vetor e mostra as equacoes de novo
# porque vetor?

In [None]:
# a gente precisa usar mse?

In [None]:
# nomenclatura - least squares regression, best fit curve, mse, etc.
# outros topicos - estatistico (uma linha so); 2+ dimensoes?; polinomial?; overfit/underfit e regularization

put a `#collapse-show` flag at the top of any cell if you want to **show** that cell by default, but give the reader the option to hide it:

In [4]:
#collapse-show
cars = 'https://vega.github.io/vega-datasets/data/cars.json'
movies = 'https://vega.github.io/vega-datasets/data/movies.json'
sp500 = 'https://vega.github.io/vega-datasets/data/sp500.csv'
stocks = 'https://vega.github.io/vega-datasets/data/stocks.csv'
flights = 'https://vega.github.io/vega-datasets/data/flights-5k.json'

## Interactive Charts With Altair

Charts made with Altair remain interactive.  Example charts taken from [this repo](https://github.com/uwdata/visualization-curriculum), specifically [this notebook](https://github.com/uwdata/visualization-curriculum/blob/master/altair_interaction.ipynb).

In [38]:
# hide
df = pd.read_json(movies) # load movies data
genres = df['Major_Genre'].unique() # get unique field values
genres = list(filter(lambda d: d is not None, genres)) # filter out None values
genres.sort() # sort alphabetically

NameError: name 'movies' is not defined

In [4]:
#hide
mpaa = ['G', 'PG', 'PG-13', 'R', 'NC-17', 'Not Rated']

### Example 1: DropDown

In [37]:
# single-value selection over [Major_Genre, MPAA_Rating] pairs
# use specific hard-wired values as the initial selected values
selection = alt.selection_single(
    name='Select',
    fields=['Major_Genre', 'MPAA_Rating'],
    init={'Major_Genre': 'Drama', 'MPAA_Rating': 'R'},
    bind={'Major_Genre': alt.binding_select(options=genres), 'MPAA_Rating': alt.binding_radio(options=mpaa)}
)
  
# scatter plot, modify opacity based on selection
alt.Chart(movies).mark_circle().add_selection(
    selection
).encode(
    x='Rotten_Tomatoes_Rating:Q',
    y='IMDB_Rating:Q',
    tooltip='Title:N',
    opacity=alt.condition(selection, alt.value(0.75), alt.value(0.05))
)

NameError: name 'genres' is not defined

### Example 2: Tooltips

In [39]:
alt.Chart(movies).mark_circle().add_selection(
    alt.selection_interval(bind='scales', encodings=['x'])
).encode(
    x='Rotten_Tomatoes_Rating:Q',
    y=alt.Y('IMDB_Rating:Q', axis=alt.Axis(minExtent=30)), # use min extent to stabilize axis title placement
    tooltip=['Title:N', 'Release_Date:N', 'IMDB_Rating:Q', 'Rotten_Tomatoes_Rating:Q']
).properties(
    width=600,
    height=400
)

NameError: name 'movies' is not defined

### Example 3: More Tooltips

In [7]:
# select a point for which to provide details-on-demand
label = alt.selection_single(
    encodings=['x'], # limit selection to x-axis value
    on='mouseover',  # select on mouseover events
    nearest=True,    # select data point nearest the cursor
    empty='none'     # empty selection includes no data points
)

# define our base line chart of stock prices
base = alt.Chart().mark_line().encode(
    alt.X('date:T'),
    alt.Y('price:Q', scale=alt.Scale(type='log')),
    alt.Color('symbol:N')
)

alt.layer(
    base, # base line chart
    
    # add a rule mark to serve as a guide line
    alt.Chart().mark_rule(color='#aaa').encode(
        x='date:T'
    ).transform_filter(label),
    
    # add circle marks for selected time points, hide unselected points
    base.mark_circle().encode(
        opacity=alt.condition(label, alt.value(1), alt.value(0))
    ).add_selection(label),

    # add white stroked text to provide a legible background for labels
    base.mark_text(align='left', dx=5, dy=-5, stroke='white', strokeWidth=2).encode(
        text='price:Q'
    ).transform_filter(label),

    # add text labels for stock prices
    base.mark_text(align='left', dx=5, dy=-5).encode(
        text='price:Q'
    ).transform_filter(label),
    
    data=stocks
).properties(
    width=700,
    height=400
)

## Data Tables

You can display tables per the usual way in your blog:

In [11]:
movies = 'https://vega.github.io/vega-datasets/data/movies.json'
df = pd.read_json(movies)
# display table with pandas
df[['Title', 'Worldwide_Gross', 
    'Production_Budget', 'Distributor', 'MPAA_Rating', 'IMDB_Rating', 'Rotten_Tomatoes_Rating']].head()

Unnamed: 0,Title,Worldwide_Gross,Production_Budget,Distributor,MPAA_Rating,IMDB_Rating,Rotten_Tomatoes_Rating
0,The Land Girls,146083.0,8000000.0,Gramercy,R,6.1,
1,"First Love, Last Rites",10876.0,300000.0,Strand,R,6.9,
2,I Married a Strange Person,203134.0,250000.0,Lionsgate,,6.8,
3,Let's Talk About Sex,373615.0,300000.0,Fine Line,,,13.0
4,Slam,1087521.0,1000000.0,Trimark,R,3.4,62.0


## Images

### Local Images

You can reference local images and they will be copied and rendered on your blog automatically.  You can include these with the following markdown syntax:

`![](my_icons/fastai_logo.png)`

![](my_icons/fastai_logo.png)

### Remote Images

Remote images can be included with the following markdown syntax:

`![](https://image.flaticon.com/icons/svg/36/36686.svg)`

![](https://image.flaticon.com/icons/svg/36/36686.svg)

### Animated Gifs

Animated Gifs work, too!

`![](https://upload.wikimedia.org/wikipedia/commons/7/71/ChessPawnSpecialMoves.gif)`

![](https://upload.wikimedia.org/wikipedia/commons/7/71/ChessPawnSpecialMoves.gif)

### Captions

You can include captions with markdown images like this:

```
![](https://www.fast.ai/images/fastai_paper/show_batch.png "Credit: https://www.fast.ai/2020/02/13/fastai-A-Layered-API-for-Deep-Learning/")
```


![](https://www.fast.ai/images/fastai_paper/show_batch.png "Credit: https://www.fast.ai/2020/02/13/fastai-A-Layered-API-for-Deep-Learning/")





# Other Elements

## Tweetcards

Typing `> twitter: https://twitter.com/jakevdp/status/1204765621767901185?s=20` will render this:

> twitter: https://twitter.com/jakevdp/status/1204765621767901185?s=20

## Youtube Videos

Typing `> youtube: https://youtu.be/XfoYk_Z5AkI` will render this:


> youtube: https://youtu.be/XfoYk_Z5AkI

## Boxes / Callouts 

Typing `> Warning: There will be no second warning!` will render this:


> Warning: There will be no second warning!



Typing `> Important: Pay attention! It's important.` will render this:

> Important: Pay attention! It's important.



Typing `> Tip: This is my tip.` will render this:

> Tip: This is my tip.



Typing `> Note: Take note of this.` will render this:

> Note: Take note of this.



Typing `> Note: A doc link to [an example website: fast.ai](https://www.fast.ai/) should also work fine.` will render in the docs:

> Note: A doc link to [an example website: fast.ai](https://www.fast.ai/) should also work fine.

## Footnotes

You can have footnotes in notebooks, however the syntax is different compared to markdown documents. [This guide provides more detail about this syntax](https://github.com/fastai/fastpages/blob/master/_fastpages_docs/NOTEBOOK_FOOTNOTES.md), which looks like this:

```
{% raw %}For example, here is a footnote {% fn 1 %}.
And another {% fn 2 %}
{{ 'This is the footnote.' | fndetail: 1 }}
{{ 'This is the other footnote. You can even have a [link](www.github.com)!' | fndetail: 2 }}{% endraw %}
```

For example, here is a footnote {% fn 1 %}.

And another {% fn 2 %}

{{ 'This is the footnote.' | fndetail: 1 }}
{{ 'This is the other footnote. You can even have a [link](www.github.com)!' | fndetail: 2 }}

## Footnotes

{{ 'Veja o post sobre [gradient descent](todo_grad_desc) para mais detalhes.' | fndetail: 1 }}
{{ 'Mais precisamente, deveríamos estar falando de *massa* ao invés de *peso*. Mas no nosse approach isso não faz diferença.' | fndetail: 1 }}