# Exemplos de Regressão em Ruby

### Notebook de Rubens Minoru Andako Bueno
#### [VAGAS.com](http://www.vagas.com.br/)

## Sumário

1. [Bibliotecas](#Bibliotecas)

2. [Desafio](#Desafio)

3. [Questões](#Questões)

4. [Passo 1: Visualizando os dados](#Passo-1:-Visualizando-os-dados)

5. [Passo 2: Correlação](#Passo-2:-Correlação)

6. [Passo 3: Regressão](#Passo-3:-Regressão)

7. [Passo 4: Previsão](#Passo-4:-Previsão)

## Bibliotecas

[[ Volte ao topo ]](#Sumário)

Os principais pacotes que nós iremos usar são:

* **daru**: Biblioteca para armazenamento, analise, manipulação e visualização de dados em Ruby.
* **nyaplot**: Biblioteca para gerar gráficos interativos em Ruby.
* **linear-regression**: Biblioteca que implementa algoritmos para modelagem de regressão linear.

## Desafio

[[ Volte ao topo ]](#Sumário)

Quais são os **atributos**?
- **TV**: Valor de divulgação (em milhares de dólares) gasto na TV para divulgação de um dado produto em um dado mercado
- **Radio**: Valor de divulgação gasto na Rádio
- **Jornal**: Valor de divulgação gasto no Jornal

Qual a **resposta**?
- **Sales**: Vendas de um dado produto (em milhares) em um dado mercado

Vamos dar uma olhada nos dados:

In [55]:
require 'daru'

advertising_data = Daru::DataFrame.from_csv('advertising-data.csv')
advertising_data.head(5)

Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5)
Unnamed: 0_level_1,Unnamed: 1_level_1,TV,Radio,Newspaper,Sales
0,1,230.1,37.8,69.2,22.1
1,2,44.5,39.3,45.1,10.4
2,3,17.2,45.9,69.3,9.3
3,4,151.5,41.3,58.5,18.5
4,5,180.8,10.8,58.4,12.9


São 200 **observações**, portanto, 200 mercados no dataset.

## Questões

[[ Volte ao topo ]](#Sumário)

Vamos fingir que você trabalhe para uma empresa que manufatura e vende este produto. A empresa pode questionar o seguinte: Baseado nesses dados, como eles deveriam gastar no futuro?

Esta questão pode levantar questões mais específicas, como:
1. Existe relação entre propaganda e venda?
2. Quão forte é a relação?
3. Que tipo de propaganda contribui para vendas?
4. Qual o efeito de cada tipo de propaganda nas vendas?
5. Dado um gasto em propaganda para um mercado, podemos prever as vendas?

Vamos explorar essas questões!

## Passo 1: Visualizando os dados

[[ Volte ao topo ]](#Sumário)

In [56]:
advertising_data.describe

Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5),Daru::DataFrame(5x5)
Unnamed: 0_level_1,Unnamed: 1_level_1,Newspaper,Radio,Sales,TV
count,200.0,200.0,200.0,200.0,200.0
mean,100.5,30.553999999999995,23.264000000000024,14.022500000000004,147.0425
std,57.87918451395112,21.778620838522837,14.846809176168724,5.217456565710477,85.8542363149081
min,1.0,0.3,0.0,1.6,0.7
max,200.0,114.0,49.6,27.0,296.4


In [57]:
plot = Nyaplot::Plot.new
sc = plot.add_with_df(advertising_data.to_nyaplotdf, :scatter, 'TV', 'Sales')
plot.x_label("TV")
plot.y_label("Sales")
plot.show()

In [58]:
plot = Nyaplot::Plot.new
sc = plot.add_with_df(advertising_data.to_nyaplotdf, :scatter, 'Radio', 'Sales')
plot.x_label("Radio")
plot.y_label("Sales")
plot.show()

In [59]:
plot = Nyaplot::Plot.new
sc = plot.add_with_df(advertising_data.to_nyaplotdf, :scatter, 'Newspaper', 'Sales')
plot.x_label("Newspaper")
plot.y_label("Sales")
plot.show()

## Passo 2: Correlação

[[ Volte ao topo ]](#Sumário)

O coeficiente de correlação de Pearson mede o grau da correlação (e a direcção dessa correlação - se positiva ou negativa) entre duas variáveis. Este coeficiente, normalmente representado por $\rho$ assume apenas valores entre -1 e 1.

- $\rho = 1$: Correlação perfeita positiva entre as duas variáveis.
- $\rho = -1$: Correlação negativa perfeita entre as duas variáveis
- $\rho = 0$: As duas variáveis não dependem linearmente uma da outra.

In [60]:
correlation_coefficients = %W(TV Radio Newspaper).each_with_object({}) do |ads, dict|
  dict[ads] = Regression::CorrelationCoefficient.new(advertising_data[ads].to_a, advertising_data['Sales'].to_a)
end

correlation_coefficients.map { |ads, correlation_coefficients| "#{ads} = #{correlation_coefficients.pearson}" }

["TV = 0.7822244248616061", "Radio = 0.5762225745710527", "Newspaper = 0.22829902637616456"]

## Passo 3: Regressão

[[ Volte ao topo ]](#Sumário)

Na regressão linear, coeficientes são estimados usando o **critério dos mínimos quadrados**, que significa encontrar uma linha que minimiza a **soma dos quadrados dos residuos**.

Os elementos presentes na regressão são:
- Valores observados de x e y.
- Modelo dos mínimos quadrados.
- Os resíduos são as distancias entre os valores observados e modelo dos mínimos quadrados.

$$y = \beta_0 + \beta_1x$$

Os coeficientes do modelo estão relacionados com o modelo dos mínimos quadrados de forma:

- $\beta_0$ Constante que representa a interceptação da reta com o eixo vertical
- $\beta_1$ Constante que representa o declive (coeficiente angular) da reta

In [61]:
require 'linear-regression'

linear_regression = Regression::Linear.new(advertising_data['TV'].to_a, advertising_data['Sales'].to_a)
print("y = #{linear_regression.slope}*x + #{linear_regression.intercept}")

y = 0.047536640433019674*x + 7.032593549127708

### Interpretando os coeficientes

Como interpretamos o coeficiente da TV ($\beta_1$)?
- Um aumento de gasto de $1.000 em propagandas televisivas está **associado** com um aumento de 47 vendas.

In [62]:
values = (advertising_data['TV'].min.floor..advertising_data['TV'].max.ceil).to_a

plot = Nyaplot::Plot.new
plot.add_with_df(advertising_data.to_nyaplotdf, :scatter, 'TV', 'Sales')
plot.add(:line, values, values.map { |x| linear_regression.predict(x) })
plot.x_label("TV")
plot.y_label("Sales")
plot.show()

## Passo 4: Previsão

[[ Volte ao topo ]](#Sumário)
  
Digamos que houve um gasto de $50.000 em propaganda televisiva. Como prever as vendas no mercado?

In [63]:
7.032593549127708 + 0.047536640433019674 * 50

9.40942557077869

Portanto, nós podemos prever uma venda de **9.409 unidades**.