# Regressao em Python #

Vamos agora implementar a Regressão Linear para usarmos com esses dados.

Para resolver a regressão, basta montar o sistema linear correspondente aos dados de entrada:

$$
\begin{bmatrix}
n & \sum\limits _ { i = 1 } ^ { n } x _ { i 1 } & \sum\limits _ { i = 1 } ^ { n } x _ { i 2 } & \dots & \sum\limits _ { i = 1 } ^ { n } x _ { i p }\\
\sum\limits _ { i = 1 } ^ { n } x _ { i 1 } & \sum\limits _ { i = 1 } ^ { n } x _ { i 1 }x _ { i 1 } & \sum\limits _ { i = 1 } ^ { n } x _ { i 2 }x _ { i 1 } & \dots & \sum\limits _ { i = 1 } ^ { n } x _ { i p }x _ { i 1 }\\
\sum\limits _ { i = 1 } ^ { n } x _ { i 2 } & \sum\limits _ { i = 1 } ^ { n } x _ { i 1 }x _ { i 2 } & \sum\limits _ { i = 1 } ^ { n } x _ { i 2 }x _ { i 2 } & \dots & \sum\limits _ { i = 1 } ^ { n } x _ { i p }x _ { i 2 }\\
\vdots & \vdots & \vdots & \vdots & \vdots \\
\sum\limits _ { i = 1 } ^ { n } x _ { i p } & \sum\limits _ { i = 1 } ^ { n } x _ { i 1 }x _ { i p } & \sum\limits _ { i = 1 } ^ { n } x _ { i 2 }x _ { i p } & \dots & \sum\limits _ { i = 1 } ^ { n } x _ { i p }x _ { i p }\\
\end{bmatrix}
\begin{bmatrix}
b_0\\
b_1\\
b_2\\
\vdots\\
b_p\\
\end{bmatrix}
=
\begin{bmatrix}
\sum\limits _ { i = 1 } ^ { n } y _ { i 1 }\\
\sum\limits _ { i = 1 } ^ { n } y_i x _ { i 1 }\\
\sum\limits _ { i = 1 } ^ { n } y_i x _ { i 2 }\\
\vdots\\
\sum\limits _ { i = 1 } ^ { n } y_i x _ { i p }
\end{bmatrix}
$$

O que isto quer dizer? Quer dizer que, para fazer uma regressão, basta você passar uma Matriz X contendo as variáveis independentes e um vetor Y com a variável dependente, gerar este sistema e resolvê-lo.

Faça uma função que retorna os coeficientes `b` de uma regressão com os elementos da matriz X:

In [8]:
import numpy as np

def regressaoLinear(x,y):
    mx=np.zeros([2,2])
    my=np.zeros(2)
    mx[0][0]=len(x)
    mx[0][1]=mx[1][0]=x.sum()
    mx[1][1]=np.power(x.sum(),2)
    my[0]=y.sum()
    my[1]=(x*y).sum()
    

    return np.linalg.solve(mx,my)

def regressaoLinearMultipla(x,y): #x é uma matriz ao invés de vetor
    mx=np.vstack((np.ones(len([x0])),x))
    my=mx.dot(y)
    mx=mx.dot(mx.T)
    return np.linalg.solve(mx,my)

def resolveLin(b,x):
    return b[0]+b[1:]*x

x = np.linspace(0,1,11)*1.0
y = np.sqrt(x)*1.0

b = regressaoLinear(np.array(x),y)
print(resolveLin(b,[6]))

#b = regressaoLinear(np.array([4,4.5,5,5.5,6,6.5,7],dtype="float"),np.array([33,42,45,51,53,61,62]),dtype="float")
#b = regressaoLinear(np.array([[14,16,27,42,39,50,83],[70,75,144,190,210,235,400]]),np.array([2,5,7,9,10,13,20]),dtype="float")




TypeError: 'numpy.float64' object cannot be interpreted as an integer

Agora vamos testar seu método: Faça uma regressão entre nota dos críticos e vendas na América do Norte, considerando apenas os jogos que possuem ambas informações:

In [None]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

vg = pd.read_csv('Video_Games_Sales_as_at_22_Dec_2016.csv')


E se você quiser fazer uma regressão quadratica?

In [None]:
x = vg[(vg.Critic_Score.notnull()) & vg.NA_Sales.notnull()].Critic_Score

#Aqui voce pode escolher transpor ou nao, o importante eh ficar de acordo com seu codigo acima
x = np.array([x,x*x])

y = vg[(vg.Critic_Score.notnull()) & vg.NA_Sales.notnull()].NA_Sales


#b = regressaoLinearMultipla(x,y)

resolveLin(b,[8.5,8.5*8.5])

E se eu quiser fazer uma regressão múltipla com nota dos criticos e dos usuários para prever as vendas globais?

In [None]:
x = vg[(vg.Critic_Score.notnull()) & (vg.User_Score.notnull()) &vg.Global_Sales.notnull()].Critic_Score
#x2 = vg[(vg.Critic_Score.notnull()) & (vg.User_Score.notnull())& vg.Global_Sales.notnull()].User_Score
y = vg[(vg.Critic_Score.notnull()) & (vg.User_Score.notnull()) & vg.Global_Sales.notnull()].Global_Sales

b = regressaoLinear(np.array([x]),y)

print(b)


## Qualidade da Regressão ##

OK, fizemos alguns modelos, mas como podemos saber a qualidade da regressão? Usando a fórmula do $R^2$:

$$
R^2 = 1 - \frac{D(b)}{\sum y_{i}^2 - \frac{1}{n}(\sum y_i)^2}
$$

Onde $D(b)$ é a distância quadrática dos y previstos pela regressão para os $y$ reais.

Implemente a função que computa $R^2$:

In [None]:
def resolveLinVet(b,x):
    return vetval
      
def distanciaquad(b,x,y):
    return d
    
def r2(b,x,y):
    return r2

In [None]:
xp = np.array([1.2,2.5,3.,4.1,6.2,7.1,8.8,9.5])
yp = np.array([6.8,6.1,9.9,9.7,12.1,17.9,18,21.5])
b = regressaoLinear(xp,yp)
r2(b,xp,yp)

## Diferentes recortes dos dados ##

Muitas vezes, temos __informação demais__ para os métodos de regressão encontrarem uma correlação boa. Por isto, é muito comum neste tipo de aplicação, fazer a regressão com subconjuntos dos dados.

Por exemplo: Ao se tentar prever as vendas globais, focar em um período de tempo específico ou em apenas uma ou poucas plataformas pode gerar modelos de predição mais precisos.

Exemplo:


Vamos inicialmente fazer uma predição das vendas globais baseada na nota dos críticos:

In [None]:
vglimpo=vg[(vg.Critic_Score.notnull()) & (vg.Global_Sales.notnull())]
xg = vglimpo.Critic_Score
yg = vglimpo.Global_Sales
plt.yscale('log')
plt.scatter(xg,yg)

In [None]:
b = regressaoLinear(np.array(xg),yg)

r2(b,x,y)

Será que dá para melhorar? Vamos tentar focar apenas nos consoles da sétima geração (PS3, Xbox360, Wii):

In [None]:
x = vglimpo[(vglimpo.Platform.isin(['PS3','XBOX360','Wii']))].Critic_Score
y = vglimpo[(vglimpo.Platform.isin(['PS3','XBOX360','Wii']))].Global_Sales
#plt.yscale('log')
plt.scatter(x,y)

Faça um teste comparando o nivel da regressao acima com uma regressão contendo todos os jogos de 2000 a 2005

## Agrupando ##

Você pode usar o comando groupby para gerar novas bases de dados modificadas. Por exemplo, você pode tentar prever as vendas totais de plataformas ao invés de jogos individuais. Contudo, para você utilizar os dados agrupados, você deve usar uma função de agregação (sum,count, min,max, mean, etc).

### Exemplo ###

Criando um agrupamento por plataforma

In [None]:
vgplat = vg.groupby(['Platform'])
vgplat.Global_Sales.sum()

Fazendo uma regressão para descobrir total de vendas de um console pelo total de jogos lançados para ele:

In [None]:
x = vgplat.Name.count()
y = vgplat.Global_Sales.sum()
plt.scatter(x,y)

In [None]:
#Total de anos que um console teve jogos

anos = vgplat.Year_of_Release.max() - vgplat.Year_of_Release.min()
anos.plot(kind='bar')

Vocês poderiam usar a informação de ano para ponderar alguma outra informação usada na regressão por exemplo. Contudo, tem algo estranho né? O Nintendo DS está com 35 anos de jogos lançados. Vocês conseguem descobrir o porquê?