<a href="https://colab.research.google.com/github/cmedanielle/EspecializacaoDataScience/blob/master/aula_sabado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **DISCIPLINA - ESTATÍSTICA (SÁBADO)**

## **Antes de mais nada... algumas informações importantes sobre a montagem do ambiente**

Importando as libs necessárias

In [1]:
import pandas as pd, numpy as np, scipy as sp, seaborn as sb

In [2]:
import statsmodels.api as sm

Se você tiver algum problema com a dependência do statsmodel:

In [0]:
!pip install scipy==1.2 --upgrade

Lendos nossos dados

In [0]:
dados = pd.read_csv('dados.csv')

In [0]:
dados.head()

## 1. Introdução à Regressão Linear

*Não há outro lugar onde o nexo entre a estatística e a ciência de dados seja mais forte do que no tocante à previsão - especificamente, a previsão de uma variável resultante (alvo) baseada nos valores de outras variáveis preditoras*

In [3]:
dados_alunos = {
	'Nota' :      [20,34,30,15,35,81,47,87,99,43,72,31,12,53,2,55,100,0,97,46,84,57,62,83,65,24,99,96,76,79,99,50,82,73,93,87,76,84,75,33,35,30,74,87,56],
	'Presenca' : [23,36,34,23,42,90,57,90,100,54,81,36,14,66,8,64,100,0,100,47,88,63,65,89,68,29,99,100,80,86,100,53,83,80,95,89,80,89,77,35,37,40,75,92,70]
}

In [0]:
dataset = pd.DataFrame(dados_alunos)

In [0]:
dataset.shape[0]

In [0]:
dataset.describe()

In [0]:
ax = sb.boxplot(data = dataset, width=0.5)
ax.fig.set_size_inches(12,6)
ax.set_title('Boxplot dos dados dos alunos', fontsize = 16)
ax

In [0]:
ax = sb.lmplot(x='Presenca', y = 'Nota', data = dataset)
ax.fig.set_size_inches(12,6)
ax.fig.suptitle('Gráfico de Regressão - Nota x Presença dos Alunos', fontsize = 16)
ax.set_xlabels('Presença dos Alunos (%)', fontsize = 14)
ax.set_ylabels('Notas dos Alunos', fontsize = 14)
ax

In [0]:
dataset.corr()

https://www.statsmodels.org/stable/regression.html

In [0]:
Y = dataset.Nota
X = sm.add_constant(dataset.Presenca)

In [0]:
Y.head()

In [0]:
X.head()

**Vamos estimar logo um modelo de regressão linear!**

In [0]:
resultado_regressao = sm.OLS(Y, X).fit()

In [0]:
print(resultado_regressao.summary())

**E vamos ver na prática como nosso modelo prevê valores, utilizando a própria amostra**

In [0]:
dataset['Nota_Prevista'] = resultado_regressao.predict()
dataset

### 1.1. Relembrando alguns conceitos importantes

**Relembrando covariância**

**Com a covariância, podemos verificar o tipo de relação entre variáveis**

*   **Se o valor da covariância for positivo:** associação linear positiva entre X e Y (i.e., quando o valor de X aumentar, o valor de Y também irá aumentar; analogamente, quando o valor de X diminuir, o valor de Y também irá diminuir);
*   **Se o valor da covariância for negativo:** associação linear negativa entre X e Y (i.e., quando o valor de X aumentar, o valor de Y tende a diminuir; quando o valor de X diminuir, o de Y tende a aumentar).



![alt text](https://acadgild.com/blog/wp-content/uploads/2018/09/Covariance-and-Correlation.jpg)

In [0]:
dataset[['Nota', 'Presenca']].cov()

In [0]:
x = dataset.Presenca
y = dataset.Nota

ax = sb.scatterplot(x, y)
ax.figure.set_size_inches(10,5)
ax.hlines(y = y.mean(), xmin = x.min(), xmax = x.max())
ax.vlines(x = x.mean(), ymin = y.min(), ymax = y.max())
ax

In [0]:
amostra = dados.query('Renda < 5000').sample(n = 20, random_state = 101)

In [0]:
amostra.cov()

In [0]:
x = amostra.Idade
y = amostra.Renda

ax = sb.scatterplot(x, y)
ax.figure.set_size_inches(10,5)
ax.hlines(y = y.mean(), xmin = x.min(), xmax = x.max())
ax.vlines(x = x.mean(), ymin = y.min(), ymax = y.max())

In [0]:
x = amostra.Idade
y = amostra.Altura

ax = sb.scatterplot(x, y)
ax.figure.set_size_inches(16,5)
ax.hlines(y = y.mean(), xmin = x.min(), xmax = x.max())
ax.vlines(x = x.mean(), ymin = y.min(), ymax = y.max())

Analisar a covariância pode ser problemático, pois ela depende da unidade de medida das variáveis estudadas.

### 1.2. Coeficiente de correlação de Pearson

Mede o grau da correlação (e a direção dessa correlação - se positiva ou negativa) entre duas variáveis.

*   Normalmente representado por $\rho$;
*   Pode assumir apenas valores entre -1 e 1.
*   Quando $\rho = 1$: há uma correlação perfeita positiva entre as duas variáveis;
*   Quando $\rho = -1$: há uma correlação negativa perfeita entre as duas variáveis;
*   Quando $\rho =0$: as duas variáveis não dependem linearmente uma da outra. No entanto, pode existir uma dependência não linear. Assim, dado este resultado, deve-se aprofundar a investigação.

*Observação importante!!!*

Não confundir associação entre variáveis com causalidade! Uma correlação forte entre duas variáveis pode não significar que variações em uma delas provocará variações na outra!

In [0]:
dataset.corr().round(2)

In [0]:
matriz_correlacao = dados.corr().round(2)

In [0]:
sb.heatmap(data = matriz_correlacao, annot = True)

## 2. Conhecendo e Interpretando a Equação de Regressão

**Regressão linear modela o relacionamento entre a magnitude de uma variável (variável dependente) e uma segunda variável (variável independente).**

*Ponto interessante:*

Enquanto a correlação mede a força da associação entre variáveis, a regressão linear quantifica a natureza deste relacionamento.

> Y = Variável Dependente ou Prevista

> X = Variável Independente ou Característica


EQUAÇÃO DE REGRESSÃO

$Y_i = \beta_0 + \beta_1X_i$,

em que: 

* $Y_i$ é a variável dependente, que pretendemos prever;
* $X_i$ é variável independente
* $\beta_0$ é  intercepto (interceptor da linha de regressão, i.e., valor previsto quando $X_i = 0$);
* $\beta_1$ é o coefiente angular (o declive da linha de regressão).

No final das contas, estamos tentando prever a variável Y a partir de X usando um relacionamento linear (i.e., uma linha).

## 3. Regressão Linear Simples

Em uma análise de regressão linear simples, estimamos uma função de regressão de forma a estimar os valores dos parâmetros $\beta_0$ e $\beta_1$ com base nas observações de $Y$ e $X$.

In [0]:
ax = sb.lmplot(x='Presenca', y = 'Nota', data = dataset)
ax.fig.set_size_inches(12,6)
ax.fig.suptitle('Gráfico de Regressão - Nota x Presença dos Alunos', fontsize = 16)
ax.set_xlabels('Presença dos Alunos (%)', fontsize = 14)
ax.set_ylabels('Notas dos Alunos', fontsize = 14)
ax

In [0]:
dataset.corr()

![alt text](https://slideplayer.com.br/slide/49939/1/images/9/Modelo+de+Regress%C3%A3o+Linear+mais+simples+%21%21.jpg)

**Precisamos entender alguns conceitos para compreender melhor a equação de regressão.**

*   O erro ou resíduo é obtido quando utilizamos o modelo linear estimado (i.e., a reta) pra estimar um valor, pois, em geral, os dados quase nunca ficam exatamente em cima da reta. Por isso, devemos adicionar o erro (resíduo) à equação de regressão;


*   Os valores ajustados, também chamados de valores previstos, são geralmente denotados por Y-chapéu.

**Esquação de Regressão com Valores Ajustados**

$Y_i = \hat{\beta}_1 + \hat{\beta}_2X_i + \hat{u}_i$

Cálculo dos resíduos:

$\hat{u}_i = Y_i - \hat{Y}_i$,

em que $\hat{Y}_i$ é o valor estimado de $Y_i$.

### 2.1. Método de Mínimos Quadrados (ou Mínimos Quadrados Ordinários)

*Falamos em ajustes... então, como ajustamos o modelo aos dados?*

Como não podemos obter a função de regressão da população (FRP) de forma direta, usamos a função de regressão amostral (FRA), descrita anteriormente.

Na prática, a linha de regressão é a estimativa que minimiza a soma dos valores quadrados dos resíduos (RSS).

Esperamos que a soma dos erros (resíduos) seja ser a menor possível, sim?

O critério de minimização da soma dos resíduos assume que todos os resíduos tem o mesmo peso no somatório, o que nem sempre se comprova. É possível que existam resíduos bem mais afastados da linha gerada pela equação de regressão. Isso pode acarretar em uma soma dos resíduos bem pequena, podendo até ser nula, mesmo que os resíduos estejam muito dispersos em relação a reta de regressão.

Para evitar este problema, podemos utilizar o **Método de Mínimos Quadrados**. Nele, elevamos ao quadrado os resíduos, o que retira o problema de valores de resíduos negativos.


In [0]:
Y = dataset.Nota
X = sm.add_constant(dataset.Presenca)

**Modelo estimado**

In [0]:
resultado_regressao = sm.OLS(Y, X, missing='drop').fit()

In [0]:
resultado_regressao.params

In [0]:
beta_0 = resultado_regressao.params[0]
beta_0

In [0]:
beta_1 = resultado_regressao.params[1]
beta_1

Os valores dos betas precisam estar dentro do intervalo de confiança definido para nossa variável de interesse.

In [15]:
resultado_regressao.conf_int(alpha = 0.05)

Unnamed: 0,0,1
const,-7.981022,-2.597703
Presenca,0.971918,1.047912


Previsões utilizando a própria amostra

In [0]:
dataset['Nota_Prevista'] = beta_0 + beta_1 * dataset.Presenca
dataset.head(15)

Com o statmodels

In [0]:
dataset['Nota_Prevista_StatsModels'] = resultado_regressao.predict()
dataset.head(15)

E agora fora da amostra

In [0]:
dataset.drop('Nota_Prevista_StatsModels', axis = 1, inplace = True)
dataset.head(15)

In [0]:
resultado_regressao.predict([1, 75])

**Verificando os resíduos**

In [0]:
dataset['Residuos'] = resultado_regressao.resid
dataset.head(15)

Suposições dos resíduos:

1. o resíduo é uma variável aleatória com média igual a zero (ou muito próxima)

In [0]:
dataset.Residuos.mean()

2. Os valores dos resíduos são independentes

In [0]:
ax = sb.scatterplot(x = dataset.Presenca, y=dataset.Residuos)
ax.figure.set_size_inches(10,5)
ax.set_title('Resíduos x Variável Independente (Presença)')
ax

3. A variância dos resíduos é a mesma para todos os valores de X
4. O resíduo é uma variável aleatória normalmente distribuída

In [0]:
ax = sb.scatterplot(x = dataset.Nota_Prevista, y=dataset.Residuos**2)
ax.figure.set_size_inches(8,5)
ax.set_title('Resíduos x Variável Independente (Presença)')
ax

![alt text](https://image.slidesharecdn.com/06-tpico5-heterocedasticidade-130213191813-phpapp01/95/06-tpico-5-heterocedasticidade-32-1024.jpg?cb=1421611027)

**Lembrete Importante!**

Homocedasticidade: termo usado para designar variância constante dos erros experimentais para observações distintas.

Na figura, (a) sugere que há homocedasticidade dos dados; enquanto os demais sugerem que a variância dos erros não é constante.

### 2.2. Coeficiente de Determinação ($R^2$)

Valor que varia entre 0 e 1 e nos diz o quanto a equação de regressão amostral representa os dados. Isto é, informa quão bem o modelo gerado acomoda os dados.

**SQE:** Soma dos Quadrados dos Erros - representa o erro observado quando usamos o $\hat{Y}$ para estimar o $Y$

$SQE = \sum{(Y_i - \hat{Y}_i)^2}$

In [0]:
sqe = resultado_regressao.ssr
sqe

**SQT:** Soma dos Quadrados Total - representa o erro quando utilizamos a média do $\hat{Y}$ para estimar o $Y$

$SQT = \sum{(Y_i - \bar{Y})^2}$

In [0]:
SQT = (dataset.Nota.apply(lambda y : dataset.Nota.mean())**2).sum()
SQT

**SQR:** Soma dos Quadrados da Regressão - representa o quanto o valor estimado $\hat{Y}$ se afasta da média.

$SQR = \sum{(\hat{Y}_i - \bar{Y})^2}$

![alt text](https://slideplayer.com.br/slide/3753095/12/images/22/Somas+de+quadrados+%3D+%2B+SQT+varia%C3%A7%C3%A3o+total+SQR+varia%C3%A7%C3%A3o+explicada.jpg)

In [0]:
sqr = resultado_regressao.ess
sqr

No final,

$R^2 = SQR/SQT$

In [0]:
resultado_regressao.rsquared

In [0]:
print(resultado_regressao.summary())

Quanto mais próximo de 1 for o valor do $R^2$, mais ajustado está o modelo aos dados.

E quanto mais perto do 0, mais imperfeito ele será (i.e., quanto mais o SQR se aproxima mais do valor 0).

**Observação importante:**

Apesar de indicar fortes indícios, somente analisando o $R^2$ não é possível tirar conclusões definitivas de que $Y$ é ou não estatisticamente significante. É preciso uma análise mais profunda para se certificar disso, utilizando testes de hipóteses e análise de outros parâmetros.

Porém, em muitos casos, os cientistas de dados não se envolvem com a interpretação dessas estatísticas, nem com a questão de significância estatística.

## 4. REGRESSÃO LINEAR MÚLTIPLA

EQUAÇÃO DE REGRESSÃO MÚLTIPLA

$Y_i = \beta_0 + \beta_1X_1$ + $\beta_2X_2$ + ... + $\beta_iX_i$,

Ou seja, quando existem múltiplas preditoras, a equação simplesmente se estende para comodá-las.

Em vez de uma linha, agora temos um modelo linear (o relacionamento entre cada coeficiente e sua variável é linear).



> Todos os outros conceitos em regressão linear simples, como ajustes por mínimos quadrados e a definição de valores ajustados e resíduos, se estendem à configuração da regressão linear múltipla.



In [0]:
from sklearn import linear_model

https://rstudio-pubs-static.s3.amazonaws.com/155304_cc51f448116744069664b35e7762999f.html

In [0]:
dados_regressao_multipla = pd.read_csv('kc_house_data.csv')

In [0]:
dados_regressao_multipla.head()

In [0]:
dados_regressao_multipla.corr()

In [0]:
matriz_correlacao = dados_regressao_multipla.corr().round(2)
sb.heatmap(data = matriz_correlacao)

In [0]:
X_preditores = dados_regressao_multipla[['bathrooms', 'bedrooms', 'sqft_living',
                                         'grade', 'sqft_lot']]

In [0]:
X_preditores = sm.add_constant(X_preditores)

In [0]:
Y_target = dados_regressao_multipla.price

In [0]:
model = sm.OLS(Y_target, X_preditores).fit()
print(model.summary())

## 5. VARIÁVEIS FATORIAIS EM REGRESSÃO

Essas variáveis, também chamadas de variáveis categóricas, assumem um número limitado de valores discretos.

Para utilizar variáveis fatoriais, geralmente a convertemos em um conjunto de variáveis binárias fictícias.

## 6. INVESTIGANDO OUTLIERS E VALORES INFLUENTES

**Outlier:** valor distante da maioria das outras observações.

Na regressão, especificamente, um outlier é um registro cujo valor Y real é distante dos valores previstos.

*E como identificamos outliers?*

Gráficos, estudo individual de valores da amostra ou, no caso de regressão, a partir da análise dos resíduos padronizados (resíduos divididos pelo erro-padrão dos resíduos). Essa é a métrica que costuma ser usada para determinar se um registro é classificado como um outlier.



**Valores Influentes:** valor cuja ausência poderia alterar significantemente a equação de regressão.

Em regressões envolvendo muitos registros, é incomum que qualquer observação traga peso suficiente para causar uma influência extrema na equação ajustada (apesar dela poder conter alguns grandes outliers).