<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Correla%C3%A7%C3%A3o_e_Regress%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística com Python: Um Guia para Estudos e Solução de Problemas**

Breve resumo:

Correlação e regressão são duas técnicas estatísticas usadas para medir e modelar a relação entre duas ou mais variáveis.

Correlação

- A correlação mede a força e a direção da relação entre duas variáveis. O coeficiente de correlação é um número entre -1 e 1. Um coeficiente de correlação próximo a 1 indica uma forte relação positiva entre as duas variáveis, um coeficiente de correlação próximo a -1 indica uma forte relação negativa entre as duas variáveis, e um coeficiente de correlação próximo a 0 indica que não há relação entre as duas variáveis.

Regressão

- A regressão é usada para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. A equação de regressão é uma equação que descreve a relação entre as variáveis.

Quando utilizar:

- Correlação: Sempre que se deseja medir a força e a direção da relação entre duas variáveis.

- Regressão: Sempre que se deseja modelar a relação entre uma variável dependente e uma ou mais variáveis independentes.
Exemplos:

- Correlação: Um pesquisador pode usar a correlação para medir a relação entre o nível de escolaridade e o salário.

- Regressão: Um economista pode usar a regressão para modelar a relação entre o preço da gasolina e a demanda por gasolina.

# **Correlação**

## **Importações**

Para exemplificação dos cálculos de correlação será necessário a importação de algumas bibliotecas.

In [None]:
# Álgebra linear
import numpy as np

# Manipualçao de dados
import pandas as pd

# Visualização de dados
import seaborn as sns

# Funções matemáticas
import math

## **Base de dados**

Com as devidas importações realizadas, vamos gerar a base de dados.

In [None]:
# Gerando os dados
tamanho = np.array([30, 39, 49, 60])
preco = np.array([57000, 69000, 77000, 90000])

Agora, vamos transformar os dados em um DataFrame.

In [None]:
# Convertendo em um data frame
df = pd.DataFrame({'Tamanho': tamanho, 'Preco': preco})

# Observando os valores
df

Unnamed: 0,tamanho,preco
0,30,57000
1,39,69000
2,49,77000
3,60,90000


## **Cálculos**

Para a execução dos cálculos, vamos utilizar as bibliotecas que importamos anteriormente.

### **Covariância**

A covariância é uma medida da relação linear entre duas variáveis. Ela é calculada como a média dos produtos das diferenças entre os valores das variáveis.

A covariância pode ser positiva, negativa ou nula. Uma covariância positiva indica que as duas variáveis tendem a se mover na mesma direção, enquanto uma covariância negativa indica que as duas variáveis tendem a se mover em direções opostas. Uma covariância nula indica que não há relação linear entre as duas variáveis.

In [None]:
# Calculando a covariância
df.cov()

Unnamed: 0,tamanho,preco
tamanho,167.0,178500.0
preco,178500.0,192250000.0


Podemos observar uma covariância positiva entre o tamanho e o preço de 178.500. Logo, é correto afirmar que o valor da covariância é maior que 1. Podemos afirmar que as duas variáveis tendem a se mover na mesma direção.

### **Correlação**

A matriz de correlação é uma medida normalizada que varia de -1 a 1 e indica a força e a direção da relação linear entre duas variáveis. Um valor próximo de 1 indica uma correlação positiva perfeita, -1 indica uma correlação negativa perfeita, e 0 indica falta de correlação linear. Vamos observar como classificar a força dessa correlação:

Força da Correlação:

- 0.00 a 0.19 (ou -0.19): Correlação muito fraca.
- 0.20 a 0.39 (ou -0.39): Correlação fraca.
- 0.40 a 0.59 (ou -0.59): Correlação moderada.
- 0.60 a 0.79 (ou -0.79): Correlação forte.
- 0.80 a 1.00 (ou -1.00): Correlação muito forte.

In [None]:
# Calculando a matriz de correlação
df.corr()

Unnamed: 0,tamanho,preco
tamanho,1.0,0.996201
preco,0.996201,1.0


Obtivemos uma correlação positiva entre o tamanho e o preço de 0,99. Isso indica que ambas as variáveis se movem na mesma direção. Podemos dizer também que as duas variáveis estão correlacionadas quase perfeitamente.

## **Exercício**

 Carregue a base de dados das casas (house-prices.csv) e realize os seguintes passos:

- Gere as correlações entre todos os atributos.
- Quais atributos estão mais relacionados com o preço das casas?

Para a realização desse exercício, será necessário, primeiramente, a importação das bibliotecas que serão utilizadas.

In [1]:
# Álgebra linear
import numpy as np

# Manipualçao de dados
import pandas as pd

# Visualização de dados
import seaborn as sns

Com todas essas bibliotecas importadas, podemos seguir adiante para a importação dos dados.

In [2]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# Importando o dataset
df = pd.read_csv("/content/drive/MyDrive/Estatística para ciência de dados/house_prices.csv")

# Observando os registros
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


Essa base possui 21 variáveis, entre elas podem haver variáveis não numéricas. Vamos verificar essa possibilidade.

In [4]:
# Observando os tipos de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

Algumas observações:

- É possível observar que a variável date não é do tipo numérico. Portanto, por enquanto, vamos retirar essa variável do data frame.

- A variável id provavelmente não apresentará nenhum tipo de correlação, pois se trata de um atributo de identificação. Logo, podemos excluí-la da base também.

- Aparentemente, as variáveis sqft_living e sqft_lot estão mais desatualizadas do que as variáveis sqft_living15 e sqft_lot15. Sendo assim, vou excluir também essas que estão mais antigas.

In [5]:
# Realizando a exclusão da coluna
df = df.drop(['date', 'id', 'sqft_living', 'sqft_lot'], axis = 1)

# Observando os dados
df.head()

Unnamed: 0,price,bedrooms,bathrooms,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,221900.0,3,1.0,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,538000.0,3,2.25,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,180000.0,2,1.0,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,604000.0,4,3.0,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,510000.0,3,2.0,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


Com as devidas remoções realizadas, podemos seguir adiante para o cálculo propriamente dito.

In [6]:
# Calculando as correlações
correlacoes = df.corr()

# Exibindo os resultados
correlacoes

Unnamed: 0,price,bedrooms,bathrooms,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
price,1.0,0.30835,0.525138,0.256794,0.266369,0.397293,0.036362,0.667434,0.605567,0.323816,0.054012,0.126434,-0.053203,0.307003,0.021626,0.585379,0.082447
bedrooms,0.30835,1.0,0.515884,0.175429,-0.006582,0.079532,0.028472,0.356967,0.4776,0.303093,0.154178,0.018841,-0.152668,-0.008931,0.129473,0.391638,0.029244
bathrooms,0.525138,0.515884,1.0,0.500653,0.063744,0.187737,-0.124982,0.664983,0.685342,0.28377,0.506019,0.050739,-0.203866,0.024573,0.223042,0.568634,0.087175
floors,0.256794,0.175429,0.500653,1.0,0.023698,0.029444,-0.263768,0.458183,0.523885,-0.245705,0.489319,0.006338,-0.059121,0.049614,0.125419,0.279885,-0.011269
waterfront,0.266369,-0.006582,0.063744,0.023698,1.0,0.401857,0.016653,0.082775,0.072075,0.080588,-0.026161,0.092885,0.030285,-0.014274,-0.04191,0.086463,0.030703
view,0.397293,0.079532,0.187737,0.029444,0.401857,1.0,0.04599,0.251321,0.167649,0.276947,-0.05344,0.103917,0.084827,0.006157,-0.0784,0.280439,0.072575
condition,0.036362,0.028472,-0.124982,-0.263768,0.016653,0.04599,1.0,-0.144674,-0.158214,0.174105,-0.361417,-0.060618,0.003026,-0.014941,-0.1065,-0.092824,-0.003406
grade,0.667434,0.356967,0.664983,0.458183,0.082775,0.251321,-0.144674,1.0,0.755923,0.168392,0.446963,0.014414,-0.184862,0.114084,0.198372,0.713202,0.119248
sqft_above,0.605567,0.4776,0.685342,0.523885,0.072075,0.167649,-0.158214,0.755923,1.0,-0.051943,0.423898,0.023285,-0.26119,-0.000816,0.343803,0.73187,0.19405
sqft_basement,0.323816,0.303093,0.28377,-0.245705,0.080588,0.276947,0.174105,0.168392,-0.051943,1.0,-0.133124,0.071323,0.074845,0.110538,-0.144765,0.200355,0.017276


Agora, podemos observar as correlações entre todas as variáveis. Dessa forma, podemos observar alguns detalhes interessantes, como por exemplo:

- Bathrroms e bedrooms possuem uma correlação positiva moderada de 0,51.
- Floors e Bathrooms também apresentam uma correlação positiva moderada de 0,50.
- A variável sqft_living e banheiros apresentam uma correlação positiva moderada de 0,56.
- A variável grade e bathrooms apresentam uma correlação positiva forte de 0,66.
- A variável grade e price apresentam uma correlação positiva forte de 0,66.

Existem outras correlações que podemos apontar, mas como nosso objetivo é observar as correlações entre a variável 'price' e as outras variáveis, vamos observar apenas as correlações com a variável 'price'.

In [7]:
# Visualizando as correlações
correlacoes.head(1)

Unnamed: 0,price,bedrooms,bathrooms,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
price,1.0,0.30835,0.525138,0.256794,0.266369,0.397293,0.036362,0.667434,0.605567,0.323816,0.054012,0.126434,-0.053203,0.307003,0.021626,0.585379,0.082447


Podemos observar que as maiores correlações com o preço são:

- grade apresenta uma correlação positiva forte de 0,66.
- sqft_above apresenta uma correlação positiva forte de 0,60.
- sqft_living apresenta uma correlação positiva moderada de 0,58.
- bathrooms apresenta uma correlação positiva moderada de 0,52.

Essas são as quatro variáveis que mais apresentam correlações com a variável 'price'. É importante frisar que todas essas correlações são positivas.

# **Regressão**

Algumas observasões sobre a regressão:

- Espera-se que a correlação seja de moderada a forte para obter um bom modelo (positiva ou negativa)
- Coeficiente de determinação (R2): > 0.7 é um bom valor. Entre 0 e 0.3 é ruim. Entre esses valores é interessante fazer testes
- Regressão linear: existir lineariedade

Vamos realizar as importações necessarias para aplicação do modelo de regressão propriamente dito

In [None]:
# Álgebra linear
import numpy as np

# Manipualçao de dados
import pandas as pd

# Visualização de dados
import seaborn as sns

Com todas essas bibliotecas importadas, podemos seguir adiante para a importação dos dados.

In [None]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importando o dataset
df = pd.read_csv("/content/drive/MyDrive/Estatística para ciência de dados/house_prices.csv")

# Observando os registros
df.head()

Excluindo as variaveis que não serão utilizadas

In [None]:
# Realizando a exclusão da coluna
df = df.drop(['date', 'id', 'sqft_living', 'sqft_lot'], axis = 1)

# Observando os dados
df.head()