<a href="https://colab.research.google.com/github/lucasyoshi3/EstruturaDeDados_Ex01/blob/master/correlacao_regressao_linear.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES**

In [14]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# **Análise e Tratamento dos Dados**

In [2]:
import numpy as np
import pandas as pd

In [3]:
mola = pd.read_csv('/content/drive/MyDrive/rigidez.csv',
                    sep=';', encoding='iso-8859-1')
# encoding: codificação de caracteres, normalmente utiliza-se o iso-8859-1, utf-8, latin-1)

**Objetivo: Analisar a correlação entre a força e a deformação sofrida por uma mola e criar um modelo de regressão linear.**

In [4]:
mola.head(40)

Unnamed: 0,cargas,forca,Lo,L,x,K
0,1,0.1,27.0,29.9,0.0029,34.48
1,2,0.15,27.0,31.3,0.0043,34.88
2,3,0.18,27.0,,,
3,4,0.23,27.0,34.0,0.007,32.86
4,5,0.31,27.0,35.53,0.0085,36.34
5,6,0.45,27.0,41.4,0.0144,31.25
6,7,0.55,27.0,44.2,0.0172,31.98
7,8,0.68,27.0,47.2,0.0202,33.66
8,9,0.72,27.0,50.0,0.023,31.3
9,10,0.83,27.0,51.9,0.0249,33.33


In [5]:
mola.shape

(30, 6)

In [6]:
# Renomear uma variável
mola.rename(columns={'Lo': 'compr_inicial'}, inplace=True)

In [7]:
mola.head()

Unnamed: 0,cargas,forca,compr_inicial,L,x,K
0,1,0.1,27.0,29.9,0.0029,34.48
1,2,0.15,27.0,31.3,0.0043,34.88
2,3,0.18,27.0,,,
3,4,0.23,27.0,34.0,0.007,32.86
4,5,0.31,27.0,35.53,0.0085,36.34


In [8]:
# Renomear mais de uma variável
mola.rename(columns={'L': 'compr_final','x': 'deformacao', 'K': 'rigidez'}, inplace=True)

In [9]:
mola.head()

Unnamed: 0,cargas,forca,compr_inicial,compr_final,deformacao,rigidez
0,1,0.1,27.0,29.9,0.0029,34.48
1,2,0.15,27.0,31.3,0.0043,34.88
2,3,0.18,27.0,,,
3,4,0.23,27.0,34.0,0.007,32.86
4,5,0.31,27.0,35.53,0.0085,36.34


In [10]:
# Análise dos tipos de atributos.
# object: strings
# int64: inteiros
# float64: reais
# complex: complexos
mola.dtypes

cargas             int64
forca            float64
compr_inicial    float64
compr_final      float64
deformacao       float64
rigidez          float64
dtype: object

In [11]:
# Excluir variável
mola1 = mola.drop(columns=['compr_inicial'])
mola1.head()

Unnamed: 0,cargas,forca,compr_final,deformacao,rigidez
0,1,0.1,29.9,0.0029,34.48
1,2,0.15,31.3,0.0043,34.88
2,3,0.18,,,
3,4,0.23,34.0,0.007,32.86
4,5,0.31,35.53,0.0085,36.34


Valores Missing (NAN)

In [12]:
# RELAÇÃO DA QUANTIDADE
mola1.isnull().sum()

cargas         0
forca          0
compr_final    1
deformacao     1
rigidez        1
dtype: int64

In [13]:
mola1['deformacao'].isnull().sum()

1

In [15]:
# EXCLUIR TODOS OS VALORES MISSING
mola1 = mola1.dropna()

In [16]:
mola1.head()

Unnamed: 0,cargas,forca,compr_final,deformacao,rigidez
0,1,0.1,29.9,0.0029,34.48
1,2,0.15,31.3,0.0043,34.88
3,4,0.23,34.0,0.007,32.86
4,5,0.31,35.53,0.0085,36.34
5,6,0.45,41.4,0.0144,31.25


In [None]:
mola1.describe()

In [None]:
# SUBSTITUIR OS VALORES MISSING PELA MEDIANA
mola1['compr_final'].fillna(mola1['compr_final'].median(), inplace=True)

In [None]:
mola1.head()

In [None]:
# SUBSTITUIR OS VALORES MISSING PELA MÉDIA
mola1['deformacao'].fillna(mola1['deformacao'].mean(), inplace=True)

In [None]:
mola1.rigidez.value_counts()

In [None]:
# SUBSTITUIR OS VALORES MISSING PELA MODA
mola1['rigidez'].fillna(30.81, inplace=True)

In [None]:
mola1.head()

Análise dos outliers

In [None]:
import plotly.express as px

In [None]:
boxplot = px.box(mola1, y="forca")
boxplot.show()

In [None]:
boxplot = px.box(mola1, y="deformacao")
boxplot.show()

In [None]:
mola1.head(30)

In [None]:
boxplot = px.box(mola1, y="rigidez")
boxplot.show()

In [None]:
mola1.head(30)

In [None]:
mola1.drop(28, inplace=True)

In [None]:
mola1.head(30)

# **ANÁLISE DA CORRELAÇÃO LINEAR**

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(mola1.deformacao,mola1.forca)
plt.title('Correlação')
plt.xlabel('Deformação')
plt.ylabel('Força')
plt.grid(False)
plt.show()

In [None]:
import seaborn as sns

In [None]:
sns.pairplot(mola1);

## Análise da Normalidade

Gráfico QQ-Plot

In [None]:
import scipy.stats as stats

In [None]:
stats.probplot(mola1['forca'], dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

In [None]:
stats.probplot(mola1['deformacao'], dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

Teste Shapiro-Wilk

Ho = distribuição normal : p > 0.05

Ha = distribuição != normal : p <= 0.05

In [None]:
stats.shapiro(mola1.forca)

In [None]:
estatistica, p = stats.shapiro(mola1.forca)
print('Estatística do teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

In [None]:
estatistica, p = stats.shapiro(mola1.deformacao)
print('Estatística do teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

Teste Lilliefors (Kolmogorov_Sminorv)

Ho = distribuição normal : p > 0.05

Ha = distribuição != normal : p <= 0.05

In [None]:
import statsmodels
from statsmodels.stats.diagnostic import lilliefors

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(mola1.forca, dist = 'norm')
print('Estatística de teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

In [None]:
estatistica, p = statsmodels.stats.diagnostic.lilliefors(mola1.deformacao, dist = 'norm')
print('Estatística de teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

## Correlação Linear

Pearson (distribuição normal)

Spearman (distribuição não normal)

Kendall (distribuição não normal com quantidade pequena de amostras)

Ho = não há corrrelação linear: p > 0,05

Ha = existe correlação linear: p <= 0,05

In [None]:
# Pearson
coef,p = stats.pearsonr(mola1.deformacao,mola1.forca)
print('Coeficiente de correlação: {}'.format(coef))
print('p-valor: {}'.format(p))

In [None]:
# Spearman
coef,p = stats.spearmanr(mola1.deformacao,mola1.forca)
print('Coeficiente de correlação: {}'.format(coef))
print('p-valor: {}'.format(p))

In [None]:
# Kendall
coef,p = stats.kendalltau(mola1.deformacao,mola1.forca)
print('Coeficiente de correlação: {}'.format(coef))
print('p-valor: {}'.format(p))

In [None]:
correlacoes = mola1.corr(method='pearson')
correlacoes

In [None]:
plt.figure()
sns.heatmap(correlacoes, annot=True);

# **MODELO DE REGRESSÃO LINEAR**

## Regressão Linear com Statsmodels

In [None]:
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

In [None]:
# Criação do modelo
regressao = smf.ols('forca ~ deformacao', data = mola1).fit()

In [None]:
residuos = regressao.resid
residuos

### Teste de Normalidade dos resíduos

Ho = distribuição normal : p > 0.05

Ha = distribuição != normal : p <= 0.05

In [None]:
estatistica, p = stats.shapiro(residuos)
print('Estatística de teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))

In [None]:
stats.probplot(residuos, dist="norm", plot=plt)
plt.title("Normal Q-Q plot - Resíduos")
plt.show()

### Análise da Homocedasticidade dos resíduos
(resíduos com variação constante)

In [None]:
plt.scatter(y=residuos, x=regressao.predict(), color='red')
plt.hlines(y=0, xmin=0, xmax=4, color='orange')
plt.ylabel('Resíduos')
plt.xlabel('Valores Preditos')
plt.show()

Teste Breusch-Pagan (Homocedasticidade ou heterocedasticidade)

Ho = existe homocedasticidade : p > 0.05

Ha = não existe homocedasticidade : p <= 0.05

In [None]:
from statsmodels.compat import lzip
import statsmodels.stats.api as sms

In [None]:
estatistica, p, f, fp = sms.het_breuschpagan (regressao.resid, regressao.model.exog)
print('Estatística de teste: {}'.format(estatistica))
print('p-valor: {}'.format(p))
print('f-valor: {}'.format(f))
print('f_p-valor: {}'.format(fp))

### **Outliers nos resíduos**

(Entre -3 e 3)

In [None]:
outliers = regressao.outlier_test()

In [None]:
outliers.max()

In [None]:
outliers.min()

**Modelo aprovado**

### **Regressão Linear**

In [None]:
print(regressao.summary())

Estatística t:

Ho = coeficiente igual a zero : p > 0,05 (coeficiente não validado)

Ha = coeficiente diferente de zero: p <= 0,05 (coeficiente validado)

**Equação: Força = 0,0436 + 30,2326.deformação**

**R^2 ajustado = 0,998**

In [None]:
regressao.params

In [None]:
mola1.head()

In [None]:
regressao.predict()

In [None]:
plt.scatter(y=mola1.forca, x=mola1.deformacao, color='blue', s=80, alpha=0.9)
X_plot = np.linspace(0, 0.12)
plt.plot(X_plot, X_plot*regressao.params[1] + regressao.params[0], color='r')
plt.title('Reta de regressão')
plt.ylabel('FORÇA')
plt.xlabel('DEFORMAÇÃO')
plt.show()

## Regressão Linear com Sklearn

In [None]:
mola1.head()

In [None]:
x = mola1.iloc[ : , 3].values
y = mola1.iloc[ : , 1].values

In [None]:
correlacao2 = np.corrcoef (x, y)
correlacao2

In [None]:
x

In [None]:
x = x.reshape(-1,1) #transformando em matriz

In [None]:
x

In [None]:
from sklearn.linear_model import LinearRegression
regressao2 = LinearRegression()
regressao2.fit(x,y)

In [None]:
regressao2.intercept_

In [None]:
regressao2.coef_

In [None]:
# coeficiente de determinação
regressao2.score(x,y)

**Equação: Força = 0,0436 + 30,2326.deformação**

**R^2 ajustado = 0,998**

In [None]:
mola1.head(20)

In [None]:
previsoes = regressao2.predict(x)
previsoes

In [None]:
previsao = regressao2.predict([[0.45]])
print('A força deve ser de {} N'.format(previsao))