# Sumário

- Métricas da Regressão

    - Erro Quadrático Médio

    - Raíz do Erro Quadrático Médio

    - Coeficiente de Determinação

    - Significância (P>|t|) 
    
- Relação entre Variaveis

- Regressão Linear

- Salvamento e Carregamento de Modelos

- Arvore de Decisões

- Classificação Linear

- Classificação Não Linear

- Predição de Parâmetros de Equações


---

## Métricas da regressão

fonte: https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics

Algumas estatísticas obtidas do modelo de regressão são muito úteis como critério de comparação entre modelos estimados e de seleção do melhor modelo, as principais métricas de regressão que o scikit-learn disponibiliza para modelos lineares são as seguintes:

#### Erro Quadrático Médio

Média dos quadrados dos erros. Ajustes melhores apresentam $EQM$ mais baixo.

$$EQM(y, \hat{y}) = \frac 1n\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2$$

#### Raíz do Erro Quadrático Médio

Raíz quadrada da média dos quadrados dos erros. Ajustes melhores apresentam $\sqrt{EQM}$ mais baixo.

$$\sqrt{EQM(y, \hat{y})} = \sqrt{\frac 1n\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2}$$


#### Coeficiente de Determinação - R²

O coeficiente de determinação (R²) é uma medida resumida que diz quanto a linha de regressão ajusta-se aos dados. É um valor entra 0 e 1.

$$R^2(y, \hat{y}) = 1 - \frac {\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2}{\sum_{i=0}^{n-1}(y_i-\bar{y}_i)^2}$$


#### Significância (P>|t|) 

Teste de significância conjunta dos parâmetros
- Prob (F-statistic) <= 0.05 (<b>OK</b>)

Teste de significância individual dos parâmetros
- P>|t| <= 0.05 (<b>OK</b>)

In [None]:
from sklearn import metrics
import numpy as np
import pandas as pd

EQM_2 = metrics.mean_squared_error(y2_test, y_previsto_2).round(2)
REQM_2 = np.sqrt(metrics.mean_squared_error(y2_test, y_previsto_2)).round(2)
R2_2 = metrics.r2_score(y2_test, y_previsto_2).round(2)

pd.DataFrame([EQM_2, REQM_2, R2_2], ['EQM', 'REQM', 'R²'], columns=['Métricas'])

---

### Relação entre Variaveis

In [None]:
import pandas as pd

def relacoesVars (dataframe):

    print ("Correlação")
    print (dataframe.corr())

    print ("Covariância")
    print (dataframe.cov())

---

## Regresão Linear

A análise de regressão diz respeito ao estudo da dependência de uma variável (a variável <b>dependente</b>) em relação a uma ou mais variáveis, as variáveis explanatórias, visando estimar e/ou prever o valor médio da primeira em termos dos valores conhecidos ou fixados das segundas.

scikit-learn (https://scikit-learn.org/stable/)

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

https://scikit-learn.org/stable/modules/classes.html#regression-metrics


In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns  


def regressaoLinear (dataFrame, yValue, xValues, test_size= 0.5, plotGraph= False):
    
    y= dataFrame[yValue]
    X= dataFrame[xValues]

    X_train, X_test, y_train, y_test= train_test_split(X, y, test_size= test_size)

    modelo= LinearRegression()
    modelo.fit(X_train, y_train)

    y_previsto= modelo.predict(X_test)

    R2 = metrics.r2_score(y_test, y_previsto).round(2)
    EQM = metrics.mean_squared_error(y_test, y_previsto).round(2)
    REQM = np.sqrt(metrics.mean_squared_error(y_test, y_previsto)).round(2)

    metricas= pd.DataFrame([EQM, REQM, R2], ["EQM", "REQM", "R2"], columns= ["Metricas"])
    print (metricas)

    coeficientes= pd.DataFrame(data= np.append(modelo.intercept_, modelo.coef_), index= ["Intercepto"] + xValues, columns= ["Parametros"])
    print (coeficientes) 

    if (plotGraph):
        y_previsto_train= modelo.predict(X_train)

        plt.title("(Modelo Regressão Linear) Previsão X Real")
        plt.xlabel("Previsto")
        plt.ylabel("Real")
        graph= sns.scatterplot(x= y_previsto_train, y= y_train)
        graph.figure.set_size_inches(8,6)
        plt.show()
        
        residuoQuadrado = (y_train - y_previsto_train)**2
        
        plt.title("(Modelo Regressão Linear) Residuos X Previsão")
        plt.xlabel("Previsto")
        plt.ylabel("Residual")
        graph= sns.scatterplot(x= y_previsto_train, y= residuoQuadrado)
        graph.figure.set_size_inches(8,6)
        plt.show()

    return modelo

In [None]:
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np


def regressionLinearWithLog (dataFrame, yValue, xValues, test_size= 0.5, plotGraph= False):

    y= dataFrame[yValue]
    X= dataFrame[xValues]

    X_train, X_test, y_train, y_test= train_test_split(X, y, test_size= test_size)

    X_train_com_constante = sm.add_constant(X_train)

    modelo= sm.OLS(y_train, X_train_com_constante, hasconst= True).fit()

    # P > |t| para a variavel deve ser menor que 0.05 para ser uma variavel significativa na regressão.. se for maior que esse valor pode ser retirada.
    print (modelo.summary())

    EQM = modelo.mse_resid
    coeficientes= pd.DataFrame(data= np.append(modelo.intercept_, modelo.coef_), index= ["Intercepto"] + xValues, columns= ["Parametros"])
    print (coeficientes) 

    if (plotGraph):
        y_previsto_train= modelo.predict(X_train)

        plt.title("(Modelo Regressão Linear) Previsão X Real")
        plt.xlabel("Previsto")
        plt.ylabel("Real")
        graph= sns.scatterplot(x= y_previsto_train, y= y_train)
        graph.figure.set_size_inches(8,6)
        plt.show()
        
        residuoQuadrado = (y_train - y_previsto_train)**2

        plt.title("(Modelo Regressão Linear) Residuos X Previsão")
        plt.xlabel("Previsto")
        plt.ylabel("Residual")
        graph= sns.scatterplot(x= y_previsto_train, y= residuoQuadrado)
        graph.figure.set_size_inches(8,6)
        plt.show()
        
    return modelo


---

### Salvamento e Carregamento de Modelos

In [None]:
import pickle


def saveModelo (modelo, path):
    
    output= open(path, "wb")
    pickle.dump(modelo, output)
    output.close()

In [None]:
import pickle


def loadModelo (path):
    
    input= open(path, "rb")
    modelo= pickle.load(input)
    input.close()

    return modelo

---

### Arvore de Decisões

![TreeDecicion]("/../../imgs/treeDecicion.PNG")

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
import graphviz #Necessario instalar no windows -> https://graphviz.org/download/


def classificacao_decisionTree (dataFrame, yValue, xValues, test_size= 0.5, plotGraph= False, max_depth= None):
    
    y= dataFrame[yValue]
    X= dataFrame[xValues]

    X_train, X_test, y_train, y_test= train_test_split(X.values, y.values, test_size= test_size)

    modelo= DecisionTreeClassifier(max_depth=max_depth)

    modelo.fit(list(X_train), list(y_train))

    y_previsto= modelo.predict(list(X_test))

    accur = metrics.accuracy_score(y_test, y_previsto).round(2) * 100
    print ("Acuracia da previsao: ", accur, "%")
    
    if (plotGraph):

        dot_data = export_graphviz(modelo, out_file=None,
                                filled = True, rounded = True,
                                feature_names = xValues)

        grafico = graphviz.Source(dot_data)
        grafico.render(view=True)

    return modelo

In [None]:
#TESTE 
import pandas as pd 
from sklearn.model_selection import train_test_split
from sklearn import metrics

# features (1 sim, 0 não)
# pelo longo?
# perna curta?
# faz auau?
peloLongo= [0, 0, 1, 1, 1, 0, 1, 1, 0, 0]
pernaCurta= [1, 1, 1, 0, 1, 1, 0, 1, 1, 1]
auau= [0, 1, 0, 0, 0, 1, 1, 1, 1, 1]

# 1 => porco, 0 => cachorro
animal = [1,1,1,1,1,0,0,0,0,0] # labels / etiqueta

df = pd.DataFrame(data=list(zip(peloLongo, pernaCurta, auau, animal)), columns=["Pelo Longo", "Perna Curta", "Auau", "Animal"])

classificacao_decisionTree (df, "Animal", ["Pelo Longo", "Perna Curta", "Auau"], test_size= 0.1, plotGraph= True)

---

### Classificação Linear


In [None]:
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn import metrics


def classificacao_Linear (dataFrame, yValue, xValues, test_size= 0.5):
    
    y= dataFrame[yValue]
    X= dataFrame[xValues]

    X_train, X_test, y_train, y_test= train_test_split(X, y, test_size= test_size)

    modelo= LinearSVC()
    modelo.fit(list(X_train), list(y_train))

    y_previsto= modelo.predict(list(X_test))

    accur = metrics.accuracy_score(y_test, y_previsto).round(2) * 100
    print ("Acuracia da previsao: ", accur, "%")

    return modelo   

In [None]:
#TESTE

# features (1 sim, 0 não)
# pelo longo?
# perna curta?
# faz auau?
porco1 = [0, 1, 0]
porco2 = [0, 1, 1]
porco3 = [1, 1, 0]
porco4 = [1, 0, 0]
porco5 = [1, 1, 0]

cachorro1 = [0, 1, 1]
cachorro2 = [1, 0, 1]
cachorro3 = [1, 1, 1]
cachorro4 = [0, 1, 1]
cachorro5 = [0, 1, 1]

# 1 => porco, 0 => cachorro
treino_x = [porco1, porco2, porco3, porco4, porco5, cachorro1, cachorro2, cachorro3, cachorro4, cachorro5]
treino_y = [1,1,1,1,1,0,0,0,0,0] # labels / etiqueta

df = pd.DataFrame(data=list(zip(treino_x, treino_y)), columns=["Entradas", "Resultados"])
classificacao_Linear (df, "Resultados", "Entradas", test_size= 0.1, plotGraph= True)

---

### Classificação Não Linear

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.preprocessing import StandardScaler


def classificacao_NaoLinear (dataFrame, yValue, xValues, test_size= 0.5):
    
    y= dataFrame[yValue]
    X= dataFrame[xValues]

    raw_X_train, raw_X_test, y_train, y_test= train_test_split(X, y, test_size= test_size)

    scaler = StandardScaler ()
    scaler.fit(list(raw_X_train))
    X_train= scaler.transform(list(raw_X_train))
    X_test= scaler.transform(list(raw_X_test))

    modelo= SVC()
    modelo.fit(list(X_train), list(y_train))

    y_previsto= modelo.predict(list(X_test))

    accur = metrics.accuracy_score(y_test, y_previsto).round(2) * 100
    print ("Acuracia da previsao: ", accur, "%")
    
    return modelo


---

### Predição de Parâmetros de Equações

In [None]:
import statsmodels.formula.api as smf 


def equationModel (dataFrame, formula):
    #ex: formula: Porcoes ~ Farinha + Chocolate + Farinha:Chocolate"
    # O exemplo acima seria a seguinte formula -> Y = p1*Farinha + p2*Chocolate + p3*Farinha*Chocolate + intercepto + erro
    # ~ representa igual (=) em uma formula
    # : representa um parametro conjunto entre duas variaveis
    #Necessariamente o nome nas formulas deve ser nome de coluna do dataframe

    modelo = smf.ols(data= dataFrame, formula= formula).fit()

    # P > |t| para a variavel deve ser menor que 0.05 para ser uma variavel significativa na regressão.. se for maior que esse valor pode ser retirada.
    print (modelo.summary())

    print (modelo.params)

    return modelo