# <font color='blue'>UNINOVE - Ciência de Dados</font>

## Tópico 15 - Python: Análise de Dados

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

### Regressão com função Polinomial de Primeiro Grau

In [None]:
# Biblioteca usada para calcular e plotar gráfico
import numpy as np
import matplotlib.pyplot as plt

### Para o teste inicial vamos efetuar a análise de regressão considerando um polinômio de primeiro grau, ou seja: Y = aX + b.
Quando X = 1, Y assume o valor igual a 5

Quando X = 2, Y assume o valor igual a 8

Quando X = 3, Y assume o valor igual a 11

Quando X = 4, Y assume o valor igual a 14

In [None]:
x = [1,2,3,4]
y = [5,8,11,14]

Chamada da função <b>polyfit</b> - Ajuste polinomial de mínimos quadrados. https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html 

Esta é a função que é responsável por fazer a análise de regressão linear. 

O primeiro parâmetro são os valores da variável independente X, o segundo parâmetro os valores de variável dependente Y e o terceiro parâmetro o tipo de polinômio, no exemplo dado foi informado valor igual a 1, ou seja, polinômio de primeiro grau. 

O resultado será armazenado na variável fit.

In [None]:
fit = np.polyfit(x,y,1)

A função <b>fit_fn</b> é o resultado da regressão linear realizada.

<b>poly1d</b> - Uma classe polinomial unidimensional. https://numpy.org/doc/stable/reference/generated/numpy.poly1d.html

Uma classe de conveniência, usada para encapsular operações "naturais" em polinômios para que essas operações possam assumir sua forma habitual no código.

In [None]:
fit_fn = np.poly1d(fit)

Impressão das constantes <i>a</i> e <i>b</i> que foram determinadas na análise de regressão linear. Note que foi associado o valor 3 a constante <i>a</i> e o valor 2 a constante <i>b</i>.

In [None]:
print('Y = aX + b. Então a =',round(fit[0],2), 'e b =',round(fit[1],2))

Impressão da função <b>fit_fn</b>. O resultado é o mesmo da impressão da linha anterior, ou seja, constante <i>a</i> possui valor igual a 3 e constante <i>b</i> possui valor igual a 2.

In [None]:
print(fit_fn)

Predição realizada assumindo que valor de <i>X</i> igual a 10. Caso X seja igual a 10, pela análise de regressão linear efetuada, conclui-se que o valor de Y será igual a 32. Neste ponto temos que a predição foi realizada aplicando-se regressão linear de polinômio de primeiro grau.

In [None]:
print(round(fit_fn(10),4))

Utilizado <b>matplotlib</b> para impressão do gráfico gerado. 

Neste gráfico vemos os pontos x e y informados (pontos em azul) como a função obtida pela análise de regressão linear feita (reta em vermelho).

O primeiro parâmetro temos os valores da variável <i>X</i>, o segundo parâmetro dos valores da variável <i>Y</i>, o terceiro parâmetro trata de como tais dados serão visualizados. O terceiro parâmetro está como <i>bo</i> - <b>b</b> indicando cor azul (blue) e o marcador <b>o</b> indica o símbolo de ponto no gráfico a ser gerado. 

Em seguida a impressão da reta ou curva, tendo os mesmos parâmetros <i>X</i> como variável independente. Em seguida, ao invés dos parâmetros <i>Y<i>, os parâmetros que serão o resultado da aplicação da função <b>fit_fn</b>. O sexto parâmetro temos a cor da reta a ser impressa, neste caso vermelha (red).

In [None]:
plt.plot(x,y, 'bo', x, fit_fn(x), 'red')

As linhas abaixo não são obrigatórias, são opcionais. Servem para indicar os limites do gráfico a ser impresso. O eixo X deve variar entre 0 e 5 e o eixo Y deve variar entre 0 e 15. 

In [None]:
plt.xlim(0, 5)
plt.ylim(0, 15)

### Análise de Regressão - Polinômio de Segundo Grau

Y = aX<sup>2</sup> + bX + c

In [None]:
# Biblioteca usada para calcular e plotar gráfico
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# atribuindo valores as variáveis x e y
x = [0,1,2,3,4,5,6,7]
y = [-1,4.01,13,26,43.01,64.02,88.98,118] 

In [None]:
# calculando a regressão linear 
fit = np.polyfit(x,y,2)
fit_fn = np.poly1d(fit) 

In [None]:
# mostrando os dados
print(fit)
print(fit_fn)
print(round(fit_fn(10),4))

In [None]:
# plotando o gráfico
plt.plot(x,y, 'o', x, fit_fn(x), 'red')

### Comparativo entre polinômios de diferentes graus

In [None]:
# Importação de pacotes
import numpy as np
import matplotlib.pyplot as plt

# atribuição de variáveis
x = [0,5,10,20,30,40,50]
y = [1,59.75,356,2411,7666,17621,33776] 

#### Foi dado um conjunto de pontos e foi feita análise de regressão linear utilizando polinômios de grau 1, 2 e 3.

Além disso foi calculado o resíduo dos três polinômios. Resíduo é a diferença entre os pontos observados e a curva que foi obtida a partir da análise de regressão. Para que o resíduo fosse calculado tivemos que informar um quarto parâmetro na função <i>polyfit</i> <b>(full=True)</b>.

In [None]:
# grau 1
fit = np.polyfit(x,y,1,full=True)
fit_fn1 = np.poly1d(fit[0]) 
print(fit_fn1)
residuo1 = fit[1][0]

Note que o resíduo da função polinomial de grau 2 é muito inferior ao resíduo da função polinomial de grau 1, ou seja, mais precisa que a função polinomial de grau 1.

In [None]:
# grau 2
fit = np.polyfit(x,y,2,full=True)
fit_fn2 = np.poly1d(fit[0]) 
print(fit_fn2)
residuo2 = fit[1][0]

Note que a função polinomial de grau 3 obteve resíduo zero, ou seja, foi precisa em todos os pontos.

In [None]:
# grau 3
fit = np.polyfit(x,y,3,full=True)
fit_fn3 = np.poly1d(fit[0]) 
print(fit_fn3)
residuo3 = fit[1][0]

Foi efetuada a predição para o valor 25 considerando os 3 polinômios obtidos, sendo que o valor para os polinômios de grau 2 e 3 foram próximos (4574.9366 e 4544.75) enquanto o valor obtido para o polinômio de grau 1 foi bem distante (10623.4616).

In [None]:
print('Polinomio Grau 1. Resíduo:',round(residuo1,2), 'Predição para valor igual a 25: ',round(fit_fn1(25),4))
print('Polinomio Grau 2. Resíduo:',round(residuo2,2), 'Predição para valor igual a 25: ',round(fit_fn2(25),4))
print('Polinomio Grau 3. Resíduo:',round(residuo3,2), 'Predição para valor igual a 25: ',round(fit_fn3(25),4))

 Veja a precisão de cada polinômio obtido para os valores dados no gráfico abaixo.

<font color='brown'>Grau 1: marrom</font>

<font color='red'>Grau 2: vermelho</font>

<font color='blue'>Grau 3: azul</font>

In [None]:
plt.plot(x,y, 'o', x, fit_fn1(x), 'brown')
plt.plot(x,y, 'o', x, fit_fn2(x), 'red')
plt.plot(x,y, 'o', x, fit_fn3(x), 'blue')

### Regressão Linear Múltipla

Vamos ver um exemplo aplicando regressão linear múltipla, ou seja, temos uma variável dependente (Y) e várias variáveis independentes, neste caso 3 variáveis independentes (X, Z e W).

Desta forma teríamos algo como: <i>Y = aX + bZ + cW + d</i>

Para o cálculo de regressão linear múltipla utilizaremos a biblioteca <b>scikit-learn</b>.

Para gerar um conjunto de valores de teste foi estabelecido que a função adotada seria <i>Y = 3X - 2Z + W - 2</i>

Importação das bibliotecas e pacotes necessários. 

Note que foi importado a biblioteca <b>sklearn</b> para efetuar a regressão linear.

In [None]:
import numpy as np    
from sklearn import linear_model

Criação dos vetores contendo os valores das variáveis independentes (x_train - sendo que a coluna 1 refere-se a variável X, coluna 2 a variável Z e a coluna 3 a variável W) e da variável dependente (y_train - Y).

In [None]:
x_train = np.array([ [1,1,1], [2,3,5], [3,4,4], [4,6,7],[7,8,9],[5,2,1],[3,4,5],[3,3,3],[4,4,4],[5,5,5]]);    
y_train = np.array([ 0,3,3,5,12,10,4,4,6,8]);  

Utilização da função <i>LinearRegression()</i>, responsável por efetuar a regressão linear. 

Foi utilizada a função <i>fit()</i> para preencher com as matrizes x_train e y_train para serem processadas pela função <i>LinearRegression()</i>. 

O resultado foi armazenado na variável <b>model</b>.

In [None]:
model = linear_model.LinearRegression().fit(x_train, y_train) 

São mostrados os coeficientes referentes as variáveis X, Z e W como também o <b>intercepto</b>. 

Note que para todos os coeficientes como também para o <b>intercepto</b>, foi feito o arredondamento <i>(round)</i> para 2 casas decimais e, além disso, foram convertidos em cadeia de caracteres pela função <i>str()</i> para que pudessem ser concatenadas (+) a mensagem.

In [None]:
print('Y = '+ str(round(model.coef_[0],2)) +' X +' + str(round(model.coef_[1],2)) + 'Z +' + str(round(model.coef_[2],2)) + 'W +' + str(round(model.intercept_,2)) ) 

Impressão do erro médio quadrado. A função <i>mean()</i> é responsável por calcular a média.

In [None]:
print('Erro médio quadrado: %.2f' % np.mean((model.predict(x_train) - y_train) ** 2))

Efetuando a predição para os valores de X, Z e W igual a 10. A função responsável por efetuar a predição é a função <i>predict()</i>.

In [None]:
print(model.predict([[10,10,10]]))