# Modelagem

## O que é um Modelo?

Assim como podemos encontrar uma equação para modelar um sistema do mundo real, podemos criar algo similar para determinada situação utilizando apenas os dados coletados sobre aquela situação. 

A partir dos nossos dados "limpos" podemos encontrar padrões e correlações que nos permitem predizer informações importantes sobre outros acontecimentos dentro da mesma situação. Por exemplo, a partir do nosso banco de dados sobre carros, podemos criar um modelo que predirá o valor de outros carros, por exemplo (que não necessariamente constam no nosso banco de dados). 
  - por isso, quanto melhor for a "limpeza" dos dados, maior a qualidade do modelo


## Regressão Linear Simples

Reegressoões lineares são modelos descritos por equações lineares. Na Regressão Linear Simples, desenvolvemos nosso modelo com apenas duas variáveis, da seguinte forma: 

<img src="https://s.dicionariofinanceiro.com/imagens/normdist-regression.jpg" width=500px align="left"/>


Equação: 


$$ Y = b_0 + b_1X $$


$$
b_0 = interseção \\
b_1 = coeficiente \ angular \\
X = variável \ preditora \\
Y = variável \ resposta \\
$$


Por exemplo, podemos criar um modelo de regressão linear para descobrir o 
preço de um automóvel utilizando apenas uma das caracteristicas (mais especificamente uma das taxas de avaliação de economia de combustível).

Y = price  
X = highway-mgp

# Desenvolvendo este modelo

In [None]:
#importando as bibliotecas
import pandas as pd
from sklearn.linear_model import LinearRegression


In [None]:
#exportando uma base de dados já tratada
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/Data%20files/automobileEDA.csv"

df  = pd.read_csv(url)

df.head(5)

Unnamed: 0,symboling,normalized-losses,make,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,...,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned,diesel,gas
0,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium,0,1
1,3,122,alfa-romero,std,two,convertible,rwd,front,88.6,0.811148,...,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium,0,1
2,1,122,alfa-romero,std,two,hatchback,rwd,front,94.5,0.822681,...,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium,0,1
3,2,164,audi,std,four,sedan,fwd,front,99.8,0.84863,...,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium,0,1
4,2,164,audi,std,four,sedan,4wd,front,99.4,0.84863,...,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium,0,1


In [None]:
#utilizamos a biblioteca scikit learning para criar um objeto que comporte o nosso modelo
lm = LinearRegression()
lm

LinearRegression()

In [None]:
#definimos então na nossa base de dados onde está o nosso modelo
X = df[['highway-mpg']]
Y = df['price']

In [None]:
#esta é a função que realiza o treinamento do modelo (encontra a função linear)
lm.fit(X,Y)

LinearRegression()

In [None]:
# e utilizamos este comando para fazer as predições
Y_teste =lm.predict(X)
Y_teste[0:5] 

array([16236.50464347, 16236.50464347, 17058.23802179, 13771.3045085 ,
       20345.17153508])

In [None]:
#para visualizar qual a nossa função linear que identifica nosso modelo, podemos visualizar nossas variáveis
print("Neste modelo, temos que o valor de b0 é", lm.intercept_ , "e o valor de b1 é", lm.coef_)

Neste modelo, temos que o valor de b0 é 38423.3058581574 e o valor de b1 é [-821.73337832]


# Detalhes Importantes: 

- Para a fase de desenvolvimento, é recomendado dividir o banco de dados aleatoriamente em uma parte para treinamento e outra para testes (70/30)

- Apesar de fazermos uma predição com um dado utilizado para treinamento, estes dados NUNCA devem ser usados para a fase de testes, já que o modelo já aprendeu este caso

- É importante se atentar para a quantidade de dados no banco, já que uma rede que treinou demais tende a decorar os casos (overfit) e uma rede com pouco treinamento tem dados insuficientes para predizer casos novos (underfit)

- Poucas situações do mundo real podemos fazer predições simples como essas. Na grande maioria dos casos precisamos analisar várias caracteristicas para chegar a um resultado condizente com o mundo real.Então por isso utilizamos regressão linear multipla e redes neurais para modelar nossos cenários

