<h1>Sumário<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Importação-dos-dados" data-toc-modified-id="Importação-dos-dados-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Importação dos dados</a></span></li><li><span><a href="#Verificação-do-dados" data-toc-modified-id="Verificação-do-dados-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Verificação do dados</a></span></li><li><span><a href="#data-split-dos-dados" data-toc-modified-id="data-split-dos-dados-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>data split dos dados</a></span></li><li><span><a href="#Treinamento-do-modelo" data-toc-modified-id="Treinamento-do-modelo-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Treinamento do modelo</a></span></li></ul></div>

# Regressão Linear

- O que é ?
A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, é usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.[3]

Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos.

- Equação da regressão linear
Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.
$$
{\displaystyle y_{i}=\alpha +\beta \,X_{i}+\varepsilon _{i}}{\displaystyle y_{i}=\alpha +\beta \,X_{i}+\varepsilon _{i}}
$$
, onde:

$$
{\displaystyle y_{i}}y_{i}: 
$$

Variável explicada (dependente); representa o que o modelo tentará prever
$$
{\displaystyle \alpha }\alpha:
$$
É uma constante, que representa a interceptação da reta com o eixo vertical;

$${\displaystyle \beta }\beta$$: Representa a inclinação (coeficiente angular) em relação à variável explicativa;

$${\displaystyle X_{i}}X_{i}$$: Variável explicativa (independente);

$${\displaystyle \varepsilon _{i}}{\displaystyle \varepsilon _{i}}$$: Representa todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: terem distribuição normal, com a mesma variância $${\displaystyle \sigma ^{2}\,}\sigma ^{2}\$$,, independentes e independentes da variável explicativa X, ou seja, i.i.d. (independentes e identicamente distribuídas).

# Aplicação

In [15]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Importação dos dados

In [11]:

url ='https://raw.githubusercontent.com/EderReisS/project-DS-A1/main/Machine_Learning_Aplicado/1.data/auto_imports_database.csv'
data = pd.read_csv(url, index_col=0)

In [38]:
data.reset_index(inplace=True)

In [42]:
data.drop(columns='index', inplace=True)

## Verificação do dados

In [51]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   1. symboling:           205 non-null    int64  
 1   2. normalized-losses:   205 non-null    object 
 2   3. make:                205 non-null    object 
 3   4. fuel-type:           205 non-null    object 
 4   5. aspiration:          205 non-null    object 
 5   6. num-of-doors:        205 non-null    object 
 6   7. body-style:          205 non-null    object 
 7   8. drive-wheels:        205 non-null    object 
 8   9. engine-location:     205 non-null    object 
 9   10. wheel-base:         205 non-null    float64
 10  11. length:             205 non-null    float64
 11  12. width:              205 non-null    float64
 12  13. height:             205 non-null    float64
 13  14. curb-weight:        205 non-null    int64  
 14  15. engine-type:        205 non-null    ob

In [54]:
data.iloc[:,1].unique()

array(['?', '164', '158', '192', '188', '121', '98', '81', '118', '148',
       '110', '145', '137', '101', '78', '106', '85', '107', '104', '113',
       '150', '129', '115', '93', '142', '161', '153', '125', '128',
       '122', '103', '168', '108', '194', '231', '119', '154', '74',
       '186', '83', '102', '89', '87', '77', '91', '134', '65', '197',
       '90', '94', '256', '95'], dtype=object)

## data split dos dados

In [44]:
X = data.iloc[:,:-1]
X.head()

Unnamed: 0,1. symboling:,2. normalized-losses:,3. make:,4. fuel-type:,5. aspiration:,6. num-of-doors:,7. body-style:,8. drive-wheels:,9. engine-location:,10. wheel-base:,...,16. num-of-cylinders:,17. engine-size:,18. fuel-system:,19. bore:,20. stroke:,21. compression-ratio:,22. horsepower:,23. peak-rpm:,24. city-mpg:,25. highway-mpg:
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22


In [45]:
Y = data.iloc[:,-1]
Y.head()

0    13495
1    16500
2    16500
3    13950
4    17450
Name: 26. price:, dtype: object

In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [46]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=42)

## Treinamento do modelo

In [47]:
model = LinearRegression()

In [48]:
model.get_params()

{'copy_X': True,
 'fit_intercept': True,
 'n_jobs': None,
 'normalize': 'deprecated',
 'positive': False}

In [49]:
model.fit(X_train,y_train)

ValueError: could not convert string to float: '?'