# Introdução

A regressão é uma técnica de análise de dados simples, comum e altamente útil, coloquialmente conhecida como "ajustar uma linha de tendência". A regressão identifica a força da relação entre um ou mais recursos e um único rótulo. Sua simplicidade, previsibilidade, capacidade de previsão e alto nível de interpretabilidade fazem com que essa técnica seja usada em finanças, negócios, ciências sociais, epidemiologia e medicina.

Neste módulo, vamos nos aprofundar no funcionamento da regressão, entender suas limitações e aprender a avaliar o seu desempenho.

# Cenário: Infestação em uma clínica veterinária
Ao longo deste módulo, vamos usar o cenário de exemplo a seguir para explicar os conceitos por trás da regressão. Esse cenário foi projetado para fornecer um exemplo de como você pode usar essa técnica ao analisar dados futuros.

A instituição beneficente para cães de resgate em avalanches que você dirige teve uma súbita onda de doenças. Depois de um dia de retreinamento e de algumas atividades sociais, muitos de seus cães adoeceram. O principal sintoma é a febre. Preocupada com os cães que ainda não apresentaram sintomas, sua equipe coletou informações básicas sobre os primeiros 100 cães que adoeceram. Seu trabalho é identificar quais tipos de cachorros têm maior risco de doença, para que eles possam ser verificados preventivamente pelo veterinário.

# Objetivos de aprendizagem
Neste módulo, você vai:

Entender o funcionamento da regressão.
Trabalhar com novos algoritmos: regressão linear, regressão linear múltipla e regressão polinomial.
Entender os pontos fortes e as limitações dos modelos de regressão.
Visualizar funções de erro e de custo na regressão linear.
Entender as métricas básicas de avaliação da regressão.

# O que é regressão?

A regressão é uma técnica de análise de dados simples, comum e altamente útil, geralmente chamada de "ajustar uma linha". Em sua forma mais simples, a regressão se ajusta a uma linha reta entre uma variável (recurso) e outra (rótulo). Em formas mais complicadas, a regressão pode estabelecer relações não lineares entre um único rótulo e vários recursos.

# Regressão linear simples
A regressão linear simples modela uma relação linear entre um único recurso e um rótulo, geralmente contínuo, permitindo que o recurso preveja o rótulo. Visualmente, ela pode ser algo do tipo:



![image.png](attachment:image.png)



A regressão linear simples tem dois parâmetros: interceptação (c), que indica o valor do rótulo quando o recurso é definido como zero; e inclinação (m), que indica o quanto o rótulo aumentará para cada aumento de um ponto no recurso.

Usando um raciocínio matemático, isso é simplesmente:

y=mx+c

Em que y é o rótulo e x o recurso.

Por exemplo, em nosso cenário, se tentarmos prever os pacientes que terão febre com base na idade deles, teremos o seguinte modelo:

temperatura=m*idade+c

Precisamos encontrar os valores de m e c durante o procedimento de ajuste. Se encontrarmos m = 0,5 e c = 37, podemos visualizar desta forma:



![image.png](attachment:image.png)



Isso significa que cada ano de idade está associado ao aumento da temperatura do corpo de 0,5°C, com um ponto inicial de 37°C.

# Ajuste de regressão linear

Normalmente, usamos bibliotecas existentes para ajustar modelos de regressão. A regressão normalmente visa a encontrar a linha que produz a menor quantidade de erro, em que o erro aqui representa a diferença entre o valor real do ponto de dados e o valor previsto. Por exemplo, na imagem a seguir, a linha preta indica o erro entre a previsão, a linha vermelha e um valor real: o ponto.


![image.png](attachment:image.png)


Observando esses dois pontos em um eixo y, podemos ver que a previsão era de 39,5, mas o valor real foi de 41.


![image.png](attachment:image.png)


Portanto, o modelo estava errado em 1,5 para esse ponto de dados.

Normalmente, ajustamos um modelo minimizando a soma residual dos quadrados. Isso significa que a função de custo é calculada desta forma:

1. Calcular a diferença entre os valores reais e previstos (como mostrado anteriormente) para cada ponto de dados.
2. Eleve os valores ao quadrado.
3. Some (ou faça a média) desses valores elevados ao quadrado.

A presença dessa etapa de elevar ao quadrado significa que nem todos os pontos contribuem de maneira uniforme para a linha: as exceções—que são pontos que não se enquadram no padrão esperado—têm um erro desproporcionalmente maior, o que pode influenciar a posição da linha.

# Pontos fortes da regressão

As técnicas de regressão têm muitos pontos fortes que os modelos mais complexos não têm.

# Previsível e fácil de interpretar
As regressões são fáceis de interpretar porque descrevem equações matemáticas simples, que geralmente podemos transformar em gráfico. Modelos mais complexos geralmente são chamados de soluções de caixa preta, porque é difícil entender como eles fazem previsões ou como eles se comportarão com determinadas entradas.

# Fácil de extrapolar
As regressões facilitam a extrapolação para fazer previsões para valores fora do intervalo do nosso conjuntos de dados. Por exemplo, é simples estimar, em nosso exemplo anterior, que um cão de nove anos terá uma temperatura de 40,5°C. A extrapolação deve sempre ser feita com cuidado: esse mesmo modelo acabaria prevendo que um indivíduo de 90 anos teria quase a temperatura necessária para ferver água.

# O ajuste ideal costuma estar garantido
A maioria dos modelos de aprendizado de máquina usa descendente de gradiente para ajustar modelos, o que implica em ajustar o algoritmo do descendente de gradiente e não oferece nenhuma garantia de que uma solução ideal será encontrada. Por outro lado, a regressão linear que usa a soma de quadrados como uma função de custo não precisa de um procedimento iterativo de descendente de gradiente. Em vez disso, a matemática pode ser usada de forma inteligente para se calcular o local ideal para posicionar a linha. A matemática está fora do escopo deste módulo, mas é útil saber que na regressão linear não é necessário atenção especial ao processo de ajuste, e a solução ideal está garantida (contanto que o tamanho da amostra não seja grande demais).

# Metodo Fit () presente nos modelos

O método fit() funciona de forma diferente dependendo do tipo de modelo de machine learning que você está usando.

No caso da regressão linear, o método fit() usa um algoritmo chamado mínimos quadrados ordinários (OLS) para encontrar os coeficientes que minimizam a soma dos quadrados dos erros entre os valores reais e os valores previstos pelo modelo. O erro é a diferença entre o valor real e o valor previsto para cada observação. 

O método fit() calcula os coeficientes usando uma fórmula matemática que envolve a inversão da matriz dos dados de treinamento (X) e a multiplicação pelo vetor dos valores alvo (y). O resultado é um vetor de coeficientes que representa a reta que melhor se ajusta aos dados. O método fit() armazena esses coeficientes como atributos do objeto do modelo, que podem ser acessados depois usando model.coef_ e model.intercept_. Esses coeficientes são usados pelo método predict() para fazer previsões para novos dados.  


Fonte: https://medium.com/data-hackers/implementando-regress%C3%A3o-linear-simples-em-python-91df53b920a8

O método fit faz o seguinte processo:

- Recebe como parâmetros os dados de treinamento (X) e os valores alvo (y) que correspondem às classes ou aos valores que queremos prever.

- Escolhe um algoritmo de machine learning adequado para o tipo de problema (classificação, regressão, clusterização, etc.) e para os dados disponíveis (número de variáveis, tipo de variáveis, distribuição dos dados, etc.).

- Aplica o algoritmo aos dados de treinamento e aos valores alvo para encontrar os parâmetros que melhor se ajustam aos dados e que permitem fazer previsões precisas. Esses parâmetros podem ser coeficientes, pesos, centros, etc., dependendo do tipo de algoritmo.

- Armazena os parâmetros encontrados como atributos do objeto do modelo, que podem ser acessados depois usando model.params_, onde `params_ ` pode variar de acordo com o algoritmo usado.

- Retorna o objeto do modelo ajustado, que pode ser usado para fazer previsões para novos dados usando o método predict() ou para avaliar a qualidade do modelo usando métricas e testes estatísticos.

## Mais alguns detalhes !!

O método fit() é um dos métodos mais comuns e importantes das classes de modelos de machine learning do scikit-learn. Ele é responsável por ajustar o modelo aos dados de treinamento e aos valores alvo, usando um algoritmo específico de machine learning. O método fit() pode receber diferentes parâmetros, dependendo do tipo de modelo e do algoritmo usado, mas os principais são:

- X: um array bidimensional que contém os dados de treinamento, ou seja, as variáveis preditoras ou independentes que serão usadas para prever os valores alvo. Cada linha representa uma observação e cada coluna representa uma variável. O array X pode ser um objeto do tipo numpy.array, pandas.DataFrame ou scipy.sparse.
- y: um array unidimensional que contém os valores alvo, ou seja, as classes ou os valores que queremos prever com o modelo. Cada elemento do array y corresponde a uma observação do array X. O array y pode ser um objeto do tipo numpy.array, pandas.Series ou list.

Alguns exemplos de parâmetros adicionais que podem ser passados ao método fit() são:

- sample_weight: um array unidimensional que contém os pesos das observações, ou seja, a importância relativa de cada observação para o ajuste do modelo. Esse parâmetro é usado para dar mais ênfase a algumas observações que podem ser mais relevantes ou confiáveis do que outras. O array sample_weight deve ter o mesmo tamanho do array y e pode ser um objeto do tipo numpy.array ou list.
- solver: uma string que indica o algoritmo usado para resolver o problema de otimização do modelo. Esse parâmetro é usado em alguns modelos que envolvem a minimização de uma função custo, como a regressão logística ou a rede neural. O valor do parâmetro solver pode variar de acordo com o modelo, mas alguns exemplos são: 'liblinear', 'newton-cg', 'lbfgs', 'sag', 'saga', 'adam', etc.
- max_iter: um inteiro que indica o número máximo de iterações do algoritmo de otimização. Esse parâmetro é usado em alguns modelos que envolvem processos iterativos para encontrar os parâmetros ótimos, como a rede neural ou o k-means. O valor do parâmetro max_iter deve ser positivo e suficiente para garantir a convergência do algoritmo.

O método fit() não retorna nenhum valor, mas modifica o estado interno do objeto do modelo, armazenando os parâmetros encontrados pelo algoritmo de machine learning. Esses parâmetros podem ser acessados depois usando atributos específicos do objeto do modelo, como model.coef_, model.intercept_, model.cluster_centers_, model.n_iter_, etc. Esses atributos podem variar de acordo com o tipo de modelo e do algoritmo usado.

O método fit() também permite que o objeto do modelo seja usado para fazer previsões para novos dados usando o método predict(), ou para avaliar a qualidade do modelo usando métricas e testes estatísticos.

# Regressão polinomial

Até agora, vimos apenas modelos de regressão linear, modelos que podem ser modelados como linhas retas. No entanto, os modelos de regressão podem funcionar com praticamente qualquer outro tipo de relação.

# O que é regressão polinomial?
Os modelos de regressão modelam regressões como tipos específicos de curva. As polinomiais são uma família de curvas, variando de formas simples a complexas. Quanto mais parâmetros na equação (modelo), mais complexa é a curva.

Por exemplo, uma polinomial de dois parâmetros é simplesmente uma linha reta:

y = interceptação + B1*x


![image.png](attachment:image.png)

A polinomial de três parâmetros, por sua vez, tem uma única curvatura:

y = interceptação + B1*x + B2*x2

![image.png](attachment:image.png)

E uma polinomial de quatro parâmetros pode ter duas curvaturas:

y = interceptação + B1*x + B2*x2 + B3*x3

![image.png](attachment:image.png)

# Polinomial comparada a outras curvas
Há diversos tipos de curvas, como curva logarítmica e curva logística, e todas elas podem ser usadas com a regressão.

Uma grande vantagem da regressão polinomial é que ela pode ser usada para examinar todos os tipos de relações. Por exemplo, a regressão polinomial pode ser usada para relações que são negativas em um determinado intervalo de valores de recursos, mas positivas em outros. Ela também pode ser usada quando o rótulo (valor y) não tiver limite superior teórico.

A principal desvantagem das curvas polinomiais é que elas geralmente extrapolam de maneira insatisfatória. Em outras palavras, se tentarmos prever valores maiores ou menores do que nossos dados de treinamento, as polinomiais podem prever valores extremos irreais. Outra desvantagem é que é fácil sobreajustar uma curva polinomial. Isso significa que um ruído nos dados pode alterar a forma da curva de maneira muito mais significativa do que em modelos mais simples, como na regressão linear simples.

# As curvas podem ser usadas com vários recursos?

Vimos como a regressão múltipla pode ajustar várias relações lineares ao mesmo tempo. No entanto, não há necessidade de que eles sejam limitados a relações lineares. Todos os tipos de curvas podem ser usados nessas relações quando for apropriado. Apesar disso, deve-se ter o cuidado de não usar curvas como as polinomiais com vários recursos quando elas não forem necessárias. Isso ocorre porque as relações podem acabar muito complexas, o que torna mais difícil entender os modelos e avaliar se eles farão previsões que não fazem sentido do ponto de vista do mundo real.