# Regressão

# Tipos de Aprendizado de  Máquina

1. **Aprendizado Supervisionado**: Ocorre quando o modelo é treinado com um conjunto de dados rotulado, ou seja, os dados de entrada possuem as respostas corretas (ou rótulos). O objetivo é que o modelo aprenda a associar as entradas às saídas corretas para realizar previsões ou classificações em novos dados. Exemplos incluem regressão e classificação.

2. **Aprendizado Não Supervisionado**: Nesse tipo de aprendizado, o modelo trabalha com dados não rotulados, ou seja, não há respostas corretas fornecidas. O objetivo é identificar padrões, estruturas ou agrupamentos nos dados. Técnicas como clustering e redução de dimensionalidade são exemplos de aprendizado não supervisionado.

3. **Aprendizado por Reforço**: Esse tipo de aprendizado envolve um agente que interage com um ambiente e aprende a tomar decisões por tentativa e erro, recebendo recompensas ou penalidades com base em suas ações. O objetivo é maximizar a recompensa total ao longo do tempo. É amplamente utilizado em áreas como robótica e jogos.

# Definição

1. A regressão é uma técnica estatística utilizada em Machine Learning que busca modelar e explicar a relação entre uma variável dependente (ou resposta, target, alvo) e uma ou mais variáveis independentes (ou preditoras, explicativas, causadoras). O objetivo é identificar como as variáveis independentes influenciam a variável dependente, permitindo fazer previsões ou entender padrões com base nos dados disponíveis.


# Quando o problema é de Regressão?

1. Em Machine Learning, identificamos um problema de regressão quando o objetivo é prever um valor numérico contínuo (1.0, 0.1, 1.0082731230, etc..). Exemplos comuns incluem prever o preço de um produto, o peso de uma fruta, o tamanho de uma casa, entre outros. A característica central de problemas de regressão é a previsão de valores quantitativos com base em variáveis preditoras.

# Tipos de Regressão

### Regressão Linear

**Descrição**:
<p> A regressão linear é um método estatístico utilizado para modelar a relação entre uma variável dependente (também chamada de variável resposta) e uma ou mais variáveis independentes (ou preditoras). O objetivo é encontrar a linha reta que melhor ajusta os dados, permitindo prever valores da variável dependente com base nas variáveis preditoras. </p>

**Fórmula**

![Descrição da imagem](https://www.alura.com.br/artigos/assets/desvendando-a-regressao-linear/imagem4.png)


**Exemplos Práticos**:
1. Prever o preço de uma casa com base em sua metragem.
2. Estimar o rendimento de um funcionário com base em suas horas de trabalho.

**Principais Características**:
1. Linearidade: Assume uma relação linear entre as variáveis.
Interpretação Simples: É fácil de interpretar, já que a equação é uma linha reta.

**Uso Comum**:
<p> Muito utilizada em várias áreas, como economia, biologia e ciências sociais. <p>

**Prática**:
<p> Estimando salário com base em tempo de experiência. <p>

In [None]:
!rm -rf /content/sample_data
!mkdir -p /content/dataset
!git clone https://github.com/batestin1/regressao_aula_1.git /content/files
!mv /content/files/dataset/* /content/dataset
!rm -rf /content/files

In [None]:
# importando as bibliotecas

import pandas as pd #para transformar dados em dataframe
import numpy as np #não chegarei a usar, mas fica de opção para criar matrizes e vetores
import matplotlib.pyplot as plt # para visualizarmos
from sklearn.linear_model import LinearRegression #o modelo selecionado
from sklearn.model_selection import train_test_split #para separar nossos dados em teste e treino
from sklearn.metrics import mean_squared_error, r2_score #para apurar nossa previsão


In [None]:
df_linear = pd.read_csv('/content/dataset/regressaoLinearSimples/Salary_dataset.csvv')

In [None]:
df_linear.head()

In [None]:
#checando se existe valores nao preenchidos
df_linear.isna().sum()


In [None]:
# visualizando como os dados estão distribuidos

plt.scatter(df_linear['YearsExperience'], df_linear['Salary'])
plt.xlabel('YearsExperience')
plt.ylabel('Salary')
plt.show()

In [None]:
# Preparando os dados

X = df_linear['YearsExperience'].values.reshape(-1, 1) # variavel causadora
y = df_linear['Salary'].values.reshape(-1, 1) #variavel consequencia


In [None]:
# Separando os dados em teste e treino

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.4,random_state=42)


In [None]:
#estanciando o nosso modelo
model_Linear = LinearRegression()


In [None]:
# visualizando o treino

plt.scatter(X_train, y_train, color='blue', label='Dados de Treino')

In [None]:
#treinando o modelo

model_Linear.fit(X_train,y_train)

In [None]:
#Avaliando o modelo com R² (coeficiente de determinação)
# quanto mais próximo de 1 melhor

model_Linear.score(X_train.reshape(-1,1),y_train)


In [None]:
# Prevendo na prática

Predict = model_Linear.predict((X_test).reshape((-1,1)))
df_treino = pd.DataFrame({'Real': y_test.flatten(), 'Previsto': Predict.flatten()})
df_treino

In [None]:
# Comparando o modelo com a realidade

plt.figure(figsize=(10, 6))

# Plotando os valores reais
plt.scatter(df_treino['Real'], df_treino['Previsto'], label='Valores Reais', color='blue')

# Plotando os valores previstos
plt.scatter(df_treino['Previsto'], df_treino['Real'], label='Valores Previstos', color='red', linestyle='--')

# Adicionando a linha de ajuste (regressão linear)
m, b = np.polyfit(df_treino['Real'], df_treino['Previsto'], 1)
plt.plot(df_treino['Real'], m * df_treino['Real'] + b, color='red', linestyle='--', label='Linha de Ajuste')

# Adicionando uma linha diagonal (correspondência perfeita)
plt.plot(df_treino['Real'], df_treino['Real'], color='green', linestyle='--', label='Linha de Correspondência Perfeita')



# Adicionando título e legendas
plt.title('Comparação entre Valores Reais e Valores Previstos')
plt.xlabel('Índice')
plt.ylabel('Valores')
plt.legend()

# Exibindo o gráfico
plt.show()

### Regressão Linear Multipla

<p> A regressão linear múltipla é um método estatístico utilizado para modelar a relação entre uma variável dependente (também chamada de variável resposta) e duas ou mais variáveis independentes (ou preditoras). O objetivo é encontrar um hiperplano que melhor ajusta os dados, permitindo prever valores da variável dependente com base nas variáveis preditoras. </p>

**Fórmula**

![Descrição da imagem](https://www.alura.com.br/artigos/assets/desvendando-a-regressao-linear/imagem4.png)

**Exemplos Práticos**:
1. Prever o consumo de um produto baseado em diversos fatores;
2. Estimar a pontuação de seu score baseado em diversas variaveis.

**Principais Características**:
1. **Linearidade**: Assume uma relação linear entre a variável dependente e as variáveis independentes.
2. **Interpretação Simples**: Apesar de envolver múltiplas variáveis independentes, a interpretação da equação é relativamente simples, já que a equação é uma extensão da linha reta para um hiperplano.

**Uso Comum**:
<p> Muito utilizada em várias áreas, como economia, biologia e ciências sociais, para entender a influência de múltiplas variáveis sobre uma variável de interesse. </p>

**Prática**:
<p> Estimando vendas de marketing. <p>

In [None]:
# importando as bibliotecas

import pandas as pd #para transformar dados em dataframe
import numpy as np #não chegarei a usar, mas fica de opção para criar matrizes e vetores
import matplotlib.pyplot as plt # para visualizarmos
from sklearn.model_selection import train_test_split #para separar nossos dados em teste e treino
from sklearn.metrics import mean_squared_error, r2_score #para apurar nossa previsão
from sklearn.tree import DecisionTreeRegressor #o modelo selecionado



In [None]:
df_multiplo = pd.read_csv('/content/dataset/regressaoLinearMultipla/Marketing_Data.csv')

In [None]:
df_multiplo.head()

In [None]:
#checando se existe valores nao preenchidos
df_multiplo.isna().sum()


In [None]:
# Visualizando gráficos de dispersão
plt.figure(figsize=(14, 5))

# Youtube vs Sales
plt.subplot(1, 3, 1)
plt.scatter(df_multiplo['youtube'], df_multiplo['sales'], color='b')
plt.title('Youtube vs Sales')
plt.xlabel('Youtube')
plt.ylabel('Sales')

# Facebook vs Sales
plt.subplot(1, 3, 2)
plt.scatter(df_multiplo['facebook'], df_multiplo['sales'], color='g')
plt.title('Facebook vs Sales')
plt.xlabel('Facebook')
plt.ylabel('Sales')

# Newspaper vs Sales
plt.subplot(1, 3, 3)
plt.scatter(df_multiplo['newspaper'], df_multiplo['sales'], color='r')
plt.title('Newspaper vs Sales')
plt.xlabel('Newspaper')
plt.ylabel('Sales')

plt.tight_layout()
plt.show()

In [None]:
# Preparando os dados

X = df_multiplo[['youtube', 'facebook', 'newspaper']].values # variaveis causadora
y = df_multiplo['sales'].values #variavel consequencia


In [None]:
# Separando os dados em teste e treino

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.4,random_state=42)


In [None]:

regressor = DecisionTreeRegressor(random_state = 0)
regressor.fit(X_train, y_train)

In [None]:
#Avaliando o modelo com R² (coeficiente de determinação)
# quanto mais próximo de 1 melhor

regressor.score(X_train,y_train)

In [None]:
# Prevendo na prática

Predict = regressor.predict((X_test))
df_treino = pd.DataFrame({'Real': y_test.flatten(), 'Previsto': Predict.flatten()})
df_treino

In [None]:
# Comparando o modelo com a realidade

plt.figure(figsize=(10, 6))

# Plotando os valores reais
plt.scatter(df_treino['Real'], df_treino['Previsto'], label='Valores Reais', color='blue')

# Plotando os valores previstos
plt.scatter(df_treino['Previsto'], df_treino['Real'], label='Valores Previstos', color='red', linestyle='--')

# Adicionando a linha de ajuste (regressão linear)
m, b = np.polyfit(df_treino['Real'], df_treino['Previsto'], 1)
plt.plot(df_treino['Real'], m * df_treino['Real'] + b, color='red', linestyle='--', label='Linha de Ajuste')

# Adicionando uma linha diagonal (correspondência perfeita)
plt.plot(df_treino['Real'], df_treino['Real'], color='green', linestyle='--', label='Linha de Correspondência Perfeita')



# Adicionando título e legendas
plt.title('Comparação entre Valores Reais e Valores Previstos')
plt.xlabel('Índice')
plt.ylabel('Valores')
plt.legend()

# Exibindo o gráfico
plt.show()

### Regressão Polimonial

**Descrição**:
<p> A regressão polinomial é particularmente útil quando suspeitamos que os dados possam seguir um padrão mais complexo, com curvas e flutuações. Ela nos permite ajustar um polinômio a esses dados, o que significa que podemos capturar relacionamentos não lineares e prever valores com maior precisão. </p>

**Fórmula**

Já a regressão polinomial é utilizada para modelar a relação não linear entre duas variáveis. A fórmula da regressão polinomial de grau  
n
  é dada por:

y
=
β
0
+
β
1
x
1
+
β
2
x
2
1
+
.
.
.
+
β
n
x
n
1
+
ϵ

onde:

y
  é a variável dependente;
x
1
  é a variável independente;
β
0
  é o intercepto, que representa o valor de  
y
  quando  
x
1
  é igual a zero;
β
1
,
β
2
,
.
.
.
,
β
n
  são os coeficientes de regressão, que representam a variação de  
y
  para cada unidade de variação em  
x
1
  elevado a uma potência;
ϵ
  é o erro aleatório, que representa a variação não explicada pela relação polinomial entre  
y
  e  
x
1
 .
O modelo polinomial pode ter represnetado por uma matriz: $$ \begin{bmatrix} y_1 \ y_2 \ \vdots \ y_


**Exemplos Práticos**:
1. Prever o preço de uma casa com base em sua metragem.
2. Estimar o rendimento de um funcionário com base em suas horas de trabalho.

**Principais Características**:
1. Não-Linearidade: Assume uma relação não-linear entre as variáveis.

**Uso Comum**:
<p> Muito utilizada em várias áreas, como economia, biologia e ciências sociais. <p>


**Prática**:
<p> Estimando vendas de sorvetes com base na temperatura do ambiente. <p>

In [None]:
# importando as bibliotecas

import pandas as pd #para transformar dados em dataframe
import numpy as np #não chegarei a usar, mas fica de opção para criar matrizes e vetores
import matplotlib.pyplot as plt # para visualizarmos
import seaborn as sns #para visualização
from sklearn.model_selection import train_test_split #para separar nossos dados em teste e treino
from sklearn.metrics import mean_squared_error, r2_score #para apurar nossa previsão
from sklearn.preprocessing import PolynomialFeatures #para transformar características não-lineares em uma forma linear
from sklearn.linear_model import LinearRegression #o modelo selecionado




In [None]:
df_poly= pd.read_csv('/content/dataset/regressaoLinearPolynomial/Ice_cream selling data.csv')

In [None]:
df_poly.head()

In [None]:
#checando se existe valores nao preenchidos
df_poly.isna().sum()


In [None]:
# visualizando como os dados estão distribuidos

plt.scatter(df_poly['Temperature (°C)'], df_poly['Ice Cream Sales (units)'])
plt.xlabel('Temperature (°C)')
plt.ylabel('Ice Cream Sales (units)')
plt.show()

In [None]:
#Separando nossos dados em alvos e explicativas

X = df_poly['Temperature (°C)'].values.reshape(-1, 1)# variaveis causadora
y = df_poly['Ice Cream Sales (units)'].values.reshape(-1, 1) #variavel consequencia

In [None]:
# invocando o modelo de polynomial para ajustar a não-linearidade
pf=PolynomialFeatures(degree=2)


In [None]:
pf.fit(X)


In [None]:
#resevando em nova variavel

x_=pf.transform(X)

In [None]:
# Separando os dados em teste e treino

x_train,x_test,y_train,y_test=train_test_split(x_,y,test_size=0.2,random_state=42)


In [None]:
#Treinando o modelo de regressão

lr_poly=LinearRegression()


In [None]:
#treinando o nosso modelo
lr_poly.fit(x_train,y_train)

In [None]:
#verificando o nosso score

lr_poly.score(x_test,y_test),lr_poly.score(x_train,y_train)


In [None]:
# Prevendo na prática

Predict = lr_poly.predict((x_test))
df_treino = pd.DataFrame({'Real': y_test.flatten(), 'Previsto': Predict.flatten()})
df_treino

In [None]:
plt.figure(figsize=(5,5))
sns.scatterplot(x=df_poly["Temperature (°C)"],y=y.ravel(),data=df_poly)
plt.plot(X,lr_poly.predict(x_),c="r")
plt.show()

In [None]:
# Comparando o modelo com a realidade

plt.figure(figsize=(10, 6))

# Plotando os valores reais
plt.scatter(df_treino['Real'], df_treino['Previsto'], label='Valores Reais', color='blue')

# Plotando os valores previstos
plt.scatter(df_treino['Previsto'], df_treino['Real'], label='Valores Previstos', color='red', linestyle='--')

# Adicionando a linha de ajuste (regressão linear)
m, b = np.polyfit(df_treino['Real'], df_treino['Previsto'], 1)
plt.plot(df_treino['Real'], m * df_treino['Real'] + b, color='red', linestyle='--', label='Linha de Ajuste')

# Adicionando uma linha diagonal (correspondência perfeita)
plt.plot(df_treino['Real'], df_treino['Real'], color='green', linestyle='--', label='Linha de Correspondência Perfeita')



# Adicionando título e legendas
plt.title('Comparação entre Valores Reais e Valores Previstos')
plt.xlabel('Índice')
plt.ylabel('Valores')
plt.legend()

# Exibindo o gráfico
plt.show()