### **Passo 1: Importar as bibliotecas necessárias**
Primeiro, importe as bibliotecas que serão utilizadas no processo:

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import plotly.graph_objects as go

### **Passo 2: Ler o arquivo CSV diretamente do link**
Utilize o Pandas para ler o arquivo CSV diretamente da URL fornecida:

In [None]:
# URL do arquivo CSV
url = "https://github.com/allanspadini/codigos-alura-para-empresas/raw/refs/heads/main/regressao_linear.csv"

# Ler o arquivo CSV em um DataFrame
df = pd.read_csv(url)

# Exibir os primeiros dados para verificar
print(df.head())


   Armazém  Área (m²)  Custo Aluguel (R$)
0        1        500            7.051083
1        2        750            9.886956
2        3       1000           14.283157
3        4       1250           17.100059
4        5       1500           20.004676


### **Passo 3: Separar as variáveis independentes (\(x\)) e dependentes (\(y\))**
No modelo de regressão linear, precisamos separar:
- A variável independente (\(x\)): neste caso, a **Área (m²)**.
- A variável dependente (\(y\)): neste caso, o **Custo Aluguel (R$)**.

In [None]:
# Definir a variável independente (Área)
X = df[['Área (m²)']]  # Note que o X precisa ser um DataFrame (colchetes duplos)

# Definir a variável dependente (Custo Aluguel)
y = df['Custo Aluguel (R$)']  # y pode ser uma Série (colchetes simples)


### **Passo 4: Criar e treinar o modelo de Regressão Linear**
Agora, crie o modelo de regressão linear usando a classe `LinearRegression` da Scikit-learn e ajuste-o aos dados (\(X\) e \(y\)):

In [None]:
# Criar o modelo de regressão linear
modelo = LinearRegression()

# Treinar o modelo com os dados
modelo.fit(X, y)

# Exibir os coeficientes do modelo
print(f"Coeficiente angular (beta_1): {modelo.coef_[0]}")
print(f"Intercepto (beta_0): {modelo.intercept_}")


Coeficiente angular (beta_1): 0.013774926259959198
Intercepto (beta_0): -0.03699054675426616


### **Passo 5: Fazer previsões**
Com o modelo treinado, você pode fazer previsões para novos valores de \(x\) (Área) ou calcular os valores previstos (\(\hat{y}\)) para os dados existentes:

In [None]:
# Fazer previsões para os valores de X
y_pred = modelo.predict(X)

# Adicionar as previsões ao DataFrame para comparação
df['Custo Previsto (R$)'] = y_pred

# Exibir o DataFrame atualizado
print(df)


   Armazém  Área (m²)  Custo Aluguel (R$)  Custo Previsto (R$)
0        1        500            7.051083             6.850473
1        2        750            9.886956            10.294204
2        3       1000           14.283157            13.737936
3        4       1250           17.100059            17.181667
4        5       1500           20.004676            20.625399
5        6       1750           24.275858            24.069130
6        7       2000           27.325434            27.512862
7        8        600            7.327553             8.227965
8        9        900           13.325391            12.360443
9       10       1350           18.839072            18.559160


### **Passo 6: Visualizar os resultados com um gráfico**
Por fim, você pode visualizar os dados reais e a linha de regressão ajustada em um gráfico:

In [None]:
# Criar o gráfico com Plotly
fig = go.Figure()

# Adicionar os pontos dos dados reais (dispersão)
fig.add_trace(
    go.Scatter(
        x=df["Área (m²)"],
        y=df["Custo Aluguel (R$)"],
        mode="markers",
        name="Dados Reais",
        marker=dict(color="purple", size=10),
    )
)

# Adicionar a linha de regressão
fig.add_trace(
    go.Scatter(
        x=df["Área (m²)"],
        y=y_pred,
        mode="lines",
        name="Linha de Regressão",
        line=dict(color="red", width=3),
    )
)

# Adicionar título e rótulos
fig.update_layout(
    title="Regressão Linear: Área vs Custo de Aluguel",
    xaxis_title="Área (m²)",
    yaxis_title="Custo Aluguel (R$)",
    legend=dict(title="Legenda"),
)

# Exibir o gráfico
fig.show()


# Calculando o $R^2$ score



In [None]:
r2 = modelo.score(X, y)  # Alternativa: r2_score(y, modelo.predict(X))
print(f"Coeficiente de Determinação (R²): {r2:.4f}")

Coeficiente de Determinação (R²): 0.9934


# Múltiplas dimensões

In [None]:
# URL do arquivo CSV
url = "https://github.com/allanspadini/codigos-alura-para-empresas/raw/refs/heads/main/dados_regressao_com_ruido.csv"

# Ler o arquivo CSV em um DataFrame
df = pd.read_csv(url)

# Exibir os primeiros dados para verificar
df.head()


Unnamed: 0,Área (m²),Custo Aluguel (R$),Distância do Centro (km),Idade do Armazém (anos),Número de Vagas,Altura do Pé-Direito (m)
0,500,7948.842858,8.741722,22,26,10.739464
1,750,12080.850586,19.112858,2,48,9.122768
2,1000,13631.829059,15.175891,24,29,7.054493
3,1250,17875.564634,12.775853,44,31,3.119385
4,1500,19806.841771,4.808336,30,46,11.479816


In [None]:
X = df[["Área (m²)", "Distância do Centro (km)",'Idade do Armazém (anos)', 'Número de Vagas', 'Altura do Pé-Direito (m)']]  # Variáveis independentes
y = df['Custo Aluguel (R$)']  # Variável dependente

In [None]:
# Ajustar o modelo
modelo = LinearRegression()
modelo.fit(X, y)

In [None]:
# Obter os coeficientes e o intercepto do modelo ajustado
coeficientes = modelo.coef_
intercepto = modelo.intercept_
print("Coeficientes:", coeficientes)
print("Intercepto:", intercepto)

Coeficientes: [  11.8830898   -93.16071175  -29.61109523   32.74412725 -207.71699386]
Intercepto: 4724.005086267271


In [None]:
r2 = modelo.score(X, y)  # Alternativa: r2_score(y, modelo.predict(X))
print(f"Coeficiente de Determinação (R²): {r2:.4f}")

Coeficiente de Determinação (R²): 0.9918
