In [None]:
import pandas as pd 
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [None]:
df = pd.read_csv('aluguel_uma_variavel_com_ruido.csv')

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
plt.scatter(df['Area'], df['Preco'])
plt.xlabel('Área (m²)')
plt.ylabel('Preço do Aluguel (R$)')
plt.title('Preço do Aluguel x Área da Casa')
plt.show()

In [None]:
def imprimirDFFormatado(df, titulo):
    print(f'Conjunto de {titulo}')
    print(df.to_string(index=False))
    print(df.shape)
    print()

def train_test_split(df, test_size, random_state):
    df = df.sample(frac=1, random_state=random_state)
    n = len(df)
    n_teste = int(test_size * n)
    teste = df.iloc[:n_teste]
    treino = df.iloc[n_teste:]
    return treino, teste    

In [None]:
treino, teste = train_test_split(df, test_size=0.3, random_state=42)
x_treino = treino[['Area']].copy()
y_treino = treino['Preco']
modelo = LinearRegression()
modelo.fit(x_treino, y_treino)
print(f"Modelo Linear: y = {modelo.coef_[0]:.2f}x + {modelo.intercept_:.2f}")

In [None]:
r2_treino = r2_score(y_treino, modelo.predict(x_treino))
print(f'R² treino: {r2_treino:.2f}')

plt.figure(figsize=(10, 6))
plt.scatter(df['Area'], df['Preco'], color='blue', label='Dados reais')
areas = np.linspace(df['Area'].min(), df['Area'].max(), 100)

area_df = pd.DataFrame({'Area': areas})
plt.plot(areas, modelo.predict(area_df), label = 'Modelo Linear', color = 'red')
plt.xlabel('Area')
plt.ylabel('Preco')
plt.title('Comparação dos Modelos de Regressão Linear')
plt.legend()
plt.show()