*# O que foi feito:*

**Neste projeto, desenvolvemos um modelo de regressão linear para prever o valor adequado de aluguel de imóveis cadastrados na plataforma da empresa Sexto Andar. Utilizamos diversas variáveis, como área, número de quartos, se o imóvel é mobiliado ou não, entre outros, para construir o modelo preditivo.**

*### Passo a passo:*
1.   Inicialmente, realizamos uma análise exploratória dos dados disponíveis.

1.   Desenvolvemos um modelo de regressão linear utilizando a variável "Área" como única entrada.

1.  Realizamos uma validação Hold-Out e calculamos o erro quadrático médio (EQM) para avaliar o desempenho do modelo.

1.   Em seguida, incluímos a variável "Mobiliado" no modelo e novamente calculamos o EQM para verificar se houve melhoria na precisão das previsões.
2.   Por fim, adicionamos a variável "Número de Quartos" ao modelo e avaliamos novamente o desempenho usando o EQM.




Passo 1: Desenvolver um modelo de Regressão Linear com a variável resposta "Valor do Aluguel" e a variável de entrada "Área".

In [64]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [65]:
# Carregar os dados
df = pd.read_excel('/content/aluguel.xlsx')
df.head()

Unnamed: 0,cidade,area,quartos,banheiros,vagas_garagem,andar,aceita_animal,mobiliaria,valor_condominio,valor_aluguel,valor_iptu,valor_seguro,valor_total
0,São Paulo,70,2,1,1,7,1,1,2065,3300,211,42,5618
1,São Paulo,320,4,4,0,20,1,0,1200,4960,1750,63,7973
2,Porto Alegre,80,1,1,1,6,1,0,1000,2800,0,41,3841
3,Porto Alegre,51,2,1,0,2,1,0,270,1112,22,17,1421
4,São Paulo,25,1,1,0,1,0,0,0,800,25,11,836


In [66]:
df.describe()

Unnamed: 0,area,quartos,banheiros,vagas_garagem,andar,aceita_animal,mobiliaria,valor_condominio,valor_aluguel,valor_iptu,valor_seguro,valor_total
count,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0
mean,149.155452,2.50613,2.235751,1.608797,5.043332,0.777913,0.243706,918.745905,3890.416004,335.563032,53.218811,5198.132616
std,537.159483,1.17086,1.406287,1.588426,5.358497,0.415669,0.429338,1166.977706,3381.827918,677.795945,47.35055,4473.376271
min,11.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,450.0,0.0,3.0,499.0
25%,56.0,2.0,1.0,0.0,1.0,1.0,0.0,170.0,1530.0,38.0,21.0,2061.0
50%,90.0,2.0,2.0,1.0,3.0,1.0,0.0,560.0,2650.0,125.0,36.0,3578.0
75%,182.0,3.0,3.0,2.0,8.0,1.0,0.0,1235.0,5000.0,375.0,68.0,6758.0
max,46335.0,13.0,10.0,12.0,51.0,1.0,1.0,32000.0,30000.0,28120.0,451.0,32750.0


In [67]:
# Definir variáveis de entrada e saída
X = df[['area']]
y = df['valor_aluguel']

In [68]:
# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [69]:
# Criar e treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

In [70]:
# Fazer previsões
y_pred = model.predict(X_test)

In [71]:
# Calcular o erro quadrático médio (EQM)
eqm = mean_squared_error(y_test, y_pred)
print("EQM do modelo com variável 'Área':", eqm)

EQM do modelo com variável 'Área': 11059335.470737085


Passo 2: Fazer validação Hold-Out e calcular o EQM.

In [72]:
# Calculando EQM para o modelo com variável 'Área'
eqm_area = mean_squared_error(y_test, y_pred)
print("EQM do modelo com variável 'Área':", eqm_area)

EQM do modelo com variável 'Área': 11059335.470737085


Passo 3: Incluir a variável "Mobiliado" e verificar se o EQM melhorou.

In [73]:
# Incluir variável 'Mobiliado' no conjunto de entrada
X_mobiliaria = df[['area', 'mobiliaria']]

In [74]:
# Dividir os dados em conjunto de treinamento e teste
X_mob_train, X_mob_test, y_mob_train, y_mob_test = train_test_split(X_mobiliaria, y, test_size=0.2, random_state=42)

In [75]:
# Criar e treinar o modelo de regressão linear com variável 'Mobiliado'
model_mobiliaria = LinearRegression()
model_mobiliaria.fit(X_mob_train, y_mob_train)

In [76]:
# Fazer previsões
y_mob_pred = model_mobiliaria.predict(X_mob_test)

In [77]:
# Calcular EQM
eqm_mobiliaria = mean_squared_error(y_mob_test, y_mob_pred)
print("EQM do modelo com variáveis 'Área' e 'Mobiliado':", eqm_mobiliaria)

EQM do modelo com variáveis 'Área' e 'Mobiliado': 10846667.195619246


Passo 4: Incluir a variável "Número de Quartos" e verificar se o EQM melhorou.

In [78]:
# Incluir variável 'Número de Quartos' no conjunto de entrada
X_quartos = df[['area', 'mobiliaria', 'quartos']]

In [79]:
# Dividir os dados em conjunto de treinamento e teste
X_quartos_train, X_quartos_test, y_quartos_train, y_quartos_test = train_test_split(X_quartos, y, test_size=0.2, random_state=42)

In [80]:
# Criar e treinar o modelo de regressão linear com variáveis 'Área', 'Mobiliado' e 'Número de Quartos'
model_quartos = LinearRegression()
model_quartos.fit(X_quartos_train, y_quartos_train)

In [81]:
# Fazer previsões
y_quartos_pred = model_quartos.predict(X_quartos_test)

In [82]:
# Calcular EQ
eqm_quartos = mean_squared_error(y_quartos_test, y_quartos_pred)
print("EQM do modelo com variáveis 'Área', 'Mobiliado' e 'Número de Quartos':", eqm_quartos)

EQM do modelo com variáveis 'Área', 'Mobiliado' e 'Número de Quartos': 7526800.073605958


# *Conclusão:*

**Ao incluir variáveis adicionais no modelo de regressão linear, observamos uma redução no erro quadrático médio (EQM), indicando uma melhoria na capacidade do modelo em prever os valores de aluguel. Isso sugere que as variáveis "Mobiliado" e "Número de Quartos" estão contribuindo positivamente para a precisão das previsões do modelo. No entanto, para uma análise mais completa, seria necessário avaliar outras métricas de desempenho e possivelmente considerar a inclusão de mais variáveis ou a aplicação de técnicas mais avançadas de modelagem.**