<a href="https://colab.research.google.com/github/felipesayegg/Machine-Learning/blob/main/CPAluguel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1 - Entendimento do problema

Muitos fatores influenciam o valor que você pagará pelo aluguel de um imóvel. É importante entender o que afeta essa variação de preço, tanto para cima quanto para baixo. Abaixo, listamos alguns dos principais fatores que podem impactar os custos de aluguel.

Entre os atributos considerados neste estudo estão:


* Área do imóvel (em metros quadrados)
* Número de quartos
* Número de banheiros
* Vagas na garagem
* Andar do imóvel
* Aceita animais
* Imóvel mobiliado
* Valor do condomínio
* Valor do aluguel
* Valor do IPTU
* Valor do seguro


Esses fatores desempenham papéis importantes na determinação do preço final do aluguel e serão analisados no modelo de machine learning para prever o custo com base nesses atributos.

# 2 - Coleta de dados

## 2.1 -Importação das Bibliotecas

In [4]:
import pandas as pd # pandas: É uma biblioteca muito utilizada para manipulação e análise de dados. Ela permite ler e escrever arquivos CSV, Excel, entre outros formatos, e fornece estruturas de dados como DataFrames, que facilitam o trabalho com tabelas.
import numpy as np # numpy: Esta biblioteca é usada para cálculos numéricos em Python. Ela é fundamental para operações matemáticas e manipulação de arrays.
from sklearn.model_selection import train_test_split # sklearn.model_selection: Contém funções para dividir os dados em conjuntos de treino e teste. Isso é importante para avaliar o desempenho do modelo de forma justa.
from sklearn.linear_model import LinearRegression # sklearn.linear_model: Esta parte da biblioteca Scikit-learn fornece a classe LinearRegression, que é usada para criar modelos de regressão linear.
from sklearn.metrics import mean_squared_error # sklearn.metrics: Contém funções para calcular métricas de avaliação de modelos, como o erro quadrático médio (EQM), que mede a precisão das previsões do modelo.


In [5]:
df = pd.read_csv('/content/aluguel (1).csv', sep=';') #lendo o arquivo csv

In [6]:
df.head(5) #mostrando as 5 primeiras linhas

Unnamed: 0,cidade,area,quartos,banheiros,vagas_garagem,andar,aceita_animal,mobiliaria,valor_condominio,valor_aluguel,valor_iptu,valor_seguro,valor_total
0,São Paulo,70,2,1,1,7,1,1,2065,3300,211,42,5618
1,São Paulo,320,4,4,0,20,1,0,1200,4960,1750,63,7973
2,Porto Alegre,80,1,1,1,6,1,0,1000,2800,0,41,3841
3,Porto Alegre,51,2,1,0,2,1,0,270,1112,22,17,1421
4,São Paulo,25,1,1,0,1,0,0,0,800,25,11,836


In [7]:
df.info() #resumo do conjunto de dados

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10685 entries, 0 to 10684
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   cidade            10685 non-null  object
 1   area              10685 non-null  int64 
 2   quartos           10685 non-null  int64 
 3   banheiros         10685 non-null  int64 
 4   vagas_garagem     10685 non-null  int64 
 5   andar             10685 non-null  int64 
 6   aceita_animal     10685 non-null  int64 
 7   mobiliaria        10685 non-null  int64 
 8   valor_condominio  10685 non-null  int64 
 9   valor_aluguel     10685 non-null  int64 
 10  valor_iptu        10685 non-null  int64 
 11  valor_seguro      10685 non-null  int64 
 12  valor_total       10685 non-null  int64 
dtypes: int64(12), object(1)
memory usage: 1.1+ MB


In [8]:
df.tail(10) #visualizando as 10 ultimas linhas

Unnamed: 0,cidade,area,quartos,banheiros,vagas_garagem,andar,aceita_animal,mobiliaria,valor_condominio,valor_aluguel,valor_iptu,valor_seguro,valor_total
10675,Porto Alegre,160,3,2,3,4,1,1,850,3300,220,49,4419
10676,São Paulo,280,4,4,2,5,1,0,4200,4000,1042,51,9293
10677,Rio de Janeiro,98,2,1,0,1,1,0,560,3900,184,51,4695
10678,São Paulo,83,3,2,2,11,1,0,888,7521,221,96,8726
10679,São Paulo,150,3,3,2,8,0,1,0,13500,0,172,13670
10680,Porto Alegre,63,2,1,1,5,0,1,402,1478,24,22,1926
10681,São Paulo,285,4,4,4,17,1,0,3100,15000,973,191,19260
10682,Rio de Janeiro,70,3,3,0,8,0,1,980,6000,332,78,7390
10683,Rio de Janeiro,120,2,2,2,8,1,1,1585,12000,279,155,14020
10684,São Paulo,80,2,1,0,0,1,0,0,1400,165,22,1587


In [9]:
df.describe() #resumo estatístico das variáveis numéricas

Unnamed: 0,area,quartos,banheiros,vagas_garagem,andar,aceita_animal,mobiliaria,valor_condominio,valor_aluguel,valor_iptu,valor_seguro,valor_total
count,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0,10685.0
mean,149.155452,2.50613,2.235751,1.608797,5.043332,0.777913,0.243706,918.745905,3890.416004,335.563032,53.218811,5198.132616
std,537.159483,1.17086,1.406287,1.588426,5.358497,0.415669,0.429338,1166.977706,3381.827918,677.795945,47.35055,4473.376271
min,11.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,450.0,0.0,3.0,499.0
25%,56.0,2.0,1.0,0.0,1.0,1.0,0.0,170.0,1530.0,38.0,21.0,2061.0
50%,90.0,2.0,2.0,1.0,3.0,1.0,0.0,560.0,2650.0,125.0,36.0,3578.0
75%,182.0,3.0,3.0,2.0,8.0,1.0,0.0,1235.0,5000.0,375.0,68.0,6758.0
max,46335.0,13.0,10.0,12.0,51.0,1.0,1.0,32000.0,30000.0,28120.0,451.0,32750.0


# 3 - Pre- Processamento

In [10]:
x_area = df[['area']]
x_area # X_area: Contém a variável preditora "Área". Usamos data[['area']] para selecionar apenas essa coluna como um DataFrame.

Unnamed: 0,area
0,70
1,320
2,80
3,51
4,25
...,...
10680,63
10681,285
10682,70
10683,120


In [11]:
y = df['valor_aluguel'] # y: Contém a variável alvo "Valor" que é o que queremos prever no modelo.
y

Unnamed: 0,valor_aluguel
0,3300
1,4960
2,2800
3,1112
4,800
...,...
10680,1478
10681,15000
10682,6000
10683,12000


# 4 - Validação - Dividindo os dados em conjuntos de treino e teste

In [12]:
X_train, X_test, y_train, y_test = train_test_split(x_area, y, test_size=0.2, random_state=42) # Divide os dados em conjuntos de treino e teste. Aqui, 80% dos dados são usados para treinar o modelo e 20% para testá-lo. O random_state=42 garante que a divisão seja a mesma em diferentes execuções para fins de reprodutibilidade.

# 5 - Modelagem - Criação do modelo Regressão Linear

In [13]:
model_area = LinearRegression() # Cria um modelo de regressão linear.
model_area.fit(X_train, y_train) # Treina o modelo com os dados de treino.

# 6 - Avaliação

In [14]:
y_pred_area = model_area.predict(X_test) # Faz previsões no conjunto de teste.
y_pred_area

array([3871.7891575 , 3829.64941629, 4082.48786356, ..., 3801.55625548,
       3812.7935198 , 3773.46309467])

In [15]:
eqm_area = mean_squared_error(y_test, y_pred_area) # Calcula o erro quadrático médio entre os valores reais (y_test) e as previsões (y_pred_area). O EQM é uma métrica comum para avaliar a precisão de modelos de regressão.
print(f'EQM com apenas Área: {eqm_area}')

EQM com apenas Área: 11059335.470737085


# 7 - Incluir a Variável "Mobiliado"

In [20]:
X_mobiliado = df[['area', 'mobiliaria']] # X_mobiliado: Contém as variáveis preditoras "Área" e "Mobiliado".

In [22]:

X_mobiliado['mobiliaria'] = X_mobiliado['mobiliaria'].astype(int) # Converte a coluna "Mobiliado" para inteiros, caso ela esteja em formato booleano ou categórico, para que o modelo possa usá-la corretamente.

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_mobiliado['mobiliaria'] = X_mobiliado['mobiliaria'].astype(int)


# 8 - Dividindo os dados train e test

In [23]:
X_train_mob, X_test_mob, y_train_mob, y_test_mob = train_test_split(X_mobiliado, y, test_size=0.2, random_state=42) # Assim como antes, os dados são divididos em conjuntos de treino e teste.

# 9 - Modelagem - Criando um modelo com  mais uma variavel preditora.

In [25]:
model_mobiliado = LinearRegression() # O modelo é treinado novamente, agora com duas variáveis preditoras.

In [26]:
model_mobiliado.fit(X_train_mob, y_train_mob) # O modelo é treinado novamente, agora com duas variáveis preditoras.

In [28]:
y_pred_mobiliado = model_mobiliado.predict(X_test_mob)
y_pred_mobiliado # fazendo e imprimindo as previsões

array([4897.17246457, 3508.13093265, 3757.8160693 , ..., 3480.38813969,
       3491.48525687, 4800.0726892 ])

In [30]:
eqm_mobiliado = mean_squared_error(y_test_mob, y_pred_mobiliado)
print(f'EQM com Área e Mobiliado: {eqm_mobiliado}') #  As previsões são feitas e o EQM é calculado da mesma forma que antes.

EQM com Área e Mobiliado: 10846667.195619246


# 10 - Incluir a variavel numero de quartos

In [33]:
X_quartos = df[['area', 'mobiliaria', 'quartos']] # # X_quartos: Agora inclui "Área", "Mobiliado" e "Número de Quartos".


# 11 - Dividindo os dados novamente

In [34]:
X_train_quartos, X_test_quartos, y_train_quartos, y_test_quartos = train_test_split(X_quartos, y, test_size=0.2, random_state=42)

# 12 - Criação e Treinamento do Modelo

In [35]:
model_quartos = LinearRegression()
model_quartos.fit(X_train_quartos, y_train_quartos) # O modelo é treinado com as três variáveis preditoras.

# 13 - Previsões e Cálculo do EQM

In [39]:

y_pred_quartos = model_quartos.predict(X_test_quartos)
eqm_quartos = mean_squared_error(y_test_quartos, y_pred_quartos) # As previsões são feitas e o EQM é calculado, permitindo que você veja se a adição da variável "Número de Quartos" melhorou a precisão do modelo.
print(f'EQM com Área, Mobiliado e Quartos: {eqm_quartos}')

EQM com Área, Mobiliado e Quartos: 7526800.073605958


# Conclusão

Resultados do Modelo de Regressão Linear:

1 - EQM com Apenas Área: R$ 11,059,335.47

* Este valor indica que, em média, as previsões do modelo que considera apenas a área do imóvel estão distantes dos valores reais de aluguel.

2 - EQM com Área e Mobiliado: R$ 10,846,667.20

* A inclusão da variável "Mobiliado" resultou em uma melhoria no modelo, reduzindo o EQM em R$ 212,668.27. Isso sugere que o status de mobiliado tem um impacto significativo no valor do aluguel, permitindo que o modelo faça previsões mais precisas.

3 - EQM com Área, Mobiliado e Quartos: R$ 7,526,800.07

* A adição da variável "Número de Quartos" resultou em uma nova redução do EQM, indicando que este modelo é o mais eficaz entre os três testados. O EQM significativamente menor sugere que a inclusão do número de quartos melhora ainda mais a capacidade do modelo de prever o valor do aluguel.



 ### Interpretação dos Resultados:

* Melhoria Progressiva: A análise dos EQMs mostra uma melhoria progressiva na precisão das previsões à medida que mais variáveis são incluídas no modelo. A diferença entre os EQMs indica que tanto a variável "Mobiliado" quanto a variável "Número de Quartos" têm um papel importante na determinação do valor do aluguel.

* Conclusão Final: O modelo que inclui "Área", "Mobiliado" e "Número de Quartos" é o mais robusto, com um EQM de R$ 7,526,800.07. Isso significa que, em média, as previsões do valor do aluguel estão mais próximas dos valores reais, o que é crucial para decisões informadas em investimentos imobiliários e estratégias de precificação.