# **MÓDULO 18 - Pratique**
# Regressão Linear

Agora que aprendemos como aplicar a regressão linear simples e múltipla, colocaremos em prática os conceitos vistos na aula.

Temos aqui uma base de imóveis para alugar, precisamos desenvolver um modelo de regressão linear múltipla para conseguir prever o preço de imóveis dadas as variáveis independentes do nosso modelo.

**Atenção! Esse é seu primeiro modelo, caso tenha dificuldade conte com a ajuda da tutoria**

Você notará que alguns códigos já estão presentes para facilitar a construção de vocês.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import plotly.express as px
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm

In [None]:
df = pd.read_csv("ALUGUEL_MOD12.csv", delimiter=';')

df.head(10)

Unnamed: 0,Valor_Aluguel,Valor_Condominio,Metragem,N_Quartos,N_banheiros,N_Suites,N_Vagas
0,480,295,48,2,2,1,1
1,500,0,50,1,2,1,1
2,500,0,40,1,2,1,1
3,500,36,45,1,2,1,0
4,500,0,30,1,1,0,0
5,500,380,66,2,1,0,1
6,550,100,48,2,2,1,1
7,600,110,46,2,2,1,1
8,600,100,49,2,2,1,1
9,600,325,50,2,2,1,1


Legenda dos dados:

*   **Valor_Aluguel** : valor Total pago no aluguel

*   **Valor_Condominio** : Valor do Condomínio.

*   **Metragem** : Metragem do Apartamento.

*   **N_Quartos** : Número de Quartos do Imóvel.

*   **N_banheiros** : Número de banheiros.

*   **N_Suites** : Número de Suítes.

*   **N_Vagas** : Número de Vagas.

# 1 - Realize a primeira etapa de pré processamento dos dados.

A) Verifique os tipos de dados.


B) Verifique os dados faltantes, se houver dados faltantes faça a substituição ou remoção justificando sua escolha.

In [None]:
#Seu código aqui

print(df.dtypes)

print(df.isnull().sum())

# 2 - Realize a segunda etapa de pré processamento dos dados.

A) Utilize a função describe para identificarmos outliers e verificarmos a distribuição dos dados.

B) Caso note uma variável que te pareça conter outliers realiza a análise e tratamento desses dados, justificando a escolha do método utilizado.

C) Realize a análise bivariada dos dados. Faça uso de pelo menos 3 gráficos e traga insights acerca do analisado.

In [None]:
#Seu código aqui

# A) Utilize a função describe para identificarmos outliers e verificarmos a distribuição dos dados.
print(df.describe())

# B) Caso note uma variável que te pareça conter outliers realiza a análise e tratamento desses dados, justificando a escolha do método utilizado.

# Utilizando o método Box Plot para verificar se existe outliers para os valores dos aluguéis
plt.figure(figsize=(10, 6))
sns.boxplot(data=df,
            y='Valor_Aluguel',
            color='skyblue')
plt.title('Box Plot para valor de alugueis')
plt.ylabel('Valor_Aluguel')
# plt.show()


# Utilizando o método Box Plot para verificar se existe outliers para os valores dos condominios
# A principio há condiminios com os valores zerados
plt.figure(figsize=(10, 6))
sns.boxplot(data=df,
            y='Valor_Condominio',
            color='skyblue')
plt.title('Box Plot para valor dos condiminios')
plt.ylabel('Valor_Condominio')
# plt.show()


# Utilizando o método Box Plot para verificar se existe outliers para a metragem
plt.figure(figsize=(10, 6))
sns.boxplot(data=df,
            y='Metragem',
            color='skyblue')
plt.title('Box Plot para metragem')
plt.ylabel('Metragem')
# plt.show()

# Verificando valores dos condominios
count_val_cond = df['Valor_Condominio'].value_counts() # Contagem dos valores da coluna do valor_condominio
# Calculando a porcentagem de valores de condominio
percent_val_cond = (count_val_cond / count_val_cond.sum()) * 100
# Buscando a porcentagem de valores zeros
percent_zero = percent_val_cond.get(0, 0) # Vai retornar (0) zero se não encontrar nada
print(f"Porcentagem de registros com valor zero: {percent_zero:.2f}%")
# Foi encontrado apenas 8.86% de valores com o codomínio igual a zero, neste caso vou utilizar como premissa
# que podem ser casas e não apartamentos.

# C) Realize a análise bivariada dos dados. Faça uso de pelo menos 3 gráficos e traga insights acerca do analisado.

# Metragem x Valor do condomínio
mediana_metragem_valor_condominio = df.groupby('Metragem')['Valor_Condominio'].median().reset_index()

fig = px.bar(mediana_metragem_valor_condominio,
             x='Metragem',
             y='Valor_Condominio',
             title='Média de metragem por valor do condomínio',
             labels={'Metragem': 'Metragem', 'Valor_Condominio': 'Valor do Condomínio'})
fig.show()
# Insight: imóveis com metragem maior podem estar inseridos em condomínios de padrão superior (com mais ou melhores serviços e áreas comuns)
#  e, por isso, apresentar um valor de condomínio mais alto.
# Imóveis com metragem elevada mas com condomínio baixo (ou vice-versa) podem indicar casos especiais, como:
# Empreendimentos mais simples (mesmo com unidades grandes) ou condomínios premium (mesmo com unidades menores).


# Metragem x Número de vagas
mediana_metragem_n_vagas = df.groupby('Metragem')['N_Vagas'].median().reset_index()

fig = px.bar(mediana_metragem_n_vagas,
             x='Metragem',
             y='N_Vagas',
             title='Média de metragem por número de vagas',
             labels={'Metragem': 'Metragem', 'N_Vagas': 'Número de vagas'})
fig.show()

# Imóveis com maior metragem, em geral, podem oferecer mais vagas, 
# pois costumam estar associados a unidades de maior padrão ou que atendem famílias com mais veículos.
# Em áreas urbanas centrais, imóveis menores podem oferecer uma vaga devido à alta demanda, enquanto imóveis grandes em áreas mais suburbanas podem oferecer várias vagas.

# N_banheiros x N_suites
mediana_nbanheiro_nsuites = df.groupby('N_banheiros')['N_Suites'].median().reset_index()

fig = px.bar(mediana_nbanheiro_nsuites,
             x='N_banheiros',
             y='N_Suites',
             title='Média da quantidade de banheiros por suítes',
             labels={'N_banheiros': 'Número de Banheiros', 'N_Suites': 'Número de Suítes'})
fig.show()

# Suítes são geralmente consideradas um diferencial de conforto e luxo, 
# pois incluem um banheiro privativo associado ao quarto. Imóveis com uma alta proporção de suítes em relação ao total de banheiros podem indicar um padrão superior.
# Imóveis que oferecem mais banheiros do que suítes podem ter banheiros sociais, 
# o que é comum em residências familiares maiores. Isso pode indicar um foco em áreas comuns e áreas de convivência versus privacidade.


# 3 - Realize a terceira etapa de pré processamento dos dados.

A) Comece pela correlação, que sabemos ser uma parte importante para nosso pré processamento e análise. Plote o gráfico ou a tabela e indique as variáveis que te parecem mais "fortes" na correlação para nosso modelo.




In [None]:
#Seu código aqui

# Buscar as correlações mais fortes
correlacao = df.corr()

# Gráfico da correlação
plt.figure(figsize=(10, 6))
sns.heatmap(correlacao, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Gráfico de correlação')
# plt.show()

# Metragem x Valor do condomínio
# Metragem x Número de vagas
# N_banheiros x N_suites


B) Durante a aula, por nossa base ser pequena e demonstrativa não realizamos a separação de treino e teste, porém para as atividades do dia dia temos que fazer, nesse exercício separe treino e teste.

Lembre-se que primeiro separamos as variaveis dependentes X e depois Y, essa etapa deixarei para vocês abaixo:

In [None]:
X = df.drop('Valor_Aluguel', axis=1) #Separando X - Todas variáveis exceto valor_aluguel
y = df['Valor_Aluguel'] #Separando Y (Apenas variavel valor_aluguel)

Dica: Para separar em treino e teste usamos o train_test_split, como visto nas aulas de pré modelagem.

In [None]:
# Seu código aqui

# Separando os dados em conjunto de treino e teste
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Verificando o gabarito
print(f"Tamanho de x_train: {x_train.shape}")
print(f"Tamanho de x_test: {x_test.shape}")
print(f"Tamanho de y_train: {y_train.shape}")
print(f"Tamanho de y_test: {y_test.shape}")

# 3 - Treine um modelo de regressão Linear simples

A) Vamos utilizar apenas X_train e y_train para rodar um modelo de regressão linea simples e para isso usaremos apenas uma váriavel, a váriavel metragem.

In [None]:
X = x_train[['Metragem']]  # Variável independente (características)
y = y_train  # Variável dependente (rótulo)
# se você deu um nome diferente para x train e y train, altere no código.

In [None]:
#Crie seu modelo aqui, usando LinearRegression e as bases de treino.

regressao_metragem = LinearRegression()
regressao_metragem.fit(X, y)

B) Plote o intercept_ e coef_ e monte de forma extensa a equação da reta.

In [None]:
#Seu código Aqui
print(regressao_metragem.intercept_)
print(regressao_metragem.coef_)

Nossa equação seria:  


In [None]:
print(f"Equação da reta: y = {b:.2f} * Metragem + {a:.2f}")

c) Calcule o R quadrado para o modelo de treinamento. Não esqueça de avaliar e trazer em formato de insight se esse resultado te parece bom ou não.

In [None]:
#Seu código aqui

# Avaliação do modelo
print(regressao_metragem.score(X, y))

# Nosso modelo consegue explicar 52% da variação observada na variável dependente com base nas variáveis independentes incluídas no modelo.

D) Plote o gráfico da reta de regressão encontrada e traga insights acerca da dispersão dos pontos e ajuste da reta.

In [None]:
# Seu código aqui

# Plotando a reta de regressão
plt.plot(X, regressao_metragem.predict(X), color='red', label='Linha de Regressão')
plt.legend()
plt.show()

E) Para finalizar vamos aplicar o modelo a base de teste. Essa etapa é nova, então agora vocês avaliaram como o modelo treinado se saiu com a base de testes.
Para isso altere no código abaixo o nome do seu modelo de regressão:

In [None]:
X_test = x_test[['Metragem']]  # Variável independente (características)
y_test = y_test  # Variável dependente (rótulo)

In [None]:
# Usando o modelo treinado para fazer previsões sobre os dados de teste
previsoes = regressao_metragem.predict(X_test)

# Avaliando o desempenho do modelo usando métricas como o R²
r2 = regressao_metragem.score(X_test, y_test)

print("Coeficiente de Determinação (R²) nos Dados de Teste:", r2)


Coeficiente de Determinação (R²) nos Dados de Teste: 0.5651600449476675


Se o valor do coeficiente de determinação (R²) para os dados de treinamento for melhor (ou seja, mais próximo de 1) do que o R² para os dados de teste, isso sugere que o modelo está superajustado aos dados de treinamento. Isso significa que o modelo pode estar se ajustando muito bem aos padrões específicos nos dados de treinamento, mas pode não generalizar bem para novos dados que não foram vistos durante o treinamento.

Por outro lado, se o R² para os dados de teste for melhor do que o R² para os dados de treinamento, isso pode ser indicativo de que o modelo está subajustado. Isso significa que o modelo não está se ajustando adequadamente aos padrões nos dados de treinamento e não está capturando a relação entre as variáveis independentes e dependentes de forma eficaz.

Idealmente, gostaríamos que o valor do R² fosse consistente entre os dados de treinamento e teste, indicando que o modelo é capaz de generalizar bem para novos dados. Se houver uma grande diferença entre os valores de R² para os dados de treinamento e teste, isso sugere que o modelo pode precisar de ajustes para melhorar sua capacidade de generalização.

F) Avalie com suas palavras o valor do r quadrado encontrado no treino e no teste.

O modelo foi um pouco melhor, agora ele consegue explicar 56% da vairiação observada um aumento não muito significativo, mas uma melhora já pode ajudar a explicar mais a variação dos dados.

# 4 - Aplicação do modelo de regressão linear multipla!

A) Vamos refazer os passos anteriores porém para regressão multipla, com todas variáveis dependentes. Comece separando a base treino e teste, dessa vez com todas variáveis para X.

Aqui é só refazer os passos do exercicio 3 porém ao invés de trazer para X apenas metragem, você deve trazer todas colunas (exceto a valor do aluguel).

In [None]:
# Regressão Linear Multipla

# Separar as variáveis independentes da variável dependente (Trazendo as colunas exceto o valor do aluguel)

X = df.drop('Valor_Aluguel', axis=1)
y = df['Valor_Aluguel']

B) Faça o modelo de regressão linear multipla aplicado só a base de treino.

In [None]:
#seu código aqui

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

regressao_multipla = LinearRegression()
regressao_multipla.fit(X_train, y_train)


C) Traga o valor do R quadrado e avalie o valor encontrado.

In [None]:
#seu código aqui

r2 = regressao_multipla.score(X, y)

print("Coeficiente de Determinação (R²) nos Dados de Treino:", r2)

0.6072329037304596

D) Para finalizar aplique o modelo a base de teste e traga o r quadrado de teste.
Dica: Você pode usar os códigos do exercício anterior.

In [None]:
#seu código aqui

regressao_multipla = LinearRegression()
regressao_multipla.fit(X_test, y_test)

r2 = regressao_multipla.score(X_test, y_test)
print("Coeficiente de Determinação (R²) nos Dados de Teste:", r2)

Coeficiente de Determinação (R²) nos Dados de Teste: 0.6327633459161506


E) Compare os r quadrados encontrados pela regressão linear e pela regressão múltipla. Qual modelo te parece melhor? Por qual motivo acredita que isso ocorreu?

Digite sua resposta aqui

O modelo de regressão múltipla parece ser melhor com uma taxa de 60% e 63% nos dados de treino e testes respectivamente.

Geralmente, ao adicionar mais preditores, o (R²) tende a aumentar (ou, no mínimo, não diminuir), pois o modelo passa a ter mais informações para explicar a variação, isso pode indicar que as variáveis adicionais estão contribuindo de forma relevante para explicar a variação da variável dependente.