<a href="https://colab.research.google.com/github/Camillabgarcia/ML_Regressao_Linear/blob/main/Transformando_Variaveis_Regress%C3%A3o_Linear.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <strong><font color="77A316">Data Science: transformando variáveis para uma Regressão Linear</font></strong>


---

# **Aula 1 - Análises preliminares**

## **Precificação de imóveis**


**Problema de negócio:**

Você, como **cientista de dados** de uma imobiliária, precisa criar um modelo que consiga estimar os preços de diferentes casas para que o time de vendedores e vendedoras possam negociá-las com potenciais clientes.

Para isso, vamos observar as principais características de casas que já foram vendidas de acordo com a base de dados que recebemos, analisar estes dados e construir um modelo de aprendizado de máquina (ML), averiguando sua eficácia.

<img src="https://raw.githubusercontent.com/afonsosr2/data-science-regressao-linear/main/imagens/casas.webp" alt="Desenho de um conjunto de casas de estilo moderno. Temos casas de 1 a 2 andares" width=720>

**Objetivo**

Estimar preços dos imóveis de acordo com diversas características das propriedades, como área e localização. Para este propósito, vamos:

* Identificar quais fatores contribuem para a precificação dos imóveis;
* Averiguar a influência das características no preço do imóvel;
* Diferenciar quando precisamos transformar ou não as variáveis para uma melhor resposta do modelo;
* Verificar a relação entre as variáveis explicativas e a variável resposta;
* Criar um modelo de regressão linear de múltiplas variáveis;
* Fazer previsões para uma ou mais casas.

**Base de dados:**

Vamos utilizar a base `precos_casa.csv` adaptada de uma base bem conhecida no **Kaggle** chamada [House Prices](https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data?select=train.csv).

Esses dados serão lidos a partir do repositório compartilhado pelo GitHub.









## **1.2 - Conhecendo os dados**

---



In [None]:
# Verificando a quantidade de dados


In [None]:
# Como estão os meus dados? Temos dados nulos? Quais são seus tipos?
...

## **1.3 - Entendendo a relação dos dados**

---



Para entender a relação dos dados entre o valor de venda dos imóveis do dataset e suas características vamos utilizar a **Correlação**.

Correlação é uma medida estatística que varia numa escala de -1 a 1, indicando a relação e a dependência entre duas variáveis. Existem três tipos principais de correlação:

1.   **Correlação Positiva:** quando uma variável aumenta, a outra tende a aumentar.
2.   **Correlação Nula:** não há relação linear entre as variáveis.
3.   **Correlação Negativa:** quando uma variável aumenta, a outra tende a diminuir.

Essa medida não só define a direção, como também, a intensidade da relação.



In [None]:
# Correlação entre todo os dados
...

In [None]:
# Correlação do preço de venda
...

## **1.4 - Visualizando uma Regressão Linear com uma variável independente**

---



Já compreendemos um pouco a relação entre as variáveis e o valor de venda das casas. Mas que tal observarmos isso visualmente, pegando apenas uma das variáves de nossa base?

> Não se preocupe que aqui vamos apenas observar o comportamento da variável `valor`em relação a `area_primeiro_andar` rodando um modelo de regressão linear dentro da função `reg_plot()` da biblioteca `seaborn`. Mais a frente implementaremos o nosso próprio modelo!

In [None]:
# Importando as bibliotecas
...

Vamos ampliar nossas análises e verificar o comportamento da variável dependente e das variáveis explicativas?

# **Aula 2 - Análises gráficas**

## **2.1 - Visualizando o comportamento da variável dependente**

---



<img src="https://github.com/afonsosr2/data-science-regressao-linear/blob/main/imagens/boxplot_y_slide.png?raw=true" alt="Boxplot esperado para a variável dependente" width=720>

O **boxplot** é uma representação visual que mostra a distribuição de dados quantitativos, facilitando comparações entre variáveis ou categorias.

Os elementos principais de um boxplot são:

* **Caixa:** Representa o intervalo
interquartil (IIQ), que vai do primeiro quartil (Q1 - 25% dos dados) ao terceiro quartil (Q3 - 75% dos dados).

* **Linha mediana:** Onde está posicionado a mediana (Q2), valor que separa 50% dos dados.

* **Whiskers ("bigodes"):** Extensões que mostram a variabilidade fora do intervalo interquartil, geralmente até 1,5 vezes o IIQ a partir dos quartis.

* **Outliers:** Pontos individuais que estão fora do alcance dos *whiskers*, indicados separadamente.

Essa visualização ajuda a identificar a centralidade, dispersão e possíveis outliers em um conjunto de dados.

 Esse nosso boxplot está muito para à esquerda. Vamos investigar esse comportamento utilizando outro visual de distribuição dos dados?


## **2.2 - Investigando a distribuição de frequências da variável dependente**

---



<img src="https://github.com/afonsosr2/data-science-regressao-linear/blob/main/imagens/freq_slide.png?raw=true" alt="Distribuição de frequências para distribuições normais assimétricas à direita, simétrica e assimétrica à esquerda" width=720>

Existem três tipos principais de distribuição de frequências:

1. **Distribuição Assimétrica à Direita (Positivamente Assimétrica)**: a cauda longa está à direita da mediana. Neste caso, a média dos dados é maior que a mediana. **Exemplo:** salários em uma empresa, onde poucas pessoas (com cargos mais gerenciais) têm salários mais altos.

2. **Distribuição Simétrica**: a distribuição é espelhada em torno das medidas de tendência central. A característica principal é que a média, a mediana e a moda são iguais ou muito próximas.

3. **Distribuição Assimétrica à Esquerda (Negativamente Assimétrica)**: a cauda longa está à esquerda da mediana. Neste caso, a média dos dados é menor que a mediana. **Exemplo:** notas de exames onde a maioria dos alunos pontua alto, mas alguns pontuam muito baixo.

Observando graficamente o comportamento da variável dependente (Y → Valor do imóvel) descobrimos que estamos tratando de uma **Distribuição Assimétrica à Direita** e sabemos que vamos precisar realizar uma transformação desses dados antes de aplicarmos o modelo.

Que tal agora observarmos também as variáveis independentes (explicativas) e como elas estão distribuídas em relação ao valor?


## **2.3 - Analisando as variáveis independentes**

---



Vamos agora plotar o relacionamento das variáveis do dataset levando em conta o valor do imóvel utilizando o `pairplot()`

In [None]:
## Colunas dos dados
...

In [None]:
# Pairplot sem reta de regressão
...

Para o pairplot com a reta de regressão vamos retirar a coluna da geração do visual `existe_segundo_andar`.

In [None]:
# Pairplot com reta de regressão
...

Já vimos coisas interessantes aqui! Vamos partir para a transformação das variáveis? E qual tipo de transformação vamos fazer?

# **Aula 3 - Transformação de variáveis**

## **Curva log**

---



<img src="https://github.com/afonsosr2/data-science-regressao-linear/blob/main/imagens/curva_log_slide.png?raw=true" alt="Gráfico representando a curva de um logarítmo neperiano (ln(x))" width=720>

A **curva log** é uma representação gráfica de uma função logarítmica, especificamente usando o **logaritmo natural** ($ln$), que tem a base $e$ (aproximadamente igual a 2,718). Ela serve para transformar dados exponenciais em uma escala linear.

A função logarítmica natural é definida como $y = ln(x)$, onde $x > 0$. Essa curva é largamente utilizada para ajustar dados que crescem rapidamente, facilitando a visualização e a interpretação.

Sua característica principal é o crescimento da curva, mas a uma taxa decrescente. Ou seja, temos um achatamento da curva conforme o valor de $x$ aumenta. Isso faz com que grandes valores possam ser descritos numa mesma visualização que pequenos valores (i.e. 1, 10, 100 e 1000).


In [None]:
import numpy as np

In [None]:
np.log(0)

  np.log(0)


-inf

In [None]:
np.log(1)

0.0

In [None]:
np.log(1_000_000)

13.815510557964274

É possível observar que queremos evitar de calcular o log de 0, portanto, vamos precisar de atenção ao analisar os dados antes de efetuar a transformação logarítmica. Vamos transformar nossos dados e observar o que seria um modelo log-log?

## **3.1 - Transformando os dados**

---



<img src="https://github.com/afonsosr2/data-science-regressao-linear/blob/main/imagens/modelo_log-log_slides.png?raw=true" alt="Apresentando a transformação logarítmica de um modelo log-linear">

### **Aplicando a transformação logarítmica**

* [np.log()](https://numpy.org/doc/stable/reference/generated/numpy.log.html)
* [np.log1p()](https://numpy.org/doc/stable/reference/generated/numpy.log1p.html)

In [None]:
# Verificando se há 0 nas variáveis explicativas do nosso df
...

In [None]:
# Transformando as variáveis explicativas e resposta utilizando o logaritmo
...

In [None]:
# Lendo os dados
...

Agora que fizemos a transformação dos dados, vamos verificar como ficaram as nossas variáveis graficamente?

In [None]:
...

ax.figure.set_size_inches(12, 6)
ax.set_title('Distribuição de frequência', fontsize=20)
ax.set_xlabel('Log do Valor dos imóveis', fontsize=16)
plt.show()

Vamos agora analisar como ficaram também as distribuições de nossas variáveis explicativas separadamente de acordo com o valor do imóvel?

## **3.2 - Verificando a relação linear**

---



Vamos utilizar basicamente o mesmo código, só lembrando de colocar o `log_` em todas que sofreram uma transformação logarítmica

# **Aula 4 - Regressão linear múltipla**

## **4.1 - Preparando os dados**

---



O primeiro passo para criação do nosso modelo de Regressão Linear é a separação dos dados entre datasets de treino e teste.

In [None]:
# Importando o método de separação dos dados de treino e teste
...

In [None]:
# Definindo X e y
...

#### **Vamos compreender o método** `train_test_split`?

In [None]:
help(train_test_split)

In [None]:
# Dividindo os dados
...

## **4.2 - Avaliando as estatísticas do modelo com Statsmodels**

---



Agora vamos estimar nosso modelo inicialmente com Statsmodels verificando as estatísticas do modelo para o caso de todas as variáveis adicionadas.

In [None]:
...

## **4.3 - Treinando o modelo**

---



In [None]:
# Atualizando as variáveis de entrada do modelo
...

In [None]:
# Verificando o X_train_novo
...

In [None]:
# Instanciando o modelo
...

In [None]:
# Treinando o modelo com os dados de treino
...

### **Obtendo o coeficiente de determinação (R²) do modelo estimado com os dados de treino**

O coeficiente de determinação (R²) é uma medida resumida, variando de 0 a 1, que diz quanto a linha de regressão ajusta-se aos dados.

Por exemplo, um R² = 0.8 representa que 80% da variação da variável dependente é explicada pelas variáveis independentes escolhidas no modelo.

#### **R² dos dados de treino**

#### **Gerando previsões para os dados de teste do modelo**

#### **R² dos dados de previsão**

## **4.4 - Precificando uma casa**

---



<img src="https://github.com/afonsosr2/data-science-regressao-linear/blob/main/imagens/quanto_custa_slide.png?raw=true" alt="Imagem de uma casa e suas características para precificação" width=720>

In [None]:
# Quais são as features do nosso modelo?
...

In [None]:
# Nova casa
...

In [None]:
# Qual o preço dessa casa?
...

Prontinho, conseguimos finalmente precificar a nossa 1ª casa com modelo que criamos. Mas como a área, por exemplo do 1º andar influencia em nosso modelo? E o fato de ter ou não 2º andar?

Vamos entender os coeficientes e consequentemente a contribuição da cada variável no preço?

# **Aula 5 - Entendendo os resultados**

## **5.1 - Obtendo os coeficientes da regressão linear**

---



<img src="https://github.com/afonsosr2/data-science-regressao-linear/blob/main/imagens/coef_slide.png?raw=true" alt="Imagem com os coeficientes de regressão" width=720>

#### **Intercepto**

O **intercepto** representa o valor médio em $Y$ (Valor do imóvel) tendo todas as variáveis explicativas excluídas do modelo.

No caso do modelo log-log, este coeficiente ($ln\beta_0$) deve ser transformado com o uso da função exponencial (aplicando $e^{ln\beta_0}$) para ser apresentado em reais.

In [None]:
## lendo o valor do intercepto em log


In [None]:
## Transformando o efeito do intercepto em reais


#### **Coeficientes de regressão**

Os **coeficientes de regressão** $\beta_1$,  $\beta_2$, $\beta_3$ e $\beta_4$ são conhecidos como **coeficientes parciais de regressão**.

Uma característica peculiar do modelo log-log, que o tornou muito utilizado em modelos de regressão linear, é que seus coeficientes angulares ($\beta_1$, $\beta_3$ e $\beta_4$) medem as elasticidades de $Y$ em relação a $X_1$, $X_3$ e $X_4$, isto é, uma variação percentual de $Y$ corresponde a uma dada variação percentual (pequena) em $X_1$, $X_3$ e $X_4$.

Como você pode notar, o $\beta_2$ não entra nesse caso, pois o coeficiente de uma variável binária/dummy **não dita uma elasticidade**, pois você não pode alterar esse tipo de variável por uma certa porcentagem. Ela vai de 0 a 1 ou de 1 a 0.

In [None]:
# Lendo os coeficientes
...

### **Construindo uma tabela (DataFrame) com os coeficientes e seus valores**

In [None]:
## Criando o índice dos coeficientes
...

In [None]:
## Criando o df
...

## **5.2 Interpretando os coeficientes estimados**

---



#### **Nosso Modelo:**

<img src="https://github.com/afonsosr2/data-science-regressao-linear/blob/main/imagens/modelo_log-log_3.png?raw=true" alt="Nosso modelo construído" width=720>

**Intercepto →** Excluindo o efeito de todas as variáveis explicativas, o efeito médio no Valor do Imóvel seria de **R$ 71.294,33**. (exp[11.175])

**Área do 1º andar (m²)** → Mantendo-se os valores de todas as outras variáveis explicativas constantes, um acréscimo de 1% na Área do 1º andar do imóvel gera, em média, um **acréscimo de 0.5%** no Valor do Imóvel.

**Área do Quintal (m²)** → Mantendo-se os valores de todas as outras variáveis explicativas constantes, um acréscimo de 1% na Área do Quintal do imóvel gera, em média, um **acréscimo de 0.079%** no Valor do Imóvel.

**Distância até o metrô (km)** → Mantendo-se os valores de todas as outras variáveis explicativas constantes, um acréscimo de 1% na Distância até o metrô gera, em média, um **decréscimo de 0.26%** no Valor do Imóvel.



***E a variável `existe_segundo_andar`?***

O impacto de uma variável **binária** ou ***dummy*** sobre o valor do imóvel é calculado de maneira diferente.

Se o valor **varia de 0 para 1** em $X_2$, o impacto, em porcentagem, é calculado da seguinte forma:

$$100 * (e^{\beta_2} - 1)$$

E se o **valor varia de 1 para 0**:
$$100 * (e^{-\beta_2} - 1)$$

Onde, $\beta_2$ é o valor do coeficiente de `existe_segundo_andar`.

In [None]:
# Efeito da dummy
...

## **5.3 - Analisando graficamente os resultados do modelo**

---



Vamos agora analisar graficamente os resultados de nosso modelo, gerando previsões de casas para os dados de treino.

### **Analisando pelos dados de TREINO**

#### **Gerando previsões para os dados de treino**

#### **Gráfico de dispersão entre o valor estimado e real**

In [None]:
...

ax.figure.set_size_inches(12, 6)
ax.set_title('Previsão X Real', fontsize=18)
ax.set_xlabel('log do Preço - Previsão', fontsize=14)
ax.set_ylabel('log do Preço - Real', fontsize=14)
plt.show()

#### **Obtendo os resíduos e observando seu comportamento**

In [None]:
...

ax.figure.set_size_inches(12, 6)
ax.set_title('Distribuição de Frequências dos Resíduos', fontsize=18)
ax.set_xlabel('log do Preço', fontsize=14)
plt.show()

##### **Homocedasticidade do modelo**

In [None]:
...

ax.figure.set_size_inches(12, 6)
ax.set_title('Previsão x Resíduos', fontsize=18)
ax.set_xlabel('log do Preço - Previsão', fontsize=14)
ax.set_ylabel('Resíduos', fontsize=14)
plt.show()

## **5.4 - Salvando o modelo e prevendo mais casas**

---



Para salvar o nosso modelo vamos utilizar a biblioteca [pickle](https://docs.python.org/3/library/pickle.html) que é serve para serializar e desserializar objetos, permitindo que você salve objetos Python em um arquivo e depois os recupere.

Em outras palavras, ela converte objetos Python em uma representação binária (serialização) para armazenamento ou transmissão e depois reconstrói esses objetos a partir dessa representação (desserialização).

Vamos agora salvar o arquivo pickle e baixar os arquivos "casas_a_precificar.csv" e "Precificando mais casas.ipynb" que estão nas atividades desse curso.