# Bootcamp: Construa seu Portfólio em Ciência de Dados

**Autora**: Yanna Cavalcanti

**Data**: Junho 2023

---

## Projeto: Otimização de Preços de Imóveis para Aumento de Vendas

#### Indústria e mercado

Esse projeto se enquadra na indústria de real state ou setor imobiliário. Start-ups brasileiras conhecidas nesse setor incluem QuintoAndar e Loft.

#### Contexto

Você foi contratado como cientista de dados por uma agência imobiliária em Boston. A agência deseja aumentar suas vendas através da otimização da estratégia de precificação para os imóveis em seu portfólio. Eles acreditam que definir os preços corretos com base na demanda de mercado e nas características dos imóveis atrairá mais potenciais compradores e, consequentemente, levará a um aumento nas vendas. Atualmente, a empresa possui um modelo de regressão linear baseado em dados referentes às características internas do imóvel, sem considerar características da região onde se encontram. Esse modelo será o seu **baseline**.

#### Objetivo

Sua tarefa é desenvolver um modelo de precificação que auxilie a agência a determinar os preços ótimos para seus imóveis com base em um conjunto de atributos relacionados a cada bairro ou subúrbio. O objetivo é desenvolver um modelo de aprendizado de máquina que seja capaz de estimar com precisão o valor médio das residências ocupadas pelos proprietários em milhares de dólares (MEDV) com base nas informações disponíveis, como taxa de criminalidade, proporção de terrenos residenciais, concentração de óxidos nítricos, além das características internas dos imóveis, que eles já possuiam e estavam utilizando. O modelo será útil para auxiliar compradores, vendedores e agentes imobiliários a terem uma estimativa confiável do valor de uma propriedade em diferentes áreas de Boston.

Você também precisa demonstrar o aumento de vendas proveniente da maior precisão, sabendo que quando o preço difere do real de +/-20%, **não há venda**.

**Para simplificar o problema, nós vamos considerar que cada linha corresponde a um imóvel no portfólio dessa agência**

#### Dataset

- **Dataset Source:** [Kaggle](https://www.kaggle.com/datasets/vikrishnan/boston-house-prices)

- **Dataset Description:** 

Cada registro no banco de dados descreve um subúrbio ou cidade de Boston. Os dados foram extraídos da Boston Standard Metropolitan Statistical Area (SMSA) em 1970. Os atributos são definidos da seguinte forma (retirado do [U.S. Census Service](http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html)):

* CRIM: taxa de criminalidade per capita por cidade
* ZN: proporção de terrenos residenciais zoneados para lotes com mais de 25.000 pés quadrados
* INDUS: proporção de acres de negócios não varejistas por cidade
* CHAS: variável dummy do rio Charles (= 1 se o lote faz fronteira com o rio; 0 caso contrário)
* NOX: concentração de óxidos nítricos (partes por 10 milhões)
* RM: número médio de quartos por habitação
* AGE: proporção de unidades ocupadas pelo proprietário construídas antes de 1940
* DIS: distâncias ponderadas para cinco centros de emprego em Boston
* RAD: índice de acessibilidade às rodovias radiais
* TAX: taxa de imposto sobre a propriedade com valor total por US$10.000
* PTRATIO: proporção aluno-professor por cidade
* B: 1000(Bk−0,63)2, onde Bk é a proporção de negros por cidade
* LSTAT: \% de status inferior da população
* MEDV: Valor médio das residências ocupadas pelos proprietários em US\$1000

Podemos ver que os atributos de entrada têm uma mistura de unidades.



<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Bootcamp:-Construa-seu-Portfólio-em-Ciência-de-Dados" data-toc-modified-id="Bootcamp:-Construa-seu-Portfólio-em-Ciência-de-Dados-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Bootcamp: Construa seu Portfólio em Ciência de Dados</a></span><ul class="toc-item"><li><span><a href="#Projeto:-Otimização-de-Preços-de-Imóveis-para-Aumento-de-Vendas" data-toc-modified-id="Projeto:-Otimização-de-Preços-de-Imóveis-para-Aumento-de-Vendas-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Projeto: Otimização de Preços de Imóveis para Aumento de Vendas</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Indústria-e-mercado" data-toc-modified-id="Indústria-e-mercado-1.1.0.1"><span class="toc-item-num">1.1.0.1&nbsp;&nbsp;</span>Indústria e mercado</a></span></li><li><span><a href="#Contexto" data-toc-modified-id="Contexto-1.1.0.2"><span class="toc-item-num">1.1.0.2&nbsp;&nbsp;</span>Contexto</a></span></li><li><span><a href="#Objetivo" data-toc-modified-id="Objetivo-1.1.0.3"><span class="toc-item-num">1.1.0.3&nbsp;&nbsp;</span>Objetivo</a></span></li><li><span><a href="#Dataset" data-toc-modified-id="Dataset-1.1.0.4"><span class="toc-item-num">1.1.0.4&nbsp;&nbsp;</span>Dataset</a></span></li></ul></li></ul></li><li><span><a href="#Análise-exploratória-de-dados--(EDA)" data-toc-modified-id="Análise-exploratória-de-dados--(EDA)-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Análise exploratória de dados  (EDA)</a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Tarefa:-Visualize-as-primeiras-linhas-do-conjunto-de-dados-com-.head()" data-toc-modified-id="Tarefa:-Visualize-as-primeiras-linhas-do-conjunto-de-dados-com-.head()-1.2.0.1"><span class="toc-item-num">1.2.0.1&nbsp;&nbsp;</span><strong>Tarefa</strong>: Visualize as primeiras linhas do conjunto de dados com <em>.head()</em></a></span></li><li><span><a href="#Tarefa:-Conte-quantos-NaNs-há-por-coluna-com-.isna().sum()" data-toc-modified-id="Tarefa:-Conte-quantos-NaNs-há-por-coluna-com-.isna().sum()-1.2.0.2"><span class="toc-item-num">1.2.0.2&nbsp;&nbsp;</span><strong>Tarefa</strong>: Conte quantos NaNs há por coluna com <em>.isna().sum()</em></a></span></li><li><span><a href="#Tarefa:-Use-.describe-para-recuperar-algumas-estatísticas-descritivas-do-conjunto-de-dados" data-toc-modified-id="Tarefa:-Use-.describe-para-recuperar-algumas-estatísticas-descritivas-do-conjunto-de-dados-1.2.0.3"><span class="toc-item-num">1.2.0.3&nbsp;&nbsp;</span><strong>Tarefa</strong>: Use <em>.describe</em> para recuperar algumas estatísticas descritivas do conjunto de dados</a></span></li><li><span><a href="#Tarefa:-Plotar-o-histograma-com-o-valor-médio-das-residências" data-toc-modified-id="Tarefa:-Plotar-o-histograma-com-o-valor-médio-das-residências-1.2.0.4"><span class="toc-item-num">1.2.0.4&nbsp;&nbsp;</span><strong>Tarefa</strong>: Plotar o histograma com o valor médio das residências</a></span></li><li><span><a href="#Tarefa:-Plote-o-gráfico-de-dispersão-entre-as-variáveis-RM-e-MEDV-com-linha-de-regressão" data-toc-modified-id="Tarefa:-Plote-o-gráfico-de-dispersão-entre-as-variáveis-RM-e-MEDV-com-linha-de-regressão-1.2.0.5"><span class="toc-item-num">1.2.0.5&nbsp;&nbsp;</span><strong>Tarefa</strong>: Plote o gráfico de dispersão entre as variáveis RM e MEDV com linha de regressão</a></span></li><li><span><a href="#Tarefa:-Plote-o-histograma-de-acessibilidade-a-rodovias-radias-com-&quot;seaborn&quot;" data-toc-modified-id="Tarefa:-Plote-o-histograma-de-acessibilidade-a-rodovias-radias-com-&quot;seaborn&quot;-1.2.0.6"><span class="toc-item-num">1.2.0.6&nbsp;&nbsp;</span><strong>Tarefa</strong>: Plote o histograma de acessibilidade a rodovias radias com "seaborn"</a></span></li><li><span><a href="#Tarefa:-Crie-um-heatmap-da-correlação-entre-as-variáveis." data-toc-modified-id="Tarefa:-Crie-um-heatmap-da-correlação-entre-as-variáveis.-1.2.0.7"><span class="toc-item-num">1.2.0.7&nbsp;&nbsp;</span><strong>Tarefa</strong>: Crie um heatmap da correlação entre as variáveis.</a></span></li><li><span><a href="#Pergunta:-O-que-conseguimos-inferir-da-matriz-de-correlação?" data-toc-modified-id="Pergunta:-O-que-conseguimos-inferir-da-matriz-de-correlação?-1.2.0.8"><span class="toc-item-num">1.2.0.8&nbsp;&nbsp;</span><strong>Pergunta</strong>: O que conseguimos inferir da matriz de correlação?</a></span></li><li><span><a href="#Bônus-EDA:-Pandas-profiling" data-toc-modified-id="Bônus-EDA:-Pandas-profiling-1.2.0.9"><span class="toc-item-num">1.2.0.9&nbsp;&nbsp;</span><strong>Bônus EDA</strong>: Pandas profiling</a></span></li></ul></li></ul></li><li><span><a href="#Pré-processamento-|-Limpeza-dos-dados" data-toc-modified-id="Pré-processamento-|-Limpeza-dos-dados-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Pré-processamento | Limpeza dos dados</a></span><ul class="toc-item"><li><span><a href="#Remoção-de--Outliers-usando-o-interquartle-range" data-toc-modified-id="Remoção-de--Outliers-usando-o-interquartle-range-1.3.1"><span class="toc-item-num">1.3.1&nbsp;&nbsp;</span>Remoção de  Outliers usando o interquartle range</a></span><ul class="toc-item"><li><span><a href="#Tarefa:-complete-a-funcao-abaixo-seguindo-as-instrucoes-nos-comentarios" data-toc-modified-id="Tarefa:-complete-a-funcao-abaixo-seguindo-as-instrucoes-nos-comentarios-1.3.1.1"><span class="toc-item-num">1.3.1.1&nbsp;&nbsp;</span><strong>Tarefa</strong>: complete a funcao abaixo seguindo as instrucoes nos comentarios</a></span></li><li><span><a href="#Tarefa:-use-a-função-acima-para-remover-os-outliers-da-sua-base-de-dados" data-toc-modified-id="Tarefa:-use-a-função-acima-para-remover-os-outliers-da-sua-base-de-dados-1.3.1.2"><span class="toc-item-num">1.3.1.2&nbsp;&nbsp;</span><strong>Tarefa</strong>: use a função acima para remover os outliers da sua base de dados</a></span></li></ul></li></ul></li><li><span><a href="#Modelo-de-precificação" data-toc-modified-id="Modelo-de-precificação-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Modelo de precificação</a></span><ul class="toc-item"><li><span><a href="#Train-test-split" data-toc-modified-id="Train-test-split-1.4.1"><span class="toc-item-num">1.4.1&nbsp;&nbsp;</span>Train test split</a></span></li><li><span><a href="#Regressão-linear" data-toc-modified-id="Regressão-linear-1.4.2"><span class="toc-item-num">1.4.2&nbsp;&nbsp;</span>Regressão linear</a></span><ul class="toc-item"><li><span><a href="#Tarefa:-agora-faca-a-previsao-dos-seus-dados-de-treino-e-validação-usando-o-.predict()-do-modelo" data-toc-modified-id="Tarefa:-agora-faca-a-previsao-dos-seus-dados-de-treino-e-validação-usando-o-.predict()-do-modelo-1.4.2.1"><span class="toc-item-num">1.4.2.1&nbsp;&nbsp;</span><strong>Tarefa</strong>: agora faca a previsao dos seus dados de treino e validação usando o .predict() do modelo</a></span></li><li><span><a href="#Avaliação-de-performance-no-treino-e-validação" data-toc-modified-id="Avaliação-de-performance-no-treino-e-validação-1.4.2.2"><span class="toc-item-num">1.4.2.2&nbsp;&nbsp;</span>Avaliação de performance no treino e validação</a></span></li><li><span><a href="#Pergunta:-Comparando-o-treino-e-a-validação,-o-modelo-está-sofrendo-overfitting-de-uma-maneira-relevante?" data-toc-modified-id="Pergunta:-Comparando-o-treino-e-a-validação,-o-modelo-está-sofrendo-overfitting-de-uma-maneira-relevante?-1.4.2.3"><span class="toc-item-num">1.4.2.3&nbsp;&nbsp;</span>Pergunta: Comparando o treino e a validação, o modelo está sofrendo overfitting de uma maneira relevante?</a></span></li><li><span><a href="#Tarefa:-Visualize-as-diferenças-entre-os-preços-reais-e-os-valores-previstos-com-um-gráfico-de-dispersão." data-toc-modified-id="Tarefa:-Visualize-as-diferenças-entre-os-preços-reais-e-os-valores-previstos-com-um-gráfico-de-dispersão.-1.4.2.4"><span class="toc-item-num">1.4.2.4&nbsp;&nbsp;</span><strong>Tarefa</strong>: Visualize as diferenças entre os preços reais e os valores previstos com um gráfico de dispersão.</a></span></li><li><span><a href="#Tarefa:-Printar-os-coeficientes" data-toc-modified-id="Tarefa:-Printar-os-coeficientes-1.4.2.5"><span class="toc-item-num">1.4.2.5&nbsp;&nbsp;</span><strong>Tarefa</strong>: Printar os coeficientes</a></span></li><li><span><a href="#Pergunta:-Os-coeficientes-desse-modelo-correspondem-à-importância-das-features?" data-toc-modified-id="Pergunta:-Os-coeficientes-desse-modelo-correspondem-à-importância-das-features?-1.4.2.6"><span class="toc-item-num">1.4.2.6&nbsp;&nbsp;</span><strong>Pergunta</strong>: Os coeficientes desse modelo correspondem à importância das features?</a></span></li><li><span><a href="#Pergunta:-Como-fazer-com-que-os-coeficientes-correspondam-minimamente-a-importâncias?" data-toc-modified-id="Pergunta:-Como-fazer-com-que-os-coeficientes-correspondam-minimamente-a-importâncias?-1.4.2.7"><span class="toc-item-num">1.4.2.7&nbsp;&nbsp;</span><strong>Pergunta</strong>: Como fazer com que os coeficientes correspondam minimamente a importâncias?</a></span></li><li><span><a href="#Tarefa:-Implemente-as-modificacoes-necessarias-para-que-os-coeficientes-sugiram-importancias" data-toc-modified-id="Tarefa:-Implemente-as-modificacoes-necessarias-para-que-os-coeficientes-sugiram-importancias-1.4.2.8"><span class="toc-item-num">1.4.2.8&nbsp;&nbsp;</span>Tarefa: Implemente as modificacoes necessarias para que os coeficientes sugiram importancias</a></span></li><li><span><a href="#Tarefa:-Printar-os-coeficientes-antes-e-depois" data-toc-modified-id="Tarefa:-Printar-os-coeficientes-antes-e-depois-1.4.2.9"><span class="toc-item-num">1.4.2.9&nbsp;&nbsp;</span><strong>Tarefa:</strong> Printar os coeficientes antes e depois</a></span></li><li><span><a href="#Pergunta:-O-que-acontece-com-a-coluna-NOX-nos-dois-casos" data-toc-modified-id="Pergunta:-O-que-acontece-com-a-coluna-NOX-nos-dois-casos-1.4.2.10"><span class="toc-item-num">1.4.2.10&nbsp;&nbsp;</span><strong>Pergunta:</strong> O que acontece com a coluna NOX nos dois casos</a></span></li><li><span><a href="#Pergunta:-Como-saber-se-as-features-tem-relevância-estatística?" data-toc-modified-id="Pergunta:-Como-saber-se-as-features-tem-relevância-estatística?-1.4.2.11"><span class="toc-item-num">1.4.2.11&nbsp;&nbsp;</span><strong>Pergunta:</strong> Como saber se as features tem relevância estatística?</a></span></li><li><span><a href="#Bônus-Regressao-linear:-statsmodel-OLS-e-p-valor" data-toc-modified-id="Bônus-Regressao-linear:-statsmodel-OLS-e-p-valor-1.4.2.12"><span class="toc-item-num">1.4.2.12&nbsp;&nbsp;</span><strong>Bônus Regressao linear</strong>: <a href="https://www.statsmodels.org/stable/regression.html" rel="nofollow" target="_blank">statsmodel OLS</a> e p-valor</a></span></li></ul></li><li><span><a href="#Random-forest" data-toc-modified-id="Random-forest-1.4.3"><span class="toc-item-num">1.4.3&nbsp;&nbsp;</span>Random forest</a></span><ul class="toc-item"><li><span><a href="#Tarefa:-agora-faca-a-previsao-dos-seus-dados-de-treino-e-validação-usando-o-.predict()-do-modelo" data-toc-modified-id="Tarefa:-agora-faca-a-previsao-dos-seus-dados-de-treino-e-validação-usando-o-.predict()-do-modelo-1.4.3.1"><span class="toc-item-num">1.4.3.1&nbsp;&nbsp;</span><strong>Tarefa</strong>: agora faca a previsao dos seus dados de treino e validação usando o .predict() do modelo</a></span></li><li><span><a href="#Avalie-o-modelo-com-as-mesmas-métricas-vistas-anteriormente" data-toc-modified-id="Avalie-o-modelo-com-as-mesmas-métricas-vistas-anteriormente-1.4.3.2"><span class="toc-item-num">1.4.3.2&nbsp;&nbsp;</span>Avalie o modelo com as mesmas métricas vistas anteriormente</a></span></li><li><span><a href="#Plotar-a-importância-das-features" data-toc-modified-id="Plotar-a-importância-das-features-1.4.3.3"><span class="toc-item-num">1.4.3.3&nbsp;&nbsp;</span>Plotar a importância das features</a></span></li></ul></li><li><span><a href="#Comparando-os-modelos" data-toc-modified-id="Comparando-os-modelos-1.4.4"><span class="toc-item-num">1.4.4&nbsp;&nbsp;</span>Comparando os modelos</a></span></li><li><span><a href="#Construindo-o-modelo-de-baseline" data-toc-modified-id="Construindo-o-modelo-de-baseline-1.4.5"><span class="toc-item-num">1.4.5&nbsp;&nbsp;</span>Construindo o modelo de baseline</a></span></li></ul></li><li><span><a href="#Conclusão-e-pontos-chave" data-toc-modified-id="Conclusão-e-pontos-chave-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Conclusão e pontos-chave</a></span><ul class="toc-item"><li><span><a href="#Como-comunicar-seus-achados-para-a-lideranca-ou-os-C-levels-(CEO,-CTO,-etc.)-da-empresa?" data-toc-modified-id="Como-comunicar-seus-achados-para-a-lideranca-ou-os-C-levels-(CEO,-CTO,-etc.)-da-empresa?-1.5.1"><span class="toc-item-num">1.5.1&nbsp;&nbsp;</span>Como comunicar seus achados para a lideranca ou os C-levels (CEO, CTO, etc.) da empresa?</a></span></li><li><span><a href="#Como-comunicar-para-uma-lideranca-mais-técnica-que-entende-de-performance?" data-toc-modified-id="Como-comunicar-para-uma-lideranca-mais-técnica-que-entende-de-performance?-1.5.2"><span class="toc-item-num">1.5.2&nbsp;&nbsp;</span>Como comunicar para uma lideranca mais técnica que entende de performance?</a></span></li><li><span><a href="#O-que-de-mais-importante-você-aprendeu-com-esse-case-tecnicamente?" data-toc-modified-id="O-que-de-mais-importante-você-aprendeu-com-esse-case-tecnicamente?-1.5.3"><span class="toc-item-num">1.5.3&nbsp;&nbsp;</span>O que de mais importante você aprendeu com esse case tecnicamente?</a></span></li></ul></li></ul></li></ul></div>

## Análise exploratória de dados  (EDA)

Primeiro vamos checar se o dataset está na pasta importando a biblioteca "os".

In [3]:
import os 

os.listdir("../input/boston-house-prices/")

['housing.csv']

Agora, vamos ler o dataset com "pandas".

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


# Carregar o conjunto de dados
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
data = pd.read_csv("../input/boston-house-prices/housing.csv", header=None, delimiter=r"\s+", names=column_names)


#### **Tarefa**: Visualize as primeiras linhas do conjunto de dados com *.head()*

#### **Tarefa**: Conte quantos NaNs há por coluna com *.isna().sum()*

#### **Tarefa**: Use *.describe* para recuperar algumas estatísticas descritivas do conjunto de dados

#### **Tarefa**: Plotar o histograma com o valor médio das residências

Um histograma é uma representação gráfica da distribuição de frequência de um conjunto de dados. Ele consiste em um gráfico de barras, no qual cada barra representa uma faixa de valores e a altura da barra indica a frequência ou a quantidade de ocorrências nessa faixa. Ao observar um histograma, podemos analisar a forma da distribuição dos dados, identificar padrões, tendências, assimetrias e outliers. Também é possível obter informações sobre a concentração dos dados em determinadas faixas e a dispersão dos valores. Em resumo, um histograma nos permite visualizar e compreender a distribuição dos dados de maneira intuitiva e facilita a análise estatística.

[Matplotlib hist](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html)

#### **Tarefa**: Plote o gráfico de dispersão entre as variáveis RM e MEDV com linha de regressão

Um gráfico de dispersão é uma representação visual que mostra a relação entre duas variáveis. No eixo horizontal, temos uma variável e no eixo vertical, temos outra variável. Cada ponto no gráfico representa uma observação e sua posição é determinada pelos valores das duas variáveis correspondentes. Ao observar um gráfico de dispersão, podemos identificar padrões, tendências ou a falta delas na relação entre as variáveis. Além disso, é possível analisar a direção da relação (positiva, negativa ou nula), a força da relação (forte, fraca) e a presença de possíveis valores discrepantes (outliers). Gráficos de dispersão também podem ser úteis para identificar clusters ou agrupamentos de pontos que podem indicar subgrupos distintos nos dados. Em resumo, um gráfico de dispersão nos ajuda a visualizar a relação entre duas variáveis e a identificar padrões ou tendências nos dados.

[Seaborn lmplot](https://seaborn.pydata.org/generated/seaborn.lmplot.html)

#### **Tarefa**: Plote o histograma de acessibilidade a rodovias radias com "seaborn"

[Seaborn histplot](https://seaborn.pydata.org/generated/seaborn.histplot.html)

#### **Tarefa**: Crie um heatmap da correlação entre as variáveis.

**Correlação** é uma medida estatística que descreve a relação entre duas variáveis. Ela indica a força e a direção dessa relação, ou seja, o grau em que as variáveis variam juntas. A correlação é representada por um valor numérico chamado coeficiente de correlação, que varia de -1 a 1.

- Um coeficiente de correlação próximo de 1 indica uma correlação positiva forte, ou seja, as variáveis tendem a aumentar ou diminuir juntas.
- Um coeficiente de correlação próximo de -1 indica uma correlação negativa forte, ou seja, uma variável tende a aumentar enquanto a outra diminui.
- Um coeficiente de correlação próximo de 0 indica uma correlação fraca ou ausente, não havendo uma relação linear aparente entre as variáveis.

É importante ressaltar que a correlação não implica causalidade, ou seja, a existência de uma relação entre as variáveis não indica que uma cause a outra. A correlação apenas descreve a relação estatística entre elas. A interpretação adequada da correlação depende do contexto das variáveis e da compreensão do domínio em questão.

[Pandas corr](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html)

[Seaborn heatmap](https://seaborn.pydata.org/generated/seaborn.heatmap.html)

#### **Pergunta**: O que conseguimos inferir da matriz de correlação?

**Resposta:**
* O número de quartos na residência (RM) é positivamente correlacionado com o valor, como esperado
* Quanto maior a taxa aluno/professor, mais baixo é o valor da residência
* Quanto maior a % dee populacao com status inferior, mais baixo é o valor da residencia
* As colunas LSTAT, INDUS, RM, TAX, NOX e PTRAIO possuem um score de correlação acima de 0.5 com MEDV, o que é uma boa indicação de seu uso como preditores.
*  TAX e RAD são features altamente correlacionadas.

#### **Bônus EDA**: Pandas profiling

O pandas profiling é uma biblioteca do Python que simplifica a análise exploratória de dados, gerando relatórios detalhados sobre estatísticas, distribuições e padrões nos dados.
Esses relatórios fornecem insights valiosos e agilizam a compreensão e o pré-processamento dos dados.

In [None]:
!pip install pandas-profiling


In [None]:
import pandas_profiling as pp

pp.ProfileReport(df)

## Pré-processamento | Limpeza dos dados

### Remoção de  Outliers usando o interquartle range


![IQR](https://i.stack.imgur.com/4sTX1.png)

A detecção de outliers usando o interquartile range (IQR) é baseada na ideia de que os dados de uma distribuição normal ou próxima dela geralmente se concentram em torno da mediana e possuem uma dispersão simétrica. O IQR é uma medida estatística que representa a amplitude entre o primeiro quartil (Q1) e o terceiro quartil (Q3) de um conjunto de dados.

A lógica por trás da detecção de outliers usando o IQR é a seguinte:

1. Calcule o IQR: Subtraia o valor do primeiro quartil (Q1) do valor do terceiro quartil (Q3) para obter o IQR.

   IQR = Q3 - Q1

2. Defina um limite superior e um limite inferior: Multiplique o IQR por um fator (geralmente 1,5 ou 3) e adicione esse valor ao Q3 para obter o limite superior e subtraia-o do Q1 para obter o limite inferior.

   Limite superior = Q3 + (fator * IQR)
   
   Limite inferior = Q1 - (fator * IQR)

3. Identifique os outliers: Todos os valores que estiverem acima do limite superior ou abaixo do limite inferior são considerados outliers.

Essa abordagem é baseada na ideia de que valores que estão muito acima ou abaixo dos quartis são considerados extremos em relação à distribuição dos dados e podem ser indicativos de pontos discrepantes ou anômalos. A escolha do fator multiplicativo (1,5 ou 3) determina o quão "distante" um valor precisa estar dos quartis para ser considerado um outlier.


#### **Tarefa**: complete a funcao abaixo seguindo as instrucoes nos comentarios

In [2]:
import numpy as np

def remove_outliers(data, columns):
    for col in columns:
        # Calcule o primeiro quantile (25%) usando a funcao .quantile()
#         q1 = 
        # Calcule o primeiro quantile (75%) usando a funcao .quantile()
#         q3 = 
        iqr = q3 - q1
        data = data[(data[col] >= q1 - 1.5 * iqr) & (data[col] <= q3 + 1.5 * iqr)]
    return data

#### **Tarefa**: use a função acima para remover os outliers da sua base de dados

## Modelo de precificação

Agora vamos de fato construir o modelo de precificação, utilizando as variáveis do Census. Em um primeiro momento, vamos realiza uma regressão linear e, em seguida, vamos criar também uma random forest para comparar e escolher o melhor modelo.

### Train test split

Vamos dividir nosso conjunto de dados em conjuntos de treino, validação e teste. Nesse importante passo da avaliação de performance do modelo, a divisão é feita de forma aleatória e representativa, garantindo que todos os conjuntos sejam amostras justas do conjunto de dados original. O conjunto de treinamento é usado para aprender os padrões e relações nos dados e todos os parâmetros do modelo, o conjunto de validação é usado para aprender os hiperparâmetros do modelo sempre que necessário (em alguns casos e com modelos mais simples, pode não ser necessária a aprendizagem de hiperparâmetros), enquanto o conjunto de teste é usado para avaliar a capacidade de generalização do modelo. O train-test split é uma prática fundamental para selecionar modelos adequados e estimar sua performance em dados não observados.

No nosso caso, utilizaremos o conjunto de teste como dados "não vistos" que serão usados para cálculo de impacto ao final.

Lembre-se de separar a matrix de fatures X e o target y.

[Sklearn train-test split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

### Regressão linear

A regressão linear é um método estatístico usado para modelar a relação entre uma variável dependente ($Y$) e uma ou mais variáveis independentes ($X$). É chamada de "linear" porque assume uma relação linear entre as variáveis. A forma básica de uma regressão linear simples pode ser expressa pela seguinte equação:
$$
Y = \beta_0 + \beta_1X + \varepsilon
$$
Onde:
- $Y$ é a variável dependente que queremos prever.
- $X$ é a variável independente.
- $\beta_0$ é o coeficiente de interceptação, que representa o valor esperado de Y quando X é igual a zero.
- $\beta_1$ é o coeficiente de inclinação, que representa a mudança esperada em Y para uma unidade de mudança em X.
- $\varepsilon$ é o termo de erro, que representa a variação não explicada ou aleatória em Y.

A regressão linear procura encontrar os valores ótimos para $\beta_0$ e $\beta_1$ que minimizam a soma dos quadrados dos resíduos (RSS), que é a diferença entre os valores observados de Y e os valores previstos pelo modelo. A técnica dos mínimos quadrados ordinários (OLS) é frequentemente usada para estimar os coeficientes $\beta_0$ e $\beta_1$.

A regressão linear pode ser estendida para incluir múltiplas variáveis independentes, resultando na regressão linear múltipla. Nesse caso, a equação assume a forma geral:
$$
Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_nX_n + \varepsilon
$$
Onde $X_1$, $X_2$, $...$, $X_n$ são as variáveis independentes adicionais e $\beta_1$, $\beta_2$, $...$, $\beta_n$ são os coeficientes de inclinação correspondentes. A regressão linear é amplamente utilizada em análise de dados, previsão e modelagem estatística para entender e quantificar as relações entre variáveis.

[Sklearn linear regression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

#### **Tarefa**: agora faca a previsao dos seus dados de treino e validação usando o .predict() do modelo

#### Avaliação de performance no treino e validação

##### Avalie o modelo para treino e validação com as seguintes métricas:

[$𝑅^2$](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score): É uma medida da relação linear entre X e Y. É interpretado como a proporção da variância na variável dependente que é previsível a partir da variável independente.

[MAE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html#sklearn.metrics.mean_absolute_error): É a média do valor absoluto dos erros. Mede a diferença entre duas variáveis contínuas, neste caso, os valores reais e previstos de y.

[MSE](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error): O erro quadrático médio (MSE) é semelhante ao MAE, mas eleva ao quadrado a diferença antes de somá-la em vez de usar o valor absoluto.

RMSE: É a raiz quadrada do MSE

#### Pergunta: Comparando o treino e a validação, o modelo está sofrendo overfitting de uma maneira relevante?

**Resposta:**


#### **Tarefa**: Visualize as diferenças entre os preços reais e os valores previstos com um gráfico de dispersão.

[Seaborn scatterplot](https://seaborn.pydata.org/generated/seaborn.scatterplot.html)

#### **Tarefa**: Printar os coeficientes

#### **Pergunta**: Os coeficientes desse modelo correspondem à importância das features?


**Resposta:**


#### **Pergunta**: Como fazer com que os coeficientes correspondam minimamente a importâncias?

**Reposta:** 

#### Tarefa: Implemente as modificacoes necessarias para que os coeficientes sugiram importancias

#### **Tarefa:** Printar os coeficientes antes e depois

#### **Pergunta:** O que acontece com a coluna NOX nos dois casos

**Resposta:**

**Outras considerações**:
* Quando aplicamos uma pre-processamento que precisa de "treinamento", ele deve ser treinado no treino, na validação ou em ambos? E aplicado?
* O que acontece com os coeficientes das duas features altamente correlacionadas?

#### **Pergunta:** Como saber se as features tem relevância estatística?

#### **Bônus Regressao linear**: [statsmodel OLS](https://www.statsmodels.org/stable/regression.html) e p-valor

A implementacao de ordinary least-squares do statsmodel fornece um sumário com diversas métricas, incluindo o p-valor.
Para descobrir o p-valor e, portanto a significância estatística de cada variável, precisamos olhar para a métrica P>|t|.
Se esse valor for menor que 0.05, a variável tem significância estatística, pois rejeita a hipótese nula de que **NÃO HÁ** relação entre a variável independente e o target. Em outras palavras, indica que a relação observada não é obra do "acaso" e sim uma relação verdadeira.
Como vemos acima, não podemos confiar nas relações encontradas com CHAS, NOX e AGE, de forma que essas variáveis deveriam ser excluídas do modelo.

### Random forest

Random Forest é um algoritmo de aprendizado de máquina que combina múltiplas árvores de decisão para realizar tarefas de classificação e regressão. Ele é conhecido como um método de conjunto (ensemble method) porque combina as previsões de várias árvores individuais para chegar a uma previsão final.


![RF](https://www.tibco.com/sites/tibco/files/media_entity/2021-05/random-forest-diagram.svg)

O algoritmo Random Forest funciona da seguinte maneira: 

1. Amostras de treinamento são selecionadas aleatoriamente do conjunto de dados disponível.
2. Em seguida, uma árvore de decisão é construída utilizando as amostras selecionadas. Durante a construção da árvore, em cada divisão, um subconjunto aleatório de features é considerado para determinar a melhor divisão.
3. O processo de construção da árvore é repetido várias vezes, gerando várias árvores independentes.
4. Ao realizar previsões, as árvores individuais são consultadas e cada uma delas emite sua própria previsão. No caso de problemas de classificação, a previsão final é determinada por votação majoritária das árvores. Já em problemas de regressão, a previsão final é calculada como a média das previsões de todas as árvores.

Uma das principais vantagens do Random Forest é sua capacidade de lidar com conjuntos de dados grandes e complexos, além de lidar com diferentes tipos de features (categóricas e numéricas) sem a necessidade de pré-processamento adicional. Além disso, ele é menos suscetível ao overfitting em comparação com uma única árvore de decisão, pois combina múltiplas árvores.

Outra vantagem é a possibilidade de calcular a importância das features, que indica o quanto cada feature contribui para a acurácia das previsões do modelo. Essa informação pode ser útil para a seleção de features e interpretação dos resultados.

[Sklearn Random Forest Regressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html)

#### **Tarefa**: agora faca a previsao dos seus dados de treino e validação usando o .predict() do modelo

#### Avalie o modelo com as mesmas métricas vistas anteriormente

#### Plotar a importância das features

[Feature importance with a forest of trees](https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html)

### Comparando os modelos

Vamos selecionar o melhor modelo e partir para o comparativo com o baseline.

### Construindo o modelo de baseline

O modelo de baseline vai conter apenas features às quais a agência tinha acesso antes do Census, ou seja, "RM", "DIS", "TAX". Ele é um modelo de regressão linear em sklearn.

##### Agora que você construiu o seu modelo, siga esses passos para calcular o impacto financeiro que ele terá para a empresa.
Lembre-se que estamos considerando que cada linha corresponde a um imóvel do portfólio dessa agência.
- Calcule a diferença percentual da previsão do baseline para o valor real nos dados de **TESTE**
- Crie uma coluna de vendas
- Para cada um dos casos onde a diferença % computada for maior que 20%, o ganho será de 0, senão, no ganho será igual ao valor previsto pelo modelo
- Faça o mesmo para o seu modelo

##### Agora compare:
- o valor total do mercado (a soma de todos os valores reais das residências para os dados de TESTE)
- o valor que eles estavam capturando com o modelo anterior
- o valor capturado com o modelo atual

Houve alguma melhoria?

**Dica**: As perguntas que você deve responder são:

- Qual é o TAM(Total addressable market)?
- Quantos % do TAM é capturado pelo baseline?
- Quantos % do TAM é capturado pelo novo modelo?
- Quantos % a mais em venda o novo modelo captura em comparação com o antigo?

## Conclusão e pontos-chave
Escreva sua conclusao e mensagens para cada um dos casos abaixo. 

### Como comunicar seus achados para a lideranca ou os C-levels (CEO, CTO, etc.) da empresa?

### Como comunicar para uma lideranca mais técnica que entende de performance?

### O que de mais importante você aprendeu com esse case tecnicamente?
