# Base de Dados: Boston House Price Prediction

- Baixe o arquivo no link: [Clique aqui para baixar o arquivo](https://drive.google.com/file/d/1TKIvPZb7d2czqceDbPKv_Adhven7iz7K/view?usp=sharing)

## Descrição
A base de dados **Boston House Price** é um conjunto de dados clássico usado para prever o valor médio de casas em bairros de Boston (EUA) com base em diversas características socioeconômicas e geográficas. Ela contém 506 observações e 14 atributos (incluindo a variável alvo).

## Dicionário de Dados (Atributos + Tradução)

| Nome do Atributo (Inglês)       | Tradução (Português)          | Descrição                                                                 |
|----------------------------------|--------------------------------|---------------------------------------------------------------------------|
| **CRIM**                         | Taxa de Criminalidade         | Taxa de crimes per capita por bairro.                                     |
| **ZN**                           | Proporção de Zonas Residenciais | Proporção de terrenos residenciais zoneados para lotes grandes.          |
| **INDUS**                        | Proporção de Áreas Industriais | Proporção de acres não-varejistas por bairro.                            |
| **CHAS**                         | Limite com o Rio Charles      | Variável dummy (1 se o bairro faz fronteira com o rio; 0 caso contráio). |
| **NOX**                          | Concentração de Óxidos Nitrosos | Concentração de óxidos nítricos (partes por 10 milhões).                 |
| **RM**                           | Número Médio de Quartos       | Número médio de quartos por habitação.                                    |
| **AGE**                          | Idade das Propriedades        | Proporção de unidades ocupadas pelos proprietários construídas antes de 1940. |
| **DIS**                          | Distância dos Empregos        | Distância ponderada até 5 centros empregatícios de Boston.               |
| **RAD**                          | Acesso a Rodovias             | Índice de acessibilidade às rodovias radiais.                            |
| **TAX**                          | Taxa de Imposto Predial       | Taxa de imposto sobre propriedade por $10,000.                           |
| **PTRATIO**                      | Proporção Aluno-Professor     | Proporção de alunos por professor na região.                             |
| **B**                            | Proporção de Afrodescendentes | Proporção de afrodescendentes por bairro (1000*(Bk - 0.63)²).            |
| **LSTAT**                        | % de População de Baixa Renda | Porcentagem de população de baixa renda.                                 |
| **MEDV** (Target)                | Valor Médio das Casas         | Valor médio das casas ocupadas pelos proprietários (em $1,000).          |

---

In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from math import sqrt
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score

In [4]:
sns.set_theme(style="whitegrid", palette='rocket')
#sns.color_palette("flare", as_cmap=True)

In [5]:
from google.colab import drive
drive.mount('/content/drive')

path = "/content/drive/MyDrive/DATA_SCIENCE"

Mounted at /content/drive


In [9]:
# Leitura do arquivo
df = pd.read_csv(path + '/housing.csv', sep=',')

# Mostrando as 10 primeiras linhas
df.head(10)

Unnamed: 0,0.00632 18.00 2.310 0 0.5380 6.5750 65.20 4.0900 1 296.0 15.30 396.90 4.98 24.00
0,0.02731 0.00 7.070 0 0.4690 6.4210 78...
1,0.02729 0.00 7.070 0 0.4690 7.1850 61...
2,0.03237 0.00 2.180 0 0.4580 6.9980 45...
3,0.06905 0.00 2.180 0 0.4580 7.1470 54...
4,0.02985 0.00 2.180 0 0.4580 6.4300 58...
5,0.08829 12.50 7.870 0 0.5240 6.0120 66...
6,0.14455 12.50 7.870 0 0.5240 6.1720 96...
7,0.21124 12.50 7.870 0 0.5240 5.6310 100...
8,0.17004 12.50 7.870 0 0.5240 6.0040 85...
9,0.22489 12.50 7.870 0 0.5240 6.3770 94...


In [13]:
# Carregando a base
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
dataset = pd.read_csv('housing.csv', delim_whitespace=True, names=names)

  dataset = pd.read_csv('housing.csv', delim_whitespace=True, names=names)


FileNotFoundError: [Errno 2] No such file or directory: 'housing.csv'

### Análise Exploratória e Data Cleanning
**Questão 01**: Faça a análise exploratória (Estatísticas e plots) e a limpeza dos dados.

In [None]:
# Dataframe com dos dados nulos removidos
df_clean = df.dropna(inplace=False)

# Select only numerical features for correlation analysis
numerical_df = df_clean.select_dtypes(include=['number'])

# Calculate the correlation matrix
corr = numerical_df.corr()

# Display the correlation matrix
corr

In [None]:
# plotar um heatmap a partir das correlações
plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap='rocket')
plt.title('Correlação das variáveis', loc='left', fontsize=16)
plt.show()

### Regressão Linear Simples
**Questão 02**: Qual a precisão de estimar o valor médio das casas (`MEDV`) através do número médio de quartos (`RM`)?  

###  Regressão Linear Múltipla (2 Variáveis)
**Questão 03**:  Como a taxa de criminalidade (CRIM) e a distância dos empregos (DIS) afetam conjuntamente o valor das casas (MEDV)?
**Questão 04**:  Quais atributos têm maior influência no valor das casas? Faça uma regressão linear com esses atributos.
