# Projecto: Predição de Preços com Regressão Linear
Neste exercício, utilizaremos o Scikit-learn para criar um modelo que entenda a relação entre a renda de uma vizinhança e o preço das casas.

### 1. Importe as bibliotecas neccesatias e do Dataset
- **fetch_california_housing** - baixa o dataset (conjuto de dados)
- **train_test_split** - usado para separar os dados em duas partes. `treino` os dados que serao usados para ensinar o modelo. `teste` os dados usados para testar o modelo depois do treino.
- **LinearRegression** - algoritmo que cria o cerebro do modelo. Ele vai tentar traçar a "melhor linha reta" que conecta suas variáveis (como renda) ao resultado (preço da casa). É a ferramenta que faz o cálculo matemático da regressão.
-  **mean_squared_error** - Ele calcula a distância média (ao quadrado) entre o que o seu modelo previu e o valor real.
    - **MSE baixo**: Seu modelo está acertando quase tudo.
    - **MSE alto**: Seu modelo está "chutando" longe do alvo.

In [2]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

- **X** (Matriz de Atributos/Features): As informações dos precos de casas.
- **y** (Vetor Alvo/Target): O valor numérico que queremos prever (uma medida da progressão dos precos de casas).

In [46]:
data = fetch_california_housing()
X, y = data.data, data.target
print(X.shape)
print(X[0])

(20640, 8)
[   8.3252       41.            6.98412698    1.02380952  322.
    2.55555556   37.88       -122.23      ]


### O Conceito: Treino vs. Test
Imagine que você está estudando para uma prova de matemática.
- **X_train / y_train** (Os Exercícios do Livro): São os dados que o modelo usa para aprender. Ele vê a pergunta ($X$) e a resposta correta ($y$)
- **X_test / y_test** (A Prova): São dados que o modelo nunca viu. Você esconde as respostas ($y\_test$), dá apenas as perguntas ($X\_test$) para o modelo e depois compara os chutes dele com a realidade para dar uma nota.

### Entendendo os Parâmetros:
1. `X, y`: São os seus dados completos (as 8 colunas de características e a coluna de preços).

2. `test_size=0.2`: Define a proporção. Aqui, você está dizendo ao computador: "Separe 20% dos dados para a prova final (teste) e use 80% para o aprendizado (treino)".
    - No caso do California Housing, como temos 20.640 linhas, cerca de 4.128 casas irão para o conjunto de teste.

3. `random_state=42`: Este é o "gerador de aleatoriedade".
    - O Python embaralha os dados antes de dividir para garantir que a amostra seja justa (não pegar só casas caras para o teste, por exemplo).
    - Usar o número 42 (ou qualquer outro número fixo) garante que, toda vez que você rodar o código, a divisão seja `exatamente a mesma`. Isso é vital para que seus resultados sejam reproduzíveis por outros colegas.

In [47]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

`model.fit(X_train, y_train)`
- O que faz: Este é o processo de treinamento.

- O "Fit": Em inglês, fit significa "ajustar". O modelo vai analisar os dados de treino e tentar ajustar uma linha reta que passe o mais próximo possível de todos os pontos de dados (as casas).

- O que ele aprende? Ele busca dois números principais (coeficientes):
    - **Inclinação (Slope)**: Quanto o preço aumenta para cada ponto a mais de renda?
    - **Intercepto**: Qual seria o preço de uma casa se a renda fosse zero?

### O que acontece matematicamente no `fit`?
O modelo resolve uma equação para minimizar o erro. Ele tenta encontrar os valores de $\beta$ na fórmula:
$$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n$$
- ` ($y$) `: É o preço da casa que ele quer prever.
- `($x_n$)`: São as características (Renda, Idade da casa, etc.).
- `($\beta$)`: São os "pesos" que o modelo descobre durante o `fit`.

###Por que usamos apenas os dados de treino?
Porque se o modelo visse os dados de teste agora, ele estaria "colando" na prova. O fit deve ser feito exclusivamente com o `X_train` e o `y_train` para garantir que o aprendizado seja legítimo.

In [48]:
model = LinearRegression()
model.fit(X_train, y_train)

0,1,2
,"fit_intercept  fit_intercept: bool, default=True Whether to calculate the intercept for this model. If set to False, no intercept will be used in calculations (i.e. data is expected to be centered).",True
,"copy_X  copy_X: bool, default=True If True, X will be copied; else, it may be overwritten.",True
,"tol  tol: float, default=1e-6 The precision of the solution (`coef_`) is determined by `tol` which specifies a different convergence criterion for the `lsqr` solver. `tol` is set as `atol` and `btol` of :func:`scipy.sparse.linalg.lsqr` when fitting on sparse training data. This parameter has no effect when fitting on dense data. .. versionadded:: 1.7",1e-06
,"n_jobs  n_jobs: int, default=None The number of jobs to use for the computation. This will only provide speedup in case of sufficiently large problems, that is if firstly `n_targets > 1` and secondly `X` is sparse or if `positive` is set to `True`. ``None`` means 1 unless in a :obj:`joblib.parallel_backend` context. ``-1`` means using all processors. See :term:`Glossary ` for more details.",
,"positive  positive: bool, default=False When set to ``True``, forces the coefficients to be positive. This option is only supported for dense arrays. For a comparison between a linear regression model with positive constraints on the regression coefficients and a linear regression without such constraints, see :ref:`sphx_glr_auto_examples_linear_model_plot_nnls.py`. .. versionadded:: 0.24",False


### O que o `predict` faz?
- **O Teste**: Você está entregando ao modelo apenas as "perguntas" (X_test), que são as características das casas (renda, idade, etc.) que ele nunca viu antes.

- **A Previsão**: O modelo pega os pesos que ele aprendeu durante o fit e aplica a fórmula matemática nos dados de teste para gerar os "chutes" de preço.

- **O Resultado (`y_pred`)**: É um array contendo todas as previsões de preço feitas pelo modelo.

### Qual a diferença entre y_pred e y_test?
É fundamental não confundir esses dois:
- `y_test` (A Realidade): É o gabarito. Contém os preços reais pelos quais aquelas casas foram vendidas.
- `y_pred` (A Opinião do Modelo): É o que o seu modelo acha que as casas valem baseando-se no que ele estudou no treino.

In [49]:
y_pred = model.predict(X_test)

In [50]:
mse = mean_squared_error(y_test, y_pred)

print(f"Mean Squared Error: {mse}")

Mean Squared Error: 0.5558915986952423
