<a href="https://colab.research.google.com/github/DMGravina/hefhehveev/blob/main/Pipeline_KNN_Regressao_DaviG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Atividade de Machine Learning Supervisionado - Regressão com KNN

🏡 Introdução ao Problema: Preço de Casas na Califórnia

O conjunto de dados California Housing contém informações agregadas de características socioeconômicas de diversas regiões da Califórnia, baseadas no censo de 1990 dos Estados Unidos. O objetivo principal é prever o valor médio das casas em uma determinada região, a partir de variáveis como:

Média de quartos por residência;

Média de quartos por casa;

População da região;

Renda média por domicílio;

Proximidade com o oceano;

Idade média das residências.

**Proposta:** Construir uma pipeline completa de regressão utilizando Python com KNN Regressor (Scikit-Learn), aplicando conceitos de machine learning supervisionado.

## 1. Importação de Bibliotecas

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

**Perguntas:**
- Quais bibliotecas são responsáveis por:
  - Dividir os dados?
  - Normalizar os dados?
  - Avaliar o modelo?

####+ Divisão de Dados
- As bibliotecas para divisão de dados são a '**pandas**', juntamente com a '**train_test_split**'.

####+ Normalização de Dados
- Para a normalização dos dados, é possível utilizar funções da biblioteca '**pandas**', porém, o mais comum é a utilização da '**StandardScaler**'.

####+ Avaliação do Modelo
- A '**mean_squared_score**', que é importada da '**sklearn.metrics**' é a biblioteca destinada para avaliar o modelo.

## 2. Carregamento do Dataset

Use o dataset de preco de venda de casa para prever o valor de venda de uma casa na California.

In [None]:
from sklearn.datasets import fetch_california_housing
data = fetch_california_housing(as_frame=True)
df = data.frame

**Pergunta:** Que tipo de problema é esse? Supervisionado ou não supervisionado? Justifique.

- Supervisionado, pois o objetivo é prever o valor do preço das casas com base nas características dos imóveis, ou seja, treinar o modelo com exemplos rotulados e compará-los ao que se espera.

## 3. Análise Exploratória dos Dados

In [None]:
print(df.head())
print(df.describe())
print()
print(df.isnull().sum())

   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  MedHouseVal  
0    -122.23        4.526  
1    -122.22        3.585  
2    -122.24        3.521  
3    -122.25        3.413  
4    -122.25        3.422  
             MedInc      HouseAge      AveRooms     AveBedrms    Population  \
count  20640.000000  20640.000000  20640.000000  20640.000000  20640.000000   
mean       3.870671     28.639486      5.429000      1.096675   1425.476744   
std        1.899822     12.585558      2.474173      0.473911   1132.462122   
min        0.499900      1.000000      0.846154      0.3333

**Perguntas:**
- Há valores ausentes?
- Qual é a variável-alvo? O que ela representa?

1) Não há valores ausentes, o comando '**df.isnull().sum()**' gera uma lista da soma dos valores ausentes, porém não houve registro destes.

2) A variável-alvo é a "**MedHouseVal**", pois ela traz a média do valor do preço das casas, que é o que se busca.

## 4. Separação de Variáveis (X e y)

In [None]:
X = df.drop("MedHouseVal", axis=1)
y = df["MedHouseVal"]

**Perguntas:**
- O que representa `X`?
- E `y`?

1) *X* é a variável que armazena os valores dos dados apresentados, tirando a variável "**MedHouseVal**", para que esses dados possam ser utilizados no aprendizado da máquina.

2) *y* é a variável que armazena "**MedHouseVal**" e que devolve o valor que queremos prever, com base nos dados de *X*.

## 5. Divisão em Treino e Teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**Perguntas:**
- Qual o motivo de dividir os dados?
- O que representa o parâmetro `test_size=0.2`?

1) Essa divisão se dá pelo objetivo de treinar a máquina, antes de obter os resultados previstos. "**X_train**" e "**y_train**" são destinados a armazenar os valores que serão usados para ensinar a máquina a identificar o padrão. "**X_test**" e "**y_test**" armazenam os valores separados para realizar as previsões de maneira supervisionada.

2) O "**test_size**" define a porcentagem dos dados que serão destinados ao teste de previsão. Nesse caso, a porcentagem dos dados de teste é 20% (*0.2* ).

## 6. Padronização dos Dados

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

**Perguntas:**
- Por que devemos padronizar os dados?
- Por que `fit_transform` é usado no treino e só `transform` no teste?

1) Porque muitos algoritimos de ML são sensíveis à escala das variáveis. Portanto, a padronização evita que variáveis com valores maiores dominem o aprendizado e torna a distância entre pontos mais coerente.

2) Porque a função " **fit()** " é responsável por calcular a média e o desvio padrão dos dados que serão padronizados pelo "**transform()**". A "**fit()**" só é usada no dados de treino, pois se for usada nos dados de teste também, a função ajustaria o desvio padrão de acordo com as informações do treino, ou seja, a predição se tornará pobre pois se ajustará a resultados ja existentes.

## 7. Criação e Treinamento do Modelo com KNN

In [None]:
model = KNeighborsRegressor(n_neighbors=5)
model.fit(X_train_scaled, y_train)

**Perguntas:**
- O que significa o parâmetro `n_neighbors`?
- O que faz o método `.fit()`?

1) '**n_neighbors**' é o parâmetro do KNN que define a quantidade de vizinhos a serem analisados para identificar o padrão.

2) O '**.fit()**' é responsável por treinar o modelo com os dados fornecidos. Ele armazena os dados de treino e os utiliza como base para prever as futuras situações.

## 8. Avaliação do Modelo

In [None]:
y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print("Erro Quadrático Médio (MSE):", mse)

Erro Quadrático Médio (MSE): 0.4324216146043236


**Perguntas:**
- O que significa o valor de MSE?
- Quanto menor o MSE, melhor ou pior o modelo?

1) O valor do MSE representa quão errado estão as previsões do modelo em relação aos valores reais.

2) Melhor, porque quando se tem um MSE baixo, isto quer dizer que o modelo apresenta um bom desempenho e previsões mais proximas das reais.

## 9. Conclusão

Acho que o modelo ficou funcional e otimizado, eu sinceramente não consigo pensar no que poderia ser mudado. Contudo, sinto que valeria a pena realizar uma pequnena limpeza de dados, retirando a variável "População da região"; pois não vejo esta como relevante para a previsão do modelo, e acho que sua retirada pode gerar um maior refinamento da acurácia do modelo.