<a href="https://colab.research.google.com/github/DMGravina/hefhehveev/blob/main/Pipeline_KNN_Regressao_DaviG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Atividade de Machine Learning Supervisionado - Regress√£o com KNN

üè° Introdu√ß√£o ao Problema: Pre√ßo de Casas na Calif√≥rnia

O conjunto de dados California Housing cont√©m informa√ß√µes agregadas de caracter√≠sticas socioecon√¥micas de diversas regi√µes da Calif√≥rnia, baseadas no censo de 1990 dos Estados Unidos. O objetivo principal √© prever o valor m√©dio das casas em uma determinada regi√£o, a partir de vari√°veis como:

M√©dia de quartos por resid√™ncia;

M√©dia de quartos por casa;

Popula√ß√£o da regi√£o;

Renda m√©dia por domic√≠lio;

Proximidade com o oceano;

Idade m√©dia das resid√™ncias.

**Proposta:** Construir uma pipeline completa de regress√£o utilizando Python com KNN Regressor (Scikit-Learn), aplicando conceitos de machine learning supervisionado.

## 1. Importa√ß√£o de Bibliotecas

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

**Perguntas:**
- Quais bibliotecas s√£o respons√°veis por:
  - Dividir os dados?
  - Normalizar os dados?
  - Avaliar o modelo?

####+ Divis√£o de Dados
- As bibliotecas para divis√£o de dados s√£o a '**pandas**', juntamente com a '**train_test_split**'.

####+ Normaliza√ß√£o de Dados
- Para a normaliza√ß√£o dos dados, √© poss√≠vel utilizar fun√ß√µes da biblioteca '**pandas**', por√©m, o mais comum √© a utiliza√ß√£o da '**StandardScaler**'.

####+ Avalia√ß√£o do Modelo
- A '**mean_squared_score**', que √© importada da '**sklearn.metrics**' √© a biblioteca destinada para avaliar o modelo.

## 2. Carregamento do Dataset

Use o dataset de preco de venda de casa para prever o valor de venda de uma casa na California.

In [None]:
from sklearn.datasets import fetch_california_housing
data = fetch_california_housing(as_frame=True)
df = data.frame

**Pergunta:** Que tipo de problema √© esse? Supervisionado ou n√£o supervisionado? Justifique.

- Supervisionado, pois o objetivo √© prever o valor do pre√ßo das casas com base nas caracter√≠sticas dos im√≥veis, ou seja, treinar o modelo com exemplos rotulados e compar√°-los ao que se espera.

## 3. An√°lise Explorat√≥ria dos Dados

In [None]:
print(df.head())
print(df.describe())
print()
print(df.isnull().sum())

   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  MedHouseVal  
0    -122.23        4.526  
1    -122.22        3.585  
2    -122.24        3.521  
3    -122.25        3.413  
4    -122.25        3.422  
             MedInc      HouseAge      AveRooms     AveBedrms    Population  \
count  20640.000000  20640.000000  20640.000000  20640.000000  20640.000000   
mean       3.870671     28.639486      5.429000      1.096675   1425.476744   
std        1.899822     12.585558      2.474173      0.473911   1132.462122   
min        0.499900      1.000000      0.846154      0.3333

**Perguntas:**
- H√° valores ausentes?
- Qual √© a vari√°vel-alvo? O que ela representa?

1) N√£o h√° valores ausentes, o comando '**df.isnull().sum()**' gera uma lista da soma dos valores ausentes, por√©m n√£o houve registro destes.

2) A vari√°vel-alvo √© a "**MedHouseVal**", pois ela traz a m√©dia do valor do pre√ßo das casas, que √© o que se busca.

## 4. Separa√ß√£o de Vari√°veis (X e y)

In [None]:
X = df.drop("MedHouseVal", axis=1)
y = df["MedHouseVal"]

**Perguntas:**
- O que representa `X`?
- E `y`?

1) *X* √© a vari√°vel que armazena os valores dos dados apresentados, tirando a vari√°vel "**MedHouseVal**", para que esses dados possam ser utilizados no aprendizado da m√°quina.

2) *y* √© a vari√°vel que armazena "**MedHouseVal**" e que devolve o valor que queremos prever, com base nos dados de *X*.

## 5. Divis√£o em Treino e Teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**Perguntas:**
- Qual o motivo de dividir os dados?
- O que representa o par√¢metro `test_size=0.2`?

1) Essa divis√£o se d√° pelo objetivo de treinar a m√°quina, antes de obter os resultados previstos. "**X_train**" e "**y_train**" s√£o destinados a armazenar os valores que ser√£o usados para ensinar a m√°quina a identificar o padr√£o. "**X_test**" e "**y_test**" armazenam os valores separados para realizar as previs√µes de maneira supervisionada.

2) O "**test_size**" define a porcentagem dos dados que ser√£o destinados ao teste de previs√£o. Nesse caso, a porcentagem dos dados de teste √© 20% (*0.2* ).

## 6. Padroniza√ß√£o dos Dados

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

**Perguntas:**
- Por que devemos padronizar os dados?
- Por que `fit_transform` √© usado no treino e s√≥ `transform` no teste?

1) Porque muitos algoritimos de ML s√£o sens√≠veis √† escala das vari√°veis. Portanto, a padroniza√ß√£o evita que vari√°veis com valores maiores dominem o aprendizado e torna a dist√¢ncia entre pontos mais coerente.

2) Porque a fun√ß√£o " **fit()** " √© respons√°vel por calcular a m√©dia e o desvio padr√£o dos dados que ser√£o padronizados pelo "**transform()**". A "**fit()**" s√≥ √© usada no dados de treino, pois se for usada nos dados de teste tamb√©m, a fun√ß√£o ajustaria o desvio padr√£o de acordo com as informa√ß√µes do treino, ou seja, a predi√ß√£o se tornar√° pobre pois se ajustar√° a resultados ja existentes.

## 7. Cria√ß√£o e Treinamento do Modelo com KNN

In [None]:
model = KNeighborsRegressor(n_neighbors=5)
model.fit(X_train_scaled, y_train)

**Perguntas:**
- O que significa o par√¢metro `n_neighbors`?
- O que faz o m√©todo `.fit()`?

1) '**n_neighbors**' √© o par√¢metro do KNN que define a quantidade de vizinhos a serem analisados para identificar o padr√£o.

2) O '**.fit()**' √© respons√°vel por treinar o modelo com os dados fornecidos. Ele armazena os dados de treino e os utiliza como base para prever as futuras situa√ß√µes.

## 8. Avalia√ß√£o do Modelo

In [None]:
y_pred = model.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print("Erro Quadr√°tico M√©dio (MSE):", mse)

Erro Quadr√°tico M√©dio (MSE): 0.4324216146043236


**Perguntas:**
- O que significa o valor de MSE?
- Quanto menor o MSE, melhor ou pior o modelo?

1) O valor do MSE representa qu√£o errado est√£o as previs√µes do modelo em rela√ß√£o aos valores reais.

2) Melhor, porque quando se tem um MSE baixo, isto quer dizer que o modelo apresenta um bom desempenho e previs√µes mais proximas das reais.

## 9. Conclus√£o

Acho que o modelo ficou funcional e otimizado, eu sinceramente n√£o consigo pensar no que poderia ser mudado. Contudo, sinto que valeria a pena realizar uma pequnena limpeza de dados, retirando a vari√°vel "Popula√ß√£o da regi√£o"; pois n√£o vejo esta como relevante para a previs√£o do modelo, e acho que sua retirada pode gerar um maior refinamento da acur√°cia do modelo.