## Instalação do PyCaret

In [None]:
!pip install pycaret[full]

## Importação das bibliotecas

In [None]:
import pandas as pd
from sklearn.datasets import fetch_california_housing
from pycaret.regression import *

## Carregar o dataset California Housing

In [None]:
housing = fetch_california_housing(as_frame=True)
df = housing.frame

# Renomear coluna alvo para algo mais amigável
df.rename(columns={"MedHouseVal": "target"}, inplace=True)

# Verificar amostras
df.head()

**Sobre o dataset California Housing**

**Descrição**: contém informações de renda, idade média das casas, número de quartos, população etc.

**Tarefa**: prever o valor médio das casas (target) em milhares de dólares.

**Tamanho**: ~20 mil amostras, 8 atributos.

**target**: representa o valor médio das casas em unidades de US$ 100.000  



| Atributo   | Tipo     | Significado                                    | Impacto comum no preço |
|-----------|----------|------------------------------------------------|-------------------------|
| MedInc    | Numérico | Renda mediana da região                        | ↑ Aumenta               |
| HouseAge  | Numérico | Idade mediana das casas                        | ↑/↓ Depende da região   |
| AveRooms  | Numérico | Média de cômodos por residência                | ↑ Aumenta               |
| AveBedrms | Numérico | Média de quartos por residência                | ↑ Aumenta               |
| Population| Numérico | População do quarteirão                        | ↑/↓ Ambíguo             |
| AveOccup  | Numérico | Média de moradores por residência              | ↑ Pode diminuir         |
| Latitude  | Numérico | Latitude geográfica                             | Depende da área         |
| Longitude | Numérico | Longitude geográfica                            | Depende da área         |


In [None]:
print(housing.DESCR)

## Histogramas das variáveis numéricas

In [None]:
df.hist(bins=50, figsize=(12,8))

## Boxplots para detectar outliers


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10,6))
sns.boxplot(data=df[['AveOccup', 'Population', 'MedInc']])

## Configurar ambiente do PyCaret

In [None]:
reg = setup(
    data = df,
    target = 'target',
    session_id = 123,
    normalize = True,
    transformation = False
   )

## Comparar automaticamente vários modelos

In [None]:
best_model = compare_models()

## Criar e ajustar um modelo específico

In [None]:
tuned_model = tune_model(best_model)

## Avaliar o modelo

In [None]:
evaluate_model(best_model)

## Interpretar resultados com SHAP

In [None]:
interpret_model(best_model)

## Gerar previsões

In [None]:
predictions = predict_model(best_model)
predictions.head()

## salvar o modelo

In [None]:
save_model(best_model, 'modelo_california_housing')

In [None]:
# salvar no seu google drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
save_model(best_model, '/content/drive/MyDrive/modelo_california_housing')