# 🧠 Inteligência Artificial e Aprendizado de Máquina

## 📚 Pós-graduação em Desenvolvimento de Aplicações Inteligentes  
**🎯 Disciplina:** Inteligência Artificial e Aprendizado de Máquina  
**📝 Atividade 01:** Regressão  
**👨‍🏫 Professor:** Prof. Dr. Francisco de Assis Boldt  


## 👤 Informações do Aluno

- **📛 Nome:** Evandro Canal Severgnini  
- **🎓 Matrícula:** 20231devai0149  


## 📋 Descrição da Atividade

Nesta atividade, aplicaremos os conceitos de **regressão** utilizando um conjunto de dados adequado. O antigo dataset `load_boston` foi descontinuado no `scikit-learn`, então utilizaremos uma alternativa moderna: o **California Housing**.

Os passos principais incluem:

1. 🔄 Carregar o dataset `fetch_california_housing()` do `scikit-learn`.
2. 🛠️ Explorar os dados para entender suas características.
3. 📊 Aplicar técnicas de regressão para prever valores imobiliários.
4. 📎 Documentar cada etapa com explicações claras.

In [ ]:
# Importando bibliotecas necessárias
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar o dataset California Housing
data = fetch_california_housing()

# Criar um DataFrame com os dados
df = pd.DataFrame(data.data, columns=data.feature_names)

# Adicionar a variável alvo (preço médio das casas)
df['MedHouseVal'] = data.target

# Exibir as primeiras linhas
df.head()

## 📈 Análise Exploratória dos Dados

Antes de aplicarmos a regressão, vamos entender melhor os dados.

In [ ]:
# Verificar informações gerais do dataset
df.info()

# Resumo estatístico
df.describe()

In [ ]:
# Plotar a distribuição dos preços das casas
plt.figure(figsize=(8,5))
sns.histplot(df['MedHouseVal'], bins=30, kde=True, color='blue')
plt.xlabel('Preço Médio das Casas')
plt.ylabel('Frequência')
plt.title('Distribuição dos Preços das Casas na Califórnia')
plt.show()

## 🏗️ Preparação dos Dados

Antes de treinar o modelo, vamos dividir os dados em **treino e teste**.

In [ ]:
from sklearn.model_selection import train_test_split

# Definir variáveis independentes (X) e dependente (y)
X = df.drop(columns=['MedHouseVal'])
y = df['MedHouseVal']

# Dividir em 80% treino e 20% teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrar os tamanhos dos conjuntos
print(f'Treino: {X_train.shape[0]} amostras, Teste: {X_test.shape[0]} amostras')

## 🤖 Treinamento do Modelo de Regressão

In [ ]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Criar e treinar o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Fazer previsões
y_pred = modelo.predict(X_test)

# Avaliação do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'MSE: {mse:.2f}')
print(f'R²: {r2:.2f}')