# Note

In [1]:
# Importando as bibliotecas essenciais
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Configuração para melhor visualização
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
print("Bibliotecas importadas com sucesso!")

Bibliotecas importadas com sucesso!


## 2. Criação de Dados de Exemplo

Vamos criar um dataset simples para trabalharmos:

In [None]:
# Criando dados de exemplo
np.random.seed(42)

# Simulando dados de vendas de casas
n_amostras = 100
area_casa = np.random.normal(150, 50, n_amostras)  # área em m²
preco_casa = area_casa * 2000 + np.random.normal(0, 20000, n_amostras)  # preço em R$

# Criando um DataFrame
dados = pd.DataFrame({
    'area_m2': area_casa,
    'preco_reais': preco_casa
})

print("Dataset criado!")
print(f"Formato dos dados: {dados.shape}")
print("\nPrimeiras 5 linhas:")
dados.head()

## 3. Análise Exploratória dos Dados

Vamos explorar nossos dados:

In [None]:
# Estatísticas descritivas
print("Estatísticas descritivas:")
print(dados.describe())

print("\nInformações sobre o dataset:")
print(dados.info())

print("\nCorrelação entre variáveis:")
print(dados.corr())

## 4. Visualização dos Dados

Vamos criar alguns gráficos para entender melhor nossos dados:

In [None]:
# Criando visualizações
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# Gráfico de dispersão
axes[0, 0].scatter(dados['area_m2'], dados['preco_reais'], alpha=0.6)
axes[0, 0].set_xlabel('Área (m²)')
axes[0, 0].set_ylabel('Preço (R$)')
axes[0, 0].set_title('Relação entre Área e Preço')

# Histograma da área
axes[0, 1].hist(dados['area_m2'], bins=15, alpha=0.7, color='skyblue')
axes[0, 1].set_xlabel('Área (m²)')
axes[0, 1].set_ylabel('Frequência')
axes[0, 1].set_title('Distribuição da Área')

# Histograma do preço
axes[1, 0].hist(dados['preco_reais'], bins=15, alpha=0.7, color='lightcoral')
axes[1, 0].set_xlabel('Preço (R$)')
axes[1, 0].set_ylabel('Frequência')
axes[1, 0].set_title('Distribuição do Preço')

# Boxplot
axes[1, 1].boxplot([dados['area_m2'], dados['preco_reais']])
axes[1, 1].set_xticklabels(['Área (m²)', 'Preço (R$)'])
axes[1, 1].set_title('Boxplot das Variáveis')

plt.tight_layout()
plt.show()

## 5. Modelo de Machine Learning Simples

Agora vamos criar um modelo de regressão linear para prever o preço das casas baseado na área:

In [None]:
# Preparando os dados
X = dados[['area_m2']]  # Features (variável independente)
y = dados['preco_reais']  # Target (variável dependente)

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Dados de treino: {X_train.shape[0]} amostras")
print(f"Dados de teste: {X_test.shape[0]} amostras")

# Criando e treinando o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

print("Modelo treinado com sucesso!")
print(f"Coeficiente: {modelo.coef_[0]:.2f}")
print(f"Intercepto: {modelo.intercept_:.2f}")

## 6. Avaliação do Modelo

Vamos avaliar como nosso modelo está performando:

In [None]:
# Fazendo previsões
y_pred = modelo.predict(X_test)

# Calculando métricas
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Métricas de Avaliação:")
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.3f}")

# Visualizando as previsões
plt.figure(figsize=(10, 6))
plt.scatter(X_test, y_test, alpha=0.6, label='Valores Reais')
plt.scatter(X_test, y_pred, alpha=0.6, color='red', label='Previsões')
plt.plot(X_test, y_pred, color='red', linewidth=2, alpha=0.8)
plt.xlabel('Área (m²)')
plt.ylabel('Preço (R$)')
plt.title('Valores Reais vs Previsões')
plt.legend()
plt.show()

# Exemplo de previsão
area_exemplo = 120
preco_previsto = modelo.predict([[area_exemplo]])[0]
print(f"\nExemplo: Uma casa de {area_exemplo}m² teria preço previsto de R$ {preco_previsto:.2f}")

## 7. Conclusão

Neste notebook simples, aprendemos:

1. **Importação de bibliotecas** essenciais para ML
2. **Criação e manipulação** de dados com Pandas
3. **Análise exploratória** dos dados
4. **Visualização** com Matplotlib
5. **Criação de um modelo** de regressão linear
6. **Avaliação** do modelo com métricas

### Próximos Passos:
- Explorar diferentes algoritmos de ML
- Trabalhar com datasets reais
- Aprender técnicas de feature engineering
- Implementar validação cruzada
- Otimizar hiperparâmetros

**Parabéns!** Você completou seu primeiro notebook de Machine Learning! 🎉