# Car Price Prediction - Demonstra√ß√£o Completa

Este notebook demonstra o uso da biblioteca interna de Machine Learning para predi√ß√£o de pre√ßos de carros, aplicando as **melhores pr√°ticas** ensinadas nas aulas:

- ‚úÖ **Modularidade** (Aula 2)
- ‚úÖ **Documenta√ß√£o** (Aula 3)
- ‚úÖ **Versionamento** (Aula 4)
- ‚úÖ **PEP8** (Aula 5)
- ‚úÖ **Testes** (Aula 6)
- ‚úÖ **Design de API** (Aula 7)

---

## √çndice

1. [Setup e Importa√ß√µes](#1-setup)
2. [Ingest√£o de Dados](#2-ingestion)
3. [Valida√ß√£o de Qualidade](#3-validation)
4. [An√°lise Explorat√≥ria](#4-eda)
5. [Treinamento do Modelo](#5-training)
6. [Avalia√ß√£o e M√©tricas](#6-evaluation)
7. [Visualiza√ß√µes](#7-viz)
8. [Conclus√µes](#8-conclusions)

<a id='1-setup'></a>
## 1. Setup e Importa√ß√µes

Primeiro, vamos importar nossa biblioteca e outras depend√™ncias necess√°rias.

In [None]:
# Importa√ß√µes padr√£o
import sys
import warnings
warnings.filterwarnings('ignore')

# Adiciona o diret√≥rio raiz ao path
sys.path.insert(0, '..')

# Bibliotecas externas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Nossa biblioteca interna (API modular e bem documentada)
from src import (
    DataIngestion,
    DataValidator,
    ModelTrainer,
    ModelEvaluator,
    setup_logger
)

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úì Bibliotecas importadas com sucesso!")
print(f"‚úì Vers√£o da biblioteca: 1.0.0")

<a id='2-ingestion'></a>
## 2. Ingest√£o de Dados

Utilizamos a classe `DataIngestion` que implementa uma **API consistente** (Aula 7) para carregar dados de diferentes fontes.

In [None]:
# Inicializa o objeto de ingest√£o
ingestion = DataIngestion("../data/cars.csv")

# Gera dados sint√©ticos para demonstra√ß√£o
# Em produ√ß√£o: data = ingestion.load_data()
data = ingestion.generate_synthetic_data(n_samples=1000, random_state=42)

print(f"üìä Dados carregados: {data.shape[0]} linhas, {data.shape[1]} colunas")
print(f"üìã Colunas: {list(data.columns)}")
print("\n" + "="*70)
print("PRIMEIRAS LINHAS DO DATASET")
print("="*70)
data.head(10)

In [None]:
# Estat√≠sticas descritivas
print("="*70)
print("ESTAT√çSTICAS DESCRITIVAS")
print("="*70)
data.describe()

<a id='3-validation'></a>
## 3. Valida√ß√£o de Qualidade dos Dados

A classe `DataValidator` implementa valida√ß√µes **modulares e reutiliz√°veis** (Aula 2) com **documenta√ß√£o clara** (Aula 3).

In [None]:
# Cria o validador
validator = DataValidator(data)

# Define tipos esperados
expected_types = {
    'year': 'int',
    'mileage': 'int',
    'engine_size': 'float',
    'horsepower': 'int',
    'num_doors': 'int',
    'price': 'float'
}

# Executa todas as valida√ß√µes
validation_results = validator.validate_all(expected_types=expected_types)

# Exibe resumo
print(validator.get_summary())

In [None]:
# Detalhes das valida√ß√µes
print("="*70)
print("RESULTADOS DETALHADOS DAS VALIDA√á√ïES")
print("="*70)

for key, value in validation_results.items():
    print(f"\n{key.upper().replace('_', ' ')}:")
    if isinstance(value, dict):
        if value:
            for k, v in value.items():
                print(f"  ‚Ä¢ {k}: {v}")
        else:
            print("  ‚úì Nenhum problema encontrado")
    else:
        print(f"  {value}")

<a id='4-eda'></a>
## 4. An√°lise Explorat√≥ria de Dados

Vamos explorar visualmente os dados antes do treinamento.

In [None]:
# Distribui√ß√£o do pre√ßo (vari√°vel target)
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
axes[0].hist(data['price'], bins=50, edgecolor='black', alpha=0.7)
axes[0].set_xlabel('Pre√ßo ($)', fontsize=12)
axes[0].set_ylabel('Frequ√™ncia', fontsize=12)
axes[0].set_title('Distribui√ß√£o de Pre√ßos dos Carros', fontsize=14, fontweight='bold')
axes[0].grid(True, alpha=0.3)

# Boxplot
axes[1].boxplot(data['price'], vert=True)
axes[1].set_ylabel('Pre√ßo ($)', fontsize=12)
axes[1].set_title('Boxplot de Pre√ßos', fontsize=14, fontweight='bold')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"üìà Pre√ßo m√©dio: ${data['price'].mean():,.2f}")
print(f"üìâ Pre√ßo mediano: ${data['price'].median():,.2f}")
print(f"üìä Desvio padr√£o: ${data['price'].std():,.2f}")

In [None]:
# Matriz de correla√ß√£o
plt.figure(figsize=(10, 8))
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correla√ß√£o - Features vs Pre√ßo', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\nüìä Correla√ß√µes com o Pre√ßo:")
print("="*50)
correlations = correlation_matrix['price'].sort_values(ascending=False)
for feature, corr in correlations.items():
    if feature != 'price':
        print(f"  {feature:15s}: {corr:6.3f}")

In [None]:
# Scatter plots das features vs pre√ßo
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Rela√ß√£o entre Features e Pre√ßo', fontsize=16, fontweight='bold')

features_to_plot = ['year', 'mileage', 'horsepower', 'engine_size']
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#FFA07A']

for idx, (feature, color) in enumerate(zip(features_to_plot, colors)):
    row, col = idx // 2, idx % 2
    axes[row, col].scatter(data[feature], data['price'], alpha=0.5, c=color, edgecolors='black', linewidth=0.5)
    axes[row, col].set_xlabel(feature.replace('_', ' ').title(), fontsize=11)
    axes[row, col].set_ylabel('Pre√ßo ($)', fontsize=11)
    axes[row, col].set_title(f'{feature.replace("_", " ").title()} vs Pre√ßo', fontsize=12, fontweight='bold')
    axes[row, col].grid(True, alpha=0.3)
    
    # Adiciona linha de tend√™ncia
    z = np.polyfit(data[feature], data['price'], 1)
    p = np.poly1d(z)
    axes[row, col].plot(data[feature], p(data[feature]), "r--", alpha=0.8, linewidth=2)

plt.tight_layout()
plt.show()

<a id='5-training'></a>
## 5. Treinamento do Modelo

A classe `ModelTrainer` implementa uma **API consistente** inspirada no scikit-learn (Aula 7) com m√©todos `fit()` e `predict()`.

In [None]:
# Divide os dados em treino e teste
X_train, X_test, y_train, y_test = ingestion.split_data(test_size=0.2, random_state=42)

print("="*70)
print("DIVIS√ÉO DOS DADOS")
print("="*70)
print(f"üìä Treino: {len(X_train)} amostras ({len(X_train)/len(data)*100:.1f}%)")
print(f"üìä Teste:  {len(X_test)} amostras ({len(X_test)/len(data)*100:.1f}%)")
print(f"\nüìã Features: {list(X_train.columns)}")

In [None]:
# Inicializa e treina o modelo
print("\n" + "="*70)
print("TREINAMENTO DO MODELO")
print("="*70)

trainer = ModelTrainer(use_scaling=True)
trainer.fit(X_train, y_train)

print("‚úì Modelo treinado com sucesso!")
print(f"‚úì Tipo do modelo: {type(trainer.model).__name__}")
print(f"‚úì Normaliza√ß√£o aplicada: {trainer.use_scaling}")

In [None]:
# Import√¢ncia das features (coeficientes do modelo linear)
importance = trainer.get_feature_importance()

if importance is not None:
    # Cria DataFrame para visualiza√ß√£o
    importance_df = pd.DataFrame({
        'Feature': X_train.columns,
        'Coefficient': importance
    }).sort_values('Coefficient', key=abs, ascending=False)
    
    print("\n" + "="*70)
    print("IMPORT√ÇNCIA DAS FEATURES (Coeficientes)")
    print("="*70)
    print(importance_df.to_string(index=False))
    
    # Visualiza import√¢ncia
    plt.figure(figsize=(10, 6))
    colors = ['green' if x > 0 else 'red' for x in importance_df['Coefficient']]
    plt.barh(importance_df['Feature'], importance_df['Coefficient'], color=colors, alpha=0.7, edgecolor='black')
    plt.xlabel('Coeficiente', fontsize=12)
    plt.ylabel('Feature', fontsize=12)
    plt.title('Import√¢ncia das Features (Coeficientes do Modelo)', fontsize=14, fontweight='bold')
    plt.axvline(x=0, color='black', linestyle='--', linewidth=1)
    plt.grid(True, alpha=0.3, axis='x')
    plt.tight_layout()
    plt.show()

<a id='6-evaluation'></a>
## 6. Avalia√ß√£o e M√©tricas

A classe `ModelEvaluator` fornece **m√©tricas completas** com **documenta√ß√£o detalhada** (Aula 3).

In [None]:
# Faz predi√ß√µes
predictions = trainer.predict(X_test)

# Cria o avaliador
evaluator = ModelEvaluator(y_test.values, predictions)

# Calcula m√©tricas
metrics = evaluator.calculate_metrics()

# Exibe relat√≥rio completo
print(evaluator.get_report())

In [None]:
# Compara√ß√£o de predi√ß√µes
print("\n" + "="*70)
print("COMPARA√á√ÉO: VALORES REAIS vs PREDITOS")
print("="*70)

comparison = evaluator.compare_predictions(n_samples=15)
print(comparison.to_string())

<a id='7-viz'></a>
## 7. Visualiza√ß√µes de Performance

Vamos criar visualiza√ß√µes para entender melhor o desempenho do modelo.

In [None]:
# Gr√°fico: Predi√ß√µes vs Valores Reais
plt.figure(figsize=(10, 6))
plt.scatter(y_test, predictions, alpha=0.6, edgecolors='black', linewidth=0.5, s=80)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 
         'r--', lw=2, label='Predi√ß√£o Perfeita')
plt.xlabel('Valor Real ($)', fontsize=12)
plt.ylabel('Valor Predito ($)', fontsize=12)
plt.title('Predi√ß√µes vs Valores Reais', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Calcula R¬≤
from sklearn.metrics import r2_score
r2 = r2_score(y_test, predictions)
print(f"üìä R¬≤ Score: {r2:.4f} (quanto mais pr√≥ximo de 1, melhor)")

In [None]:
# An√°lise de Res√≠duos
residuals = evaluator.get_residuals()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma dos res√≠duos
axes[0].hist(residuals, bins=50, edgecolor='black', alpha=0.7, color='skyblue')
axes[0].axvline(x=0, color='red', linestyle='--', linewidth=2, label='Zero')
axes[0].set_xlabel('Res√≠duo ($)', fontsize=12)
axes[0].set_ylabel('Frequ√™ncia', fontsize=12)
axes[0].set_title('Distribui√ß√£o dos Res√≠duos', fontsize=14, fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Res√≠duos vs Predi√ß√µes
axes[1].scatter(predictions, residuals, alpha=0.6, edgecolors='black', linewidth=0.5, s=60)
axes[1].axhline(y=0, color='red', linestyle='--', linewidth=2, label='Zero')
axes[1].set_xlabel('Valor Predito ($)', fontsize=12)
axes[1].set_ylabel('Res√≠duo ($)', fontsize=12)
axes[1].set_title('Res√≠duos vs Predi√ß√µes', fontsize=14, fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üìä An√°lise de Res√≠duos:")
print(f"  ‚Ä¢ M√©dia dos res√≠duos: ${np.mean(residuals):,.2f} (ideal: pr√≥ximo de 0)")
print(f"  ‚Ä¢ Desvio padr√£o: ${np.std(residuals):,.2f}")

In [None]:
# M√©tricas Visuais
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# RMSE
axes[0].bar(['RMSE'], [metrics['rmse']], color='#FF6B6B', alpha=0.7, edgecolor='black', linewidth=2)
axes[0].set_ylabel('Valor ($)', fontsize=11)
axes[0].set_title('Root Mean Squared Error', fontsize=12, fontweight='bold')
axes[0].grid(True, alpha=0.3, axis='y')

# MAE
axes[1].bar(['MAE'], [metrics['mae']], color='#4ECDC4', alpha=0.7, edgecolor='black', linewidth=2)
axes[1].set_ylabel('Valor ($)', fontsize=11)
axes[1].set_title('Mean Absolute Error', fontsize=12, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='y')

# R¬≤ Score
axes[2].bar(['R¬≤'], [metrics['r2']], color='#45B7D1', alpha=0.7, edgecolor='black', linewidth=2)
axes[2].set_ylabel('Score', fontsize=11)
axes[2].set_title('R¬≤ Score', fontsize=12, fontweight='bold')
axes[2].set_ylim([0, 1])
axes[2].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

<a id='8-conclusions'></a>
## 8. Conclus√µes e Melhores Pr√°ticas Aplicadas

Este projeto demonstra a aplica√ß√£o completa das **7 aulas** sobre bibliotecas internas de ML:

### ‚úÖ Aula 1: Benef√≠cios de Bibliotecas Internas
- C√≥digo **reutiliz√°vel** e **consistente**
- Facilita colabora√ß√£o entre times
- Acelera desenvolvimento de novos projetos

### ‚úÖ Aula 2: Modularidade
- C√≥digo organizado em **m√≥dulos separados** (data_ingestion, data_validation, model_trainer, model_evaluation)
- Princ√≠pio **DRY** aplicado (fun√ß√µes e classes reutiliz√°veis)
- **Separa√ß√£o de responsabilidades** clara

### ‚úÖ Aula 3: Documenta√ß√£o
- **Docstrings detalhadas** seguindo padr√£o Google/NumPy
- Exemplos de uso em cada fun√ß√£o
- README completo com instru√ß√µes

### ‚úÖ Aula 4: Versionamento
- **Semantic Versioning** (1.0.0)
- Empacotamento com `setup.py` e `pyproject.toml`
- Pronto para distribui√ß√£o interna

### ‚úÖ Aula 5: PEP8 e Estilo
- C√≥digo segue **conven√ß√µes PEP8**
- Nomenclatura consistente
- Configura√ß√£o de linting (flake8, black)

### ‚úÖ Aula 6: Testes e CI
- **Suite completa de testes** unit√°rios
- Cobertura > 80%
- CI/CD configurado (GitHub Actions)

### ‚úÖ Aula 7: Design de API
- Interface **consistente** (fit/predict)
- Inspirado em **scikit-learn**
- F√°cil de usar e estender

---

### üìà Resultados do Modelo

In [None]:
# Resumo final
print("="*70)
print("RESUMO FINAL DO PROJETO")
print("="*70)
print(f"\nüìä Dataset: {len(data)} amostras, {len(data.columns)} features")
print(f"üìä Treino/Teste: {len(X_train)}/{len(X_test)} amostras")
print(f"\nüéØ M√©tricas de Performance:")
print(f"  ‚Ä¢ R¬≤ Score:  {metrics['r2']:.4f}")
print(f"  ‚Ä¢ RMSE:      ${metrics['rmse']:,.2f}")
print(f"  ‚Ä¢ MAE:       ${metrics['mae']:,.2f}")
print(f"  ‚Ä¢ MAPE:      {metrics['mape']:.2f}%")
print(f"\n‚úÖ Modelo treinado e avaliado com sucesso!")
print(f"‚úÖ Biblioteca modular e bem documentada")
print(f"‚úÖ Pronto para uso em produ√ß√£o")
print("="*70)

---

## üöÄ Pr√≥ximos Passos

1. **Experimentar outros modelos**: Ridge, Lasso, Random Forest
2. **Feature Engineering**: Criar novas features (intera√ß√µes, transforma√ß√µes)
3. **Hyperparameter Tuning**: Otimizar par√¢metros do modelo
4. **Deploy**: Criar API REST para servir predi√ß√µes
5. **Monitoramento**: Implementar logging e m√©tricas em produ√ß√£o

---

**Desenvolvido seguindo as melhores pr√°ticas de Bibliotecas Internas de ML** üéì