# üìä An√°lise de Concorr√™ncia - ML Project

Este notebook demonstra como usar o sistema AutoML do ML Project para analisar dados de concorr√™ncia e otimizar estrat√©gias de vendas no Mercado Livre.

## üéØ Objetivos
- Analisar dados de produtos concorrentes
- Prever pre√ßos √≥timos com AutoML
- Identificar oportunidades de mercado
- Gerar insights acion√°veis

In [None]:
# Importa√ß√µes necess√°rias
import sys
import os
sys.path.append('..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta

# Importar m√≥dulos do AutoML
from automl.experiment import ExperimentManager
from automl.tuning import HyperparameterTuner
from automl.tracking import create_tracker

# Configura√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

print("‚úÖ Importa√ß√µes realizadas com sucesso!")

## üì¶ 1. Gera√ß√£o de Dados Simulados de Concorr√™ncia

Vamos criar um dataset realista simulando dados de produtos concorrentes no Mercado Livre.

In [None]:
# Gerar dados simulados de concorr√™ncia
np.random.seed(42)

# Par√¢metros do dataset
n_produtos = 1000
categorias = ['Eletr√¥nicos', 'Casa e Jardim', 'Moda', 'Esportes', 'Livros']
vendedores = ['Vendedor A', 'Vendedor B', 'Vendedor C', 'Nosso Vendedor', 'Concorrente Premium']

# Criar dataset de concorr√™ncia
dados_concorrencia = pd.DataFrame({
    'produto_id': [f'ML{i:06d}' for i in range(1, n_produtos + 1)],
    'categoria': np.random.choice(categorias, n_produtos),
    'vendedor': np.random.choice(vendedores, n_produtos),
    'preco': np.random.lognormal(mean=4, sigma=1, size=n_produtos).round(2),
    'vendas_30d': np.random.poisson(lam=20, size=n_produtos),
    'avaliacoes': np.random.randint(0, 1000, n_produtos),
    'nota_media': np.random.uniform(3.0, 5.0, n_produtos).round(1),
    'frete_gratis': np.random.choice([True, False], n_produtos, p=[0.7, 0.3]),
    'desconto_pct': np.random.uniform(0, 50, n_produtos).round(0),
    'posicao_busca': np.random.randint(1, 101, n_produtos),
    'clicks_30d': np.random.poisson(lam=100, size=n_produtos),
    'conversao_pct': np.random.uniform(1, 15, n_produtos).round(2)
})

# Adicionar algumas correla√ß√µes realistas
# Produtos com frete gr√°tis tendem a vender mais
dados_concorrencia.loc[dados_concorrencia['frete_gratis'], 'vendas_30d'] *= 1.3
dados_concorrencia['vendas_30d'] = dados_concorrencia['vendas_30d'].round().astype(int)

# Produtos com melhor posi√ß√£o tendem a ter mais clicks
dados_concorrencia['clicks_30d'] = (dados_concorrencia['clicks_30d'] * 
                                   (101 - dados_concorrencia['posicao_busca']) / 100).round().astype(int)

# Mostrar estat√≠sticas b√°sicas
print(f"üìä Dataset criado com {len(dados_concorrencia)} produtos")
print(f"üìà Categorias: {dados_concorrencia['categoria'].unique()}")
print(f"üè™ Vendedores: {dados_concorrencia['vendedor'].unique()}")

dados_concorrencia.head()

## üìà 2. An√°lise Explorat√≥ria dos Dados

In [None]:
# Criar visualiza√ß√µes
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Distribui√ß√£o de pre√ßos por categoria
sns.boxplot(data=dados_concorrencia, x='categoria', y='preco', ax=axes[0,0])
axes[0,0].set_title('Distribui√ß√£o de Pre√ßos por Categoria')
axes[0,0].tick_params(axis='x', rotation=45)

# 2. Vendas vs Pre√ßo
sns.scatterplot(data=dados_concorrencia, x='preco', y='vendas_30d', 
                hue='categoria', alpha=0.6, ax=axes[0,1])
axes[0,1].set_title('Rela√ß√£o Pre√ßo vs Vendas')
axes[0,1].legend(bbox_to_anchor=(1.05, 1), loc='upper left')

# 3. Performance por vendedor
vendas_por_vendedor = dados_concorrencia.groupby('vendedor')['vendas_30d'].sum().sort_values(ascending=True)
vendas_por_vendedor.plot(kind='barh', ax=axes[1,0])
axes[1,0].set_title('Vendas Totais por Vendedor (30d)')

# 4. Impacto do frete gr√°tis
frete_vendas = dados_concorrencia.groupby('frete_gratis')['vendas_30d'].mean()
frete_vendas.plot(kind='bar', ax=axes[1,1])
axes[1,1].set_title('Vendas M√©dias: Frete Gr√°tis vs Pago')
axes[1,1].set_xticklabels(['Frete Pago', 'Frete Gr√°tis'], rotation=0)

plt.tight_layout()
plt.show()

# Estat√≠sticas por categoria
print("\nüìä Estat√≠sticas por Categoria:")
estatisticas_categoria = dados_concorrencia.groupby('categoria').agg({
    'preco': ['mean', 'median', 'std'],
    'vendas_30d': ['mean', 'sum'],
    'conversao_pct': 'mean'
}).round(2)

print(estatisticas_categoria)

## ü§ñ 3. Experimento AutoML: Previs√£o de Vendas

Vamos usar o sistema AutoML para prever vendas baseado nas caracter√≠sticas dos produtos.

In [None]:
# Preparar dados para o modelo
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

# Criar features para o modelo
dados_modelo = dados_concorrencia.copy()

# Encoding de vari√°veis categ√≥ricas
le_categoria = LabelEncoder()
le_vendedor = LabelEncoder()

dados_modelo['categoria_encoded'] = le_categoria.fit_transform(dados_modelo['categoria'])
dados_modelo['vendedor_encoded'] = le_vendedor.fit_transform(dados_modelo['vendedor'])
dados_modelo['frete_gratis_int'] = dados_modelo['frete_gratis'].astype(int)

# Selecionar features
features = ['preco', 'categoria_encoded', 'vendedor_encoded', 'avaliacoes', 
           'nota_media', 'frete_gratis_int', 'desconto_pct', 'posicao_busca', 
           'clicks_30d', 'conversao_pct']

X = dados_modelo[features].values
y = dados_modelo['vendas_30d'].values

print(f"‚úÖ Dados preparados: {X.shape[0]} amostras, {X.shape[1]} features")
print(f"üìä Target (vendas): min={y.min()}, max={y.max()}, m√©dia={y.mean():.1f}")

In [None]:
# Inicializar o gerenciador de experimentos
experiment_manager = ExperimentManager("concorrencia_analysis")

# Criar experimento
experiment_id = experiment_manager.create_experiment(
    name="Previs√£o de Vendas - An√°lise de Concorr√™ncia",
    description="Modelo para prever vendas baseado em caracter√≠sticas de produtos concorrentes",
    dataset_info={
        "shape": X.shape,
        "features": features,
        "target": "vendas_30d",
        "source": "dados_simulados_concorrencia",
        "categories": list(dados_concorrencia['categoria'].unique()),
        "date_range": "√∫ltimos_30_dias"
    }
)

print(f"üÜî Experimento criado: {experiment_id}")

In [None]:
# Executar experimento AutoML
print("üöÄ Iniciando experimento AutoML...")

results = experiment_manager.run_basic_experiment(
    experiment_id=experiment_id,
    X=X,
    y=y,
    problem_type="regression"  # Previs√£o de vendas √© um problema de regress√£o
)

print(f"‚úÖ Experimento conclu√≠do!")
print(f"üèÜ Melhor modelo: {results['best_model']}")
print(f"üìä Melhor score: {results['best_score']:.4f}")

# Mostrar resultados de todos os modelos
print("\nüìà Resultados por modelo:")
for model_result in results['models_tested']:
    if 'error' in model_result:
        print(f"‚ùå {model_result['model_name']}: {model_result['error']}")
    else:
        print(f"‚úÖ {model_result['model_name']}: {model_result['score']:.4f}")

## ‚öôÔ∏è 4. Otimiza√ß√£o de Hiperpar√¢metros

Vamos otimizar o melhor modelo encontrado.

In [None]:
# Inicializar o otimizador de hiperpar√¢metros
tuner = HyperparameterTuner()

# Criar modelo baseado no melhor resultado
if results['best_model'] == 'random_forest':
    from sklearn.ensemble import RandomForestRegressor
    best_model = RandomForestRegressor(random_state=42)
    model_type = "random_forest_regressor"
else:
    from sklearn.linear_model import LinearRegression
    best_model = LinearRegression()
    model_type = "linear_regression"

print(f"üîß Otimizando hiperpar√¢metros para: {model_type}")

In [None]:
# Executar otimiza√ß√£o de hiperpar√¢metros
tuning_results = tuner.auto_tune_model(
    model=best_model,
    model_type=model_type,
    X=X,
    y=y,
    method="random_search",  # Mais r√°pido que grid_search
    scoring="neg_mean_squared_error",  # Apropriado para regress√£o
    cv=3  # 3-fold CV para velocidade
)

print(f"üéØ Otimiza√ß√£o conclu√≠da!")
print(f"üèÜ Melhor score: {tuning_results['best_score']:.4f}")
print(f"‚öôÔ∏è Melhores par√¢metros: {tuning_results['best_params']}")
print(f"‚è±Ô∏è Tempo de execu√ß√£o: {tuning_results['duration_seconds']:.1f} segundos")

## üìä 5. Tracking de Experimentos com MLflow

In [None]:
# Inicializar tracker
tracker = create_tracker("concorrencia_experiments")

# Rastrear o experimento AutoML
automl_run_id = tracker.track_automl_experiment(
    experiment_results=results,
    dataset_info={
        "shape": X.shape,
        "features": features,
        "source": "concorrencia_simulada"
    }
)

# Rastrear a otimiza√ß√£o de hiperpar√¢metros
tuning_run_id = tracker.track_hyperparameter_tuning(
    tuning_results=tuning_results
)

print(f"üìà Experimentos rastreados:")
print(f"  - AutoML: {automl_run_id}")
print(f"  - Tuning: {tuning_run_id}")

## üí° 6. Insights e Recomenda√ß√µes

Com base nos resultados do AutoML, vamos gerar insights acion√°veis.

In [None]:
# An√°lise de feature importance (se modelo for Random Forest)
if results['best_model'] == 'random_forest' and 'best_params' in tuning_results:
    from sklearn.ensemble import RandomForestRegressor
    
    # Treinar modelo final com melhores par√¢metros
    final_model = RandomForestRegressor(**tuning_results['best_params'], random_state=42)
    final_model.fit(X, y)
    
    # Feature importance
    importance_df = pd.DataFrame({
        'feature': features,
        'importance': final_model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    # Visualizar import√¢ncia das features
    plt.figure(figsize=(10, 6))
    sns.barplot(data=importance_df, x='importance', y='feature')
    plt.title('Import√¢ncia das Features para Previs√£o de Vendas')
    plt.xlabel('Import√¢ncia')
    plt.tight_layout()
    plt.show()
    
    print("üîç Features mais importantes:")
    for _, row in importance_df.head().iterrows():
        print(f"  - {row['feature']}: {row['importance']:.3f}")
else:
    print("‚ÑπÔ∏è Feature importance n√£o dispon√≠vel para este modelo")

In [None]:
# Gerar recomenda√ß√µes espec√≠ficas
print("üí° INSIGHTS E RECOMENDA√á√ïES BASEADAS NO AUTOML:")
print("=" * 60)

# 1. An√°lise de pre√ßos por categoria
preco_categoria = dados_concorrencia.groupby('categoria').agg({
    'preco': ['mean', 'median'],
    'vendas_30d': 'mean',
    'conversao_pct': 'mean'
}).round(2)

print("\nüìä 1. AN√ÅLISE DE PRE√áOS POR CATEGORIA:")
for categoria in dados_concorrencia['categoria'].unique():
    dados_cat = dados_concorrencia[dados_concorrencia['categoria'] == categoria]
    preco_medio = dados_cat['preco'].mean()
    vendas_medias = dados_cat['vendas_30d'].mean()
    print(f"  ‚Ä¢ {categoria}: Pre√ßo m√©dio R$ {preco_medio:.2f}, Vendas m√©dias {vendas_medias:.1f}")

# 2. Impacto do frete gr√°tis
frete_gratis_vendas = dados_concorrencia[dados_concorrencia['frete_gratis']]['vendas_30d'].mean()
frete_pago_vendas = dados_concorrencia[~dados_concorrencia['frete_gratis']]['vendas_30d'].mean()
aumento_frete = ((frete_gratis_vendas - frete_pago_vendas) / frete_pago_vendas) * 100

print(f"\nüöö 2. IMPACTO DO FRETE GR√ÅTIS:")
print(f"  ‚Ä¢ Produtos com frete gr√°tis vendem {aumento_frete:.1f}% mais")
print(f"  ‚Ä¢ Vendas m√©dias: Frete gr√°tis {frete_gratis_vendas:.1f} vs Frete pago {frete_pago_vendas:.1f}")

# 3. Posicionamento na busca
posicao_top10 = dados_concorrencia[dados_concorrencia['posicao_busca'] <= 10]['vendas_30d'].mean()
posicao_outros = dados_concorrencia[dados_concorrencia['posicao_busca'] > 10]['vendas_30d'].mean()

print(f"\nüîç 3. IMPORT√ÇNCIA DO POSICIONAMENTO:")
print(f"  ‚Ä¢ Top 10 posi√ß√µes: {posicao_top10:.1f} vendas m√©dias")
print(f"  ‚Ä¢ Outras posi√ß√µes: {posicao_outros:.1f} vendas m√©dias")
print(f"  ‚Ä¢ Diferen√ßa: {((posicao_top10 - posicao_outros) / posicao_outros * 100):.1f}%")

# 4. Recomenda√ß√µes acion√°veis
print(f"\nüéØ 4. RECOMENDA√á√ïES ACION√ÅVEIS:")
print(f"  ‚úÖ Implementar frete gr√°tis quando poss√≠vel (+{aumento_frete:.1f}% vendas)")
print(f"  ‚úÖ Focar em melhorar posicionamento SEO/busca")
print(f"  ‚úÖ Monitorar pre√ßos da concorr√™ncia por categoria")
print(f"  ‚úÖ Investir em avalia√ß√µes e nota dos produtos")
print(f"  ‚úÖ Usar modelo AutoML para precifica√ß√£o din√¢mica")

# 5. Pr√≥ximos passos
print(f"\nüöÄ 5. PR√ìXIMOS PASSOS:")
print(f"  ‚Ä¢ Implementar monitoramento autom√°tico de pre√ßos")
print(f"  ‚Ä¢ Integrar modelo com sistema de precifica√ß√£o")
print(f"  ‚Ä¢ Coletar dados reais da API do Mercado Livre")
print(f"  ‚Ä¢ Retreinar modelo mensalmente")
print(f"  ‚Ä¢ A/B testing de estrat√©gias de pricing")

## üìã 7. Relat√≥rio Final do Experimento

In [None]:
# Gerar relat√≥rio completo
report = experiment_manager.generate_experiment_report(experiment_id)
print(report)

# Salvar relat√≥rio
with open(f'relatorio_concorrencia_{experiment_id}.md', 'w', encoding='utf-8') as f:
    f.write(report)
    
print(f"\nüíæ Relat√≥rio salvo como: relatorio_concorrencia_{experiment_id}.md")

## üéâ Conclus√£o

Este notebook demonstrou como usar o sistema AutoML do ML Project para:

1. **üìä An√°lisar dados de concorr√™ncia** de forma automatizada
2. **ü§ñ Aplicar AutoML** para previs√£o de vendas
3. **‚öôÔ∏è Otimizar hiperpar√¢metros** automaticamente
4. **üìà Rastrear experimentos** com MLflow
5. **üí° Gerar insights acion√°veis** para estrat√©gia de vendas

### Pr√≥ximos Passos
- Integrar com dados reais da API do Mercado Livre
- Implementar pipeline de retreinamento autom√°tico
- Criar dashboard de monitoramento
- A/B testing de estrat√©gias derivadas dos insights

---

**Desenvolvido pelo ML Project Team** üöÄ