# 📊 Consultor de Estilo Virtual - Exploração Inicial dos Dados

Este notebook apresenta uma análise exploratória inicial dos datasets utilizados no projeto de recomendação de tamanhos para moda masculina.

## Objetivos
1. Carregar e examinar os datasets H&M e Rent the Runway
2. Entender a estrutura e qualidade dos dados
3. Identificar padrões iniciais
4. Avaliar a viabilidade da abordagem híbrida

## Datasets Utilizados
- **H&M Personalized Fashion Recommendations**: Produtos, clientes e transações
- **Rent the Runway Fit Data**: Medidas corporais e avaliações de caimento

In [None]:
# Importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path
import sys

# Adicionar diretório src ao path
sys.path.append('../../src')

# Importar módulos do projeto
from data.collect_data import DataCollector
from data.process_data import DataProcessor

# Configurações
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configurar tamanhos de plot
plt.rcParams['figure.figsize'] = (12, 6)

print("📦 Bibliotecas carregadas com sucesso!")

## 1. Coleta e Preparação dos Dados

Primeiro, vamos coletar os dados de exemplo e preparar o ambiente.

In [None]:
# Inicializar coletor de dados
collector = DataCollector(data_dir="../../data/raw")

# Mostrar informações sobre os datasets
datasets_info = collector.download_datasets_info()

print("🎯 Datasets Disponíveis:\n")
for name, info in datasets_info.items():
    print(f"📋 {info['name']}")
    print(f"   📏 Tamanho: {info['size']}")
    print(f"   📄 Descrição: {info['description']}")
    print(f"   🔗 URL: {info['url']}\n")

In [None]:
# Criar dados de exemplo se não existirem
collector.create_sample_data()

# Carregar dados de exemplo
articles_df, customers_df, fit_df = collector.load_sample_data()

print("✅ Dados carregados:")
print(f"   👔 Artigos H&M: {len(articles_df)} registros")
print(f"   👤 Clientes H&M: {len(customers_df)} registros") 
print(f"   📐 Dados de Caimento: {len(fit_df)} registros")

## 2. Análise do Dataset H&M - Artigos

Vamos examinar os dados de produtos da H&M.

In [None]:
# Informações básicas do dataset de artigos
print("📊 Dataset H&M - Artigos")
print("=" * 40)
print(f"Formato: {articles_df.shape}")
print(f"\nColunas: {list(articles_df.columns)}")
print(f"\nPrimeiros registros:")
articles_df.head()

In [None]:
# Análise de tipos de produto
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
articles_df['product_type_name'].value_counts().plot(kind='bar')
plt.title('📊 Distribuição de Tipos de Produto')
plt.xlabel('Tipo de Produto')
plt.ylabel('Quantidade')
plt.xticks(rotation=45)

plt.subplot(1, 2, 2)
articles_df['colour_group_name'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('🎨 Distribuição de Cores')

plt.tight_layout()
plt.show()

print("\n📈 Estatísticas de Produtos:")
print(f"   Tipos únicos: {articles_df['product_type_name'].nunique()}")
print(f"   Cores únicas: {articles_df['colour_group_name'].nunique()}")
print(f"   Departamento: {articles_df['department_name'].unique()}")

## 3. Análise do Dataset H&M - Clientes

Agora vamos examinar o perfil dos clientes.

In [None]:
# Informações básicas do dataset de clientes
print("👥 Dataset H&M - Clientes")
print("=" * 40)
print(f"Formato: {customers_df.shape}")
print(f"\nColunas: {list(customers_df.columns)}")
print(f"\nPrimeiros registros:")
customers_df.head()

In [None]:
# Análise demográfica dos clientes
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
customers_df['age'].hist(bins=20, edgecolor='black', alpha=0.7)
plt.title('📊 Distribuição de Idades')
plt.xlabel('Idade')
plt.ylabel('Frequência')

plt.subplot(1, 3, 2)
customers_df['club_member_status'].value_counts().plot(kind='bar')
plt.title('🏆 Status de Membro do Clube')
plt.xlabel('Status')
plt.ylabel('Quantidade')
plt.xticks(rotation=45)

plt.subplot(1, 3, 3)
customers_df['fashion_news_frequency'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('📧 Frequência Newsletter')

plt.tight_layout()
plt.show()

print("\n📊 Estatísticas de Clientes:")
print(f"   Idade média: {customers_df['age'].mean():.1f} anos")
print(f"   Idade mediana: {customers_df['age'].median():.1f} anos")
print(f"   Faixa etária: {customers_df['age'].min():.0f} - {customers_df['age'].max():.0f} anos")

## 4. Análise do Dataset de Caimento (Rent the Runway)

Este dataset nos fornece insights sobre a relação entre medidas corporais e avaliação de caimento.

In [None]:
# Informações básicas do dataset de caimento
print("📐 Dataset de Caimento")
print("=" * 40)
print(f"Formato: {fit_df.shape}")
print(f"\nColunas: {list(fit_df.columns)}")
print(f"\nPrimeiros registros:")
fit_df.head()

In [None]:
# Análise das medidas corporais e caimento
plt.figure(figsize=(15, 10))

plt.subplot(2, 3, 1)
fit_df['user_height'].hist(bins=15, edgecolor='black', alpha=0.7)
plt.title('📏 Distribuição de Alturas')
plt.xlabel('Altura (cm)')
plt.ylabel('Frequência')

plt.subplot(2, 3, 2)
fit_df['user_weight'].hist(bins=15, edgecolor='black', alpha=0.7)
plt.title('⚖️ Distribuição de Pesos')
plt.xlabel('Peso (kg)')
plt.ylabel('Frequência')

plt.subplot(2, 3, 3)
fit_df['body_type'].value_counts().plot(kind='bar')
plt.title('🏋️ Tipos de Corpo')
plt.xlabel('Tipo de Corpo')
plt.ylabel('Quantidade')
plt.xticks(rotation=45)

plt.subplot(2, 3, 4)
fit_df['size_ordered'].value_counts().plot(kind='bar')
plt.title('👕 Tamanhos Pedidos')
plt.xlabel('Tamanho')
plt.ylabel('Quantidade')

plt.subplot(2, 3, 5)
fit_df['fit_rating'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('✅ Avaliação de Caimento')

plt.subplot(2, 3, 6)
fit_df['category'].value_counts().plot(kind='bar')
plt.title('👔 Categorias de Produto')
plt.xlabel('Categoria')
plt.ylabel('Quantidade')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# Análise da correlação entre medidas físicas e caimento
# Criar BMI para análise
fit_df['bmi'] = fit_df['user_weight'] / ((fit_df['user_height'] / 100) ** 2)

plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
sns.boxplot(data=fit_df, x='fit_rating', y='user_height')
plt.title('📏 Altura vs Caimento')
plt.xlabel('Avaliação de Caimento')
plt.ylabel('Altura (cm)')

plt.subplot(1, 3, 2)
sns.boxplot(data=fit_df, x='fit_rating', y='user_weight')
plt.title('⚖️ Peso vs Caimento')
plt.xlabel('Avaliação de Caimento')
plt.ylabel('Peso (kg)')

plt.subplot(1, 3, 3)
sns.boxplot(data=fit_df, x='fit_rating', y='bmi')
plt.title('📊 BMI vs Caimento')
plt.xlabel('Avaliação de Caimento')
plt.ylabel('BMI')

plt.tight_layout()
plt.show()

print("\n📊 Estatísticas de Medidas Corporais:")
print(f"   Altura média: {fit_df['user_height'].mean():.1f} cm")
print(f"   Peso médio: {fit_df['user_weight'].mean():.1f} kg")
print(f"   BMI médio: {fit_df['bmi'].mean():.1f}")
print(f"   Distribuição de caimento:")
for rating in fit_df['fit_rating'].value_counts().index:
    count = fit_df['fit_rating'].value_counts()[rating]
    percentage = (count / len(fit_df)) * 100
    print(f"     {rating}: {count} ({percentage:.1f}%)")

## 5. Processamento e Integração dos Dados

Agora vamos processar e integrar os dados usando nosso pipeline.

In [None]:
# Inicializar processador de dados
processor = DataProcessor(processed_dir="../../data/processed")

# Processar cada dataset
print("🔄 Processando dados...")

articles_clean = processor.clean_hm_articles(articles_df)
customers_clean = processor.clean_hm_customers(customers_df)
fit_clean = processor.clean_fit_data(fit_df)

print("✅ Dados processados com sucesso!")
print(f"   Artigos limpos: {len(articles_clean)} registros")
print(f"   Clientes limpos: {len(customers_clean)} registros")
print(f"   Dados de caimento limpos: {len(fit_clean)} registros")

In [None]:
# Verificar dados processados
print("🔍 Verificando dados processados...\n")

print("📊 Artigos - Novas colunas:")
print(f"   Categorias de produto: {articles_clean['product_category'].unique()}")
print(f"   Categorias de cor: {articles_clean['color_category'].unique()}")

print("\n👥 Clientes - Novas colunas:")
print(f"   Grupos etários: {customers_clean['age_group'].value_counts().to_dict()}")

print("\n📐 Caimento - Novas colunas:")
print(f"   BMI categorias: {fit_clean['bmi_category'].value_counts().to_dict()}")
print(f"   Fit numérico: {fit_clean['fit_numeric'].value_counts().to_dict()}")

In [None]:
# Criar dataset híbrido
print("🔗 Criando dataset híbrido...")
hybrid_df = processor.create_hybrid_dataset(articles_clean, customers_clean, fit_clean)

print(f"✅ Dataset híbrido criado: {len(hybrid_df)} registros")
print(f"\n📋 Colunas do dataset híbrido:")
for col in hybrid_df.columns:
    print(f"   - {col}")

hybrid_df.head()

## 6. Análise do Dataset Híbrido

Vamos analisar nosso dataset combinado e identificar padrões interessantes.

In [None]:
# Análise do dataset híbrido
plt.figure(figsize=(18, 12))

plt.subplot(3, 3, 1)
hybrid_df['customer_age_group'].value_counts().plot(kind='bar')
plt.title('👥 Distribuição por Grupo Etário')
plt.xlabel('Grupo Etário')
plt.ylabel('Frequência')
plt.xticks(rotation=45)

plt.subplot(3, 3, 2)
hybrid_df['product_category'].value_counts().plot(kind='bar')
plt.title('👔 Categorias de Produto')
plt.xlabel('Categoria')
plt.ylabel('Frequência')
plt.xticks(rotation=45)

plt.subplot(3, 3, 3)
hybrid_df['predicted_fit'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('✅ Previsão de Caimento')

plt.subplot(3, 3, 4)
hybrid_df['size_recommendation'].value_counts().plot(kind='bar')
plt.title('📏 Recomendações de Tamanho')
plt.xlabel('Tamanho')
plt.ylabel('Frequência')

plt.subplot(3, 3, 5)
hybrid_df['estimated_bmi_category'].value_counts().plot(kind='bar')
plt.title('📊 Categorias de BMI')
plt.xlabel('Categoria BMI')
plt.ylabel('Frequência')
plt.xticks(rotation=45)

plt.subplot(3, 3, 6)
hybrid_df.groupby('customer_age_group')['predicted_fit'].value_counts().unstack().plot(kind='bar', stacked=True)
plt.title('🎯 Caimento por Grupo Etário')
plt.xlabel('Grupo Etário')
plt.ylabel('Frequência')
plt.xticks(rotation=45)
plt.legend(title='Caimento')

plt.subplot(3, 3, 7)
hybrid_df.groupby('product_category')['size_recommendation'].value_counts().unstack().plot(kind='bar', stacked=True)
plt.title('👕 Tamanhos por Categoria')
plt.xlabel('Categoria')
plt.ylabel('Frequência')
plt.xticks(rotation=45)
plt.legend(title='Tamanho')

plt.subplot(3, 3, 8)
sns.scatterplot(data=hybrid_df, x='estimated_height', y='estimated_weight', hue='predicted_fit')
plt.title('📊 Altura vs Peso por Caimento')
plt.xlabel('Altura (cm)')
plt.ylabel('Peso (kg)')

plt.subplot(3, 3, 9)
hybrid_df.groupby('estimated_bmi_category')['predicted_fit'].value_counts().unstack().plot(kind='bar', stacked=True)
plt.title('⚖️ Caimento por BMI')
plt.xlabel('Categoria BMI')
plt.ylabel('Frequência')
plt.xticks(rotation=45)
plt.legend(title='Caimento')

plt.tight_layout()
plt.show()

## 7. Insights e Conclusões Iniciais

Vamos extrair alguns insights importantes dos dados.

In [None]:
# Estatísticas descritivas do dataset híbrido
print("📊 INSIGHTS E ESTATÍSTICAS DO DATASET HÍBRIDO")
print("=" * 60)

print("\n🎯 DISTRIBUIÇÕES PRINCIPAIS:")
print(f"   Total de registros: {len(hybrid_df):,}")
print(f"   Clientes únicos: {hybrid_df['customer_id'].nunique():,}")
print(f"   Produtos únicos: {hybrid_df['article_id'].nunique():,}")

print("\n👥 PERFIL DOS CLIENTES:")
age_stats = hybrid_df.groupby('customer_age_group').size().sort_values(ascending=False)
for group, count in age_stats.items():
    percentage = (count / len(hybrid_df)) * 100
    print(f"   {group}: {count} ({percentage:.1f}%)")

print("\n👔 CATEGORIAS DE PRODUTO:")
product_stats = hybrid_df.groupby('product_category').size().sort_values(ascending=False)
for category, count in product_stats.items():
    percentage = (count / len(hybrid_df)) * 100
    print(f"   {category}: {count} ({percentage:.1f}%)")

print("\n📏 RECOMENDAÇÕES DE TAMANHO:")
size_stats = hybrid_df.groupby('size_recommendation').size().sort_values(ascending=False)
for size, count in size_stats.items():
    percentage = (count / len(hybrid_df)) * 100
    print(f"   Tamanho {size}: {count} ({percentage:.1f}%)")

print("\n✅ DISTRIBUIÇÃO DE CAIMENTO:")
fit_stats = hybrid_df.groupby('predicted_fit').size().sort_values(ascending=False)
for fit, count in fit_stats.items():
    percentage = (count / len(hybrid_df)) * 100
    print(f"   {fit.title()}: {count} ({percentage:.1f}%)")

In [None]:
# Análises de correlação interessantes
print("\n🔍 ANÁLISES DE CORRELAÇÃO:")
print("=" * 40)

# Caimento por grupo etário
print("\n📊 Caimento por Grupo Etário:")
fit_by_age = hybrid_df.groupby(['customer_age_group', 'predicted_fit']).size().unstack(fill_value=0)
fit_by_age_pct = fit_by_age.div(fit_by_age.sum(axis=1), axis=0) * 100
print(fit_by_age_pct.round(1))

# Tamanhos por categoria de produto
print("\n👕 Tamanhos por Categoria de Produto:")
size_by_category = hybrid_df.groupby(['product_category', 'size_recommendation']).size().unstack(fill_value=0)
print(size_by_category)

# BMI e caimento
print("\n⚖️ Caimento por Categoria de BMI:")
fit_by_bmi = hybrid_df.groupby(['estimated_bmi_category', 'predicted_fit']).size().unstack(fill_value=0)
fit_by_bmi_pct = fit_by_bmi.div(fit_by_bmi.sum(axis=1), axis=0) * 100
print(fit_by_bmi_pct.round(1))

## 8. Próximos Passos

Com base na análise exploratória, aqui estão os próximos passos recomendados:

In [None]:
# Salvar dados processados
processor.save_processed_data(hybrid_df, "hybrid_dataset_analyzed")

print("💾 Dados salvos em data/processed/")
print("\n🚀 PRÓXIMOS PASSOS RECOMENDADOS:")
print("=" * 50)
print("1. 📋 Expandir dataset com dados reais do Kaggle")
print("2. 🧹 Implementar limpeza mais robusta de dados")
print("3. 🔧 Desenvolver engenharia de features avançada")
print("4. 🤖 Criar modelos de machine learning para:")
print("   - Previsão de tamanho ideal")
print("   - Classificação de caimento")
print("   - Recomendação de produtos")
print("5. 📊 Desenvolver métricas de avaliação")
print("6. 🎨 Criar visualizações interativas")
print("7. 🌐 Implementar interface web para demonstração")

print("\n✅ ANÁLISE EXPLORATÓRIA INICIAL CONCLUÍDA!")
print("📝 Consulte os notebooks seguintes para continuar o desenvolvimento.")