# 📊 Consultor de Estilo Virtual - Análise Exploratória de Dados (EDA)

Esta análise segue as diretrizes específicas do mentor para uma análise exploratória focada nos principais insights do projeto.

## 🎯 Objetivos da Análise
1. **Aprofundar a Limpeza e Preparação dos Dados**
2. **Análise Exploratória (EDA)** - Responder às perguntas específicas de negócio
3. **Gerar Insights** para o sistema de recomendação de tamanhos

## 📋 Perguntas de Negócio
### Dataset H&M (Produtos e Clientes):
- **Pergunta 1**: Quais são as categorias de produtos mais vendidas?
- **Pergunta 2**: Qual a distribuição de idade dos clientes?
- **Pergunta 3**: Existe alguma relação entre a idade do cliente e o tipo de produto que ele compra?

### Dataset Rent the Runway (Molde de Caimento):
- **Pergunta 4**: Como as avaliações de caimento (fit) estão distribuídas?
- **Pergunta 5**: Existe correlação entre o tipo de corpo (body type) e a avaliação do caimento?

## 1. 📦 Importação de Bibliotecas e Configurações

In [None]:
# Importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configurações
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configurar tamanhos de plot
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("📦 Bibliotecas carregadas com sucesso!")
print("🎨 Configurações de visualização aplicadas!")

## 2. 📊 Carregamento e Inspeção dos Dados

In [None]:
# Carregar datasets
print("📥 Carregando datasets...")

articles_df = pd.read_csv('../../data/raw/hm/articles_sample.csv')
customers_df = pd.read_csv('../../data/raw/hm/customers_sample.csv')
fit_df = pd.read_csv('../../data/raw/rent_runway/fit_data_sample.csv')

print(f"✅ Dataset H&M Artigos: {len(articles_df)} registros")
print(f"✅ Dataset H&M Clientes: {len(customers_df)} registros")
print(f"✅ Dataset Caimento: {len(fit_df)} registros")

### 2.1 Inspeção dos Tipos de Dados (df.info())

In [None]:
print("🔍 INSPEÇÃO DOS TIPOS DE DADOS")
print("=" * 50)

print("\n📋 H&M Artigos - Informações dos Dados:")
print(articles_df.info())
print("\nPrimeiros registros:")
print(articles_df.head())

print("\n" + "="*50)
print("\n👥 H&M Clientes - Informações dos Dados:")
print(customers_df.info())
print("\nPrimeiros registros:")
print(customers_df.head())

print("\n" + "="*50)
print("\n📐 Dados de Caimento - Informações dos Dados:")
print(fit_df.info())
print("\nPrimeiros registros:")
print(fit_df.head())

### 2.2 Verificação de Dados Faltantes (df.isnull().sum())

In [None]:
print("🔍 VERIFICAÇÃO DE DADOS FALTANTES")
print("=" * 50)

print("\n📋 H&M Artigos - Dados Faltantes:")
missing_articles = articles_df.isnull().sum()
print(missing_articles[missing_articles > 0] if missing_articles.sum() > 0 else "✅ Nenhum dado faltante!")

print("\n👥 H&M Clientes - Dados Faltantes:")
missing_customers = customers_df.isnull().sum()
print(missing_customers[missing_customers > 0] if missing_customers.sum() > 0 else "✅ Nenhum dado faltante!")

print("\n📐 Dados de Caimento - Dados Faltantes:")
missing_fit = fit_df.isnull().sum()
print(missing_fit[missing_fit > 0] if missing_fit.sum() > 0 else "✅ Nenhum dado faltante!")

### 2.3 Análise Estatística Inicial (df.describe())

In [None]:
print("📊 ANÁLISE ESTATÍSTICA INICIAL")
print("=" * 50)

print("\n👥 H&M Clientes - Estatísticas Descritivas:")
print(customers_df.describe())

print("\n📐 Dados de Caimento - Estatísticas Descritivas:")
print(fit_df.describe())

## 3. 📊 Análise Exploratória (EDA) - Dataset H&M

### Pergunta 1: Quais são as categorias de produtos mais vendidas?

In [None]:
# Pergunta 1: Categorias de produtos mais vendidas
print("🛍️ ANÁLISE DAS CATEGORIAS DE PRODUTOS")
print("=" * 50)

# Criar gráfico de barras usando countplot do Seaborn
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico 1: Tipos de produto
sns.countplot(data=articles_df, y='product_type_name', ax=axes[0], order=articles_df['product_type_name'].value_counts().index)
axes[0].set_title('📊 Categorias de Produtos Mais Populares', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Quantidade')
axes[0].set_ylabel('Tipo de Produto')

# Gráfico 2: Grupos de produto
sns.countplot(data=articles_df, y='product_group_name', ax=axes[1], order=articles_df['product_group_name'].value_counts().index)
axes[1].set_title('👕 Grupos de Produtos', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Quantidade')
axes[1].set_ylabel('Grupo de Produto')

plt.tight_layout()
plt.show()

# Mostrar estatísticas
print("\n📈 Estatísticas de Categorias:")
print(f"   Tipos de produto únicos: {articles_df['product_type_name'].nunique()}")
print(f"   Grupos de produto únicos: {articles_df['product_group_name'].nunique()}")
print("\n🏆 Top categorias por tipo:")
print(articles_df['product_type_name'].value_counts())
print("\n🏆 Top categorias por grupo:")
print(articles_df['product_group_name'].value_counts())

### Pergunta 2: Qual a distribuição de idade dos clientes?

In [None]:
# Pergunta 2: Distribuição de idade dos clientes
print("👥 ANÁLISE DA DISTRIBUIÇÃO DE IDADES")
print("=" * 50)

# Criar histograma usando histplot do Seaborn
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Histograma
sns.histplot(data=customers_df, x='age', bins=8, kde=True, ax=axes[0])
axes[0].set_title('📊 Distribuição de Idades dos Clientes', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Idade (anos)')
axes[0].set_ylabel('Frequência')

# Box plot para complementar
sns.boxplot(data=customers_df, x='age', ax=axes[1])
axes[1].set_title('📦 Box Plot - Distribuição de Idades', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Idade (anos)')

plt.tight_layout()
plt.show()

# Estatísticas de idade
print("\n📊 Estatísticas de Idade:")
print(f"   Idade média: {customers_df['age'].mean():.1f} anos")
print(f"   Idade mediana: {customers_df['age'].median():.1f} anos")
print(f"   Desvio padrão: {customers_df['age'].std():.1f} anos")
print(f"   Faixa etária: {customers_df['age'].min():.0f} - {customers_df['age'].max():.0f} anos")

# Criar grupos etários para análise
customers_df['age_group'] = pd.cut(customers_df['age'], 
                                 bins=[0, 30, 40, 50, 100], 
                                 labels=['18-30', '31-40', '41-50', '50+'])
print("\n🎯 Distribuição por Grupo Etário:")
print(customers_df['age_group'].value_counts())

### Pergunta 3: Existe relação entre a idade do cliente e o tipo de produto que ele compra?

In [None]:
# Pergunta 3: Relação entre idade e tipo de produto
print("🔗 ANÁLISE: IDADE vs TIPO DE PRODUTO")
print("=" * 50)

# Para esta análise, vamos simular uma relação baseada nos dados disponíveis
# Criar um dataset combinado simulando compras
np.random.seed(42)
purchase_data = []

for _, customer in customers_df.iterrows():
    # Simular que cada cliente comprou alguns produtos
    n_purchases = np.random.randint(1, 3)
    for _ in range(n_purchases):
        product = articles_df.sample(1).iloc[0]
        purchase_data.append({
            'customer_age': customer['age'],
            'age_group': customer['age_group'],
            'product_type': product['product_type_name'],
            'product_group': product['product_group_name']
        })

purchase_df = pd.DataFrame(purchase_data)

# Criar visualizações
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gráfico 1: Heatmap - Grupo etário vs Tipo de produto
age_product_crosstab = pd.crosstab(purchase_df['age_group'], purchase_df['product_type'])
sns.heatmap(age_product_crosstab, annot=True, fmt='d', cmap='Blues', ax=axes[0,0])
axes[0,0].set_title('🔥 Heatmap: Grupo Etário vs Tipo de Produto', fontsize=12, fontweight='bold')
axes[0,0].set_xlabel('Tipo de Produto')
axes[0,0].set_ylabel('Grupo Etário')

# Gráfico 2: Barras agrupadas - Grupo etário vs Grupo de produto
age_group_crosstab = pd.crosstab(purchase_df['age_group'], purchase_df['product_group'])
age_group_crosstab.plot(kind='bar', ax=axes[0,1], rot=45)
axes[0,1].set_title('📊 Compras por Grupo Etário e Categoria', fontsize=12, fontweight='bold')
axes[0,1].set_xlabel('Grupo Etário')
axes[0,1].set_ylabel('Número de Compras')
axes[0,1].legend(title='Grupo de Produto', bbox_to_anchor=(1.05, 1), loc='upper left')

# Gráfico 3: Distribuição de idade por tipo de produto
sns.boxplot(data=purchase_df, x='product_type', y='customer_age', ax=axes[1,0])
axes[1,0].set_title('📦 Distribuição de Idade por Tipo de Produto', fontsize=12, fontweight='bold')
axes[1,0].set_xlabel('Tipo de Produto')
axes[1,0].set_ylabel('Idade do Cliente')
axes[1,0].tick_params(axis='x', rotation=45)

# Gráfico 4: Proporções por grupo etário
age_product_pct = pd.crosstab(purchase_df['age_group'], purchase_df['product_type'], normalize='index') * 100
age_product_pct.plot(kind='bar', stacked=True, ax=axes[1,1], rot=45)
axes[1,1].set_title('📈 Proporção de Produtos por Grupo Etário (%)', fontsize=12, fontweight='bold')
axes[1,1].set_xlabel('Grupo Etário')
axes[1,1].set_ylabel('Proporção (%)')
axes[1,1].legend(title='Tipo de Produto', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.show()

print("\n🔍 Análise de Correlação Idade vs Produto:")
print(age_product_crosstab)
print("\n📊 Proporções por Grupo Etário (%):")
print(age_product_pct.round(1))

## 4. 📐 Análise Exploratória - Dataset Rent the Runway

### Pergunta 4: Como as avaliações de caimento (fit) estão distribuídas?

In [None]:
# Pergunta 4: Distribuição das avaliações de caimento
print("✅ ANÁLISE DAS AVALIAÇÕES DE CAIMENTO")
print("=" * 50)

# Criar gráficos de pizza e barras
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Gráfico de pizza
fit_counts = fit_df['fit_rating'].value_counts()
colors = ['#ff9999', '#66b3ff', '#99ff99']
axes[0].pie(fit_counts.values, labels=fit_counts.index, autopct='%1.1f%%', 
           colors=colors, startangle=90, textprops={'fontsize': 12})
axes[0].set_title('🥧 Distribuição de Avaliações de Caimento', fontsize=14, fontweight='bold')

# Gráfico de barras
sns.countplot(data=fit_df, x='fit_rating', ax=axes[1], order=['small', 'perfect', 'large'])
axes[1].set_title('📊 Contagem de Avaliações de Caimento', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Avaliação de Caimento')
axes[1].set_ylabel('Quantidade')

# Adicionar anotações nas barras
for i, v in enumerate(fit_counts.reindex(['small', 'perfect', 'large']).values):
    axes[1].text(i, v + 0.05, str(v), ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

# Estatísticas de caimento
print("\n📊 Estatísticas de Avaliação de Caimento:")
for rating in fit_counts.index:
    count = fit_counts[rating]
    percentage = (count / len(fit_df)) * 100
    print(f"   {rating.title()}: {count} avaliações ({percentage:.1f}%)")

print(f"\n✅ Total de avaliações: {len(fit_df)}")
print(f"📈 Avaliação mais comum: {fit_counts.index[0]} ({fit_counts.iloc[0]} casos)")

### Pergunta 5: Existe correlação entre o tipo de corpo (body type) e a avaliação do caimento?

In [None]:
# Pergunta 5: Correlação entre tipo de corpo e caimento
print("🏋️ ANÁLISE: TIPO DE CORPO vs CAIMENTO")
print("=" * 50)

# Criar gráficos de barras agrupados
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gráfico 1: Barras agrupadas - Tipo de corpo vs Caimento
body_fit_crosstab = pd.crosstab(fit_df['body_type'], fit_df['fit_rating'])
body_fit_crosstab.plot(kind='bar', ax=axes[0,0], rot=45)
axes[0,0].set_title('📊 Caimento por Tipo de Corpo (Contagem)', fontsize=12, fontweight='bold')
axes[0,0].set_xlabel('Tipo de Corpo')
axes[0,0].set_ylabel('Quantidade')
axes[0,0].legend(title='Avaliação de Caimento')

# Gráfico 2: Proporções por tipo de corpo
body_fit_pct = pd.crosstab(fit_df['body_type'], fit_df['fit_rating'], normalize='index') * 100
body_fit_pct.plot(kind='bar', stacked=True, ax=axes[0,1], rot=45)
axes[0,1].set_title('📈 Proporção de Caimento por Tipo de Corpo (%)', fontsize=12, fontweight='bold')
axes[0,1].set_xlabel('Tipo de Corpo')
axes[0,1].set_ylabel('Proporção (%)')
axes[0,1].legend(title='Avaliação de Caimento')

# Gráfico 3: Heatmap da correlação
sns.heatmap(body_fit_crosstab, annot=True, fmt='d', cmap='Blues', ax=axes[1,0])
axes[1,0].set_title('🔥 Heatmap: Tipo de Corpo vs Caimento', fontsize=12, fontweight='bold')
axes[1,0].set_xlabel('Avaliação de Caimento')
axes[1,0].set_ylabel('Tipo de Corpo')

# Gráfico 4: Análise por categoria de produto
category_fit_crosstab = pd.crosstab(fit_df['category'], fit_df['fit_rating'])
category_fit_crosstab.plot(kind='bar', ax=axes[1,1], rot=45)
axes[1,1].set_title('👕 Caimento por Categoria de Produto', fontsize=12, fontweight='bold')
axes[1,1].set_xlabel('Categoria')
axes[1,1].set_ylabel('Quantidade')
axes[1,1].legend(title='Avaliação de Caimento')

plt.tight_layout()
plt.show()

print("\n🔍 Tabela de Contingência: Tipo de Corpo vs Caimento")
print(body_fit_crosstab)

print("\n📊 Proporções por Tipo de Corpo (%):")
print(body_fit_pct.round(1))

print("\n🎯 Insights por Tipo de Corpo:")
for body_type in fit_df['body_type'].unique():
    subset = fit_df[fit_df['body_type'] == body_type]
    most_common_fit = subset['fit_rating'].mode()[0]
    fit_count = subset['fit_rating'].value_counts()[most_common_fit]
    total = len(subset)
    percentage = (fit_count / total) * 100
    print(f"   {body_type}: Mais comum '{most_common_fit}' ({fit_count}/{total} = {percentage:.1f}%)")

## 5. 💡 Principais Insights e Conclusões

Vamos consolidar os principais insights encontrados na análise.

In [None]:
print("💡 PRINCIPAIS INSIGHTS DA ANÁLISE")
print("=" * 60)

print("\n🛍️ INSIGHTS - PRODUTOS H&M:")
print("1. Categorias Mais Populares:")
top_products = articles_df['product_type_name'].value_counts()
for i, (product, count) in enumerate(top_products.items(), 1):
    print(f"   {i}º lugar: {product} ({count} produtos)")

print("\n2. Diversidade de Produtos:")
print(f"   - {articles_df['product_type_name'].nunique()} tipos diferentes de produto")
print(f"   - {articles_df['colour_group_name'].nunique()} grupos de cores diferentes")

print("\n👥 INSIGHTS - CLIENTES H&M:")
print("1. Perfil Etário:")
print(f"   - Idade média: {customers_df['age'].mean():.1f} anos")
print(f"   - Faixa etária: {customers_df['age'].min()}-{customers_df['age'].max()} anos")
print(f"   - Grupo etário mais comum: {customers_df['age_group'].mode()[0] if not customers_df['age_group'].empty else 'N/A'}")

print("\n📐 INSIGHTS - CAIMENTO:")
print("1. Distribuição de Caimento:")
fit_stats = fit_df['fit_rating'].value_counts()
for rating, count in fit_stats.items():
    percentage = (count / len(fit_df)) * 100
    print(f"   - {rating.title()}: {percentage:.1f}% ({count} casos)")

print("\n2. Padrões por Tipo de Corpo:")
for body_type in fit_df['body_type'].unique():
    subset = fit_df[fit_df['body_type'] == body_type]
    most_common_fit = subset['fit_rating'].mode()[0]
    print(f"   - {body_type}: Tende a avaliar como '{most_common_fit}'")

print("\n🎯 RECOMENDAÇÕES PARA O SISTEMA:")
print("1. Focar nos tipos de produto mais populares para o algoritmo inicial")
print("2. Considerar faixas etárias nas recomendações de estilo")
print("3. Usar padrões de tipo de corpo para melhorar precisão de caimento")
print("4. Implementar sistema de feedback para capturar avaliações de caimento")
print("5. Expandir dataset para incluir mais variedade de produtos e perfis")

print("\n✅ ANÁLISE EXPLORATÓRIA CONCLUÍDA!")
print("📝 Próximo passo: Atualizar README.md com estes insights")

## 6. 📊 Análise Complementar - Medidas Corporais

In [None]:
# Análise adicional das medidas corporais
print("📏 ANÁLISE DAS MEDIDAS CORPORAIS")
print("=" * 50)

# Calcular BMI
fit_df['bmi'] = fit_df['user_weight'] / ((fit_df['user_height'] / 100) ** 2)

# Criar categorias de BMI
def categorize_bmi(bmi):
    if bmi < 18.5:
        return 'Abaixo do peso'
    elif bmi < 25:
        return 'Peso normal'
    elif bmi < 30:
        return 'Sobrepeso'
    else:
        return 'Obesidade'

fit_df['bmi_category'] = fit_df['bmi'].apply(categorize_bmi)

# Visualizações das medidas corporais
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Distribuição de altura
sns.histplot(data=fit_df, x='user_height', kde=True, ax=axes[0,0])
axes[0,0].set_title('📏 Distribuição de Altura', fontsize=12, fontweight='bold')
axes[0,0].set_xlabel('Altura (cm)')

# Distribuição de peso
sns.histplot(data=fit_df, x='user_weight', kde=True, ax=axes[0,1])
axes[0,1].set_title('⚖️ Distribuição de Peso', fontsize=12, fontweight='bold')
axes[0,1].set_xlabel('Peso (kg)')

# Scatter plot altura vs peso colorido por caimento
sns.scatterplot(data=fit_df, x='user_height', y='user_weight', hue='fit_rating', s=100, ax=axes[1,0])
axes[1,0].set_title('📊 Altura vs Peso por Caimento', fontsize=12, fontweight='bold')
axes[1,0].set_xlabel('Altura (cm)')
axes[1,0].set_ylabel('Peso (kg)')

# BMI por caimento
sns.boxplot(data=fit_df, x='fit_rating', y='bmi', ax=axes[1,1])
axes[1,1].set_title('📦 BMI por Avaliação de Caimento', fontsize=12, fontweight='bold')
axes[1,1].set_xlabel('Avaliação de Caimento')
axes[1,1].set_ylabel('BMI')

plt.tight_layout()
plt.show()

print("\n📊 Estatísticas das Medidas Corporais:")
print(f"   Altura média: {fit_df['user_height'].mean():.1f} cm")
print(f"   Peso médio: {fit_df['user_weight'].mean():.1f} kg")
print(f"   BMI médio: {fit_df['bmi'].mean():.1f}")
print("\n📈 Distribuição por categoria de BMI:")
print(fit_df['bmi_category'].value_counts())