# üìä Consultor de Estilo Virtual - An√°lise Explorat√≥ria de Dados (EDA)

Esta an√°lise segue as diretrizes espec√≠ficas do mentor para uma an√°lise explorat√≥ria focada nos principais insights do projeto.

## üéØ Objetivos da An√°lise
1. **Aprofundar a Limpeza e Prepara√ß√£o dos Dados**
2. **An√°lise Explorat√≥ria (EDA)** - Responder √†s perguntas espec√≠ficas de neg√≥cio
3. **Gerar Insights** para o sistema de recomenda√ß√£o de tamanhos

## üìã Perguntas de Neg√≥cio
### Dataset H&M (Produtos e Clientes):
- **Pergunta 1**: Quais s√£o as categorias de produtos mais vendidas?
- **Pergunta 2**: Qual a distribui√ß√£o de idade dos clientes?
- **Pergunta 3**: Existe alguma rela√ß√£o entre a idade do cliente e o tipo de produto que ele compra?

### Dataset Rent the Runway (Molde de Caimento):
- **Pergunta 4**: Como as avalia√ß√µes de caimento (fit) est√£o distribu√≠das?
- **Pergunta 5**: Existe correla√ß√£o entre o tipo de corpo (body type) e a avalia√ß√£o do caimento?

## 1. üì¶ Importa√ß√£o de Bibliotecas e Configura√ß√µes

In [None]:
# Importar bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configurar tamanhos de plot
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("üì¶ Bibliotecas carregadas com sucesso!")
print("üé® Configura√ß√µes de visualiza√ß√£o aplicadas!")

## 2. üìä Carregamento e Inspe√ß√£o dos Dados

In [None]:
# Carregar datasets
print("üì• Carregando datasets...")

articles_df = pd.read_csv('../../data/raw/hm/articles_sample.csv')
customers_df = pd.read_csv('../../data/raw/hm/customers_sample.csv')
fit_df = pd.read_csv('../../data/raw/rent_runway/fit_data_sample.csv')

print(f"‚úÖ Dataset H&M Artigos: {len(articles_df)} registros")
print(f"‚úÖ Dataset H&M Clientes: {len(customers_df)} registros")
print(f"‚úÖ Dataset Caimento: {len(fit_df)} registros")

### 2.1 Inspe√ß√£o dos Tipos de Dados (df.info())

In [None]:
print("üîç INSPE√á√ÉO DOS TIPOS DE DADOS")
print("=" * 50)

print("\nüìã H&M Artigos - Informa√ß√µes dos Dados:")
print(articles_df.info())
print("\nPrimeiros registros:")
print(articles_df.head())

print("\n" + "="*50)
print("\nüë• H&M Clientes - Informa√ß√µes dos Dados:")
print(customers_df.info())
print("\nPrimeiros registros:")
print(customers_df.head())

print("\n" + "="*50)
print("\nüìê Dados de Caimento - Informa√ß√µes dos Dados:")
print(fit_df.info())
print("\nPrimeiros registros:")
print(fit_df.head())

### 2.2 Verifica√ß√£o de Dados Faltantes (df.isnull().sum())

In [None]:
print("üîç VERIFICA√á√ÉO DE DADOS FALTANTES")
print("=" * 50)

print("\nüìã H&M Artigos - Dados Faltantes:")
missing_articles = articles_df.isnull().sum()
print(missing_articles[missing_articles > 0] if missing_articles.sum() > 0 else "‚úÖ Nenhum dado faltante!")

print("\nüë• H&M Clientes - Dados Faltantes:")
missing_customers = customers_df.isnull().sum()
print(missing_customers[missing_customers > 0] if missing_customers.sum() > 0 else "‚úÖ Nenhum dado faltante!")

print("\nüìê Dados de Caimento - Dados Faltantes:")
missing_fit = fit_df.isnull().sum()
print(missing_fit[missing_fit > 0] if missing_fit.sum() > 0 else "‚úÖ Nenhum dado faltante!")

### 2.3 An√°lise Estat√≠stica Inicial (df.describe())

In [None]:
print("üìä AN√ÅLISE ESTAT√çSTICA INICIAL")
print("=" * 50)

print("\nüë• H&M Clientes - Estat√≠sticas Descritivas:")
print(customers_df.describe())

print("\nüìê Dados de Caimento - Estat√≠sticas Descritivas:")
print(fit_df.describe())

## 3. üìä An√°lise Explorat√≥ria (EDA) - Dataset H&M

### Pergunta 1: Quais s√£o as categorias de produtos mais vendidas?

In [None]:
# Pergunta 1: Categorias de produtos mais vendidas
print("üõçÔ∏è AN√ÅLISE DAS CATEGORIAS DE PRODUTOS")
print("=" * 50)

# Criar gr√°fico de barras usando countplot do Seaborn
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico 1: Tipos de produto
sns.countplot(data=articles_df, y='product_type_name', ax=axes[0], order=articles_df['product_type_name'].value_counts().index)
axes[0].set_title('üìä Categorias de Produtos Mais Populares', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Quantidade')
axes[0].set_ylabel('Tipo de Produto')

# Gr√°fico 2: Grupos de produto
sns.countplot(data=articles_df, y='product_group_name', ax=axes[1], order=articles_df['product_group_name'].value_counts().index)
axes[1].set_title('üëï Grupos de Produtos', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Quantidade')
axes[1].set_ylabel('Grupo de Produto')

plt.tight_layout()
plt.show()

# Mostrar estat√≠sticas
print("\nüìà Estat√≠sticas de Categorias:")
print(f"   Tipos de produto √∫nicos: {articles_df['product_type_name'].nunique()}")
print(f"   Grupos de produto √∫nicos: {articles_df['product_group_name'].nunique()}")
print("\nüèÜ Top categorias por tipo:")
print(articles_df['product_type_name'].value_counts())
print("\nüèÜ Top categorias por grupo:")
print(articles_df['product_group_name'].value_counts())

### Pergunta 2: Qual a distribui√ß√£o de idade dos clientes?

In [None]:
# Pergunta 2: Distribui√ß√£o de idade dos clientes
print("üë• AN√ÅLISE DA DISTRIBUI√á√ÉO DE IDADES")
print("=" * 50)

# Criar histograma usando histplot do Seaborn
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Histograma
sns.histplot(data=customers_df, x='age', bins=8, kde=True, ax=axes[0])
axes[0].set_title('üìä Distribui√ß√£o de Idades dos Clientes', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Idade (anos)')
axes[0].set_ylabel('Frequ√™ncia')

# Box plot para complementar
sns.boxplot(data=customers_df, x='age', ax=axes[1])
axes[1].set_title('üì¶ Box Plot - Distribui√ß√£o de Idades', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Idade (anos)')

plt.tight_layout()
plt.show()

# Estat√≠sticas de idade
print("\nüìä Estat√≠sticas de Idade:")
print(f"   Idade m√©dia: {customers_df['age'].mean():.1f} anos")
print(f"   Idade mediana: {customers_df['age'].median():.1f} anos")
print(f"   Desvio padr√£o: {customers_df['age'].std():.1f} anos")
print(f"   Faixa et√°ria: {customers_df['age'].min():.0f} - {customers_df['age'].max():.0f} anos")

# Criar grupos et√°rios para an√°lise
customers_df['age_group'] = pd.cut(customers_df['age'], 
                                 bins=[0, 30, 40, 50, 100], 
                                 labels=['18-30', '31-40', '41-50', '50+'])
print("\nüéØ Distribui√ß√£o por Grupo Et√°rio:")
print(customers_df['age_group'].value_counts())

### Pergunta 3: Existe rela√ß√£o entre a idade do cliente e o tipo de produto que ele compra?

In [None]:
# Pergunta 3: Rela√ß√£o entre idade e tipo de produto
print("üîó AN√ÅLISE: IDADE vs TIPO DE PRODUTO")
print("=" * 50)

# Para esta an√°lise, vamos simular uma rela√ß√£o baseada nos dados dispon√≠veis
# Criar um dataset combinado simulando compras
np.random.seed(42)
purchase_data = []

for _, customer in customers_df.iterrows():
    # Simular que cada cliente comprou alguns produtos
    n_purchases = np.random.randint(1, 3)
    for _ in range(n_purchases):
        product = articles_df.sample(1).iloc[0]
        purchase_data.append({
            'customer_age': customer['age'],
            'age_group': customer['age_group'],
            'product_type': product['product_type_name'],
            'product_group': product['product_group_name']
        })

purchase_df = pd.DataFrame(purchase_data)

# Criar visualiza√ß√µes
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Heatmap - Grupo et√°rio vs Tipo de produto
age_product_crosstab = pd.crosstab(purchase_df['age_group'], purchase_df['product_type'])
sns.heatmap(age_product_crosstab, annot=True, fmt='d', cmap='Blues', ax=axes[0,0])
axes[0,0].set_title('üî• Heatmap: Grupo Et√°rio vs Tipo de Produto', fontsize=12, fontweight='bold')
axes[0,0].set_xlabel('Tipo de Produto')
axes[0,0].set_ylabel('Grupo Et√°rio')

# Gr√°fico 2: Barras agrupadas - Grupo et√°rio vs Grupo de produto
age_group_crosstab = pd.crosstab(purchase_df['age_group'], purchase_df['product_group'])
age_group_crosstab.plot(kind='bar', ax=axes[0,1], rot=45)
axes[0,1].set_title('üìä Compras por Grupo Et√°rio e Categoria', fontsize=12, fontweight='bold')
axes[0,1].set_xlabel('Grupo Et√°rio')
axes[0,1].set_ylabel('N√∫mero de Compras')
axes[0,1].legend(title='Grupo de Produto', bbox_to_anchor=(1.05, 1), loc='upper left')

# Gr√°fico 3: Distribui√ß√£o de idade por tipo de produto
sns.boxplot(data=purchase_df, x='product_type', y='customer_age', ax=axes[1,0])
axes[1,0].set_title('üì¶ Distribui√ß√£o de Idade por Tipo de Produto', fontsize=12, fontweight='bold')
axes[1,0].set_xlabel('Tipo de Produto')
axes[1,0].set_ylabel('Idade do Cliente')
axes[1,0].tick_params(axis='x', rotation=45)

# Gr√°fico 4: Propor√ß√µes por grupo et√°rio
age_product_pct = pd.crosstab(purchase_df['age_group'], purchase_df['product_type'], normalize='index') * 100
age_product_pct.plot(kind='bar', stacked=True, ax=axes[1,1], rot=45)
axes[1,1].set_title('üìà Propor√ß√£o de Produtos por Grupo Et√°rio (%)', fontsize=12, fontweight='bold')
axes[1,1].set_xlabel('Grupo Et√°rio')
axes[1,1].set_ylabel('Propor√ß√£o (%)')
axes[1,1].legend(title='Tipo de Produto', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout()
plt.show()

print("\nüîç An√°lise de Correla√ß√£o Idade vs Produto:")
print(age_product_crosstab)
print("\nüìä Propor√ß√µes por Grupo Et√°rio (%):")
print(age_product_pct.round(1))

## 4. üìê An√°lise Explorat√≥ria - Dataset Rent the Runway

### Pergunta 4: Como as avalia√ß√µes de caimento (fit) est√£o distribu√≠das?

In [None]:
# Pergunta 4: Distribui√ß√£o das avalia√ß√µes de caimento
print("‚úÖ AN√ÅLISE DAS AVALIA√á√ïES DE CAIMENTO")
print("=" * 50)

# Criar gr√°ficos de pizza e barras
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico de pizza
fit_counts = fit_df['fit_rating'].value_counts()
colors = ['#ff9999', '#66b3ff', '#99ff99']
axes[0].pie(fit_counts.values, labels=fit_counts.index, autopct='%1.1f%%', 
           colors=colors, startangle=90, textprops={'fontsize': 12})
axes[0].set_title('ü•ß Distribui√ß√£o de Avalia√ß√µes de Caimento', fontsize=14, fontweight='bold')

# Gr√°fico de barras
sns.countplot(data=fit_df, x='fit_rating', ax=axes[1], order=['small', 'perfect', 'large'])
axes[1].set_title('üìä Contagem de Avalia√ß√µes de Caimento', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Avalia√ß√£o de Caimento')
axes[1].set_ylabel('Quantidade')

# Adicionar anota√ß√µes nas barras
for i, v in enumerate(fit_counts.reindex(['small', 'perfect', 'large']).values):
    axes[1].text(i, v + 0.05, str(v), ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

# Estat√≠sticas de caimento
print("\nüìä Estat√≠sticas de Avalia√ß√£o de Caimento:")
for rating in fit_counts.index:
    count = fit_counts[rating]
    percentage = (count / len(fit_df)) * 100
    print(f"   {rating.title()}: {count} avalia√ß√µes ({percentage:.1f}%)")

print(f"\n‚úÖ Total de avalia√ß√µes: {len(fit_df)}")
print(f"üìà Avalia√ß√£o mais comum: {fit_counts.index[0]} ({fit_counts.iloc[0]} casos)")

### Pergunta 5: Existe correla√ß√£o entre o tipo de corpo (body type) e a avalia√ß√£o do caimento?

In [None]:
# Pergunta 5: Correla√ß√£o entre tipo de corpo e caimento
print("üèãÔ∏è AN√ÅLISE: TIPO DE CORPO vs CAIMENTO")
print("=" * 50)

# Criar gr√°ficos de barras agrupados
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Barras agrupadas - Tipo de corpo vs Caimento
body_fit_crosstab = pd.crosstab(fit_df['body_type'], fit_df['fit_rating'])
body_fit_crosstab.plot(kind='bar', ax=axes[0,0], rot=45)
axes[0,0].set_title('üìä Caimento por Tipo de Corpo (Contagem)', fontsize=12, fontweight='bold')
axes[0,0].set_xlabel('Tipo de Corpo')
axes[0,0].set_ylabel('Quantidade')
axes[0,0].legend(title='Avalia√ß√£o de Caimento')

# Gr√°fico 2: Propor√ß√µes por tipo de corpo
body_fit_pct = pd.crosstab(fit_df['body_type'], fit_df['fit_rating'], normalize='index') * 100
body_fit_pct.plot(kind='bar', stacked=True, ax=axes[0,1], rot=45)
axes[0,1].set_title('üìà Propor√ß√£o de Caimento por Tipo de Corpo (%)', fontsize=12, fontweight='bold')
axes[0,1].set_xlabel('Tipo de Corpo')
axes[0,1].set_ylabel('Propor√ß√£o (%)')
axes[0,1].legend(title='Avalia√ß√£o de Caimento')

# Gr√°fico 3: Heatmap da correla√ß√£o
sns.heatmap(body_fit_crosstab, annot=True, fmt='d', cmap='Blues', ax=axes[1,0])
axes[1,0].set_title('üî• Heatmap: Tipo de Corpo vs Caimento', fontsize=12, fontweight='bold')
axes[1,0].set_xlabel('Avalia√ß√£o de Caimento')
axes[1,0].set_ylabel('Tipo de Corpo')

# Gr√°fico 4: An√°lise por categoria de produto
category_fit_crosstab = pd.crosstab(fit_df['category'], fit_df['fit_rating'])
category_fit_crosstab.plot(kind='bar', ax=axes[1,1], rot=45)
axes[1,1].set_title('üëï Caimento por Categoria de Produto', fontsize=12, fontweight='bold')
axes[1,1].set_xlabel('Categoria')
axes[1,1].set_ylabel('Quantidade')
axes[1,1].legend(title='Avalia√ß√£o de Caimento')

plt.tight_layout()
plt.show()

print("\nüîç Tabela de Conting√™ncia: Tipo de Corpo vs Caimento")
print(body_fit_crosstab)

print("\nüìä Propor√ß√µes por Tipo de Corpo (%):")
print(body_fit_pct.round(1))

print("\nüéØ Insights por Tipo de Corpo:")
for body_type in fit_df['body_type'].unique():
    subset = fit_df[fit_df['body_type'] == body_type]
    most_common_fit = subset['fit_rating'].mode()[0]
    fit_count = subset['fit_rating'].value_counts()[most_common_fit]
    total = len(subset)
    percentage = (fit_count / total) * 100
    print(f"   {body_type}: Mais comum '{most_common_fit}' ({fit_count}/{total} = {percentage:.1f}%)")

## 5. üí° Principais Insights e Conclus√µes

Vamos consolidar os principais insights encontrados na an√°lise.

In [None]:
print("üí° PRINCIPAIS INSIGHTS DA AN√ÅLISE")
print("=" * 60)

print("\nüõçÔ∏è INSIGHTS - PRODUTOS H&M:")
print("1. Categorias Mais Populares:")
top_products = articles_df['product_type_name'].value_counts()
for i, (product, count) in enumerate(top_products.items(), 1):
    print(f"   {i}¬∫ lugar: {product} ({count} produtos)")

print("\n2. Diversidade de Produtos:")
print(f"   - {articles_df['product_type_name'].nunique()} tipos diferentes de produto")
print(f"   - {articles_df['colour_group_name'].nunique()} grupos de cores diferentes")

print("\nüë• INSIGHTS - CLIENTES H&M:")
print("1. Perfil Et√°rio:")
print(f"   - Idade m√©dia: {customers_df['age'].mean():.1f} anos")
print(f"   - Faixa et√°ria: {customers_df['age'].min()}-{customers_df['age'].max()} anos")
print(f"   - Grupo et√°rio mais comum: {customers_df['age_group'].mode()[0] if not customers_df['age_group'].empty else 'N/A'}")

print("\nüìê INSIGHTS - CAIMENTO:")
print("1. Distribui√ß√£o de Caimento:")
fit_stats = fit_df['fit_rating'].value_counts()
for rating, count in fit_stats.items():
    percentage = (count / len(fit_df)) * 100
    print(f"   - {rating.title()}: {percentage:.1f}% ({count} casos)")

print("\n2. Padr√µes por Tipo de Corpo:")
for body_type in fit_df['body_type'].unique():
    subset = fit_df[fit_df['body_type'] == body_type]
    most_common_fit = subset['fit_rating'].mode()[0]
    print(f"   - {body_type}: Tende a avaliar como '{most_common_fit}'")

print("\nüéØ RECOMENDA√á√ïES PARA O SISTEMA:")
print("1. Focar nos tipos de produto mais populares para o algoritmo inicial")
print("2. Considerar faixas et√°rias nas recomenda√ß√µes de estilo")
print("3. Usar padr√µes de tipo de corpo para melhorar precis√£o de caimento")
print("4. Implementar sistema de feedback para capturar avalia√ß√µes de caimento")
print("5. Expandir dataset para incluir mais variedade de produtos e perfis")

print("\n‚úÖ AN√ÅLISE EXPLORAT√ìRIA CONCLU√çDA!")
print("üìù Pr√≥ximo passo: Atualizar README.md com estes insights")

## 6. üìä An√°lise Complementar - Medidas Corporais

In [None]:
# An√°lise adicional das medidas corporais
print("üìè AN√ÅLISE DAS MEDIDAS CORPORAIS")
print("=" * 50)

# Calcular BMI
fit_df['bmi'] = fit_df['user_weight'] / ((fit_df['user_height'] / 100) ** 2)

# Criar categorias de BMI
def categorize_bmi(bmi):
    if bmi < 18.5:
        return 'Abaixo do peso'
    elif bmi < 25:
        return 'Peso normal'
    elif bmi < 30:
        return 'Sobrepeso'
    else:
        return 'Obesidade'

fit_df['bmi_category'] = fit_df['bmi'].apply(categorize_bmi)

# Visualiza√ß√µes das medidas corporais
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Distribui√ß√£o de altura
sns.histplot(data=fit_df, x='user_height', kde=True, ax=axes[0,0])
axes[0,0].set_title('üìè Distribui√ß√£o de Altura', fontsize=12, fontweight='bold')
axes[0,0].set_xlabel('Altura (cm)')

# Distribui√ß√£o de peso
sns.histplot(data=fit_df, x='user_weight', kde=True, ax=axes[0,1])
axes[0,1].set_title('‚öñÔ∏è Distribui√ß√£o de Peso', fontsize=12, fontweight='bold')
axes[0,1].set_xlabel('Peso (kg)')

# Scatter plot altura vs peso colorido por caimento
sns.scatterplot(data=fit_df, x='user_height', y='user_weight', hue='fit_rating', s=100, ax=axes[1,0])
axes[1,0].set_title('üìä Altura vs Peso por Caimento', fontsize=12, fontweight='bold')
axes[1,0].set_xlabel('Altura (cm)')
axes[1,0].set_ylabel('Peso (kg)')

# BMI por caimento
sns.boxplot(data=fit_df, x='fit_rating', y='bmi', ax=axes[1,1])
axes[1,1].set_title('üì¶ BMI por Avalia√ß√£o de Caimento', fontsize=12, fontweight='bold')
axes[1,1].set_xlabel('Avalia√ß√£o de Caimento')
axes[1,1].set_ylabel('BMI')

plt.tight_layout()
plt.show()

print("\nüìä Estat√≠sticas das Medidas Corporais:")
print(f"   Altura m√©dia: {fit_df['user_height'].mean():.1f} cm")
print(f"   Peso m√©dio: {fit_df['user_weight'].mean():.1f} kg")
print(f"   BMI m√©dio: {fit_df['bmi'].mean():.1f}")
print("\nüìà Distribui√ß√£o por categoria de BMI:")
print(fit_df['bmi_category'].value_counts())