## 1. Importa√ß√£o de Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

# Configura√ß√£o do pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Bibliotecas importadas com sucesso!")

## 2. Carregamento dos Dados

In [None]:
# Carrega o dataset
data_path = Path('../datasets/mental_health.csv')
df = pd.read_csv(data_path)

print(f"üìä Dataset carregado: {df.shape[0]} linhas √ó {df.shape[1]} colunas")
df.head()

## 3. Vis√£o Geral dos Dados

In [None]:
# Informa√ß√µes gerais
print("=" * 60)
print("INFORMA√á√ïES DO DATASET")
print("=" * 60)
df.info()
print("\n" + "=" * 60)
print("ESTAT√çSTICAS DESCRITIVAS")
print("=" * 60)
df.describe()

In [None]:
# An√°lise de valores nulos
null_counts = df.isnull().sum()
null_percentage = (null_counts / len(df)) * 100

null_df = pd.DataFrame({
    'Coluna': null_counts.index,
    'Valores Nulos': null_counts.values,
    'Percentual': null_percentage.values
})
null_df = null_df[null_df['Valores Nulos'] > 0].sort_values('Valores Nulos', ascending=False)

print("\nüìã COLUNAS COM VALORES NULOS:")
print(null_df.to_string(index=False))

## 4. An√°lise de Idade (Age)

In [None]:
# Estat√≠sticas de idade
if 'Age' in df.columns:
    print("üìä ESTAT√çSTICAS DE IDADE:")
    print(f"  M√©dia: {df['Age'].mean():.1f} anos")
    print(f"  Mediana: {df['Age'].median():.1f} anos")
    print(f"  Desvio Padr√£o: {df['Age'].std():.1f}")
    print(f"  M√≠nimo: {df['Age'].min():.0f} anos")
    print(f"  M√°ximo: {df['Age'].max():.0f} anos")
    
    # Distribui√ß√£o de idade
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    # Histograma
    axes[0].hist(df['Age'].dropna(), bins=50, edgecolor='black', alpha=0.7)
    axes[0].set_title('Distribui√ß√£o de Idade', fontsize=14, fontweight='bold')
    axes[0].set_xlabel('Idade')
    axes[0].set_ylabel('Frequ√™ncia')
    axes[0].axvline(df['Age'].mean(), color='red', linestyle='--', label=f'M√©dia: {df["Age"].mean():.1f}')
    axes[0].legend()
    
    # Boxplot
    axes[1].boxplot(df['Age'].dropna(), vert=True)
    axes[1].set_title('Boxplot de Idade', fontsize=14, fontweight='bold')
    axes[1].set_ylabel('Idade')
    
    plt.tight_layout()
    plt.show()
    
    # Identifica√ß√£o de outliers
    outliers_count = ((df['Age'] < 18) | (df['Age'] > 100)).sum()
    print(f"\n‚ö†Ô∏è Outliers detectados (idade < 18 ou > 100): {outliers_count} registros")

## 5. An√°lise de G√™nero (Gender)

In [None]:
# Distribui√ß√£o de g√™nero (valores originais)
if 'Gender' in df.columns:
    print("üë• DISTRIBUI√á√ÉO DE G√äNERO (Top 15 valores mais frequentes):")
    gender_counts = df['Gender'].value_counts().head(15)
    print(gender_counts)
    
    print(f"\nüìä Total de valores √∫nicos: {df['Gender'].nunique()}")
    
    # Visualiza√ß√£o
    plt.figure(figsize=(12, 6))
    gender_counts.plot(kind='bar', edgecolor='black', alpha=0.7)
    plt.title('Top 15 Valores de G√™nero Mais Frequentes', fontsize=14, fontweight='bold')
    plt.xlabel('G√™nero')
    plt.ylabel('Frequ√™ncia')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()

## 6. An√°lise de Tratamento (Treatment)

In [None]:
# An√°lise de busca por tratamento
if 'treatment' in df.columns:
    treatment_counts = df['treatment'].value_counts()
    treatment_pct = (treatment_counts / len(df)) * 100
    
    print("üè• BUSCA POR TRATAMENTO DE SA√öDE MENTAL:")
    for value, count in treatment_counts.items():
        pct = (count / len(df)) * 100
        print(f"  {value}: {count} ({pct:.1f}%)")
    
    # Gr√°fico de pizza
    plt.figure(figsize=(8, 8))
    plt.pie(treatment_counts, labels=treatment_counts.index, autopct='%1.1f%%', 
            startangle=90, explode=[0.05, 0])
    plt.title('Distribui√ß√£o de Busca por Tratamento', fontsize=14, fontweight='bold')
    plt.axis('equal')
    plt.show()

## 7. An√°lise por Pa√≠s (Country)

In [None]:
# Top 10 pa√≠ses
if 'Country' in df.columns:
    country_counts = df['Country'].value_counts().head(10)
    
    print("üåç TOP 10 PA√çSES:")
    print(country_counts)
    
    # Visualiza√ß√£o
    plt.figure(figsize=(12, 6))
    country_counts.plot(kind='barh', edgecolor='black', alpha=0.7)
    plt.title('Top 10 Pa√≠ses com Mais Respondentes', fontsize=14, fontweight='bold')
    plt.xlabel('N√∫mero de Respondentes')
    plt.ylabel('Pa√≠s')
    plt.tight_layout()
    plt.show()

## 8. An√°lise de Trabalho Remoto (remote_work)

In [None]:
# Trabalho remoto vs Tratamento
if 'remote_work' in df.columns and 'treatment' in df.columns:
    remote_treatment = pd.crosstab(df['remote_work'], df['treatment'], normalize='index') * 100
    
    print("üíº TRABALHO REMOTO vs BUSCA POR TRATAMENTO (%)")
    print(remote_treatment)
    
    # Visualiza√ß√£o
    remote_treatment.plot(kind='bar', figsize=(10, 6), edgecolor='black', alpha=0.7)
    plt.title('Busca por Tratamento por Modalidade de Trabalho', fontsize=14, fontweight='bold')
    plt.xlabel('Trabalho Remoto')
    plt.ylabel('Percentual (%)')
    plt.xticks(rotation=0)
    plt.legend(title='Tratamento', labels=['N√£o', 'Sim'])
    plt.tight_layout()
    plt.show()

## 9. Correla√ß√£o entre Vari√°veis Num√©ricas

In [None]:
# Matriz de correla√ß√£o para colunas num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns

if len(numeric_cols) > 1:
    correlation = df[numeric_cols].corr()
    
    plt.figure(figsize=(10, 8))
    sns.heatmap(correlation, annot=True, fmt='.2f', cmap='coolwarm', 
                square=True, linewidths=0.5, center=0)
    plt.title('Matriz de Correla√ß√£o', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

## 10. Insights e Conclus√µes

In [None]:
print("="*70)
print("üìä RESUMO DA AN√ÅLISE EXPLORAT√ìRIA")
print("="*70)
print(f"\n1. TAMANHO DO DATASET:")
print(f"   - Total de registros: {len(df):,}")
print(f"   - Total de colunas: {df.shape[1]}")

if 'Age' in df.columns:
    print(f"\n2. PERFIL DEMOGR√ÅFICO:")
    print(f"   - Idade m√©dia: {df['Age'].mean():.1f} anos")
    print(f"   - Faixa et√°ria: {df['Age'].min():.0f} - {df['Age'].max():.0f} anos")

if 'treatment' in df.columns:
    treatment_yes = (df['treatment'] == 'Yes').sum()
    treatment_pct = (treatment_yes / len(df)) * 100
    print(f"\n3. SA√öDE MENTAL:")
    print(f"   - Buscaram tratamento: {treatment_pct:.1f}%")

if 'Country' in df.columns:
    print(f"\n4. DISTRIBUI√á√ÉO GEOGR√ÅFICA:")
    print(f"   - Pa√≠ses representados: {df['Country'].nunique()}")
    print(f"   - Pa√≠s mais representado: {df['Country'].value_counts().index[0]}")

print(f"\n5. QUALIDADE DOS DADOS:")
missing = df.isnull().sum().sum()
missing_pct = (missing / (len(df) * df.shape[1])) * 100
print(f"   - Valores faltantes: {missing:,} ({missing_pct:.2f}% do total)")

print("\n" + "="*70)
print("‚úÖ An√°lise explorat√≥ria conclu√≠da!")
print("="*70)