# 🚀 Análise Avançada do Mercado de Trabalho em Portugal

Este notebook realiza uma análise completa das ofertas de emprego usando modelos da Hugging Face e técnicas avançadas de NLP.

## 📊 Funcionalidades:
- Extração inteligente de skills usando NER
- Classificação automática de tipos de emprego
- Análise de sentimento das ofertas
- Topic modeling para descobrir tendências
- Clustering de skills similares
- Visualizações interativas
- Recomendações personalizadas

In [None]:
# Instalação de dependências (execute apenas uma vez)
!pip install transformers torch pandas numpy matplotlib seaborn plotly wordcloud
!pip install scikit-learn networkx sentence-transformers

In [None]:
# Imports
import warnings
warnings.filterwarnings('ignore')

from job_analyzer import JobAnalyzer
from visualization_engine import VisualizationEngine
from trend_analyzer import TrendAnalyzer

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("✅ Imports realizados com sucesso!")

## 🔧 1. Inicialização e Carregamento de Dados

In [None]:
# Inicializar o analisador
print("🔄 Inicializando JobAnalyzer...")
analyzer = JobAnalyzer('expresso_empregos + pequeno.csv')

print(f"📊 Dados carregados: {len(analyzer.df)} ofertas de emprego")
print(f"📅 Período: {analyzer.df['post_date'].min()} a {analyzer.df['post_date'].max()}")

# Visualizar amostra dos dados
print("\n🔍 Amostra dos dados:")
analyzer.df[['title', 'location', 'recruiter']].head()

## 🧹 2. Preprocessamento dos Dados

In [None]:
# Limpar e preprocessar dados
print("🧹 Executando preprocessamento...")
processed_data = analyzer.clean_and_preprocess()

print(f"✅ Preprocessamento concluído!")
print(f"📊 Dados finais: {len(processed_data)} ofertas")
print(f"📝 Média de palavras por oferta: {processed_data['word_count'].mean():.0f}")
print(f"📏 Média de caracteres por oferta: {processed_data['text_length'].mean():.0f}")

## 🎯 3. Extração de Skills com Hugging Face

In [None]:
# Extrair skills usando modelos HF
print("🎯 Extraindo skills com modelos da Hugging Face...")
skills_by_job = analyzer.extract_skills_with_hf()

# Estatísticas das skills
total_skills = len(analyzer.all_skills)
unique_skills = len(set(analyzer.all_skills))
avg_skills_per_job = np.mean([len(skills) for skills in skills_by_job.values()])

print(f"✅ Extração concluída!")
print(f"🔍 Total de skills encontradas: {total_skills}")
print(f"🎯 Skills únicas: {unique_skills}")
print(f"📊 Média de skills por oferta: {avg_skills_per_job:.1f}")

# Top 15 skills mais procuradas
from collections import Counter
skill_counts = Counter(analyzer.all_skills)
print("\n🏆 Top 15 Skills Mais Procuradas:")
for i, (skill, count) in enumerate(skill_counts.most_common(15), 1):
    print(f"{i:2d}. {skill:<25} ({count} menções)")

## 🏢 4. Classificação de Tipos de Emprego

In [None]:
# Classificar tipos de emprego
print("🏢 Classificando tipos de emprego...")
job_categories = analyzer.classify_job_types_with_hf()

# Estatísticas das categorias
category_counts = Counter(job_categories.values())

print(f"✅ Classificação concluída!")
print(f"📊 Categorias identificadas: {len(category_counts)}")

print("\n📈 Distribuição por Categoria:")
for category, count in category_counts.most_common():
    percentage = (count / len(job_categories)) * 100
    print(f"{category:<20} {count:3d} ofertas ({percentage:5.1f}%)")

## 🗺️ 5. Análise Geográfica

In [None]:
# Analisar distribuição geográfica
print("🗺️ Analisando distribuição geográfica...")
location_data = analyzer.analyze_locations()

print(f"✅ Análise geográfica concluída!")
print(f"🏙️ Cidades com ofertas: {location_data['total_locations']}")

print("\n🏆 Top 10 Cidades:")
for i, (city, count) in enumerate(list(location_data['top_locations'].items())[:10], 1):
    percentage = (count / len(analyzer.df)) * 100
    print(f"{i:2d}. {city:<20} {count:3d} ofertas ({percentage:5.1f}%)")

## 🧠 6. Análise de Embeddings e Clustering

In [None]:
# Gerar embeddings para skills
print("🧠 Gerando embeddings para skills...")
skill_embeddings = analyzer.generate_embeddings_for_skills()

if len(skill_embeddings) > 0:
    print(f"✅ Embeddings gerados para {len(skill_embeddings)} skills")
    
    # Executar clustering
    print("🔄 Executando clustering de skills...")
    skill_clusters = analyzer.cluster_skills(n_clusters=6)
    
    print(f"✅ Clustering concluído! {len(skill_clusters)} clusters criados")
    
    print("\n🎯 Clusters de Skills:")
    for cluster_id, skills in skill_clusters.items():
        print(f"\nCluster {cluster_id + 1}: {', '.join(skills[:8])}")
        if len(skills) > 8:
            print(f"           ... e mais {len(skills) - 8} skills")
else:
    print("⚠️ Não foi possível gerar embeddings suficientes")
    skill_clusters = {}

## 📊 7. Skills por Categoria de Emprego

In [None]:
# Analisar skills por categoria
print("📊 Analisando skills por categoria de emprego...")
category_skills = analyzer.get_top_skills_by_category()

print(f"✅ Análise concluída para {len(category_skills)} categorias")

print("\n🎯 Top Skills por Categoria:")
for category, skills in category_skills.items():
    if skills:
        print(f"\n{category}:")
        for i, (skill, count) in enumerate(skills[:5], 1):
            print(f"  {i}. {skill} ({count} menções)")
    else:
        print(f"\n{category}: Sem dados suficientes")

## 📈 8. Análise de Tendências Avançada

In [None]:
# Inicializar analisador de tendências
print("📈 Inicializando análise de tendências...")
trend_analyzer = TrendAnalyzer(analyzer)

# Analisar complexidade dos requisitos
print("🔍 Analisando complexidade dos requisitos...")
complexity_analysis = trend_analyzer.analyze_job_requirements_complexity()

print(f"✅ Análise de complexidade concluída!")
print(f"📊 Score médio de complexidade: {complexity_analysis['avg_complexity']:.1f}")

print("\n👔 Distribuição por Nível de Experiência:")
for level, count in complexity_analysis['experience_distribution'].items():
    percentage = (count / len(analyzer.df)) * 100
    print(f"{level:<15} {count:3d} ofertas ({percentage:5.1f}%)")

print("\n🎓 Distribuição por Nível Educacional:")
for level, count in complexity_analysis['education_distribution'].items():
    percentage = (count / len(analyzer.df)) * 100
    print(f"{level:<15} {count:3d} ofertas ({percentage:5.1f}%)")

In [None]:
# Detectar skills emergentes
print("🚀 Detectando skills emergentes...")
emerging_analysis = trend_analyzer.detect_emerging_skills()

print(f"✅ Análise de skills emergentes concluída!")

if emerging_analysis.get('emerging_skills'):
    print("\n🌟 Skills Emergentes:")
    for skill, count in emerging_analysis['emerging_skills'][:10]:
        print(f"• {skill} ({count} menções)")

if emerging_analysis.get('top_skill_combinations'):
    print("\n🔗 Combinações de Skills Mais Comuns:")
    for skill1, skill2, count in emerging_analysis['top_skill_combinations'][:8]:
        print(f"• {skill1} + {skill2} ({count} co-ocorrências)")

In [None]:
# Análise de saturação do mercado
print("📊 Analisando saturação do mercado...")
saturation_analysis = trend_analyzer.analyze_market_saturation()

print(f"✅ Análise de saturação concluída!")

print("\n📈 Saturação por Categoria:")
for category, data in saturation_analysis['category_saturation'].items():
    print(f"{category:<20} {data['percentage']:5.1f}% - {data['saturation_level']}")

print("\n🏙️ Saturação por Localização:")
for location, data in list(saturation_analysis['location_saturation'].items())[:8]:
    print(f"{location:<20} {data['percentage']:5.1f}% - {data['saturation_level']}")

concentration = saturation_analysis['market_concentration']
print(f"\n🎯 Concentração do Mercado:")
print(f"• Principal categoria: {concentration['top_category_share']:.1f}% do mercado")
print(f"• Principal localização: {concentration['top_location_share']:.1f}% do mercado")

## 🎨 9. Visualizações

In [None]:
# Inicializar engine de visualização
print("🎨 Inicializando visualizações...")
viz_engine = VisualizationEngine()

# Visualizar distribuição geográfica
print("🗺️ Criando visualização geográfica...")
viz_engine.plot_location_distribution(location_data)

In [None]:
# Visualizar categorias de emprego
print("💼 Criando visualização de categorias...")
viz_engine.plot_job_categories(job_categories)

In [None]:
# Visualizar skills por categoria
print("🎯 Criando visualização de skills por categoria...")
viz_engine.plot_skills_by_category(category_skills)

In [None]:
# Visualizar clusters de skills
if skill_clusters:
    print("🧠 Criando visualização de clusters...")
    viz_engine.plot_skill_clusters(skill_clusters)
else:
    print("⚠️ Sem clusters para visualizar")

In [None]:
# Criar wordcloud das skills
print("☁️ Criando wordcloud das skills...")
viz_engine.create_skills_wordcloud(analyzer.all_skills)

## 📱 10. Dashboard Interativo

In [None]:
# Criar dashboard interativo
print("📱 Criando dashboard interativo...")
viz_engine.create_interactive_dashboard(analyzer)

## 🤖 11. Análises Avançadas com HuggingFace

In [None]:
# Topic modeling
print("📚 Executando topic modeling...")
topics_analysis = trend_analyzer.topic_modeling_jobs(n_topics=6)

if topics_analysis:
    print(f"✅ Topic modeling concluído!")
    print(f"📊 {len(topics_analysis['topics'])} tópicos identificados")
    print(f"📄 {topics_analysis['n_documents']} documentos analisados")
    
    print("\n📚 Tópicos Descobertos:")
    for topic_name, topic_data in topics_analysis['topics'].items():
        words = ', '.join(topic_data['words'][:6])
        print(f"{topic_name}: {words}")
    
    print("\n📈 Distribuição dos Tópicos:")
    for topic, count in topics_analysis['topic_distribution'].most_common():
        percentage = (count / topics_analysis['n_documents']) * 100
        print(f"{topic}: {count} documentos ({percentage:.1f}%)")
else:
    print("⚠️ Topic modeling não foi executado devido a dados insuficientes")

In [None]:
# Análise de sentimento
print("😊 Executando análise de sentimento...")
sentiment_analysis = trend_analyzer.analyze_job_posting_sentiment()

print(f"✅ Análise de sentimento concluída!")
print(f"📊 Score médio de sentimento: {sentiment_analysis['avg_sentiment_score']:.3f}")

print("\n😊 Distribuição Geral de Sentimento:")
for sentiment, count in sentiment_analysis['overall_sentiment'].items():
    percentage = (count / len(analyzer.df)) * 100
    print(f"{sentiment:<10} {count:3d} ofertas ({percentage:5.1f}%)")

print("\n📊 Sentimento por Categoria:")
for category, sentiments in sentiment_analysis['sentiment_by_category'].items():
    if sentiments:
        most_common = sentiments.most_common(1)[0]
        print(f"{category:<20} Predominante: {most_common[0]} ({most_common[1]} ofertas)")

## 💡 12. Recomendações Personalizadas

In [None]:
# Gerar recomendações gerais
print("💡 Gerando recomendações de skills...")
recommendations = trend_analyzer.generate_skill_recommendations()

print(f"✅ Recomendações geradas para {len(recommendations)} categorias!")

print("\n🎯 Recomendações por Categoria:")
for category, data in recommendations.items():
    if 'top_skills' in data:
        skills = ', '.join(data['top_skills'][:5])
        print(f"\n{category}:")
        print(f"  • Skills principais: {skills}")
        print(f"  • Demanda no mercado: {data['market_demand']} ofertas")

In [None]:
# Recomendações específicas para Software Development
print("💻 Recomendações específicas para Software Development...")
sw_recommendations = trend_analyzer.generate_skill_recommendations('Software Development')

if 'Software Development' in sw_recommendations:
    sw_data = sw_recommendations['Software Development']
    
    print("\n🔧 Skills Fundamentais:")
    for skill in sw_data.get('core_skills', [])[:8]:
        print(f"  • {skill}")
    
    if sw_data.get('emerging_skills'):
        print("\n🌟 Skills Emergentes:")
        for skill in sw_data['emerging_skills'][:5]:
            print(f"  • {skill}")
    
    if sw_data.get('skill_combinations'):
        print("\n🔗 Combinações Recomendadas:")
        for combo in sw_data['skill_combinations'][:5]:
            print(f"  • {combo}")
else:
    print("⚠️ Dados insuficientes para recomendações específicas")

## 📋 13. Relatório Final

In [None]:
# Gerar relatório final
print("📋 Gerando relatório final...")
final_report = viz_engine.generate_summary_report(analyzer)

print(final_report)

## 🎯 14. Insights e Conclusões

In [None]:
# Insights finais baseados na análise
print("🎯 INSIGHTS PRINCIPAIS DA ANÁLISE:")
print("=" * 50)

# Top city
top_city = list(location_data['top_locations'].keys())[0]
top_city_percentage = (list(location_data['top_locations'].values())[0] / len(analyzer.df)) * 100

# Top category
top_category = category_counts.most_common(1)[0]

# Top skill
top_skill = skill_counts.most_common(1)[0]

print(f"🏙️ CONCENTRAÇÃO GEOGRÁFICA:")
print(f"   • {top_city} domina com {top_city_percentage:.1f}% das ofertas")
print(f"   • Sugere centralização do mercado de trabalho")

print(f"\n💼 DEMANDA POR CATEGORIAS:")
print(f"   • {top_category[0]} é a categoria mais demandada ({top_category[1]} ofertas)")
print(f"   • Representa {(top_category[1]/len(analyzer.df)*100):.1f}% do mercado")

print(f"\n🎯 SKILLS EM DESTAQUE:")
print(f"   • {top_skill[0]} é a skill mais procurada ({top_skill[1]} menções)")
print(f"   • Skills técnicas dominam o mercado")

if complexity_analysis:
    exp_dist = complexity_analysis['experience_distribution']
    most_common_exp = exp_dist.most_common(1)[0]
    print(f"\n👔 NÍVEL DE EXPERIÊNCIA:")
    print(f"   • {most_common_exp[0]} é o nível mais procurado ({most_common_exp[1]} ofertas)")
    print(f"   • Score médio de complexidade: {complexity_analysis['avg_complexity']:.1f}")

if sentiment_analysis:
    dominant_sentiment = sentiment_analysis['overall_sentiment'].most_common(1)[0]
    print(f"\n😊 SENTIMENTO DAS OFERTAS:")
    print(f"   • Sentimento predominante: {dominant_sentiment[0]} ({dominant_sentiment[1]} ofertas)")
    print(f"   • Score médio: {sentiment_analysis['avg_sentiment_score']:.3f}")

print(f"\n🚀 RECOMENDAÇÕES ESTRATÉGICAS:")
print(f"   • Foque em skills técnicas modernas (AI, Cloud, DevOps)")
print(f"   • Considere oportunidades fora de {top_city} para menor competição")
print(f"   • Desenvolva competências em {top_category[0].lower()}")
print(f"   • Combine skills complementares para se destacar")

print("\n" + "=" * 50)
print("✅ ANÁLISE COMPLETA FINALIZADA!")

## 💾 15. Exportar Resultados (Opcional)

In [None]:
# Salvar resultados em arquivos
import json
from datetime import datetime

# Criar timestamp
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')

# Salvar dados processados
analyzer.df.to_csv(f'processed_jobs_{timestamp}.csv', index=False)

# Salvar resultados da análise
results = {
    'location_analysis': location_data,
    'category_distribution': dict(category_counts),
    'top_skills': dict(skill_counts.most_common(50)),
    'skills_by_category': {k: v[:10] for k, v in category_skills.items()},
    'analysis_metadata': {
        'total_jobs': len(analyzer.df),
        'unique_skills': len(set(analyzer.all_skills)),
        'cities_count': len(location_data['raw_counts']),
        'categories_count': len(category_counts),
        'analysis_date': timestamp
    }
}

with open(f'analysis_results_{timestamp}.json', 'w', encoding='utf-8') as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

# Salvar relatório
with open(f'market_report_{timestamp}.txt', 'w', encoding='utf-8') as f:
    f.write(final_report)

print(f"💾 Resultados salvos com timestamp: {timestamp}")
print(f"📊 Arquivo de dados: processed_jobs_{timestamp}.csv")
print(f"📋 Arquivo de resultados: analysis_results_{timestamp}.json")
print(f"📄 Relatório: market_report_{timestamp}.txt")