In [1]:
"""
LEME - Sprint 1, Dia 1: Cria√ß√£o do Dataset
Google Colab

Objetivo: Gerar 1000 perfis fict√≠cios de usu√°rios
Campos: √°rea profissional, acessibilidade, tempo na plataforma, m√≥dulos conclu√≠dos
"""

import pandas as pd
import numpy as np
import json

np.random.seed(42)


In [2]:
# ============================================
# CONFIGURA√á√ÉO
# ============================================

# 6 √Åreas profissionais
AREAS = ['Advogado', 'Design', 'Secretariado', 'Contabilidade', 'Logistica', 'SoftSkills']

# 3 Tipos de acessibilidade
ACESSIBILIDADES = ['cego', 'libras', 'nenhuma']

In [3]:
# ============================================
# CAT√ÅLOGO DE TRILHAS (5 m√≥dulos por √°rea)
# ============================================

TRILHAS = {
    'Advogado': {
        'nome': 'IA para Advogados',
        'modulos': [
            'M√≥dulo 1: Introdu√ß√£o √† IA Jur√≠dica',
            'M√≥dulo 2: Automa√ß√£o de Contratos',
            'M√≥dulo 3: An√°lise de Jurisprud√™ncia com IA',
            'M√≥dulo 4: √âtica e Responsabilidade Digital',
            'M√≥dulo 5: Pr√°tica com Ferramentas Jur√≠dicas'
        ]
    },
    'Design': {
        'nome': 'IA para Designers',
        'modulos': [
            'M√≥dulo 1: Fundamentos de IA Generativa',
            'M√≥dulo 2: Ferramentas de Design com IA',
            'M√≥dulo 3: Cria√ß√£o de Imagens e Prot√≥tipos',
            'M√≥dulo 4: UX/UI Acess√≠vel',
            'M√≥dulo 5: Portfolio Digital'
        ]
    },
    'Secretariado': {
        'nome': 'IA para Secretariado',
        'modulos': [
            'M√≥dulo 1: Assistentes Virtuais e Automa√ß√£o',
            'M√≥dulo 2: Gest√£o de Agenda e Tarefas',
            'M√≥dulo 3: Comunica√ß√£o Empresarial com IA',
            'M√≥dulo 4: Organiza√ß√£o de Documentos',
            'M√≥dulo 5: Soft Skills para Secretariado'
        ]
    },
    'Contabilidade': {
        'nome': 'IA para Contabilidade',
        'modulos': [
            'M√≥dulo 1: IA na Gest√£o Financeira',
            'M√≥dulo 2: An√°lise de Dados Cont√°beis',
            'M√≥dulo 3: Automa√ß√£o de Processos Fiscais',
            'M√≥dulo 4: Auditoria com IA',
            'M√≥dulo 5: Relat√≥rios Inteligentes'
        ]
    },
    'Logistica': {
        'nome': 'IA para Log√≠stica',
        'modulos': [
            'M√≥dulo 1: Otimiza√ß√£o de Rotas com IA',
            'M√≥dulo 2: Previs√£o de Demanda',
            'M√≥dulo 3: Gest√£o de Estoque Inteligente',
            'M√≥dulo 4: Rastreamento e IoT',
            'M√≥dulo 5: Sustentabilidade Log√≠stica'
        ]
    },
    'SoftSkills': {
        'nome': 'Soft Skills Essenciais',
        'modulos': [
            'M√≥dulo 1: Comunica√ß√£o Eficaz',
            'M√≥dulo 2: Lideran√ßa Inclusiva',
            'M√≥dulo 3: Resolu√ß√£o de Problemas',
            'M√≥dulo 4: Trabalho em Equipe',
            'M√≥dulo 5: Adaptabilidade e Resili√™ncia'
        ]
    }
}


# Criar vers√µes acess√≠veis (mesmos m√≥dulos, mas com flag de acessibilidade)
TRILHAS_ACESSIVEIS = {}
for area, trilha in TRILHAS.items():
    TRILHAS_ACESSIVEIS[f'{area}_Acessivel'] = {
        'nome': f"{trilha['nome']} (Acess√≠vel)",
        'modulos': trilha['modulos']
    }


In [4]:
# ============================================
# FUN√á√ÉO: CALCULAR TAXA DE CONCLUS√ÉO
# ============================================

def calcular_taxa_conclusao(acessibilidade):
    """
    Calcula taxa de conclus√£o baseada na acessibilidade
    Usu√°rios com acessibilidades tendem a ter taxas menores (barreiras reais)
    """
    taxa_base = 0.72

    # Penalidades por acessibilidade (simulando barreiras)
    if acessibilidade == 'cego':
        taxa_base -= 0.15
    elif acessibilidade == 'libras':
        taxa_base -= 0.12

    # Ru√≠do aleat√≥rio (varia√ß√£o natural)
    taxa_final = taxa_base + np.random.normal(0, 0.08)
    return max(0.30, min(0.95, taxa_final))


In [5]:
# ============================================
# GERAR DATASET (1000 usu√°rios)
# ============================================

n_usuarios = 1000
dados = []

# 30% com acessibilidades (representando inclus√£o)
n_com_acess = int(n_usuarios * 0.30)
n_sem_acess = n_usuarios - n_com_acess

print("="*60)
print("üîÑ GERANDO DATASET...")
print("="*60)

# Gerar usu√°rios COM acessibilidade
for i in range(n_com_acess):
    acessibilidade = np.random.choice(['cego', 'libras'])
    area = np.random.choice(AREAS)

    taxa = calcular_taxa_conclusao(acessibilidade)

    dados.append({
        'id': f'user_{i+1}',
        'area': area,
        'acessibilidade': acessibilidade,
        'taxa_conclusao': round(taxa, 3),
        'modulos_concluidos': np.random.randint(0, 12),
        'tempo_plataforma_dias': np.random.randint(1, 120)
    })

# Gerar usu√°rios SEM acessibilidade
for i in range(n_sem_acess):
    area = np.random.choice(AREAS)

    taxa = calcular_taxa_conclusao('nenhuma')

    dados.append({
        'id': f'user_{n_com_acess + i + 1}',
        'area': area,
        'acessibilidade': 'nenhuma',
        'taxa_conclusao': round(taxa, 3),
        'modulos_concluidos': np.random.randint(0, 20),
        'tempo_plataforma_dias': np.random.randint(1, 180)
    })

# Criar DataFrame
df = pd.DataFrame(dados)

# Adicionar label: trilha ideal (com ou sem acessibilidade)
def atribuir_trilha_ideal(row):
    """Se tem acessibilidade, sugere vers√£o acess√≠vel"""
    if row['acessibilidade'] != 'nenhuma':
        return f"{row['area']}_Acessivel"
    return row['area']

df['trilha_ideal'] = df.apply(atribuir_trilha_ideal, axis=1)

# Embaralhar dados
df = df.sample(frac=1).reset_index(drop=True)

üîÑ GERANDO DATASET...


In [6]:
# ============================================
# SALVAR ARQUIVOS
# ============================================

# Salvar CSV
df.to_csv('leme_dataset.csv', index=False)

# Salvar cat√°logo de trilhas (JSON)
catalogo_completo = {**TRILHAS, **TRILHAS_ACESSIVEIS}
with open('leme_trilhas.json', 'w', encoding='utf-8') as f:
    json.dump(catalogo_completo, f, indent=2, ensure_ascii=False)


In [7]:
# ============================================
# RESUMO
# ============================================

print("‚úÖ DATASET CRIADO COM SUCESSO!")
print("="*60)
print(f"\nüìä Estat√≠sticas:")
print(f"  Total de usu√°rios: {len(df)}")
print(f"  Com acessibilidade: {len(df[df['acessibilidade'] != 'nenhuma'])} ({len(df[df['acessibilidade'] != 'nenhuma'])/len(df)*100:.1f}%)")
print(f"  Sem acessibilidade: {len(df[df['acessibilidade'] == 'nenhuma'])} ({len(df[df['acessibilidade'] == 'nenhuma'])/len(df)*100:.1f}%)")

print(f"\nüìà Taxa m√©dia de conclus√£o:")
print(f"  Geral: {df['taxa_conclusao'].mean():.2%}")
print(f"  COM acessibilidade: {df[df['acessibilidade'] != 'nenhuma']['taxa_conclusao'].mean():.2%}")
print(f"  SEM acessibilidade: {df[df['acessibilidade'] == 'nenhuma']['taxa_conclusao'].mean():.2%}")

print(f"\nüéØ Distribui√ß√£o por √°rea:")
print(df['area'].value_counts().to_string())

print(f"\n‚ôø Distribui√ß√£o de acessibilidade:")
print(df['acessibilidade'].value_counts().to_string())

print(f"\n‚úÖ Arquivos salvos:")
print("  - leme_dataset.csv (1000 perfis)")
print("  - leme_trilhas.json (12 trilhas: 6 padr√£o + 6 acess√≠veis)")

print(f"\nüìã Primeiros 5 registros:")
print(df.head())

‚úÖ DATASET CRIADO COM SUCESSO!

üìä Estat√≠sticas:
  Total de usu√°rios: 1000
  Com acessibilidade: 300 (30.0%)
  Sem acessibilidade: 700 (70.0%)

üìà Taxa m√©dia de conclus√£o:
  Geral: 68.31%
  COM acessibilidade: 58.58%
  SEM acessibilidade: 72.48%

üéØ Distribui√ß√£o por √°rea:
area
Advogado         189
Logistica        175
Secretariado     175
SoftSkills       169
Contabilidade    150
Design           142

‚ôø Distribui√ß√£o de acessibilidade:
acessibilidade
nenhuma    700
cego       156
libras     144

‚úÖ Arquivos salvos:
  - leme_dataset.csv (1000 perfis)
  - leme_trilhas.json (12 trilhas: 6 padr√£o + 6 acess√≠veis)

üìã Primeiros 5 registros:
         id           area acessibilidade  taxa_conclusao  modulos_concluidos  \
0  user_301       Advogado        nenhuma           0.920                  16   
1  user_167      Logistica         libras           0.615                   3   
2  user_610  Contabilidade        nenhuma           0.742                   1   
3  user_436