# 1. Contextualização e Geração dos Dados

Como a plataforma ReComece está em fase de desenvolvimento, não dispomos de dados históricos reais. Portanto, utilizamos um script auxiliar para gerar um dataset sintético (`dados_recomece.csv`) contendo 1.000 registros.

**Lógica de Geração (Regras de Negócio Simuladas):**
Para permitir que o modelo de Classificação aprenda padrões, aplicamos as seguintes regras na criação dos dados:
* **Data Science:** Usuários com afinidade em Matemática e Nível Tecnológico > 3.
* **Design UX/UI:** Usuários com afinidade em Artes e Nível Tecnológico > 2.
* **Marketing Digital:** Usuários com afinidade em Comunicação.
* **Desenvolvimento Full Stack:** Demais casos com interesse tecnológico.

Isso garante que exista uma correlação matemática entre as *features* (interesses) e o *target* (trilha), possibilitando o treinamento supervisionado.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib

# --- 1. CARREGAMENTO DOS DADOS ---
print(">>> Carregando dados...")
df = pd.read_csv('dados_recomece.csv')

# --- 2. ANÁLISE EXPLORATÓRIA DE DADOS (EDA) - Requisito Importante ---
print("\n>>> Iniciando Análise Exploratória...")

# Visualizar a estrutura
print(df.info())
print("\nValores Nulos:\n", df.isnull().sum())

# Visualizar a distribuição do Target (Trilhas)
plt.figure(figsize=(10, 6))
sns.countplot(x='trilha_recomendada', data=df, palette='viridis')
plt.title('Distribuição das Trilhas de Carreira (Target)')
plt.xticks(rotation=45)
plt.show()

# Matriz de Correlação (Apenas numéricos)
plt.figure(figsize=(10, 8))
numeric_df = df.select_dtypes(include=['number']) # Seleciona apenas colunas numéricas
sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Mapa de Calor - Correlação entre Variáveis')
plt.show()

# --- 3. PRÉ-PROCESSAMENTO ---
# Definição de Features (X) e Target (y)
X = df[['matematica', 'arte', 'comunicacao', 'nivel_tec']]
y = df['trilha_recomendada']

# Divisão Treino/Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# --- 4. TREINAMENTO DO MODELO ---
print("\n>>> Treinando Random Forest...")
modelo = RandomForestClassifier(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# --- 5. AVALIAÇÃO DE DESEMPENHO ---
print("\n>>> Avaliando Modelo...")
y_pred = modelo.predict(X_test)

# Acurácia
acc = accuracy_score(y_test, y_pred)
print(f"Acurácia: {acc*100:.2f}%")

# Relatório detalhado
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

# Matriz de Confusão Visual
plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=modelo.classes_, yticklabels=modelo.classes_)
plt.xlabel('Previsto')
plt.ylabel('Real')
plt.title('Matriz de Confusão')
plt.show()

# --- 6. SALVAMENTO DOS ARTEFATOS ---
joblib.dump(modelo, 'modelo_trilha.joblib')
print("\n>>> Modelo salvo como 'modelo_trilha.joblib'")

Acurácia do Modelo: 100.00%
Modelo salvo como 'modelo_trilha.joblib'
