<a href="https://colab.research.google.com/github/gumendes/atividades-extensionistas-gumendes/blob/main/Modelo_Predi%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ========================================
# MODELO PREDITIVO - RANDOM FOREST
# Vers√£o Simplificada e Otimizada
# ========================================

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report, roc_auc_score, confusion_matrix
import plotly.express as px
import plotly.graph_objects as go
import warnings
warnings.filterwarnings('ignore')

print("="*70)
print("üå≤ MODELO PREDITIVO - RANDOM FOREST")
print("="*70)

# ========================================
# 1. CARREGAR DADOS HIST√ìRICOS
# ========================================

print("\nüìä Carregando dados hist√≥ricos (Agosto/Setembro)...")

df_treino = pd.read_csv('../content/dados_pra√ßa_ago-set.csv', sep=';', encoding='ISO-8859-1')

# Limpar e preparar dados
df_treino.columns = df_treino.columns.str.strip()
df_treino = df_treino.rename(columns={'Hor rio': 'horario', 'Nome': 'nome'})
df_treino['nome'] = df_treino['nome'].replace({'L¬£cia': 'L√∫cia', 'J¬£lia': 'J√∫lia', 'F tima': 'F√°tima'})
df_treino['data'] = pd.to_datetime(df_treino['data'])
df_treino['presente'] = df_treino['presente'].astype(int)

print(f"‚úÖ {len(df_treino)} registros carregados")
print(f"üìÖ Per√≠odo: {df_treino['data'].min().strftime('%d/%m/%Y')} a {df_treino['data'].max().strftime('%d/%m/%Y')}")

# ========================================
# 2. CRIAR FEATURES (VARI√ÅVEIS)
# ========================================

print("\nüîß Criando features para o modelo...")

df_treino = df_treino.sort_values(['id_aluna', 'data'])

# Encoders para vari√°veis categ√≥ricas
le_exercicio = LabelEncoder()
le_clima = LabelEncoder()
le_dia_semana = LabelEncoder()

df_treino['tipo_exercicio_encoded'] = le_exercicio.fit_transform(df_treino['tipo_exercicio'])
df_treino['clima_encoded'] = le_clima.fit_transform(df_treino['clima'])
df_treino['dia_semana_encoded'] = le_dia_semana.fit_transform(df_treino['dia_semana'])

# Features por aluna
features_list = []

for id_aluna in df_treino['id_aluna'].unique():
    df_aluna = df_treino[df_treino['id_aluna'] == id_aluna].copy()

    # Hist√≥rico acumulado (shift para n√£o vazar informa√ß√£o do futuro)
    df_aluna['total_presencas'] = df_aluna['presente'].cumsum().shift(1, fill_value=0)
    df_aluna['total_aulas'] = range(len(df_aluna))
    df_aluna['taxa_presenca_historica'] = np.where(
        df_aluna['total_aulas'] > 0,
        df_aluna['total_presencas'] / df_aluna['total_aulas'],
        0.5  # Valor padr√£o para primeira aula
    )

    # M√©dia das √∫ltimas aulas
    df_aluna['presenca_ultimas_3'] = df_aluna['presente'].rolling(3, min_periods=1).mean().shift(1, fill_value=0.5)
    df_aluna['presenca_ultimas_5'] = df_aluna['presente'].rolling(5, min_periods=1).mean().shift(1, fill_value=0.5)
    df_aluna['presenca_ultimas_7'] = df_aluna['presente'].rolling(7, min_periods=1).mean().shift(1, fill_value=0.5)

    # Sequ√™ncia de presen√ßas
    sequencia = 0
    sequencias = [0]
    for presente in df_aluna['presente'].iloc[:-1]:
        if presente == 1:
            sequencia += 1
        else:
            sequencia = 0
        sequencias.append(sequencia)
    df_aluna['sequencia_presencas'] = sequencias

    features_list.append(df_aluna)

df_features = pd.concat(features_list, ignore_index=True)

print("‚úÖ Features criadas com sucesso!")

# ========================================
# 3. PREPARAR DADOS PARA TREINO
# ========================================

print("\nüìä Preparando conjunto de treino e valida√ß√£o...")

# Selecionar colunas de features
feature_cols = [
    'idade',
    'taxa_presenca_historica',
    'presenca_ultimas_3',
    'presenca_ultimas_5',
    'presenca_ultimas_7',
    'sequencia_presencas',
    'tipo_exercicio_encoded',
    'clima_encoded',
    'dia_semana_encoded'
]

X = df_features[feature_cols]
y = df_features['presente']

# Dividir em treino (80%) e valida√ß√£o (20%)
X_train, X_val, y_train, y_val = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

print(f"‚úÖ Treino: {len(X_train)} amostras")
print(f"‚úÖ Valida√ß√£o: {len(X_val)} amostras")
print(f"üìä Taxa de presen√ßa no treino: {y_train.mean()*100:.1f}%")

# ========================================
# 4. TREINAR RANDOM FOREST
# ========================================

print("\nüå≤ Treinando Random Forest...")

modelo = RandomForestClassifier(
    n_estimators=100,        # 100 √°rvores na floresta
    max_depth=10,            # Profundidade m√°xima de cada √°rvore
    min_samples_split=5,     # M√≠nimo de amostras para dividir n√≥
    random_state=42,         # Reproduzibilidade
    class_weight='balanced', # Balancear classes
    n_jobs=-1                # Usar todos os processadores
)

modelo.fit(X_train, y_train)

print("‚úÖ Modelo treinado com sucesso!")

# ========================================
# 5. AVALIAR MODELO
# ========================================

print("\nüìä Avaliando performance do modelo...")

# Previs√µes
y_pred = modelo.predict(X_val)
y_pred_proba = modelo.predict_proba(X_val)[:, 1]

# M√©tricas
acuracia = accuracy_score(y_val, y_pred)
auc_roc = roc_auc_score(y_val, y_pred_proba)

print(f"\nüéØ RESULTADOS:")
print(f"   Acur√°cia: {acuracia*100:.2f}%")
print(f"   AUC-ROC: {auc_roc:.3f}")

# Relat√≥rio detalhado
print(f"\nüìã Relat√≥rio de Classifica√ß√£o:")
print(classification_report(y_val, y_pred, target_names=['Falta', 'Presente']))

# Matriz de confus√£o
cm = confusion_matrix(y_val, y_pred)
print(f"\nüìä Matriz de Confus√£o:")
print(f"   Verdadeiros Negativos (Falta prevista corretamente): {cm[0,0]}")
print(f"   Falsos Positivos (Previu presente, mas faltou): {cm[0,1]}")
print(f"   Falsos Negativos (Previu falta, mas esteve presente): {cm[1,0]}")
print(f"   Verdadeiros Positivos (Presen√ßa prevista corretamente): {cm[1,1]}")

# ========================================
# 6. IMPORT√ÇNCIA DAS FEATURES
# ========================================

print("\nüìä Import√¢ncia das Features...")

importancias = pd.DataFrame({
    'Feature': feature_cols,
    'Import√¢ncia': modelo.feature_importances_
}).sort_values('Import√¢ncia', ascending=False)

print(importancias.to_string(index=False))

# Gr√°fico de import√¢ncia
fig_imp = px.bar(
    importancias,
    x='Import√¢ncia',
    y='Feature',
    orientation='h',
    title='Import√¢ncia das Features - Random Forest',
    color='Import√¢ncia',
    color_continuous_scale='Viridis'
)
fig_imp.update_layout(yaxis={'categoryorder':'total ascending'}, height=500)
fig_imp.show()

# ========================================
# 7. CARREGAR CALEND√ÅRIO DE OUTUBRO
# ========================================

print("\nüìÖ Carregando calend√°rio de Outubro...")

df_outubro = pd.read_csv('../content/dados_pra√ßa_nov.csv', sep=';', encoding='ISO-8859-1')
df_outubro.columns = df_outubro.columns.str.strip()
df_outubro = df_outubro.rename(columns={'Hor rio': 'horario'})
df_outubro = df_outubro.dropna(subset=['data'])
df_outubro['data'] = pd.to_datetime(df_outubro['data'], dayfirst=True)


print(f"‚úÖ {len(df_outubro)} aulas programadas")
print(f"üìÖ De {df_outubro['data'].min().strftime('%d/%m/%Y')} at√© {df_outubro['data'].max().strftime('%d/%m/%Y')}")

# ========================================
# 8. GERAR PREVIS√ïES PARA OUTUBRO
# ========================================

print("\nüîÆ Gerando previs√µes para Outubro...")

alunas = df_treino[['id_aluna', 'nome', 'idade']].drop_duplicates()
previsoes = []

for _, aula in df_outubro.iterrows():
    for _, aluna in alunas.iterrows():
        # Buscar hist√≥rico da aluna
        historico = df_features[
            (df_features['id_aluna'] == aluna['id_aluna']) &
            (df_features['data'] < aula['data'])
        ].sort_values('data')

        # Se tem hist√≥rico, usar √∫ltima linha; sen√£o, valores padr√£o
        if len(historico) > 0:
            ultima = historico.iloc[-1]
            features_dict = {
                'idade': aluna['idade'],
                'taxa_presenca_historica': ultima['taxa_presenca_historica'],
                'presenca_ultimas_3': ultima['presenca_ultimas_3'],
                'presenca_ultimas_5': ultima['presenca_ultimas_5'],
                'presenca_ultimas_7': ultima['presenca_ultimas_7'],
                'sequencia_presencas': ultima['sequencia_presencas'] if ultima['presente'] == 1 else 0,
                'tipo_exercicio_encoded': le_exercicio.transform([aula['tipo_exercicio']])[0],
                'clima_encoded': le_clima.transform([aula['clima']])[0],
                'dia_semana_encoded': le_dia_semana.transform([aula['dia_semana']])[0]
            }
        else:
            # Primeira aula - valores neutros
            features_dict = {
                'idade': aluna['idade'],
                'taxa_presenca_historica': 0.5,
                'presenca_ultimas_3': 0.5,
                'presenca_ultimas_5': 0.5,
                'presenca_ultimas_7': 0.5,
                'sequencia_presencas': 0,
                'tipo_exercicio_encoded': le_exercicio.transform([aula['tipo_exercicio']])[0],
                'clima_encoded': le_clima.transform([aula['clima']])[0],
                'dia_semana_encoded': le_dia_semana.transform([aula['dia_semana']])[0]
            }

        X_pred = pd.DataFrame([features_dict])[feature_cols]
        prob_presenca = modelo.predict_proba(X_pred)[0][1]
        prob_falta = 1 - prob_presenca

        # Classificar risco
        if prob_falta > 0.6:
            risco = 'Alto'
        elif prob_falta > 0.3:
            risco = 'M√©dio'
        else:
            risco = 'Baixo'

        previsoes.append({
            'data': aula['data'],
            'dia_semana': aula['dia_semana'],
            'tipo_exercicio': aula['tipo_exercicio'],
            'clima': aula['clima'],
            'id_aluna': aluna['id_aluna'],
            'nome': aluna['nome'],
            'probabilidade_presenca': round(prob_presenca * 100, 1),
            'probabilidade_falta': round(prob_falta * 100, 1),
            'previsao': 'Presente' if prob_presenca > 0.5 else 'Falta',
            'risco': risco
        })

df_previsoes = pd.DataFrame(previsoes)

print(f"‚úÖ {len(df_previsoes)} previs√µes geradas!")

# ========================================
# 9. AN√ÅLISE DAS PREVIS√ïES
# ========================================

print("\nüìä An√°lise das Previs√µes...")

total = len(df_previsoes)
presencas = (df_previsoes['previsao'] == 'Presente').sum()
faltas = (df_previsoes['previsao'] == 'Falta').sum()

print(f"üìä Total de previs√µes: {total}")
print(f"‚úÖ Presen√ßas previstas: {presencas} ({presencas/total*100:.1f}%)")
print(f"‚ùå Faltas previstas: {faltas} ({faltas/total*100:.1f}%)")

# Distribui√ß√£o de risco
print(f"\n‚ö†Ô∏è Distribui√ß√£o de Risco:")
risco_counts = df_previsoes['risco'].value_counts()
for risco, count in risco_counts.items():
    print(f"   {risco}: {count} ({count/total*100:.1f}%)")

# Top 5 alunas em risco
print(f"\nüî¥ Top 5 Alunas com Maior Risco M√©dio:")
risco_medio = df_previsoes.groupby('nome')['probabilidade_falta'].mean().sort_values(ascending=False).head(5)
for i, (nome, prob) in enumerate(risco_medio.items(), 1):
    print(f"   {i}. {nome}: {prob:.1f}% de probabilidade m√©dia de falta")

# Aulas com mais risco
print(f"\nüìÖ Aulas com Mais Alunas em Alto Risco:")
for data in df_previsoes['data'].unique():
    aula = df_previsoes[df_previsoes['data'] == data]
    alto_risco = aula[aula['risco'] == 'Alto']

    if len(alto_risco) > 0:
        tipo_ex = aula.iloc[0]['tipo_exercicio']
        clima = aula.iloc[0]['clima']
        print(f"\n   üìÖ {data.strftime('%d/%m/%Y')} - {tipo_ex} ({clima})")
        print(f"      üî¥ {len(alto_risco)} alunas em alto risco:")

        for _, aluna in alto_risco.head(3).iterrows():
            print(f"         ‚Ä¢ {aluna['nome']}: {aluna['probabilidade_falta']:.1f}%")

# ========================================
# 10. EXPORTAR RESULTADOS
# ========================================

print("\nüíæ Exportando resultados...")

# 1. Todas as previs√µes
df_previsoes.to_csv('previsoes_outubro_rf.csv', index=False, encoding='utf-8-sig')
print("‚úÖ 'previsoes_outubro_rf.csv' salvo!")

# 2. Resumo por aula
resumo_aulas = df_previsoes.groupby(['data', 'tipo_exercicio', 'clima']).agg({
    'probabilidade_presenca': 'mean',
    'probabilidade_falta': 'mean',
    'id_aluna': 'count'
}).reset_index()
resumo_aulas.columns = ['Data', 'Tipo Exerc√≠cio', 'Clima',
                        'Prob. Presen√ßa M√©dia (%)', 'Prob. Falta M√©dia (%)', 'Total Alunas']
resumo_aulas.to_csv('resumo_aulas_outubro_rf.csv', index=False, encoding='utf-8-sig')
print("‚úÖ 'resumo_aulas_outubro_rf.csv' salvo!")

# 3. Alunas priorit√°rias (alto risco)
prioritarias = df_previsoes[df_previsoes['risco'] == 'Alto'].sort_values(
    ['data', 'probabilidade_falta'], ascending=[True, False]
)
prioritarias.to_csv('alunas_prioritarias_outubro_rf.csv', index=False, encoding='utf-8-sig')
print("‚úÖ 'alunas_prioritarias_outubro_rf.csv' salvo!")

# ========================================
# 11. VISUALIZA√á√ïES
# ========================================

print("\nüìä Gerando visualiza√ß√µes...")

# Gr√°fico 1: Evolu√ß√£o da taxa de presen√ßa prevista
fig1 = px.line(
    resumo_aulas,
    x='Data',
    y='Prob. Presen√ßa M√©dia (%)',
    title='Previs√£o de Taxa de Presen√ßa - Outubro 2025',
    markers=True,
    labels={'Prob. Presen√ßa M√©dia (%)': 'Taxa de Presen√ßa Prevista (%)'}
)
fig1.update_traces(line_color='#2ecc71', line_width=3, marker=dict(size=12))
fig1.update_layout(height=500)
fig1.show()

# Gr√°fico 2: Distribui√ß√£o de risco por data
risco_por_data = df_previsoes.groupby(['data', 'risco']).size().reset_index(name='count')
fig2 = px.bar(
    risco_por_data,
    x='data',
    y='count',
    color='risco',
    title='Distribui√ß√£o de Risco por Aula - Outubro 2025',
    labels={'count': 'N√∫mero de Alunas', 'data': 'Data', 'risco': 'N√≠vel de Risco'},
    color_discrete_map={'Alto': '#e74c3c', 'M√©dio': '#f39c12', 'Baixo': '#2ecc71'}
)
fig2.update_layout(height=500)
fig2.show()

# Gr√°fico 3: Top 10 alunas em risco
top10_risco = df_previsoes.groupby('nome')['probabilidade_falta'].mean().sort_values(ascending=False).head(10)
fig3 = px.bar(
    x=top10_risco.values,
    y=top10_risco.index,
    orientation='h',
    title='Top 10 Alunas com Maior Risco M√©dio - Outubro',
    labels={'x': 'Probabilidade M√©dia de Falta (%)', 'y': 'Aluna'},
    color=top10_risco.values,
    color_continuous_scale='Reds'
)
fig3.update_layout(height=500, yaxis={'categoryorder':'total ascending'})
fig3.show()

# Gr√°fico 4: Heatmap de risco por aluna e data
pivot_risco = df_previsoes.pivot(index='nome', columns='data', values='probabilidade_falta')
fig4 = px.imshow(
    pivot_risco,
    title='Heatmap de Risco de Falta - Outubro 2025',
    labels=dict(x="Data", y="Aluna", color="Prob. Falta (%)"),
    color_continuous_scale='RdYlGn_r',
    aspect="auto"
)
fig4.update_layout(height=600)
fig4.show()

# ========================================
# 12. RESUMO FINAL
# ========================================

print("\n" + "="*70)
print("‚úÖ MODELO RANDOM FOREST - CONCLU√çDO COM SUCESSO!")
print("="*70)
print(f"\nüå≤ Modelo: Random Forest (100 √°rvores)")
print(f"üéØ Acur√°cia: {acuracia*100:.2f}%")
print(f"üìà AUC-ROC: {auc_roc:.3f}")
print(f"\nüìä Previs√µes geradas: {len(df_previsoes)}")
print(f"‚ö†Ô∏è Alunas em alto risco: {len(prioritarias)}")


üå≤ MODELO PREDITIVO - RANDOM FOREST

üìä Carregando dados hist√≥ricos (Agosto/Setembro)...
‚úÖ 520 registros carregados
üìÖ Per√≠odo: 01/08/2025 a 29/09/2025

üîß Criando features para o modelo...
‚úÖ Features criadas com sucesso!

üìä Preparando conjunto de treino e valida√ß√£o...
‚úÖ Treino: 416 amostras
‚úÖ Valida√ß√£o: 104 amostras
üìä Taxa de presen√ßa no treino: 63.2%

üå≤ Treinando Random Forest...
‚úÖ Modelo treinado com sucesso!

üìä Avaliando performance do modelo...

üéØ RESULTADOS:
   Acur√°cia: 61.54%
   AUC-ROC: 0.507

üìã Relat√≥rio de Classifica√ß√£o:
              precision    recall  f1-score   support

       Falta       0.46      0.29      0.35        38
    Presente       0.66      0.80      0.73        66

    accuracy                           0.62       104
   macro avg       0.56      0.55      0.54       104
weighted avg       0.59      0.62      0.59       104


üìä Matriz de Confus√£o:
   Verdadeiros Negativos (Falta prevista corretamente): 11
  


üìÖ Carregando calend√°rio de Outubro...
‚úÖ 14 aulas programadas
üìÖ De 01/10/2025 at√© 31/10/2025

üîÆ Gerando previs√µes para Outubro...
‚úÖ 280 previs√µes geradas!

üìä An√°lise das Previs√µes...
üìä Total de previs√µes: 280
‚úÖ Presen√ßas previstas: 249 (88.9%)
‚ùå Faltas previstas: 31 (11.1%)

‚ö†Ô∏è Distribui√ß√£o de Risco:
   M√©dio: 196 (70.0%)
   Baixo: 77 (27.5%)
   Alto: 7 (2.5%)

üî¥ Top 5 Alunas com Maior Risco M√©dio:
   1. Adelaide: 51.1% de probabilidade m√©dia de falta
   2. Ana: 46.5% de probabilidade m√©dia de falta
   3. Tania Maria: 46.2% de probabilidade m√©dia de falta
   4. Rosa: 44.6% de probabilidade m√©dia de falta
   5. Vera: 43.8% de probabilidade m√©dia de falta

üìÖ Aulas com Mais Alunas em Alto Risco:

   üìÖ 22/10/2025 - Alongamento (Frio)
      üî¥ 2 alunas em alto risco:
         ‚Ä¢ Teresa: 66.9%
         ‚Ä¢ Vera: 63.1%

   üìÖ 31/10/2025 - Alongamento (Frio)
      üî¥ 5 alunas em alto risco:
         ‚Ä¢ Ivone: 68.2%
         ‚Ä¢ Rosa:


‚úÖ MODELO RANDOM FOREST - CONCLU√çDO COM SUCESSO!

üå≤ Modelo: Random Forest (100 √°rvores)
üéØ Acur√°cia: 61.54%
üìà AUC-ROC: 0.507

üìä Previs√µes geradas: 280
‚ö†Ô∏è Alunas em alto risco: 7

üíæ Arquivos exportados:
   1. previsoes_outubro_rf.csv
   2. resumo_aulas_outubro_rf.csv
   3. alunas_prioritarias_outubro_rf.csv

üéØ Use o arquivo 'alunas_prioritarias_outubro_rf.csv'
   para planejar a√ß√µes de incentivo!
