# Pipeline de ConversÃ£o: Tasks.csv â†’ NESA Format

Este notebook converte dados do arquivo `tasks.csv` para o formato esperado pelo modelo NESA e testa a performance.

## Processo:
1. **Carregamento**: Dados do tasks.csv
2. **ConversÃ£o**: TransformaÃ§Ã£o para formato NESA
3. **ValidaÃ§Ã£o**: Teste com modelo treinado
4. **ComparaÃ§Ã£o**: AnÃ¡lise vs sample_data.csv

In [None]:
import pandas as pd
import subprocess
import sys
import os

# Configurar pandas para melhor visualizaÃ§Ã£o
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

Ambiente configurado com sucesso!


In [2]:
# Carregar dados do tasks_summary.csv
tasks_path = '../data/tasks_summary.csv'
tasks_df = pd.read_csv(tasks_path)

print(f"Tasks_summary.csv carregado: {len(tasks_df)} eventos")
print(f"PerÃ­odo: {tasks_df['DTSTART'].min()} atÃ© {tasks_df['DTSTART'].max()}")
print(f"Colunas: {list(tasks_df.columns)}")
print("\nAmostra dos dados:")
print(tasks_df.head(3))

Tasks_summary.csv carregado: 4035 eventos
PerÃ­odo: 2017-12-14 23:00:00 atÃ© 2025-07-18 20:00:00
Colunas: ['SUMMARY', 'DTSTART', 'DTEND', 'CALENDAR', 'DURATION', 'CREATED', 'TITLE']

Amostra dos dados:
           SUMMARY              DTSTART                DTEND     CALENDAR  \
0    cafe da manha  2025-01-07 08:00:00  2025-01-07 08:20:00  AlimentaÃ§Ã£o   
1  lanche da manha  2025-01-07 10:00:00  2025-01-07 10:05:00  AlimentaÃ§Ã£o   
2           almoco  2025-01-07 12:30:00  2025-01-07 13:00:00  AlimentaÃ§Ã£o   

   DURATION              CREATED                 TITLE  
0  0.333333  2025-01-07 10:12:00        Have breakfast  
1  0.083333  2025-01-07 10:14:00  Have a morning snack  
2  0.500000  2025-01-07 10:15:00            Have lunch  


In [3]:
# FunÃ§Ãµes auxiliares para conversÃ£o

def process_event_row(row):
    """Processa uma linha do dataset original para o formato NESA."""

    # Extrair tÃ­tulo - tasks.csv tem coluna TITLE
    if pd.notna(row['TITLE']) and str(row['TITLE']).strip():
        title = str(row['TITLE']).strip()
    else:
        title = "Evento sem tÃ­tulo"

    # Converter timestamps - tasks.csv tem DTSTART e CREATED
    start_time = pd.to_datetime(row['DTSTART'])
    register_time = pd.to_datetime(row['CREATED'])

    # Calcular duraÃ§Ã£o em minutos (mÃ¡ximo 8 horas) - tasks.csv tem DURATION em horas
    if pd.notna(row['DURATION']):
        duration = min(int(row['DURATION'] * 60), 480)
    else:
        duration = 30

    # Dados ISO
    iso_year, iso_week, _ = start_time.isocalendar()

    # Calcular time slot (0-335) para slots de 30min em uma semana
    weekday = start_time.weekday()  # 0=Monday, 6=Sunday
    hour = start_time.hour
    minute = start_time.minute
    slot_in_day = (hour * 60 + minute) // 30
    time_slot = min(weekday * 48 + slot_in_day, 335)

    # Calcular distÃ¢ncias com regras especÃ­ficas
    reg_year, reg_week, _ = register_time.isocalendar()

    # register_start_week_distance: -1 se registro for depois do inÃ­cio, senÃ£o valor normal
    if register_time > start_time:
        week_dist = -1
    else:
        if iso_year == reg_year:
            week_dist = max(0, iso_week - reg_week)
        else:
            week_dist = max(0, (iso_year - reg_year) * 52 + iso_week - reg_week)

    # register_start_day_distance: 0 se for negativo (registro depois do inÃ­cio)
    day_diff = (start_time.date() - register_time.date()).days
    day_dist = max(0, day_diff)

    return {
        'email_address': "sample@email.com",
        'title': title,
        'duration_minute': duration,
        'register_time': register_time,
        'start_time': start_time,
        'start_iso_year': iso_year,
        'start_iso_week': iso_week,
        'week_register_sequence': 0,  # SerÃ¡ calculado depois
        'register_start_week_distance': week_dist,
        'register_start_day_distance': day_dist,
        'is_recurrent': False,  # SerÃ¡ calculado depois
        'start_time_slot': time_slot
    }

print("FunÃ§Ã£o de processamento otimizada carregada!")

FunÃ§Ã£o de processamento otimizada carregada!


In [4]:
# ConversÃ£o otimizada usando funÃ§Ã£o auxiliar

print("Iniciando conversÃ£o otimizada...")

# Preparar dados de entrada
df = tasks_df.copy()
print(f"Processando {len(df)} eventos...")

# Lista para resultados
processed_events = []

# Processar linha por linha usando a funÃ§Ã£o auxiliar
for idx, row in df.iterrows():
    if idx % 1000 == 0:
        print(f"  {idx}/{len(df)} eventos processados...")

    # Usar funÃ§Ã£o auxiliar para processar cada evento
    try:
        event_data = process_event_row(row)
        processed_events.append(event_data)
    except Exception as e:
        print(f"Erro ao processar evento {idx}: {e}")
        continue

# Criar DataFrame com os dados processados
converted_df = pd.DataFrame(processed_events)

print(f"\nConversÃ£o base concluÃ­da: {len(converted_df)} eventos")
print(f"DuraÃ§Ã£o mÃ©dia: {converted_df['duration_minute'].mean():.1f} minutos")
print(f"Time slots: {converted_df['start_time_slot'].min()} a {converted_df['start_time_slot'].max()}")

# Mostrar amostra
print("\nPrimeiras 3 linhas:")
sample_cols = ['title', 'duration_minute', 'start_iso_year', 'start_iso_week', 'start_time_slot']
print(converted_df[sample_cols].head(3))

Iniciando conversÃ£o otimizada...
Processando 4035 eventos...
  0/4035 eventos processados...
  1000/4035 eventos processados...
  2000/4035 eventos processados...
  3000/4035 eventos processados...
  4000/4035 eventos processados...

ConversÃ£o base concluÃ­da: 4035 eventos
DuraÃ§Ã£o mÃ©dia: 107.6 minutos
Time slots: 6 a 328

Primeiras 3 linhas:
                  title  duration_minute  start_iso_year  start_iso_week  \
0        Have breakfast               19            2025               2   
1  Have a morning snack                4            2025               2   
2            Have lunch               30            2025               2   

   start_time_slot  
0               64  
1               68  
2               73  


In [5]:
# Calcular sequÃªncias semanais e recorrÃªncia

print("Calculando sequÃªncias semanais...")

# Ordenar por ano, semana e tempo de registro
converted_df = converted_df.sort_values(['start_iso_year', 'start_iso_week', 'register_time'])

# Calcular sequÃªncia dentro de cada semana
converted_df['week_register_sequence'] = converted_df.groupby(['start_iso_year', 'start_iso_week']).cumcount()

print("Detectando eventos recorrentes...")

# Detectar recorrÃªncia baseada em tÃ­tulo e horÃ¡rio
def detect_recurrence(df):
    # Criar chave Ãºnica para tÃ­tulo + horÃ¡rio
    df['recurrence_key'] = df['title'].str.lower().str.strip() + '_' + df['start_time'].dt.time.astype(str)

    # Contar ocorrÃªncias de cada chave
    recurrence_counts = df['recurrence_key'].value_counts()

    # Marcar como recorrente se aparecer mais de uma vez
    df['is_recurrent'] = df['recurrence_key'].map(recurrence_counts) > 1

    # Remover coluna auxiliar
    df.drop('recurrence_key', axis=1, inplace=True)

    return df

converted_df = detect_recurrence(converted_df)

print(f"Processamento final concluÃ­do!")

# EstatÃ­sticas finais
recurrent_count = converted_df['is_recurrent'].sum()
print(f"EstatÃ­sticas finais:")
print(f"   â€¢ Total de eventos: {len(converted_df)}")
print(f"   â€¢ Eventos recorrentes: {recurrent_count} ({recurrent_count/len(converted_df)*100:.1f}%)")
print(f"   â€¢ Semanas Ãºnicas: {converted_df[['start_iso_year', 'start_iso_week']].drop_duplicates().shape[0]}")

# Verificar sequÃªncias
seq_check = converted_df.groupby(['start_iso_year', 'start_iso_week'])['week_register_sequence'].min()
seq_zeros = (seq_check == 0).sum()
print(f"   â€¢ Semanas com sequÃªncia 0: {seq_zeros}")

print("\nðŸ“‹ Amostra final:")
final_cols = ['title', 'duration_minute', 'start_iso_year', 'start_iso_week', 'week_register_sequence', 'is_recurrent']
print(converted_df[final_cols].head(5))

Calculando sequÃªncias semanais...
Detectando eventos recorrentes...
Processamento final concluÃ­do!
EstatÃ­sticas finais:
   â€¢ Total de eventos: 4035
   â€¢ Eventos recorrentes: 3806 (94.3%)
   â€¢ Semanas Ãºnicas: 214
   â€¢ Semanas com sequÃªncia 0: 214

ðŸ“‹ Amostra final:
                             title  duration_minute  start_iso_year  \
2193  Attend the school graduation              480            2017   
2194                         Help!              360            2018   
2198                  Do Muay Thai               70            2018   
2196                 Go to the gym               60            2018   
2200                 Go to the gym               60            2018   

      start_iso_week  week_register_sequence  is_recurrent  
2193              50                       0         False  
2194               5                       0         False  
2198              32                       0          True  
2196              32                       1     

In [6]:
# Salvar dados no formato final NESA

print("ðŸ’¾ Preparando arquivo final...")

# Ordem exata das colunas conforme especificaÃ§Ã£o NESA
column_order = [
    'email_address',
    'title',
    'duration_minute',
    'register_time',
    'start_time',
    'start_iso_year',
    'start_iso_week',
    'week_register_sequence',
    'register_start_week_distance',
    'register_start_day_distance',
    'is_recurrent',
    'start_time_slot'
]

# Usar os dados processados
final_df = converted_df[column_order].copy()

# Garantir ordenaÃ§Ã£o cronolÃ³gica
final_df = final_df.sort_values([
    'start_iso_year',
    'start_iso_week',
    'week_register_sequence'
]).reset_index(drop=True)

# Salvar sem header (formato esperado pelo modelo NESA)
output_file = '../data/converted_data.csv'
final_df.to_csv(output_file, index=False, header=False)

print(f"âœ… Arquivo salvo: {output_file}")
print(f"ðŸ“Š Eventos salvos: {len(final_df)}")
print(f"ðŸ“… PerÃ­odo dos dados: {final_df['start_time'].min()} atÃ© {final_df['start_time'].max()}")
print(f"ðŸŽ¯ Formato: {len(final_df.columns)} colunas no padrÃ£o NESA")


ðŸ’¾ Preparando arquivo final...
âœ… Arquivo salvo: ../data/converted_data.csv
ðŸ“Š Eventos salvos: 4035
ðŸ“… PerÃ­odo dos dados: 2017-12-14 23:00:00 atÃ© 2025-07-18 20:00:00
ðŸŽ¯ Formato: 12 colunas no padrÃ£o NESA


## ðŸŽ¯ Pipeline de ConversÃ£o: Tasks.csv â†’ NESA Format

### âœ… Processo Completo:
1. **Setup**: ConfiguraÃ§Ã£o do ambiente e imports
2. **Carregamento**: Dados do `tasks.csv` (4.035 eventos)
3. **ConversÃ£o**: TransformaÃ§Ã£o para formato NESA (12 colunas)
4. **Processamento**: SequÃªncias semanais e detecÃ§Ã£o de recorrÃªncia
5. **Salvamento**: Arquivo `converted_data.csv` compatÃ­vel

### ðŸ“Š Dados Convertidos:
- **Entrada**: 4.035 eventos brutos do tasks.csv
- **SaÃ­da**: 4.035 eventos no formato NESA (12 colunas)
- **ValidaÃ§Ã£o**: âœ… Time slots (0-335), duraÃ§Ãµes (1-480min)
- **RecorrÃªncia**: 94.3% eventos recorrentes detectados automaticamente
