In [21]:
import re

# Archivos de entrada y salida
input_filename = 'chat.txt'
output_filename = 'reports_concat.txt'

with open(input_filename, 'r', encoding='utf-8') as f:
    chat_text = f.read()

# 1) Extraer cada bloque de Flight Report.
#    Capturamos desde "✈️Flight Report ✈️" hasta la próxima línea que inicia con "[YYYY-" o el final del texto.
pattern = r"(✈️Flight Report ✈️.*?)(?=\n\[[0-9]{4}-|\Z)"
raw_reports = re.findall(pattern, chat_text, flags=re.DOTALL)

cleaned_reports = []
for report in raw_reports:
    # 2) Separar en líneas
    lines = report.splitlines()
    
    filtered_lines = []
    for line in lines:
        # 3) Remover caracteres invisibles como \u200e
        line = line.replace('\u200e', '')
        
        # Quitar espacios en blanco extra
        line_stripped = line.strip()
        
        # Si la línea:
        #   - empieza con un timestamp "[YYYY-MM-DD..."
        #   - contiene "omitted", "deleted", "document", "pdf"
        #   - se queda vacía
        # entonces la ignoramos.
        if re.match(r'^\[[0-9]{4}-', line_stripped):
            continue
        if re.search(r'(omitted|deleted|document|pdf)', line_stripped.lower()):
            continue
        if not line_stripped:
            continue
        
        filtered_lines.append(line_stripped)
    
    # Unir líneas filtradas del reporte
    cleaned_report = "\n".join(filtered_lines)
    cleaned_reports.append(cleaned_report)

# 4) Unir todos los reportes con "-----" de separador
output_text = "\n-----\n".join(cleaned_reports)

# Guardar en archivo
with open(output_filename, 'w', encoding='utf-8') as f:
    f.write(output_text)

print(f"Se han extraído {len(cleaned_reports)} reportes y guardado en '{output_filename}'.")


Se han extraído 60 reportes y guardado en 'reports_concat.txt'.
