# Pré-Processamento dos Documentos

A limpeza dos dados é um processo essencial para garantir a qualidade e a confiabilidade das informações armazenadas em um banco de dados. A limpeza dos dados envolve a identificação e a correção de erros, inconsistências, duplicidades e valores ausentes nos dados. A arquitetura do armazenamento é a forma como os dados são organizados, estruturados e acessados em um banco de dados. Uma das opções de arquitetura é o formato YAML, que significa YAML Ain't Markup Language. O YAML é um formato de serialização de dados que usa uma sintaxe simples e legível para representar estruturas de dados como listas, mapas, sequências e escalares. O YAML é compatível com diversas linguagens de programação e pode ser usado para armazenar dados de forma hierárquica e flexível.

<!-- <hr style="border-width: 1px" width="95%" > -->

In [5]:
import pandas as pd
import numpy as np
import yaml 
import os
import gc

## Estruturação dos Arquivos

In [7]:
# Set the directory path to where the data is stored
doc_dir = '../data/emails/mini_newsgroups/'

# Create an empty list to hold the processed data
database = []

# Iterate over each file in the directory and its subdirectories
for filepath in os.listdir(doc_dir): 
    for filename in os.listdir(f'{doc_dir}{filepath}'):

        # Open each file individually and read its contents
        with open(os.path.join(doc_dir, filepath, filename), 'r') as f:
            text_data = f.read().strip()
        
        # Split the header and body of the email
        try:
            header, body = text_data.split('\n\n', maxsplit=1)
        except:
            continue
        
        # Convert header to a dictionary
        header_dict = {}
        for line in header.split('\n'):
            try:
                # Split the key and value in each header field and store them in a dictionary
                key, value = line.strip().split(': ', maxsplit=1)
                header_dict[key] = value
            except:
                # If a header field cannot be split properly, skip it and continue
                continue
        
        # Append the processed data to the list
        database.append({'filepath': filepath, 
                        'filename': filename,
                        'text': body, 
                        **header_dict
                        })

# tranformation from dict -> dataframe
base_inicial = pd.DataFrame(database)

# remove database from memory
del database
gc.collect()

0