In [29]:
import os
import pandas as pd

def verificar_arquivos(diretorio1, diretorio2):
    """
    Compara nomes de arquivos entre dois diretórios e retorna informações sobre interseções e diferenças.
    
    Args:
        diretorio1 (str): Caminho do primeiro diretório.
        diretorio2 (str): Caminho do segundo diretório.
        
    Returns:
        dict: Um dicionário contendo interseções e arquivos exclusivos de cada diretório.
    """
    arquivos1 = os.listdir(diretorio1)
    arquivos2 = os.listdir(diretorio2)
    
    nomes1 = set([x[:x.find(".")] for x in arquivos1])
    nomes2 = set([x[:x.find(".")] for x in arquivos2])
    
    interseccao = nomes1.intersection(nomes2)
    exclusivos_diretorio1 = nomes1 - nomes2
    exclusivos_diretorio2 = nomes2 - nomes1
    
    exclusivos_diretorio1 = sorted(list(exclusivos_diretorio1))
    exclusivos_diretorio2 = sorted(list(exclusivos_diretorio2))
    
    resultado =  {
        "interseccao": interseccao,
        "exclusivos_diretorio1": exclusivos_diretorio1,
        "exclusivos_diretorio2": exclusivos_diretorio2
    }

    print(f"Diretórios comparados: {diretorio1} e {diretorio2}")
    print(f"Interseção: {resultado['interseccao']}")
    print(f"Arquivos exclusivos no diretório 1: {resultado['exclusivos_diretorio1']}")
    print(f"Arquivos exclusivos no diretório 2: {resultado['exclusivos_diretorio2']}")
    print("=" * 250)

    return resultado

def verificar_keys(csv_path):
    """
    Verifica se todas as chaves (keys) em um arquivo CSV começam com "G.D0".

    Args:
        csv_path (str): Caminho para o arquivo CSV.

    Returns:
        dict: Um dicionário contendo:
              - "valid_keys": Lista de chaves válidas (que começam com "G.D0").
              - "invalid_keys": Lista de chaves inválidas (que não começam com "G.D0").
              - "total_keys": Número total de chaves verificadas.
              - "valid_count": Número de chaves válidas.
              - "invalid_count": Número de chaves inválidas.
    """
    try:
        df = pd.read_csv(csv_path)
    except Exception as e:
        return {"error": f"Erro ao ler o arquivo CSV: {e}"}

    if "keys" not in df.columns:
        return {"error": "A coluna 'keys' não foi encontrada no arquivo CSV."}

    keys = df["keys"]

    valid_keys = [key for key in keys if str(key).startswith("G.D")]
    invalid_keys = [key for key in keys if not str(key).startswith("G.D")]

    return {
        "valid_keys": valid_keys,
        "invalid_keys": invalid_keys,
        "total_keys": len(keys),
        "valid_count": len(valid_keys),
        "invalid_count": len(invalid_keys)
    }

In [30]:
req_list_path = os.path.join("data", "ReqList_ReqNet_ReqSim", "1.1 ReqLists")

req_doc_path = os.path.join("data", "ReqList_ReqNet_ReqSim", "0    Requirement Specification Documents")

req_doc_raw_path = os.path.join("data", "ReqList_ReqNet_ReqSim", "0.1 Raw Text")

doc_structure_path = os.path.join("data", "ReqList_ReqNet_ReqSim", "1.3 DocumentStructure - Metadata")

#req_x_req_doc = verificar_arquivos(req_list_path, req_doc_path)
req_x_req_doc_raw = verificar_arquivos(req_list_path, req_doc_raw_path)
req_x_doc_structure = verificar_arquivos(req_list_path, doc_structure_path)
#req_doc_x_doc_structure = verificar_arquivos(req_doc_path, doc_structure_path)
#req_doc_x_req_doc_raw = verificar_arquivos(req_doc_path, req_doc_raw_path)
req_doc_raw_x_doc_structure = verificar_arquivos(req_doc_raw_path, doc_structure_path)

Diretórios comparados: data\ReqList_ReqNet_ReqSim\1.1 ReqLists e data\ReqList_ReqNet_ReqSim\0.1 Raw Text
Interseção: {'2007 - eirene fun 7', '2004 - grid bgc', '2022 - MobileSurveillance', '2010 - fishing', '2003 - agentmom', '2007 - puget sound', '2021 - ConnectedVehiclePilotNYC', '0000 - inventory', '2007 - mdot', '1995 - gemini', '2009 - gaia', '2013 - iTrust', '2011 - CCHIT', '2021 - ReqView', '2005 - grid 3D', '2007 - get real 0', '2002 - evla back', 'light-control-system', '2012 - EMR CCHIT LT', 'EHR System TechReq LA DHS', '2011 - KMS', '2001 - esa', '0000 - gamma j', '2004 - rlcs', '2007 - nde', '2009 - library2', '2012 - EMR HL7 DC', '0000 - cctns', '2008 - virtual ed', '2012 - EMR CCHCS EA', '1995 - Landsat7', '2005 - clarus low', '2004 - colorcast', '2010 - mashboot', '2006 - stewards', '2005 - clarus high', '2006 - eirene sys 15', '1999 - multi-mahjong', 'automated-insulin-pump', '2022 - UAM IMS', '2005 - znix', '1998 - themas', '2003 - pnnl', '2004 - SGVTraffic', '2010 - s

In [33]:

csv_path = os.path.join("data","pure_req_user_stories.csv") 
resultado = verificar_keys(csv_path)

if "error" in resultado:
    print(resultado["error"])
else:
    print(f"Total de chaves verificadas: {resultado['total_keys']}")
    print(f"Chaves válidas: {resultado['valid_count']}")
    print(f"Chaves inválidas: {resultado['invalid_count']}")

    if resultado["invalid_keys"]:
        print("\nChaves inválidas encontradas:")
        for key in resultado["invalid_keys"]:
            print(f"- {key}")
    else:
        print("\nTodas as chaves são válidas!")

Total de chaves verificadas: 12725
Chaves válidas: 12725
Chaves inválidas: 0

Todas as chaves são válidas!


In [15]:
doc_req = {
        "2012 - EMR CCHCS EA ISO HL7 IN 20120420_Attach8" : ["2012 - EMR CCHCS EA", "2012 - EMR CCHCS ISO", "2012 - EMR HL7 IN"],
        "2012 - EMR HL7 DC - CCHIT LT - Pharmacy - HHS_Attach9" : ["2012 - EMR CCHIT LT", "2012 - EMR HHS", "2012 - EMR HL7 DC", "2012 - EMR Pharmacy"]
        }	