In [23]:
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
import pandas as pd
import arff
import os

organisms = ['Caenorhabditis elegans', 'Drosophila melanogaster', 'Mus musculus', 'Saccharomyces cerevisiae']
organismsMap = {'Caenorhabditis elegans': 'worm', 'Drosophila melanogaster': 'fly', 'Mus musculus': 'mouse', 'Saccharomyces cerevisiae': 'yeast'}

# Definindo o número de folds
num_folds = 10
kf = StratifiedKFold(n_splits=num_folds, shuffle=True, random_state=42)

# Função para salvar dados em arquivos ARFF
def salvar_arquivo_arff(nome_arquivo, dados, atributos, relation):
    with open(nome_arquivo, 'w') as f:
        arff.dump({
            'relation': relation,
            'attributes': [(col, 'REAL') for col in atributos],
            'data': dados
        }, f)

# Função para criar e salvar os folds
def create_folds_arff(X, y, relation, org, val):
    for fold, (train_index, test_index) in enumerate(kf.split(X, y)):
        # Dividindo o fold em treino e teste
        train_df = df.iloc[train_index[:int(len(train_index) * 0.9)]]
        val_df = df.iloc[train_index[int(len(train_index) * 0.9):]]
        test_df = df.iloc[test_index[:]]
        
        # Salvando os dados em arquivos ARFF           
        traName = f"{organismsMap[org]}-{path.split(".")[0]}_fold_{fold}_tra"
        valName = f"{organismsMap[org]}-{path.split(".")[0]}_fold_{fold}_val"
        tstName = f"{organismsMap[org]}-{path.split(".")[0]}_fold_{fold}_tst"
        
        salvar_arquivo_arff(f"{org}/folds/{path.split(".")[0]}/{traName}.arff", train_df.values, train_df.columns, relation=traName)
        salvar_arquivo_arff(f"{org}/folds/{path.split(".")[0]}/{valName}.arff", val_df.values, val_df.columns, relation=valName)
        salvar_arquivo_arff(f"{org}/folds/{path.split(".")[0]}/{tstName}.arff", test_df.values, test_df.columns, relation=tstName)
        
for organism in organisms:
    for path in os.listdir(f"{organism}"):
            allpath = f"{organism}/{path}"
            if os.path.isfile(allpath):
                df = pd.read_csv(allpath)  
                # Dividir os dados em conjunto de dados de treino e teste
                
                X = df.drop('longevity influence', axis=1)
                y = df['longevity influence']
                
                print("#" * 100 + "\n")
                print(allpath)
                print(f"Estatísticas gerais do conjunto de dados {organism} e {path.split(".")[0]}")
                print(f"\n Quantidade de Instâncias: {len(df.values)}  Quantidade de Atributos: {len(df.columns)}")
                proLongevity = len(df[df['longevity influence'] == 1])
                antiLongevity = len(df[df['longevity influence'] == 0])
                percentPro = proLongevity / (proLongevity + antiLongevity) * 100
                print(f"\n Quantidade Pró-longevidade: {proLongevity}  Quantidade de Anti-longevidade: {antiLongevity} \n")
                print(f"Porcentagem de Pró-longevidade: {percentPro:.4f} \n")         
                
                create_folds_arff(X, y, relation=path, org=organism, val=False)
                
    





####################################################################################################

Caenorhabditis elegans/BP.csv
Estatísticas gerais do conjunto de dados Caenorhabditis elegans e BP

 Quantidade de Instâncias: 861  Quantidade de Atributos: 1380

 Quantidade Pró-longevidade: 283  Quantidade de Anti-longevidade: 578 

Porcentagem de Pró-longevidade: 32.8688 

####################################################################################################

Caenorhabditis elegans/BPCC.csv
Estatísticas gerais do conjunto de dados Caenorhabditis elegans e BPCC

 Quantidade de Instâncias: 861  Quantidade de Atributos: 1771

 Quantidade Pró-longevidade: 283  Quantidade de Anti-longevidade: 578 

Porcentagem de Pró-longevidade: 32.8688 

####################################################################################################

Caenorhabditis elegans/BPMF.csv
Estatísticas gerais do conjunto de dados Caenorhabditis elegans e BPMF

 Quantidade de Instâncias: 861  