In [7]:
#Método para realizar o Boruta, e ao final, montar um DataFrame com a ordem selecionada pelo boruta

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from boruta import BorutaPy
from sklearn.preprocessing import LabelEncoder

def boruta_feature_order(data_path, target_column):
    # Carregar os dados do CSV
    D = pd.read_csv(data_path)
    variables = D.columns
    print(f'Lista de variáveis: {variables}')

    # Print para verificar os dados antes do processamento
    print("Dados antes do processamento:")
    print(D)
    tipo_antes = (type(D[target_column][0]))
    print(f'Tipo dos dados antes do processamento: {tipo_antes}')
    

    # Mapear os valores nominais para números inteiros únicos
    D_encoded = D.apply(LabelEncoder().fit_transform)
    # Print para verificar os dados após o processamento
    print("Dados após o processamento:")
    print(D_encoded)
    tipo_depois = (type(D_encoded[target_column][0]))
    print(f'Tipo dos dados após o processamento (inteiros): {tipo_depois}')

    # Separar os dados em características (X) e alvo (y)
    X = D_encoded.drop(columns=[target_column])
    y = D_encoded[target_column]

    # Inicializar um classificador Random Forest
    rf = RandomForestClassifier(n_estimators=100, n_jobs=-1)

    # Inicializar o Boruta
    boruta_selector = BorutaPy(rf, n_estimators='auto', verbose=2)

    # Ajustar o Boruta aos dados
    boruta_selector.fit(X.values, y.values)
    print("Boruta inicializado com sucesso")

    # Obter as características selecionadas
    print("Variáveis na ordem inicial")
    print(variables)
    
    selected_features = X.columns[boruta_selector.support_]
    print("Features selecionadas")
    print(selected_features)
    # Obter as características não selecionadas
    unselected_features = X.columns[~boruta_selector.support_]
    print("Features não selecionadas")
    print(unselected_features)

    # Combinar características selecionadas e não selecionadas, ordenando-as pela ordem de ranking do Boruta
    all_features = [target_column] + list(selected_features) + list(unselected_features)
    print("Todas as features, incluindo a target: ")
    print(all_features)

    # Reorganizar o DataFrame original de acordo com a ordem das características selecionadas pelo Boruta
    df_reordered = D[all_features]
    
    # Salvar o DataFrame reordenado no formato CSV
    df_reordered.to_csv("data_reordered.csv", index=False)

    print("DataFrame reordenado salvo como data_reordered.csv")
    print("DataFrame criado na ordem das features selecionadas pelo Boruta")
    print(df_reordered)
    
    return all_features

# Caminho para o arquivo CSV e o nome da coluna alvo
data_path = "barley.csv"
target_column = "aar_mod"

# Obter todas as características, incluindo a coluna alvo
all_features= boruta_feature_order(data_path, target_column)
print("Features em ordem")
print(all_features)

Lista de variáveis: Index(['aar_mod', 'aks_m2', 'aks_vgt', 'antplnt', 'bgbyg', 'dg25', 'dgv1059',
       'dgv5980', 'exptgens', 'forfrugt', 'frspdag', 'jordinf', 'jordn',
       'jordtype', 'keraks', 'komm', 'ksort', 'markgrm', 'mod_nmin',
       'nedbarea', 'ngodn', 'ngodnn', 'ngodnt', 'ngtilg', 'nmin', 'nopt',
       'nplac', 'nprot', 'ntilg', 'partigerm', 'pesticid', 'potnmin',
       'protein', 'rokap', 's2225', 's2528', 'saakern', 'saamng', 'saatid',
       'slt22', 'sort', 'sorttkv', 'spndx', 'srtprot', 'srtsize', 'tkv',
       'tkvs', 'udb'],
      dtype='object')
Dados antes do processamento:
     aar_mod     aks_m2    aks_vgt   antplnt     bgbyg        dg25 dgv1059  \
0        x25   x650_750      x_550     x_175  x4_5_5_0  x27_5_32_5  x41_50   
1        x10  x950_1150   x650_700  x375_425     x_3_0  x32_5_37_5  x61_70   
2       x_15   x550_650   x700_750  x375_425  x4_0_4_5  x37_5_47_5  x41_50   
3        x25   x650_750  x950_1050  x325_375     x_3_0      x_22_5  x51_60   
4 

In [8]:
import pandas as pd
from pgmpy.estimators import K2Score
from sklearn.preprocessing import LabelEncoder
from pgmpy.models import BayesianModel
from pgmpy.estimators import HillClimbSearch, K2Score, BayesianEstimator
import networkx as nx
import matplotlib.pyplot as plt

def load_data(DATA_CSV):
    D = pd.read_csv('data_reordered.csv')
    #D = D.apply(LabelEncoder().fit_transform)

    V = D.columns
    N = len(D.index)
    V_CARD = {v: len(D[v].unique()) for v in V}


    print(f'ARQUIVO: {D}')
    print(f'VARIÁVEIS: {V}')
    print(f'NÚMERO DE AMOSTRAS: {N}')
    print(f'MAPEAMENTO DAS VARIÁVEIS COM NÚMEROS DE VALORES ÚNICOS: {V_CARD}')
    return D, V, N, V_CARD

#Método K2 mais correto, que retorna as CPDs

def calcular_k2(D):
    """
    Calcula a pontuação K2 para os dados fornecidos.

    Args:
    - D: DataFrame contendo os dados.

    Returns:
    - k2score: Objeto K2Score contendo a pontuação K2 calculada.
    """
    k2score = K2Score(D)
    return k2score

def estimar_modelo(D, scoring_method):
    """
    Estima a estrutura do modelo usando o método K2.

    Args:
    - D: DataFrame contendo os dados.
    - scoring_method: Objeto de pontuação a ser usado para estimar a estrutura.

    Returns:
    - best_model: Modelo BayesianModel estimado.
    """
    estimator_k2 = HillClimbSearch(D)
    best_model = estimator_k2.estimate(scoring_method=scoring_method)
    return best_model

def tabular_cpd(best_model, D):
    """
    Estima as CPDs para o modelo usando o estimador bayesiano.

    Args:
    - best_model: Modelo BayesianModel estimado.
    - D: DataFrame contendo os dados.

    Returns:
    - cpds: Lista de CPDs estimadas.
    """
    bayesian_network = BayesianModel(best_model)
    estimator = BayesianEstimator(bayesian_network, D)
    cpds = []
    for node in bayesian_network.nodes():
        cpd = estimator.estimate_cpd(node)
        cpds.append(cpd)
    return cpds, bayesian_network

def desenhar_grafo(bayesian_network, k2_score):
    """
    Desenha o grafo da Rede Bayesiana.

    Args:
    - best_model: Modelo BayesianModel estimado.
    - k2_score: Valor do score K2 calculado.
    """
    graph = nx.DiGraph()
    # Convertendo as arestas para uma lista de tuplas
    edges = [(edge[0], edge[1]) for edge in bayesian_network.edges()]
    graph.add_edges_from(edges)
    plt.figure(figsize=(20, 16))
    nx.draw(graph, with_labels=True, node_size=2000, node_color='skyblue', font_size=12, font_weight='bold', arrowsize=20)
    plt.title(f'Grafo da Rede Bayesiana com o score: {k2_score}')
    plt.show()

# Dados já reordenados pelo Boruta, e suas propriedades
D = pd.read_csv('data_reordered.csv')
print(D)

V = D.columns
N = len(D.index)

print(f'VARIÁVEIS: {V}')
print(f'NÚMERO DE AMOSTRAS: {N}')

# Calcula a pontuação K2
k2score = calcular_k2(D)
print(k2score)
# Estima a estrutura do modelo com o K2
best_model = estimar_modelo(D, k2score)
print(f'Melhor modelo: {best_model}')

# Valor do Score gerado pelo K2
k2_score = k2score.score(best_model)
print(f'Valor do score K2: {k2_score}')

# Exibe a estrutura do modelo
structure = (best_model)
print(f'Estrutura da rede: {structure}')


# Estima as CPDs e passa a bayesian_netq
cpds, bayesian_network = tabular_cpd(best_model, D)
print(f'CPDs: {cpds}')
print(f'Bayesian Network: {bayesian_network}')
#Juntar o best_model com as cpds, para passar para o arquivoxml

# Desenha o grafo
desenhar_grafo(bayesian_network, k2_score)

     aar_mod mod_nmin    nmin     aks_m2    aks_vgt   antplnt     bgbyg  \
0        x25    x0_15   x0_15   x650_750      x_550     x_175  x4_5_5_0   
1        x10   x15_30  x30_45  x950_1150   x650_700  x375_425     x_3_0   
2       x_15   x45_60  x30_45   x550_650   x700_750  x375_425  x4_0_4_5   
3        x25    x0_15  x30_45   x650_750  x950_1050  x325_375     x_3_0   
4         x5   x15_30  x15_30   x650_750   x750_850  x375_425  x4_5_5_0   
...      ...      ...     ...        ...        ...       ...       ...   
9995    x_10   x30_45  x15_30      x_350     x_1050  x375_425  x4_5_5_0   
9996     x10    x0_15  x15_30  x950_1150   x700_750  x175_225  x4_5_5_0   
9997     x20    x0_15  x15_30     x_1150   x550_600  x325_375  x4_0_4_5   
9998     x25    x0_15  x30_45      x_350     x_1050  x375_425  x4_5_5_0   
9999     x20   x30_45  x45_60  x950_1150   x600_650  x175_225  x4_0_4_5   

            dg25 dgv1059 dgv5980  ...      saatid slt22      sort sorttkv  \
0     x27_5_32_5  x41_

  0%|          | 0/1000000 [00:00<?, ?it/s]

  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gammaln(1)
  (num_parents_states - counts.shape[1]) * var_cardinality * gam

KeyboardInterrupt: 

In [None]:
from pgmpy.readwrite import XMLBIFWriter

# Inicialize o Modelo Bayesian
modelo_completo = BayesianModel(bayesian_network)  # Inicialize com as arestas do bayesian_network
print(f'Modelo: {modelo_completo}')

# Adicionando as CPDs ao Modelo
for cpd in cpds:
    modelo_completo.add_cpds(cpd)

# Verifique a consistência do modelo
assert modelo_completo.check_model()

# Verificar a Estrutura do Modelo
print("Estrutura do Modelo:")
print(modelo_completo.edges())

# Verificar as CPDs e imprimir na tela
print("\nCPDs do Modelo:")
for node in modelo_completo.nodes():
    print(f"CPD para o nó {node}:")
    print(modelo_completo.get_cpds(node))

# Verificar a Consistência do Modelo
print("\nVerificação de Consistência do Modelo:")
print(modelo_completo.check_model())

# Fazendo o formato XMLBIF
writer = XMLBIFWriter(modelo_completo)

# Especifique o nome do arquivo para salvar o modelo
nome_arquivo = "barley.xml"

# Escreva o modelo no arquivo .xmlbif
writer.write_xmlbif(nome_arquivo)  # Use write em vez de write_xmlbif




Modelo: BayesianModel with 11 nodes and 18 edges
Estrutura do Modelo:
[('Akt', 'Erk'), ('Mek', 'Raf'), ('Mek', 'Akt'), ('Mek', 'Erk'), ('PKA', 'Mek'), ('PKA', 'Jnk'), ('PKA', 'Erk'), ('PKA', 'Raf'), ('PKA', 'Akt'), ('P38', 'PKA'), ('P38', 'PKC'), ('PIP2', 'Plcg'), ('PIP2', 'PIP3'), ('PKC', 'Jnk'), ('PKC', 'Raf'), ('PKC', 'Mek'), ('PKC', 'PKA'), ('Plcg', 'PIP3')]

CPDs do Modelo:
CPD para o nó Akt:
+--------+---------------------+-----+--------------------+
| Mek    | Mek(1)              | ... | Mek(3)             |
+--------+---------------------+-----+--------------------+
| PKA    | PKA(1)              | ... | PKA(3)             |
+--------+---------------------+-----+--------------------+
| Akt(1) | 0.6346493218373418  | ... | 0.3333333333333333 |
+--------+---------------------+-----+--------------------+
| Akt(2) | 0.3555690011596833  | ... | 0.3333333333333333 |
+--------+---------------------+-----+--------------------+
| Akt(3) | 0.00978167700297484 | ... | 0.3333333333333333 |