# *1.Trabalho de Conclusão de Curso*.

    Esse Projeto tem como finalidade aplicar modelos bayesianos à uma base de dados Fornecida pela ANEEL, referente a interrupções elétricas. Busca-se analidar a relação probábilistica entre as variaveis de interrupção, horario, região, concessionária, tipo da interrupção, interrupção em certo nével de tensão e o fator de causalidade da interrupção. 


### 1.2 Importação de Bibliotecas 

* Panadas: Aálises de Data Frames 
* Pgmpy: Aplicação de Redes Bayesianas 
* Numpy: Operações Matemáticas 

In [2]:
import matplotlib.pyplot as plt
import networkx as nx
import pandas as pd
from pgmpy.models import BayesianModel
from pgmpy.estimators import MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination
from pgmpy.models import BayesianModel
from pgmpy.estimators import BayesianEstimator, HillClimbSearch, BicScore


### 1.3 Funções Realizadas

In [3]:
def separar_data_hora(data, colunas):
    """
    Função para separar as colunas de data e hora em um DataFrame.

    Parâmetros:
    data (pd.DataFrame): DataFrame contendo as colunas a serem separadas.
    colunas (list): Lista com os nomes das colunas a serem separadas.

    Retorna:
    pd.DataFrame: DataFrame com as colunas de data e hora separadas.
    """
    for coluna in colunas:
        if coluna in data.columns:
            data[[coluna, f'Hor{coluna[3:]}']] = data[coluna].str.split(' ', expand=True)
    return data




In [4]:
def processar_interrupcoes(data):
    """
    Processa as colunas de data e hora em um DataFrame grande, combinando-as e calculando a duração da interrupção.
    
    Parâmetros:
    data (pd.DataFrame): DataFrame contendo as colunas de data e hora.

    Retorna:
    pd.DataFrame: DataFrame atualizado com colunas formatadas e a duração da interrupção.
    """

    # Converter colunas de data para string (reduz memória se forem objetos)
    data['DatInicioInterrupcao'] = data['DatInicioInterrupcao'].astype('string')
    data['DatFimInterrupcao'] = data['DatFimInterrupcao'].astype('string')

    # Concatenar data e hora para criar colunas completas de datetime
    data['InicioInterrupcao'] = pd.to_datetime(
        data['DatInicioInterrupcao'] + ' ' + data['HorInicioInterrupcao'], 
        errors='coerce',  # Evita erros se houver valores inválidos
        format='%Y-%m-%d %H:%M:%S'  # Define o formato esperado para otimização
    )

    data['FimInterrupcao'] = pd.to_datetime(
        data['DatFimInterrupcao'] + ' ' + data['HorFimInterrupcao'], 
        errors='coerce',
        format='%Y-%m-%d %H:%M:%S'
    )

    # Converter datas para datetime com inferência de formato
    data['DatInicioInterrupcao'] = pd.to_datetime(data['DatInicioInterrupcao'], errors='coerce')
    data['DatFimInterrupcao'] = pd.to_datetime(data['DatFimInterrupcao'], errors='coerce')

    # Calcular a duração da interrupção (em horas)
    data['DuracaoInterrupcao'] = (data['FimInterrupcao'] - data['InicioInterrupcao']).dt.total_seconds() / 3600

    # Liberar memória removendo colunas desnecessárias
    data.drop(columns=['HorInicioInterrupcao', 'HorFimInterrupcao'], inplace=True)

    return data

In [5]:
def categorizar_numTensao(numTensao):
    if numTensao <= 1000.0:
        return 'Baixa Tensão'
    elif 1000.0 < numTensao <= 36000.0:
        return 'Média Tensão'
    elif numTensao > 36000.0:
        return 'Alta Tensão'

In [6]:


# Função para classificar o turno
def identificar_turno(horario):
    # Extrair a hora do Timestamp
    hora = horario.hour
    if 6 <= hora < 12:
        return 'Manhã'
    elif 12 <= hora < 18:
        return 'Tarde'
    else:
        return 'Noite'

In [7]:
def categorizar_duracao(duracao):
    """
    Categoriza a duração da interrupção em faixas predefinidas.

    Parâmetros:
    - duracao (float): Duração da interrupção em horas.

    Retorna:
    - str: Categoria correspondente à duração.
    """
    if duracao < 0.05:
        return 'Ruído'
    elif 0.05 <= duracao < 0.25:
        return 'Interrupção muito pequena'
    elif 0.25 <= duracao < 0.5:
        return 'Interrupção pequena'
    elif 0.5 <= duracao < 3:
        return 'Média'
    elif 3 <= duracao < 6:
        return 'Grande em área urbana'
    elif 6 <= duracao < 10:
        return 'Grande em área rural'
    elif 10 <= duracao < 24:
        return 'Preocupante'
    else:  # duracao >= 24
        return 'Anomalia'




In [8]:
def convert_to_networkx(bayesian_model):
    """
    Converte um BayesianModel para um DiGraph do networkx.
    """
    G = nx.DiGraph()
    G.add_nodes_from(bayesian_model.nodes())
    G.add_edges_from(bayesian_model.edges())
    return G

import os
import matplotlib.pyplot as plt
import networkx as nx

def plot_graph_and_save(model, save_dir="output", filename="bayesian_network.png"):
    """
    Plota a estrutura da Rede Bayesiana e salva a imagem em um caminho definido.

    Parâmetros:
    - model (nx.DiGraph): Grafo direcionado representando o modelo Bayesiano.
    - save_dir (str): Diretório onde a imagem será salva.
    - filename (str): Nome do arquivo a ser salvo.

    Retorna:
    - Caminho do arquivo salvo.
    """

    # Criar diretório se não existir
    os.makedirs(save_dir, exist_ok=True)
    
    # Definir caminho do arquivo
    image_path = os.path.join(save_dir, filename)

    # Criar a figura e o layout do grafo
    plt.figure(figsize=(10, 8))
    pos = nx.spring_layout(model)
    nx.draw(model, pos, with_labels=True, node_color='lightblue', font_weight='bold', node_size=3000, edge_color="gray")
    plt.title("Estrutura da Rede Bayesiana")

    # Salvar imagem antes de exibir
    plt.savefig(image_path, format="png", dpi=300)
    plt.show()

    return image_path








## Função para inferencias e Estruturas Bayesianas 

In [9]:
from pgmpy.inference import VariableElimination
import pandas as pd

def inferencia_simples(modelo, variavel):
    """
    Realiza inferência para uma variável na Rede Bayesiana sem considerar evidências.

    Parâmetros:
    - modelo (BayesianModel): Modelo Bayesiano treinado.
    - variavel (str): Variável de interesse para inferência.

    Retorno:
    - DataFrame contendo as probabilidades inferidas para a variável.
    """
    try:
        # Criar o objeto de inferência
        inferencia = VariableElimination(modelo)

        # Realizar a inferência para a variável sem evidências
        resultado = inferencia.query(variables=[variavel])

        # Criar um DataFrame com os estados e suas probabilidades
        df_resultados = pd.DataFrame({
            'Variável': variavel,
            'Estado': resultado.state_names[variavel],  # Estados possíveis da variável
            'Probabilidade': resultado.values  # Probabilidades associadas a cada estado
        })

        return df_resultados
    except Exception as e:
        print(f"Erro ao realizar inferência para '{variavel}': {e}")
        return None

# Exemplo de uso:
# resultado = inferencia_simples(best_model, 'A')
# print(resultado)



In [10]:
import itertools
import pandas as pd
from pgmpy.inference import VariableElimination

def inferencia_todas_combinacoes(modelo, categorias):
    """
    Realiza inferência Bayesiana para todas as variáveis do modelo, considerando
    todas as possíveis combinações de evidências.

    Parâmetros:
    - modelo (BayesianModel): Modelo Bayesiano treinado.
    - categorias (dict): Dicionário contendo as categorias de cada variável.

    Retorno:
    - DataFrame contendo todas as inferências realizadas.
    """
    # Criar o objeto de inferência
    inferencia = VariableElimination(modelo)
    
    # Lista para armazenar os resultados
    resultados = []

    # Percorrer todas as variáveis do modelo
    for variavel_alvo in modelo.nodes():
        # Criar combinações de evidências usando as demais variáveis
        variaveis_restantes = [var for var in modelo.nodes() if var != variavel_alvo]
        
        # Gerar todas as combinações possíveis de evidências
        for num_evidencias in range(1, len(variaveis_restantes) + 1):  # De 1 até todas as evidências possíveis
            for evidencias_comb in itertools.combinations(variaveis_restantes, num_evidencias):
                # Gerar todas as combinações de valores para as evidências escolhidas
                valores_possiveis = [categorias[var] for var in evidencias_comb]
                for valores_evidencias in itertools.product(*valores_possiveis):
                    # Criar o dicionário de evidências
                    evidencias = dict(zip(evidencias_comb, valores_evidencias))

                    # Mapear evidências categóricas para valores numéricos
                    evidencias_convertidas = {}
                    for var, valor in evidencias.items():
                        cpd = modelo.get_cpds(var)
                        categorias_var = cpd.state_names[var]
                        evidencias_convertidas[var] = categorias_var.index(valor)

                    # Realizar inferência
                    resultado = inferencia.query(variables=[variavel_alvo], evidence=evidencias_convertidas)

                    # Adicionar os resultados ao DataFrame
                    for estado, prob in zip(resultado.state_names[variavel_alvo], resultado.values):
                        resultados.append({
                            'Variável Alvo': variavel_alvo,
                            'Estado': estado,
                            'Probabilidade': prob,
                            'Evidências': evidencias
                        })

    # Criar um DataFrame com os resultados
    df_resultados = pd.DataFrame(resultados)

    return df_resultados


### 1.3 Exportação da Base de Dados e Pré-processamento
    O Pgmpy não aceita objetct 

In [11]:
df1 = pd.read_csv('interrupcoes-energia-eletrica-2024 (2).csv', encoding="ISO-8859-1", sep=';')
df1=df1.dropna()
df1=df1[['DscTipoInterrupcao','IdeMotivoInterrupcao','NumNivelTensao','SigAgente','DatInicioInterrupcao','DatFimInterrupcao']]

colunas_para_separar = ['DatInicioInterrupcao', 'DatFimInterrupcao']
df1 = separar_data_hora(df1, colunas_para_separar)

df1= processar_interrupcoes(df1)

  df1 = pd.read_csv('interrupcoes-energia-eletrica-2024 (2).csv', encoding="ISO-8859-1", sep=';')


In [12]:
df2 = pd.read_csv('interrupcoes-energia-eletrica-2023.csv', encoding="ISO-8859-1", sep=';')
df2=df2.dropna()
df2=df2[['DscTipoInterrupcao','IdeMotivoInterrupcao','NumNivelTensao','SigAgente','DatInicioInterrupcao','DatFimInterrupcao']]

colunas_para_separar = ['DatInicioInterrupcao', 'DatFimInterrupcao']
df2 = separar_data_hora(df2, colunas_para_separar)

df2= processar_interrupcoes(df2)

  df2 = pd.read_csv('interrupcoes-energia-eletrica-2023.csv', encoding="ISO-8859-1", sep=';')


In [13]:
df3 = pd.read_csv('interrupcoes-energia-eletrica-2022.csv', encoding="ISO-8859-1", sep=';')
df3=df3.dropna()
df3=df3[['DscTipoInterrupcao','IdeMotivoInterrupcao','NumNivelTensao','SigAgente','DatInicioInterrupcao','DatFimInterrupcao']]

colunas_para_separar = ['DatInicioInterrupcao', 'DatFimInterrupcao']
df3 = separar_data_hora(df3, colunas_para_separar)

df3= processar_interrupcoes(df3)

  df3 = pd.read_csv('interrupcoes-energia-eletrica-2022.csv', encoding="ISO-8859-1", sep=';')


In [14]:
df4 = pd.read_csv('interrupcoes-energia-eletrica-2021.csv', encoding="ISO-8859-1", sep=';')
df4=df4.dropna()
df4=df4[['DscTipoInterrupcao','IdeMotivoInterrupcao','NumNivelTensao','SigAgente','DatInicioInterrupcao','DatFimInterrupcao']]

colunas_para_separar = ['DatInicioInterrupcao', 'DatFimInterrupcao']
df4 = separar_data_hora(df4, colunas_para_separar)

df4= processar_interrupcoes(df4)

  df4 = pd.read_csv('interrupcoes-energia-eletrica-2021.csv', encoding="ISO-8859-1", sep=';')


In [15]:

data= pd.concat([df1, df2,df3,df4], ignore_index=True)

In [16]:
data.drop_duplicates(inplace=True)

MemoryError: cannot allocate memory for array

### 1.4 Informações do dataframe

In [None]:
# Verificar se o DataFrame está vazio
if data.empty:
    raise ValueError("Erro: O DataFrame está vazio após o pré-processamento.")

# Verificar se há valores nulos
print("Valores nulos por coluna:\n", data.isnull().sum())

# Verificar número de linhas e colunas
print(f"O DataFrame tem {data.shape[0]} linhas e {data.shape[1]} colunas.")

In [None]:
# Supondo que a coluna de datas seja 'DatInicioInterrupcao'
menor_data = data['DatInicioInterrupcao'].min()
maior_data = data['DatInicioInterrupcao'].max()

print(f"Menor data: {menor_data}")
print(f"Maior data: {maior_data}")

In [None]:
data.head()

In [None]:
data.shape

### Continuação do Pre-Processamento

In [None]:
# Garantir que a coluna seja float
data["NumNivelTensao"] = pd.to_numeric(data["NumNivelTensao"], errors='coerce')
data["NumNivelTensao"] = data["NumNivelTensao"].apply(categorizar_numTensao)

# Converter para categoria
data["NumNivelTensao"] = data["NumNivelTensao"].astype('category')

In [None]:

# Exemplo de aplicação no DataFrame:
data['DuracaoInterrupcao'] = data['DuracaoInterrupcao'].apply(categorizar_duracao)
# Converter para categoria
data['DuracaoInterrupcao'] = data['DuracaoInterrupcao'].astype('category')

In [None]:
data['Mes'] = data['DatInicioInterrupcao'].dt.month

In [None]:
data.drop(columns=['FimInterrupcao'], inplace=True)


In [None]:
# Garantir que a coluna seja do tipo datetime (incluindo hora)
data['InicioInterrupcao'] = pd.to_datetime(data['InicioInterrupcao'], errors='coerce', format='%Y-%m-%d %H:%M:%S')

# Agora, extrair apenas o horário corretamente
data['HorInicioInterrupcao'] = data['InicioInterrupcao'].dt.time

In [None]:
data.head()

In [None]:

# Criar a nova coluna 'Turno' aplicando a função
data['Turno'] = data['HorInicioInterrupcao'].apply(identificar_turno)

In [None]:

data['DscTipoInterrupcao'] = data['DscTipoInterrupcao'].astype('category')
data['SigAgente'] = data['SigAgente'].astype('category')
data['DuracaoInterrupcao'] = data['DuracaoInterrupcao'].astype('category')
data['IdeMotivoInterrupcao'] = data['IdeMotivoInterrupcao'].astype('category')
data["Turno"] = data["Turno"].astype('category')
data["Mes"] = data["Mes"].astype('category')

In [None]:
data.head()

In [None]:
data=data[['DscTipoInterrupcao','IdeMotivoInterrupcao','NumNivelTensao','SigAgente','DuracaoInterrupcao','Turno','Mes']]

data.rename(columns={
    'DscTipoInterrupcao': 'A',
    'IdeMotivoInterrupcao': 'B',
    'NumNivelTensao': 'C',
    'SigAgente': 'D',
    'DuracaoInterrupcao': 'E',
    'Turno':'F',
    'Mes': 'G'
}, inplace=True)

In [None]:
data["D"] = data["D"].str.strip()

In [None]:
# Verificar se o DataFrame está vazio
if data.empty:
    raise ValueError("Erro: O DataFrame está vazio após o pré-processamento.")

# Verificar se há valores nulos
print("Valores nulos por coluna:\n", data.isnull().sum())

# Verificar número de linhas e colunas
print(f"O DataFrame tem {data.shape[0]} linhas e {data.shape[1]} colunas.")


In [None]:
from pgmpy.estimators import HillClimbSearch, BicScore
from pgmpy.models import BayesianModel
from pgmpy.estimators import BayesianEstimator
from pgmpy.inference import VariableElimination
# ✅ 2. Aplicar Hill-Climbing Search para aprender a estrutura do modelo
dag = HillClimbSearch(data).estimate(scoring_method=BicScore(data), max_indegree=3, max_iter=100)

# ✅ 3. Criar o modelo Bayesian com a estrutura aprendida
best_model = BayesianModel(dag.edges())

# ✅ 4. Ajustar os parâmetros do modelo usando os dados
best_model.fit(data, estimator=BayesianEstimator, prior_type="BDeu")

# ✅ 5. Exibir a estrutura aprendida
print("Estrutura aprendida pelo Hill-Climbing Search:", list(best_model.edges()))




# 🔍 Inferências Baseadas nas Relações da Rede Bayesiana

## 📌 Relações Estruturais
Os pares **(X, Y)** indicam que **X influencia Y**, ou seja, **Y é condicionado a X**.


[('A', 'F'), ('B', 'D'), ('B', 'C'), ('B', 'G'), ('D', 'A'), ('D', 'G'), ('D', 'F'), ('C', 'D'), ('C', 'A'), ('C', 'G'), ('E', 'D'), ('E', 'F'), ('E', 'C'), ('E', 'B'), ('E', 'A')]





In [None]:
graph = convert_to_networkx(best_model)
image_path = plot_graph_and_save(graph, save_dir="output")

## **1️⃣ Inferência Simples**
A inferência simples analisa as probabilidades das variáveis sem considerar nenhuma informação prévia.

**Exemplo de Pergunta**  
📌 *Qual a probabilidade de uma interrupção ser programada ou acidental?*  
👉 `P(A)`

**Exemplo de Resposta**
- **Interrupção programada**: 55%  
- **Interrupção acidental**: 45%  

📌 *Qual a probabilidade do nível de tensão afetado ser baixa, média ou alta?*  
👉 `P(C)`

- **Baixa tensão (127V-220V)**: 40%  
- **Média tensão (13.8kV)**: 35%  
- **Alta tensão (69kV-138kV)**: 25%  

---

In [None]:
resultado_a = inferencia_simples(best_model, 'A')
resultado_a

In [None]:
resultado_b = inferencia_simples(best_model, 'B')
resultado_b

In [None]:
resultado_c= inferencia_simples(best_model, 'C')
resultado_c

In [None]:
resultado_d= inferencia_simples(best_model, 'D')
resultado_d



In [None]:
resultado_e= inferencia_simples(best_model, 'E')
resultado_e

In [None]:
resultado_f= inferencia_simples(best_model, 'F')
resultado_f

## **2️⃣ Inferência Condicional**
Aqui analisamos probabilidades levando em conta informações conhecidas (**evidências**).

### **📌 Inferências Baseadas nas Relações**
Agora, usando as conexões na rede, podemos inferir:

### 🔹 **Probabilidade de um agente estar envolvido em uma falha, dado o motivo**
**Pergunta**  
📌 *Se a interrupção ocorreu por sobrecarga (`B = sobrecarga`), qual a chance do agente responsável ser a concessionária X?*  
👉 `P(D | B)`

**Interpretação**
- Se o motivo for **sobrecarga**, a interrupção pode ter mais probabilidade de estar associada a distribuidoras locais.
- Se for **falha estrutural**, pode estar mais associada a concessionárias de transmissão.

---

### 🔹 **Probabilidade de o tipo de interrupção ser programada ou acidental, dado o agente**
**Pergunta**  
📌 *Se a interrupção ocorreu sob responsabilidade de uma determinada concessionária (`D = empresa X`), qual a probabilidade de ser uma falha programada?*  
👉 `P(A | D)`

**Interpretação**
- Empresas que realizam **muita manutenção preventiva** têm mais interrupções **programadas**.
- Empresas com **infraestrutura deficiente** podem ter mais falhas **acidentais**.

---

### 🔹 **Impacto do nível de tensão no tipo de interrupção**
**Pergunta**  
📌 *Se a falha ocorreu em uma rede de alta tensão (`C = alta tensão`), qual a chance de ser um desligamento programado?*  
👉 `P(A | C)`

**Interpretação**
- Redes **de alta tensão** são mais propensas a **interrupções programadas** (exemplo: manutenção preventiva).
- Redes **de baixa tensão** podem ter mais **falhas acidentais** (exemplo: curto-circuitos e sobrecargas).

---

### 🔹 **Duração da interrupção baseada no motivo e nível de tensão**
**Pergunta**  
📌 *Se a interrupção foi causada por um curto-circuito (`B = curto-circuito`) em uma rede de baixa tensão (`C = baixa tensão`), qual o tempo médio de restabelecimento?*  
👉 `P(E | B, C)`

**Interpretação**
- Curto-circuitos em **redes de baixa tensão** tendem a ser resolvidos mais rapidamente (`E < 2 horas`).
- Falhas em **redes de alta tensão** exigem protocolos mais rigorosos e podem levar mais tempo (`E > 6 horas`).

---

### 🔹 **Influência do mês na duração das interrupções**
**Pergunta**  
📌 *Se estamos no mês de janeiro (`G = janeiro`), qual a probabilidade da interrupção durar mais de 6 horas?*  
👉 `P(E > 6h | G = janeiro)`

**Interpretação**
- Em meses chuvosos, as interrupções podem ser mais longas devido a dificuldades no acesso das equipes.
- No verão, sobrecargas podem causar mais falhas, mas o tempo de resposta pode ser melhor planejado.

---
[('A', 'F'), ('B', 'D'), ('B', 'C'), ('B', 'G'), ('D', 'A'), ('D', 'G'), ('D', 'F'), ('C', 'D'), ('C', 'A'), ('C', 'G'), ('E', 'D'), ('E', 'F'), ('E', 'C'), ('E', 'B'), ('E', 'A')]

In [None]:
infer = VariableElimination(best_model)
resultado = infer.query(variables=["F"], evidence={"A": 'Programada'})

In [None]:
print(resultado)

In [None]:
# Ajustar para testar todos os valores possíveis de cada variável de evidência

from pgmpy.inference import VariableElimination
import pandas as pd


# Criar o objeto de inferência
infer = VariableElimination(best_model)

# Definir os possíveis estados das variáveis
valores_variaveis = {
    "A": ['Programada', 'Não Programada'],
    "B": [0, 1, 2, 3, 4, 5, 6, 7,8],
    "C": ['Baixa Tensão', 'Média Tensão', 'Alta Tensão'],
    "D": ['CEMIG-D', 'EQUATORIAL GO', 'COPEL-DIS', 'ENEL RJ', 'ENEL CE', 'Equatorial MA', 
          'ELETROPAULO', 'CPFL-PAULISTA', 'RGE SUL', 'Equatorial PA'],
    "E": ['Anomalia', 'Grande em área rural', 'Grande em área urbana', 'Interrupção muito pequena', 
          'Interrupção pequena', 'Média', 'Preocupante', 'Ruído'],
    "F": ['Manhã', 'Tarde', 'Noite'],
    "G": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
}

# Lista de relações entre variáveis (Evidência -> Variável Alvo)
relacoes = [('A', 'F'), ('B', 'D'), ('B', 'C'), ('B', 'G'), ('D', 'A'), ('D', 'G'), ('D', 'F'),
            ('C', 'D'), ('C', 'A'), ('C', 'G'), ('E', 'D'), ('E', 'F'), ('E', 'C'), ('E', 'B'), ('E', 'A')]

# Lista para armazenar os resultados das inferências
resultados_lista = []

# Realizar a inferência para cada par de relação testando todos os valores possíveis da evidência
for evidencia, variavel in relacoes:
    for valor_evidencia in valores_variaveis[evidencia]:  # Testando todos os valores possíveis da evidência
        try:
            # Fazer inferência
            resultado = infer.query(variables=[variavel], evidence={evidencia: valor_evidencia})

            # Criar uma entrada para cada estado da variável inferida
            for estado, probabilidade in zip(resultado.state_names[variavel], resultado.values):
                resultados_lista.append({
                    "Variável Inferida": variavel,
                    "Estado": estado,
                    "Evidência": f"{evidencia} = {valor_evidencia}",
                    "Probabilidade": probabilidade
                })
        except Exception as e:
            print(f"Erro ao inferir para {evidencia} -> {variavel} com {valor_evidencia}: {e}")

# Criar DataFrame com os resultados
df_resultados = pd.DataFrame(resultados_lista)




In [None]:
df_resultados[
    (df_resultados['Variável Inferida'] == 'D') & 
    (df_resultados['Evidência'].str.startswith("E =")) & 
    (df_resultados['Estado'] == 'CEMIG-D')  # Filtrar apenas 'CEMIG-D'
]

In [None]:
df_resultados[
    (df_resultados['Variável Inferida'] == 'D') & 
    (df_resultados['Evidência'].str.startswith("B =")) & 
    (df_resultados['Estado'] == 'CEMIG-D')  # Filtrar apenas 'CEMIG-D'
]

In [None]:
df_resultados[
    (df_resultados['Variável Inferida'] == 'D') & 
    (df_resultados['Evidência'].str.startswith("F =")) & 
    (df_resultados['Estado'] == 'CEMIG-D')  # Filtrar apenas 'CEMIG-D'
]

In [None]:
df_resultados[
    (df_resultados['Variável Inferida'] == 'D') & 
    (df_resultados['Evidência'].str.startswith("C =")) & 
    (df_resultados['Estado'] == 'CEMIG-D')  # Filtrar apenas 'CEMIG-D'
]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'F') & (df_resultados['Evidência'].str.startswith("D = CEMIG-D"))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'A') & (df_resultados['Evidência'].str.startswith("D = CEMIG-D"))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'A') & (df_resultados['Evidência'].str.startswith("D = CEMIG-D"))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'G') & (df_resultados['Evidência'].str.startswith("D = CEMIG-D"))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'F') & (df_resultados['Evidência'].str.startswith("A ="))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'G') & (df_resultados['Evidência'].str.startswith("C ="))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'A') & (df_resultados['Evidência'].str.startswith("D ="))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'F') & (df_resultados['Evidência'].str.startswith("A ="))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'F') & (df_resultados['Evidência'].str.startswith("A ="))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'C') & (df_resultados['Evidência'].str.startswith("B ="))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'G') & (df_resultados['Evidência'].str.startswith("B = 1"))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'G') & (df_resultados['Evidência'].str.startswith("B = 6"))]

In [None]:
df_resultados[(df_resultados['Variável Inferida'] == 'A') & (df_resultados['Evidência'].str.startswith("E ="))]

In [None]:
data2=data[['A','B','C','E','G']]

## 2.1 Gráficos de Barras 

## 2.2 Gráficos  Boxplot

## 2.3 Gráficos Função de Distribuição Acumulada