In [1]:
import os
import numpy as np
import pandas as pd

#### Função `calcular_acuracia_por_faixas`

Função generalista para calcular a acurácia (em %) de dados. 
Essa acurácia é calculada a partir da porcentagem de dados que estão dentro de um intervalo (ou uma faixa) de valores esperados. 

- `dados_originais`: Array com dados originais que vão ser usados para comparar 
- `dados_processados`: Array com dados processados (imputados ou preditos) como dados de vazão, atraso, etc

Ela retorna:

- A porcentagem de acurácia.


In [2]:
def substituir_valor (valor):
    if valor < 200000000:
        return "r"
    elif 200000000 <= valor < 500000000:
        return "o"
    elif 500000000 <= valor < 800000000:
        return "y"
    elif 800000000 <= valor < 1000000000:
        return "b"
    else:
        return "g"

def calcular_acuracia_por_faixas(dados_originais, dados_processados):
    df_comparativo = pd.DataFrame()
    df_comparativo["Vazao Original"] = dados_originais
    df_comparativo["Vazao Processada"] = dados_processados
    df_comparativo["Vazao Faixa"] = 0
    df_comparativo['Vazao Original'] = df_comparativo['Vazao Original'].apply(substituir_valor)
    df_comparativo['Vazao Processada'] = df_comparativo['Vazao Processada'].apply(substituir_valor)
    df_comparativo['Vazao Faixa'] = df_comparativo.apply(lambda row: 1 if row['Vazao Original'] == row['Vazao Processada'] else 0, axis=1)
    cont = (df_comparativo['Vazao Faixa'] == 1).sum()
    porcentagem = (cont/len(df_comparativo)) * 100
    return porcentagem


In [3]:
dados_originais = [200000000, 200000000, 200000000]
dados_processados = [200000000, 200000000, 600000000]

calcular_acuracia_por_faixas(dados_originais, dados_processados)

66.66666666666666