In [1]:
import pandas as pd

In [2]:

# Carregar o arquivo Excel enviado
file_path = 'data/library.xlsx'

# Ler o conteúdo do arquivo
excel_data = pd.ExcelFile(file_path)

# Verificar as planilhas disponíveis no arquivo
sheet_names = excel_data.sheet_names
sheet_names

['Casos', 'Pesos']

In [3]:
# Carregar os dados da planilha "Casos"
casos_df = pd.read_excel(excel_data, sheet_name='Casos')

# Exibir as primeiras linhas da base de casos
casos_df.head()

Unnamed: 0,area damaged,canker lesion,crop hist,date,external decay,fruit spots,fruiting bodies,fruit pods,germination,hail,...,seed,seed discolor,seed size,seed tmt,severity,shriveling,stem,stem cankers,temp,objective
0,low-areas,brown,same-1st-yr,october,firm-and-dry,dna,present,norm,90-100%,yes,...,norm,absent,norm,none,pot-severe,absent,abnorm,above-sec-nde,norm,diaporthe-stem-canker
1,scattered,brown,same-lst-two-yrs,august,firm-and-dry,dna,present,norm,80-89%,yes,...,norm,absent,norm,fungicide,severe,absent,abnorm,above-sec-nde,norm,diaporthe-stem-canker
2,scattered,dna,same-1st-yr,july,firm-and-dry,dna,present,norm,lt-80%,yes,...,norm,absent,norm,fungicide,severe,absent,abnorm,above-sec-nde,norm,diaporthe-stem-canker
3,scattered,dna,same-1st-yr,july,firm-and-dry,dna,present,norm,80-89%,yes,...,norm,absent,norm,none,severe,absent,abnorm,above-sec-nde,norm,diaporthe-stem-canker
4,scattered,brown,same-lst-two-yrs,october,firm-and-dry,dna,present,norm,lt-80%,yes,...,norm,absent,norm,none,pot-severe,absent,abnorm,above-sec-nde,norm,diaporthe-stem-canker


In [4]:
# Função para gerar a tabela de similaridade para um atributo
def generate_similarity_table(attribute):
    clean_values = casos_df[attribute].replace('dna', pd.NA).dropna().unique()
    sorted_values = sorted(clean_values)
    
    # Criar a tabela de similaridade
    table = pd.DataFrame(index=sorted_values, columns=sorted_values)
    
    for i, val1 in enumerate(sorted_values):
        for j, val2 in enumerate(sorted_values):
            table.loc[val1, val2] = 1 - abs(i - j) / (len(sorted_values) - 1)
    
    return table

# Selecionar os demais atributos para gerar as tabelas de similaridade
attributes = casos_df.columns

# Dicionário para armazenar todas as tabelas de similaridade
similarity_tables = {}

# Gerar as tabelas de similaridade para todos os atributos
for attribute in attributes:
    similarity_tables[attribute] = generate_similarity_table(attribute)

# Exibir um exemplo de tabela para outro atributo, como "canker lesion"
similarity_tables


{'area damaged':             low-areas scattered unknown upper-areas whole-field
 low-areas         1.0      0.75     0.5        0.25         0.0
 scattered        0.75       1.0    0.75         0.5        0.25
 unknown           0.5      0.75     1.0        0.75         0.5
 upper-areas      0.25       0.5    0.75         1.0        0.75
 whole-field       0.0      0.25     0.5        0.75         1.0,
 'canker lesion':                  brown dk-brown-blk       tan   unknown
 brown              1.0     0.666667  0.333333       0.0
 dk-brown-blk  0.666667          1.0  0.666667  0.333333
 tan           0.333333     0.666667       1.0  0.666667
 unknown            0.0     0.333333  0.666667       1.0,
 'crop hist':                  diff-1st-year same-1st-yr same-lst-sev-yrs same-lst-two-yrs  \
 diff-1st-year              1.0        0.75              0.5             0.25   
 same-1st-yr               0.75         1.0             0.75              0.5   
 same-lst-sev-yrs           0.5   

In [5]:
# Carregar o arquivo "input.xlsx" enviado pelo usuário
input_file_path = 'data/input.xlsx'

# Ler os dados da nova tabela de entrada (input.xlsx)
input_data = pd.ExcelFile(input_file_path)

# Verificar as planilhas disponíveis no arquivo
input_sheet_names = input_data.sheet_names
input_sheet_names


['Casos', 'Pesos']

In [6]:
# Loop para exibir todas as tabelas de similaridade com seus nomes
for atributo, tabela in similarity_tables.items():
    print(f"Tabela de Similaridade para o atributo: {atributo}")
    print(atributo)
    print("\n")


Tabela de Similaridade para o atributo: area damaged
area damaged


Tabela de Similaridade para o atributo: canker lesion
canker lesion


Tabela de Similaridade para o atributo: crop hist
crop hist


Tabela de Similaridade para o atributo: date
date


Tabela de Similaridade para o atributo: external decay
external decay


Tabela de Similaridade para o atributo: fruit spots
fruit spots


Tabela de Similaridade para o atributo: fruiting bodies
fruiting bodies


Tabela de Similaridade para o atributo: fruit pods
fruit pods


Tabela de Similaridade para o atributo: germination
germination


Tabela de Similaridade para o atributo: hail
hail


Tabela de Similaridade para o atributo: int discolor
int discolor


Tabela de Similaridade para o atributo: leaf malf
leaf malf


Tabela de Similaridade para o atributo: leaf mild
leaf mild


Tabela de Similaridade para o atributo: leaf shread
leaf shread


Tabela de Similaridade para o atributo: leafspots halo
leafspots halo


Tabela de Similaridade p

In [10]:
import pandas as pd

# Carregar os arquivos
base_casos = pd.read_excel('data/library.xlsx', sheet_name='Casos')
input_casos = pd.read_excel('data/input.xlsx')

# Função para calcular a similaridade de um novo caso com a base
def calcular_similaridade(novo_caso, base_caso, similaridade_tables):
    total_similaridade = 0
    num_atributos = len(novo_caso)
    
    for atributo in novo_caso.index:
        if atributo in similaridade_tables:
            tabela_similaridade = similaridade_tables[atributo]
            valor_novo = novo_caso[atributo]
            valor_base = base_caso[atributo]
            
            if valor_novo in tabela_similaridade.index and valor_base in tabela_similaridade.columns:
                similaridade = tabela_similaridade.loc[valor_novo, valor_base]
                total_similaridade += similaridade
    
    return total_similaridade / num_atributos

# Função principal para calcular a pontuação final e valor objetivo
def calcular_valor_objetivo(input_casos, base_casos, similaridade_tables):
    resultados = []
    
    # Criar coluna 'Caso' se não existir
    if 'Caso' not in input_casos.columns:
        input_casos['Caso'] = pd.NA  # Ou defina um valor padrão que desejar

    # Criar coluna 'objective' se não existir
    if 'objective' not in base_casos.columns:
        base_casos['objective'] = pd.NA  # Ou defina um valor padrão que desejar

    for idx, novo_caso in input_casos.iterrows():
        melhor_caso = None
        maior_similaridade = -1
        valor_objetivo = pd.NA  # Inicializando como nulo

        for _, base_caso in base_casos.iterrows():
            similaridade = calcular_similaridade(novo_caso, base_caso, similaridade_tables)

            if similaridade > maior_similaridade:
                maior_similaridade = similaridade
                melhor_caso = base_caso
                valor_objetivo = base_caso.get('objective', pd.NA)  # Obter o valor objetivo, se existir

        resultados.append({
            'Caso': novo_caso.get('Caso', pd.NA),  # Preencher se já existir
            'Melhor Casos': melhor_caso.get('Caso', pd.NA) if melhor_caso is not None else pd.NA,
            'Pontuação': maior_similaridade,
            'Valor Objetivo': valor_objetivo
        })

    return pd.DataFrame(resultados)



# Aqui você passaria as tabelas de similaridade geradas anteriormente
# Supondo que você já tenha as tabelas de similaridade geradas para cada atributo:
similaridade_tables = {
    'area damaged': similarity_tables['area damaged'],
    'canker lesion': similarity_tables['canker lesion'],
    'crop hist': similarity_tables['crop hist'],
    'date': similarity_tables['date'],
    'external decay': similarity_tables['external decay'],
    'fruit spots': similarity_tables['fruit spots'],
    'fruiting bodies': similarity_tables['fruiting bodies'],
    'fruit pods': similarity_tables['fruit pods'],
    'germination': similarity_tables['germination'],
    'hail': similarity_tables['hail'],
    'leaf mild': similarity_tables['leaf mild'],
    'leafspots halo': similarity_tables['leafspots halo'],
    'leafspots marg': similarity_tables['leafspots marg'],
    'lodging': similarity_tables['lodging'],
    'mycelium': similarity_tables['mycelium'],
    'plant stand': similarity_tables['plant stand'],
    'precip': similarity_tables['precip'],
    'roots': similarity_tables['roots'],
    'sclerotia': similarity_tables['sclerotia'],
    'seed': similarity_tables['seed'],
    'seed discolor': similarity_tables['seed discolor'],
    'seed size': similarity_tables['seed size'],
    'seed tmt': similarity_tables['seed tmt'],
    'severity': similarity_tables['severity'],
    'shriveling': similarity_tables['shriveling'],
    'stem': similarity_tables['stem'],
    'stem cankers': similarity_tables['stem cankers'],
    'temp': similarity_tables['temp']
}

# Você pode então passar esse dicionário para a função `calcular_valor_objetivo`:
resultados = calcular_valor_objetivo(input_casos, base_casos, similaridade_tables)
print(resultados)


Defina a faixa de pontuação que deseja buscar:


Digite o valor inferior da faixa (ex: 0.1 para 10%):  0.1
Digite o valor superior da faixa (ex: 0.2 para 20%):  0.5
