In [46]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import csv

# Carregar dados do FCID e do FoodDB (Configurar o ambiente para estar na raíz do repositório.)
fcid_data = pd.read_csv('../data/processed/fcid/FCID_Code_Description.csv')
fooddb_data = pd.read_csv('../data/processed/foodb/Food.csv')

# Pré-processamento: converter todos os nomes para minúsculas
fcid_data['processed'] = fcid_data['FCID_Desc'].str.lower()
fooddb_data['processed'] = fooddb_data['name'].str.lower()

# Usar TF-IDF para converter os nomes em vetores
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(fcid_data['processed'].tolist() + fooddb_data['processed'].tolist())

# Calcular a similaridade de cosseno
cosine_sim = cosine_similarity(tfidf_matrix[:len(fcid_data)], tfidf_matrix[len(fcid_data):])

# Encontrar a melhor correspondência para cada alimento do FCID
matches = []
for idx, row in enumerate(cosine_sim):
    best_match_idx = row.argmax()
    fcid_food = fcid_data.iloc[idx]['FCID_Desc']
    fooddb_food = fooddb_data.iloc[best_match_idx]['name']
    matches.append((fcid_food, fooddb_food))
    
# Criar um DataFrame com as correspondências
matches_df = pd.DataFrame(matches, columns=['FCID_Food_Desc', 'FoodDB_Food_Name'])

# Salvar o DataFrame em um arquivo CSV
matches_df.to_csv('../data/interm/foods_comoddity_matches.csv', index=False, quoting=csv.QUOTE_ALL)

In [49]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import csv

# Carregar dados da EFSA e do FoodDB
efsa_data = pd.read_csv('../data/processed/efsa/EFSA_Intake.csv')
fooddb_data = pd.read_csv('../data/processed/foodb/Food.csv')

# Pré-processamento: converter todos os nomes para minúsculas
# Ajuste os nomes das colunas conforme a estrutura do seu arquivo CSV
efsa_data['processed'] = efsa_data['Exposure hierarchy (L7)'].str.lower()  # Ajuste o nome da coluna conforme necessário
fooddb_data['processed'] = fooddb_data['name'].str.lower()

# Usar TF-IDF para converter os nomes em vetores
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(efsa_data['processed'].tolist() + fooddb_data['processed'].tolist())

# Calcular a similaridade de cosseno
cosine_sim = cosine_similarity(tfidf_matrix[:len(efsa_data)], tfidf_matrix[len(efsa_data):])

# Encontrar a melhor correspondência para cada alimento da EFSA
matches = []
for idx, row in enumerate(cosine_sim):
    best_match_idx = row.argmax()
    efsa_food = efsa_data.iloc[idx]['Exposure hierarchy (L7)'] 
    fooddb_food = fooddb_data.iloc[best_match_idx]['name']
    matches.append((efsa_food, fooddb_food))

# Criar um DataFrame com as correspondências
matches_df = pd.DataFrame(matches, columns=['EFSA_Food_Desc', 'FoodDB_Food_Name'])

# Salvar o DataFrame em um arquivo CSV
matches_df.to_csv('../data/interm/EFSA_Food_FoodDB_matches.csv', index=False, quoting=csv.QUOTE_ALL)