In [1]:
import pandas as pd  # Importa a biblioteca pandas para manipulação de dados

# Carregar dados do CSV
df = pd.read_csv('../Database/Resultados-Busca/repos_with_files.csv')  # Lê o arquivo CSV com dados dos repositórios

# Definindo palavras-chave para classificação
tool_keywords = [
    'prototype', 'wireframe', 'ux tool', 'design system', 'testing tool', 
    'sketch', 'material design', 'roadmap', 'guide', 'skills', 
    'color scheme', 'color palette', 'visual design'
]
application_keywords = [
    'app', 'mobile', 'website', 'user-friendly', 'UI', 
    'application', 'UI/UX'
]
automation_keywords = [
    'bot', 'automation', 'whatsapp', 'interaction', 'customer service', 
    'media sending', 'ai', 'artificial intelligence'
]
component_keywords = [
    'UI Library', 'library', 'component', 'UI component', 'plugin', 
    'widget', 'ui kit', 'bootstrap', 'react', 'vue', 'angular', 
    'react native', 'tailwind css', 'unstyled', 'accessible ui'
]

# Definindo pesos para as palavras-chave
keyword_weights = {
    'Outra Classificação': 2,  # Peso para a categoria de automação
    'Ferramenta UX': 1.5,      # Peso para ferramentas de UX
    'Componente UX': 1.2,       # Peso para componentes de UX
    'Aplicação UX': 1           # Peso para aplicações de UX
}

# Função para classificar repositórios com base na descrição e tópicos
def classify_repository(description, topics):
    description = str(description).lower() if pd.notna(description) else ''  # Converte a descrição para minúsculas
    topics = str(topics).lower() if pd.notna(topics) else ''  # Converte os tópicos para minúsculas

    # Calcular pontuações para cada categoria
    scores = {}
    for category, keywords in [
        ('Outra Classificação', automation_keywords),
        ('Ferramenta UX', tool_keywords),
        ('Componente UX', component_keywords),
        ('Aplicação UX', application_keywords)
    ]:
        # Calcula a pontuação somando os pesos das palavras-chave encontradas
        score = sum(1 for word in keywords if word in description or word in topics)
        scores[category] = score * keyword_weights[category]  # Multiplica pela ponderação da categoria

    # Determinar a classificação com base na maior pontuação
    classification = max(scores, key=scores.get)  # Seleciona a categoria com a maior pontuação

    return classification  # Retorna a classificação

# Aplicar a função de classificação aos repositórios
df['category'] = df.apply(lambda row: classify_repository(
    row['description'], row['topics']), axis=1)

# Filtrar os repositórios classificados
non_classified_df = df[df['category'] == 'Não classificado']  # DataFrame para repositórios não classificados
non_classified_df = df[df['category'] == 'Outra Classificação']  # DataFrame para repositórios classificados como "Outra Classificação"
classified_df = df[df['category'] != 'Não classificado']  # DataFrame para repositórios classificados
classified_df = df[df['category'] != 'Outra Classificação']  # Atualiza DataFrame para repositórios classificados

# Salvar os resultados em arquivos CSV
non_classified_output_path = '../Database/Resultados-Busca/repositorios_nao_classificados.csv'  # Caminho de saída para repositórios não classificados
classified_output_path = '../Database/Resultados-Busca/repositorios_categorizados.csv'  # Caminho de saída para repositórios classificados

# Exporta os DataFrames para arquivos CSV
non_classified_df.to_csv(non_classified_output_path, index=False, sep=',', decimal=',')  # Salva repositórios não classificados
classified_df.to_csv(classified_output_path, index=False, sep=',', decimal=',')  # Salva repositórios classificados

# Mensagens de conclusão
print(f"Categorização concluída.")
print(f"Repositórios não classificados salvos em '{non_classified_output_path}'.")
print(f"Repositórios classificados salvos em '{classified_output_path}'.")


Categorização concluída.
Repositórios não classificados salvos em '../Database/Resultados-Busca/repositorios_nao_classificados.csv'.
Repositórios classificados salvos em '../Database/Resultados-Busca/repositorios_categorizados.csv'.
