In [1]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

In [2]:
df = pd.read_csv('dados_processados/cursos-pos-processamento.csv',sep=';')

In [3]:
df_scaled = df.drop(['no_curso','co_curso'],axis=1)

In [4]:
# Suponha que 'df' seja o seu DataFrame com o dataset carregado

# Configurações
mandatory_features = [
    "no_cine_area_geral_agricultura,_silvicultura,_pesca_e_veterinaria",
    "no_cine_area_geral_artes_e_humanidades",
    "no_cine_area_geral_ciencias_naturais,_matematica_e_estatistica",
    "no_cine_area_geral_ciencias_sociais,_comunicacao_e_informacao",
    "no_cine_area_geral_computacao_e_tecnologias_da_informacao_e_comunicacao_(tic)",
    "no_cine_area_geral_educacao",
    "no_cine_area_geral_engenharia,_producao_e_construcao",
    "no_cine_area_geral_negocios,_administracao_e_direito",
    "no_cine_area_geral_saude_e_bem-estar",
    "no_cine_area_geral_servicos"
]
n_clusters_range = range(2, 10)  # Por exemplo, de 2 a 10 clusters
max_features = 50  # Número máximo de features (incluindo as obrigatórias)

# Features restantes para testar, excluindo as obrigatórias
candidate_features = [f for f in df_scaled.columns if f not in mandatory_features]

# Dicionário para armazenar o melhor score e o conjunto de features para cada k
best_results = {}

# Loop externo para cada número de clusters
for n_clusters in n_clusters_range:
    best_score = -1
    best_features = mandatory_features[:]  # Inicializa com as features obrigatórias

    # Adiciona features uma por uma e testa o índice de silhueta
    for feature in candidate_features:
        # Limita o número de features no conjunto atual
        if len(best_features) >= max_features:
            break

        # Tenta adicionar uma nova feature ao conjunto
        current_features = best_features + [feature]

        # Executa o K-Means e calcula o índice de silhueta
        kmeans = KMeans(n_clusters=n_clusters, random_state=42)
        clusters = kmeans.fit_predict(df_scaled[current_features])
        score = silhouette_score(df_scaled[current_features], clusters)

        # Atualiza o melhor conjunto de features para o número atual de clusters
        if score > best_score:
            best_score = score
            best_features = current_features

    # Armazena o melhor score e conjunto de features para o número atual de clusters
    best_results[n_clusters] = {
        "best_score": best_score,
        "best_features": best_features
    }

# Resultados finais
for k, result in best_results.items():
    print(f"Para k={k}:")
    print("Melhor conjunto de features:", result["best_features"])
    print("Melhor índice de silhueta:", result["best_score"])
    print("---------")


Para k=2:
Melhor conjunto de features: ['no_cine_area_geral_agricultura,_silvicultura,_pesca_e_veterinaria', 'no_cine_area_geral_artes_e_humanidades', 'no_cine_area_geral_ciencias_naturais,_matematica_e_estatistica', 'no_cine_area_geral_ciencias_sociais,_comunicacao_e_informacao', 'no_cine_area_geral_computacao_e_tecnologias_da_informacao_e_comunicacao_(tic)', 'no_cine_area_geral_educacao', 'no_cine_area_geral_engenharia,_producao_e_construcao', 'no_cine_area_geral_negocios,_administracao_e_direito', 'no_cine_area_geral_saude_e_bem-estar', 'no_cine_area_geral_servicos', 'tp_grau_academico_bacharelado', 'tp_grau_academico_licenciatura']
Melhor índice de silhueta: 0.5892116382259857
---------
Para k=3:
Melhor conjunto de features: ['no_cine_area_geral_agricultura,_silvicultura,_pesca_e_veterinaria', 'no_cine_area_geral_artes_e_humanidades', 'no_cine_area_geral_ciencias_naturais,_matematica_e_estatistica', 'no_cine_area_geral_ciencias_sociais,_comunicacao_e_informacao', 'no_cine_area_gera