In [2]:
import os
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import NearestNeighbors
from sklearn.decomposition import PCA
import joblib

def clean_numeric_values(df):
    # Função para limpar formatos numéricos inconsistentes
    for col in df.columns:
        if df[col].dtype == 'object':  # verificar se a coluna é do tipo objeto (string)
            df[col] = df[col].str.replace(',', '.')
    return df

def treinar_modelo_knn(file_path, n_neighbors=20, n_components=2, save_path=None):
    # Carregar dados com especificação do separador decimal
    df = pd.read_csv(file_path, decimal=',')

    # Limpar formatos numéricos inconsistentes
    df = clean_numeric_values(df)

    # Selecionar apenas as colunas numéricas relevantes para o KNN
    features = ['track_genre', 'popularity']

    # Normalizar os dados
    scaler = StandardScaler()
    df_scaled = scaler.fit_transform(df[features])

    # Aplicar PCA para reduzir a dimensionalidade
    pca = PCA(n_components=n_components)
    df_pca = pca.fit_transform(df_scaled)

    # Treinar o modelo KNN com os dados reduzidos
    knn = NearestNeighbors(n_neighbors=n_neighbors, algorithm='auto')
    knn.fit(df_pca)
    
    # Salvar os modelos treinados usando joblib
    if save_path:
        os.makedirs(save_path, exist_ok=True)  # cria o diretório se não existir
        joblib.dump(knn, os.path.join(save_path, 'knn_model.pkl'))
        joblib.dump(scaler, os.path.join(save_path, 'scaler.pkl'))
        joblib.dump(pca, os.path.join(save_path, 'pca_model.pkl'))
        print(f"Modelos salvos em {save_path}")
    
    return df, features

# Exemplo de uso
file_path = 'datasettest.csv'  # caminho do CSV
save_path = 'models/'  # diretório onde os modelos serão salvos
df, features = treinar_modelo_knn(file_path, save_path=save_path)


Modelos salvos em models/
