In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
import joblib



# Função para carregar e preparar os dados
def prepare_data(file_path, target_column, numeric_features, test_size=0.2, random_state=42):
    # Carregar dados
    df = pd.read_csv(file_path)
    
    # Separar em features e target
    X = df[numeric_features]  # Supõe-se que todas as features sejam numéricas
    y = df[target_column]
    
    # Codificar a variável alvo categórica
    label_encoder = LabelEncoder()
    y_encoded = label_encoder.fit_transform(y)
    
    # Dividir os dados em conjuntos de treinamento e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=test_size, random_state=random_state)
    
    # Construir o pré-processador para features numéricas
    numeric_transformer = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='median')),  # Preencher valores ausentes
        ('scaler', StandardScaler())                   # Normalizar dados numéricos
    ])
    
    # Coluna Transformer para aplicar as transformações nas colunas numéricas
    preprocessor = ColumnTransformer(
        transformers=[
            ('num', numeric_transformer, numeric_features)
        ])
    
    # Pré-processar os dados de treinamento e teste
    X_train_processed = preprocessor.fit_transform(X_train)
    X_test_processed = preprocessor.transform(X_test)


    # Salvar o pré-processador e o label encoder
    joblib.dump(preprocessor, scaler_path)
    joblib.dump(label_encoder, label_encoder_path)
    
    # Retorna os conjuntos de dados processados e o pré-processador para uso futuro
    return X_train_processed, X_test_processed, y_train, y_test, preprocessor, label_encoder

# Uso da função
file_path = 'spotify_dataset.csv'
target_column = 'Quadrante'
numeric_features = ['acousticness', 'danceability', 'energy', 'instrumentalness', 'key', 'liveness', 'loudness', 'speechiness', 'tempo', 'valence', 'mode', 'time_signature']  
scaler_path = 'preprocessor.joblib'
label_encoder_path = 'label_encoder.joblib'


# Prepare os dados
X_train, X_test, y_train, y_test, preprocessor, label_encoder = prepare_data(file_path, target_column, numeric_features)

# Agora X_train, X_test, y_train e y_test estão prontos para serem usados em qualquer modelo de ML.