In [None]:
import pandas as pd
import sqlalchemy
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans
from sklearn.multioutput import MultiOutputClassifier
import numpy as np

# Conectar a la base de datos MySQL
engine = sqlalchemy.create_engine('mysql+pymysql://root:8963alex@localhost:3306/MyTrainer')

# Obtener datos de ejercicios y repeticiones
query_ejercicios = "SELECT * FROM Ejercicios"
query_repeticiones = "SELECT * FROM Repeticion"

df_ejercicios = pd.read_sql(query_ejercicios, engine)
df_repeticiones = pd.read_sql(query_repeticiones, engine)

# Fusionar tablas para obtener nombres de ejercicios
df = df_repeticiones.merge(df_ejercicios, on='Id_ejercicio', how='left')

# Seleccionar características relevantes y los objetivos
X = df[['Id_ejercicio', 'Num_Serie', 'Num_repeticion', 'Tiempo', 'Fuerza', 'Posicion', 'Velocidad', 'Trig']]
y = df[['NombreEjercicio', 'Id_Modo', 'Dominante']]

# Convertir características categóricas a numéricas si es necesario
le_nombre = LabelEncoder()
y['NombreEjercicio'] = le_nombre.fit_transform(y['NombreEjercicio'])

le_modo = LabelEncoder()
y['Id_Modo'] = le_modo.fit_transform(y['Id_Modo'])

le_dominante = LabelEncoder()
y['Dominante'] = le_dominante.fit_transform(y['Dominante'])

# Crear etiquetas combinadas
y_combined = y.apply(lambda row: f"{row['NombreEjercicio']}_{row['Id_Modo']}_{row['Dominante']}", axis=1)

# Aplicar clustering basado en etiquetas combinadas
num_clusters = len(np.unique(y_combined))
kmeans = KMeans(n_clusters=num_clusters, random_state=42)
X_scaled = StandardScaler().fit_transform(X)
X['Cluster'] = kmeans.fit_predict(X_scaled)

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo multietiqueta
model = MultiOutputClassifier(RandomForestClassifier(n_estimators=100, random_state=42))
model.fit(X_train, y_train)

# Cargar los nuevos datos desde CSV
nuevos_datos = pd.read_csv('../SQL/055/055_Cin_Add_Dom_Reps.csv')

# Asegurarnos de que las columnas coincidan con las esperadas
nuevos_datos = nuevos_datos[['Id_ejercicio', 'Num_Serie', 'Num_repeticion', 'Tiempo', 'Fuerza', 'Posicion', 'Velocidad', 'Trig']]

# Escalar los nuevos datos utilizando el mismo scaler de X
nuevos_datos_scaled = StandardScaler().fit_transform(nuevos_datos)

# Predecir clusters para los nuevos datos
nuevos_datos['Cluster'] = kmeans.predict(nuevos_datos_scaled)



# Mapear etiquetas de clusters a los nuevos datos
cluster_labels = pd.DataFrame({'Cluster': nuevos_datos['Cluster'], 'Label': y_combined})
cluster_labels = cluster_labels.groupby('Cluster').agg(lambda x: x.value_counts().index[0])
nuevos_datos['Label'] = nuevos_datos['Cluster'].map(cluster_labels['Label'])

# Dividir las etiquetas combinadas en componentes originales
nuevos_datos[['NombreEjercicio', 'Id_Modo', 'Dominante']] = nuevos_datos['Label'].str.split('_', expand=True)

# Convertir etiquetas a sus valores originales
nuevos_datos['NombreEjercicio'] = le_nombre.inverse_transform(nuevos_datos['NombreEjercicio'].astype(int))
nuevos_datos['Id_Modo'] = le_modo.inverse_transform(nuevos_datos['Id_Modo'].astype(int))
nuevos_datos['Dominante'] = le_dominante.inverse_transform(nuevos_datos['Dominante'].astype(int))

# Determinar el valor más frecuente para cada columna
nombre_ejercicio_final = pd.Series(nuevos_datos['NombreEjercicio']).mode()[0]
modo_final = pd.Series(nuevos_datos['Id_Modo']).mode()[0]
dominante_final = pd.Series(nuevos_datos['Dominante']).mode()[0]

# Crear DataFrame con los resultados finales
df_resultado = pd.DataFrame([[nombre_ejercicio_final, modo_final, dominante_final]], columns=['NombreEjercicio', 'Id_Modo', 'Dominante'])

print(df_resultado)