Este peta kernel

In [5]:
import dask.dataframe as dd
import pandas as pd
import sqlalchemy
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

# Conectar a la base de datos MySQL
engine = sqlalchemy.create_engine('mysql+pymysql://root:8963alex@localhost:3306/MyTrainer')

# Obtener datos de ejercicios y repeticiones
query_ejercicios = "SELECT * FROM Ejercicios"
query_repeticiones = "SELECT * FROM Repeticion"

# Guardar los datos de las tablas 
df_ejercicios = pd.read_sql(query_ejercicios, engine)
df_repeticiones = pd.read_sql(query_repeticiones, engine)

# Fusionar tablas para obtener nombres de ejercicios
df = df_repeticiones.merge(df_ejercicios, on='Id_ejercicio', how='left')

# Seleccionar características relevantes y el objetivo
X = df[['Id_ejercicio', 'Num_Serie', 'Num_repeticion', 'Tiempo', 'Fuerza', 'Posicion', 'Velocidad', 'Trig']]
y = df['NombreEjercicio']

# Convertir características categóricas a numéricas si es necesario
le = LabelEncoder()
y = le.fit_transform(y)

# Ajustar el escalador a los datos
scaler = StandardScaler()
X_scaled_np = scaler.fit_transform(X)

# Convertir los datos escalados de nuevo a DataFrame de pandas
df_scaled = pd.DataFrame(X_scaled_np, columns=X.columns)

# Convertir DataFrame a Dask DataFrame
ddf_scaled = dd.from_pandas(df_scaled, npartitions=10)

# Agregar la columna objetivo
df_scaled['NombreEjercicio'] = y

# Verificar dimensiones del DataFrame escalado
print(f"Dimensiones de df_scaled: {df_scaled.shape}")

# Crear ventanas deslizantes para series temporales
def create_time_series(df, window_size, step):
    X, y = [], []
    total_steps = len(df) - window_size
    print(f"Total steps: {total_steps}")
    for i in range(0, total_steps, step):
        X.append(df.iloc[i:i + window_size, :-1].values)
        y.append(df.iloc[i + window_size - 1, -1])
        if i % 1000 == 0:  # Imprimir el estado cada 1000 iteraciones
            print(f"Step {i}/{total_steps}")
    return np.array(X), np.array(y)

# Definir tamaño de ventana y paso
window_size = 10
step = 1

# Procesar datos en partes más pequeñas
chunk_size = 50000  # Tamaño de cada chunk
num_chunks = len(df_scaled) // chunk_size + 1

X_series_list, y_series_list = [], []

for i in range(num_chunks):
    start_idx = i * chunk_size
    end_idx = min((i + 1) * chunk_size, len(df_scaled))
    df_chunk = df_scaled.iloc[start_idx:end_idx]
    X_chunk, y_chunk = create_time_series(df_chunk, window_size, step)
    X_series_list.append(X_chunk)
    y_series_list.append(y_chunk)

# Combinar todos los chunks
X_series = np.vstack(X_series_list)
y_series = np.concatenate(y_series_list)

# Verificar dimensiones de los datos
print(f"Dimensiones de X_series: {X_series.shape}")
print(f"Dimensiones de y_series: {y_series.shape}")

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_series, y_series, test_size=0.2, random_state=42)

# Entrenar el modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
X_train_reshaped = X_train.reshape(X_train.shape[0], -1)  # Aplanar las series temporales
model.fit(X_train_reshaped, y_train)

# Realizar predicciones
X_test_reshaped = X_test.reshape(X_test.shape[0], -1)  # Aplanar las series temporales
y_pred = model.predict(X_test_reshaped)

# Evaluar el modelo
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred, target_names=le.classes_))

# Cargar los nuevos datos
nuevos_datos = pd.read_csv('055_Cin_Flex_Dom.xlsx - Serie 1.csv')

# Renombrar las columnas del CSV para que coincidan con las utilizadas en el modelo
nuevos_datos.columns = ['Id_ejercicio', 'Num_Serie', 'Num_repeticion', 'Fase', 'Tiempo', 'Posicion', 'Fuerza', 'Velocidad', 'Trig', 'Nota']

# Seleccionar solo las columnas relevantes para el modelo
nuevos_datos = nuevos_datos[['Id_ejercicio', 'Num_Serie', 'Num_repeticion', 'Tiempo', 'Fuerza', 'Posicion', 'Velocidad', 'Trig']]

# Preprocesar los nuevos datos de manera similar a los datos de entrenamiento
nuevos_datos_scaled = scaler.transform(nuevos_datos)

# Crear DataFrame escalado para nuevos datos
df_nuevos_scaled = pd.DataFrame(nuevos_datos_scaled, columns=nuevos_datos.columns)

# Crear series temporales para los nuevos datos
X_nuevos_series, _ = create_time_series(df_nuevos_scaled, window_size, step)

# Verificar dimensiones de los nuevos datos
print(f"Dimensiones de X_nuevos_series: {X_nuevos_series.shape}")

# Realizar predicciones
X_nuevos_series_reshaped = X_nuevos_series.reshape(X_nuevos_series.shape[0], -1)  # Aplanar las series temporales
predicciones = model.predict(X_nuevos_series_reshaped)

# Transformar predicciones a nombres de ejercicios
nombres_ejercicios = le.inverse_transform(predicciones)

# Determinar el nombre del ejercicio más frecuente en las predicciones
nombre_ejercicio_final = pd.Series(nombres_ejercicios).mode()[0]

# Crear un DataFrame con solo el nombre del ejercicio final
df_resultado = pd.DataFrame([nombre_ejercicio_final], columns=['NombreEjercicio'])

print(df_resultado)


Dimensiones de df_scaled: (453429, 9)
Total steps: 49990
Step 0/49990
Step 1000/49990
Step 2000/49990
Step 3000/49990
