In [2]:
#My First Notebook

In [1]:
import numpy as np
import pandas as pd
from sqlalchemy import create_engine
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from tslearn.preprocessing import TimeSeriesScalerMeanVariance
from tslearn.clustering import TimeSeriesKMeans

Install h5py to use hdf5 features: http://docs.h5py.org/
  warn(h5py_msg)


In [2]:
#Conectar a la base de datos SQL
def connect_to_db(connection_string):
    engine = create_engine(connection_string) #Creamos el engine con la cadena de conexion que va a ser la URL de la base de datos
    return engine

In [3]:
#Obtener los datos de la BD 
def cargar_datos(engine):
    #df = pd.read_sql(query, engine)
    #return df
    
    #Cargar datos de las tablas de la base de datos 
    ejercicios = pd.read_sql_table('Ejercicios', engine)
    series = pd.read_sql_table('Serie', engine)
    repeticiones = pd.read_sql_table('Repeticion', engine)
    
    return ejercicios, series, repeticiones

In [4]:
#Preprocesar los datos 
def preprocesar_datos(ejercicios, series, repeticiones):
    # Unir tablas
    data = repeticiones.merge(series, on=['Id_ejercicio', 'Num_Serie']) #Unimos tablas Repeticion y Serie con las columnas iguales
    data = data.merge(ejercicios, on='Id_ejercicio') #Hacemos lo mismo con la union anterior y la tabla Ejercicios
    
    # Filtrar datos necesarios vamos a tener solo estas columnas en la variable data
    data = data[['NombreEjercicio', 'Tiempo', 'Fuerza']]
    
    # Normalizar etiquetas
    data['NombreEjercicio'] = data['NombreEjercicio'].apply(lambda x: 0 if 'interna' in x.lower() else 1) #Se normaliza la columna NombreEjercicio 
    #se asigna un 0 si en el nombre tiene la string interna y un 1 si tiene externa. Los nombres se convierten en etiquetas numericas 
    
    return data

In [5]:
#Transformación de datos
def transformar_datos(data):
    # Agrupar por ejercicio y serie temporal y fuerza se agrega en listas
    grouped = data.groupby(['NombreEjercicio', 'Tiempo'])['Fuerza'].apply(list).reset_index()

    # Encontrar la longitud máxima de las series temporales esto determina la longitud a la que se deben rellenar (pad) todas las series temporales.
    max_length = max(grouped['Fuerza'].apply(len))

    # Crear estructura para el escalador
    X = [] #Lista vacia
    y = [] #Lista vacia
    for name, group in grouped.groupby('NombreEjercicio'):
        #Se rellenan las listas de Fuerza para que todas tengan la misma longitud (max_length) usando np.pad, que agrega ceros al final de las listas más cortas.
        series = group['Fuerza'].apply(lambda x: np.pad(x, (0, max_length - len(x)), 'constant')).tolist()
        #Se añaden las series rellenadas a X.
        X.extend(series)
        #Se añaden etiquetas correspondientes a y, una por cada serie.
        y.extend([name] * len(series))  

    #Se convierte x en una array de numpy para facilitar su manipulacion
    X = np.array(X)

    # Escalar los datos de X
    scaler = TimeSeriesScalerMeanVariance()
    #Ajustar las series temporales para tener media 0 y varianza 1 
    X_scaled = scaler.fit_transform(X)

    #X_scaled contien las series temporales
    return X_scaled, y

In [6]:
#Entrenamiento del modelo
def entrenar_modelo(X, y):
    y = np.array(y)  # Asegurar que la variable y es un array de numpy

    # Aplanar(convertir en un solo vector) las series temporales para que sean compatibles con RandomForestClassifier Array bidimensional donde 
    # cada fila es una serie temporal aplanada
    X_flattened = X.reshape(X.shape[0], -1)

    # Dividir los datos en conjuntos en entrenamiento y prueba
    # 30% de los datos para prueba
    # 42 es para que sea divisible???
    X_train, X_test, y_train, y_test = train_test_split(X_flattened, y, test_size=0.3, random_state=42)
    
    # Verificar el equilibrio de clases
    unique, counts = np.unique(y_train, return_counts=True)
    print("Distribución de clases en el conjunto de entrenamiento:", dict(zip(unique, counts)))

    # Clustering de las series de entrenamiento
    # X_train se remodela a su forma original de series temporales (tridimensional) para el ajuste del modelo kmeans
    kmeans = TimeSeriesKMeans(n_clusters=2, metric="euclidean")
    kmeans.fit(X_train.reshape(X_train.shape[0], X.shape[1], X.shape[2])) 

    # Se entrena un clasificador Random Forest con los datos de entrenamiento 
    # X_train (aplanado) y y_train. Se ajusta el modelo clf
    clf = RandomForestClassifier()
    clf.fit(X_train, y_train)
    
    # Se predicen las etiquetas para X_train utilizando el modelo anterior
    y_pred = clf.predict(X_test)
    
    # Se muestra el informe y se comparan las etiquetas reales y predecidas
    print(classification_report(y_test, y_pred))
    
    return clf, kmeans

In [7]:

#Predicción
def predecir(modelo, datos_nuevos, max_length, scaler):
    # Agrupar por ejercicio y serie temporal y fuerza se agrega en listas
    grouped = datos_nuevos.groupby(['NombreEjercicio', 'Tiempo'])['Fuerza'].apply(list).reset_index()
    # Se crea una lista vacia 
    X = []
    # Iterar por 0 o 1 en NombreEjercicio 
    for name, group in grouped.groupby('NombreEjercicio'):
        # Rellenar la columna Fuerza hasta max_lenght
        series = group['Fuerza'].apply(lambda x: np.pad(x, (0, max_length - len(x)), 'constant')).tolist()
        # Añade las listas rellenadas a la lista X
        X.extend(series)

    #Se convierte x en una array de numpy para facilitar su manipulacion
    X = np.array(X)
    # Escala los datos en X utilizando el escalador scaler proporcionado, normalizando las series 
    X_scaled = scaler.transform(X)
    # Aplana el array X_scaled para convertir cada serie temporal en una sola fila
    X_flattened = X_scaled.reshape(X_scaled.shape[0], -1)
    prediccion = modelo.predict(X_flattened)
    return prediccion


In [9]:
# Ejecución del proceso
# Creamos el engine
engine = connect_to_db('mysql+pymysql://root:8963alex@localhost:3306/MyTrainer')
ejercicios, series, repeticiones = cargar_datos(engine)
datos_procesados = preprocesar_datos(ejercicios, series, repeticiones)
X, y = transformar_datos(datos_procesados)
modelo, kmeans = entrenar_modelo(X, y)

archivo_nuevos_datos = '017_Cin_RotEx_Dom.xlsx - Serie 1.csv'
nuevos_datos = pd.read_csv(archivo_nuevos_datos)
if 'Fuerza (Kg)' not in nuevos_datos.columns:
    raise ValueError("El archivo de nuevos datos debe contener una columna 'Fuerza (Kg)'.")
nuevos_datos.rename(columns={'Tiempo (s)': 'Tiempo', 'Fuerza (Kg)': 'Fuerza'}, inplace=True)

if 'Ex' in archivo_nuevos_datos:
    etiqueta_ejercicio = 1
elif 'In' in archivo_nuevos_datos:
    etiqueta_ejercicio = 0
else:
    raise ValueError("El nombre del archivo debe contener 'Ex' o 'In' para determinar la etiqueta del ejercicio.")
nuevos_datos['NombreEjercicio'] = etiqueta_ejercicio # Asignar una etiqueta predeterminada si es necesario

max_length = X.shape[1]
scaler = TimeSeriesScalerMeanVariance()
scaler.fit(X)

# Verificar la estructura de los nuevos datos
print("Estructura de los nuevos datos antes de la predicción:")
print(nuevos_datos.head())

prediccion = predecir(modelo, nuevos_datos, max_length, scaler)
print(f'Predicción: {"Rotación Interna" if prediccion[0] == 0 else "Rotación Externa"}')

Distribución de clases en el conjunto de entrenamiento: {0: 2029, 1: 3804}
              precision    recall  f1-score   support

           0       0.76      0.87      0.81       901
           1       0.92      0.84      0.88      1599

    accuracy                           0.86      2500
   macro avg       0.84      0.86      0.85      2500
weighted avg       0.86      0.86      0.86      2500

Estructura de los nuevos datos antes de la predicción:
   Id_Ejercicio  Serie  Repetición Fase  Tiempo  Posición (cm)  Fuerza  \
0           330      1           1    c    0.01           0.00    3.59   
1           330      1           1    c    0.02           0.00    3.64   
2           330      1           1    c    0.03           0.18    3.64   
3           330      1           1    c    0.04           0.55    3.70   
4           330      1           1    c    0.05           0.92    3.91   

   Velocidad (cm/s)  Trigger  Nota  NombreEjercicio  
0              0.00        0     0          