### Carga y Lectura de Archivo CSV `all_label.csv`

Este fragmento de código carga un archivo de datos (`all_label.csv`) que contiene información estructurada, presumiblemente relacionada con observaciones o etiquetas. El archivo se lee en un DataFrame para facilitar su manipulación y análisis.

#### Resultado Final:

El código genera un DataFrame (`df`) que contiene los datos del archivo `all_label.csv`, con una estructura organizada en 75732 entradas y 621 columnas. Esta disposición permite realizar análisis adicionales, visualización y transformación de los datos de una manera eficiente y ordenada, especialmente en el contexto de estudios biomecánicos.

Este enfoque asegura que el archivo de datos esté correctamente cargado y listo para ser procesado en Python, facilitando el trabajo posterior con las observaciones contenidas en `all_label.csv`.

#### Descripción de las Columnas en el DataFrame:

- **Total de columnas**: 621
  - **Variables de metadatos y del sujeto**: 15 columnas (índices 0-14)
  - **Mediciones de fuerza en la pierna izquierda**:
    - Fuerza vertical: 101 columnas (índices 15-115)
    - Fuerza anteroposterior (AP): 101 columnas (índices 116-216)
    - Fuerza mediolateral (ML): 101 columnas (índices 217-317)
  - **Mediciones de fuerza en la pierna derecha**:
    - Fuerza vertical: 101 columnas (índices 318-418)
    - Fuerza anteroposterior (AP): 101 columnas (índices 419-519)
    - Fuerza mediolateral (ML): 101 columnas (índices 520-620)

Este desglose de columnas permite un análisis detallado, tanto a nivel de características del sujeto como en las distintas fuerzas ejercidas en ambas piernas, distribuidas entre fuerza vertical, anteroposterior y mediolateral.


In [1]:
import pandas as pd 
import os

path = r'../Datos/all_label.csv'  
print(path)
df = pd.read_table(path, skipinitialspace=True, sep=",", engine='python')

../Datos/all_label.csv


In [2]:
df.info()
#Subject_Metadata : 'SUBJECT_ID', 'SESSION_ID', "TRIAL_ID", "CLASS_LABEL", "CLASS_LABEL_DETAILED", "SEX", "AGE", "HEIGHT",
#                    "BODY_WEIGHT", "BODY_MASS", "SHOE_SIZE",   "AFFECTED_SIDE", "TRAIN", "TRAIN_BALANCED", "TEST"]] 


# 621 columnas
# 15 variables entre meta y de sujeto 0-14
# 101 de fuerza vertical izquierda 15-115
# 101 de fuerza AP izquierda 116-216
# 101 de fuerza ML izquierda 217-317
# 101 de fuerza vertical derecha 318-418
# 101 de fuerza AP derecha 419-519
# 101 de fuerza ML derecha 520-620

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75732 entries, 0 to 75731
Columns: 621 entries, SUBJECT_ID to F_ML_PRO_101_y
dtypes: float64(611), int64(8), object(2)
memory usage: 358.8+ MB


In [3]:
df.head(5)

Unnamed: 0,SUBJECT_ID,SESSION_ID,CLASS_LABEL,CLASS_LABEL_DETAILED,SEX,AGE,HEIGHT,BODY_WEIGHT,BODY_MASS,SHOE_SIZE,...,F_ML_PRO_92_y,F_ML_PRO_93_y,F_ML_PRO_94_y,F_ML_PRO_95_y,F_ML_PRO_96_y,F_ML_PRO_97_y,F_ML_PRO_98_y,F_ML_PRO_99_y,F_ML_PRO_100_y,F_ML_PRO_101_y
0,1,29885,HC,HC,1,18,173.0,516.1,52.6,42.0,...,-0.014202,-0.016156,-0.017102,-0.017226,-0.01659,-0.015234,-0.013024,-0.010097,-0.006812,-0.003706
1,1,29885,HC,HC,1,18,173.0,516.1,52.6,42.0,...,-0.007899,-0.009882,-0.01115,-0.011917,-0.012198,-0.011717,-0.010377,-0.0081,-0.00537,-0.0027
2,1,29885,HC,HC,1,18,173.0,516.1,52.6,42.0,...,-0.014413,-0.015882,-0.016604,-0.016632,-0.015799,-0.014007,-0.011457,-0.008337,-0.005226,-0.002521
3,1,29885,HC,HC,1,18,173.0,516.1,52.6,42.0,...,-0.011995,-0.014123,-0.01554,-0.016282,-0.016094,-0.014761,-0.01246,-0.009797,-0.007301,-0.005008
4,1,29885,HC,HC,1,18,173.0,516.1,52.6,42.0,...,-0.008053,-0.011044,-0.013281,-0.014789,-0.015466,-0.015033,-0.013397,-0.010814,-0.00781,-0.004943


In [4]:
columns = list(df.columns)
for i in range(0, len(columns), 6):
    print(columns[i:i+6])  # Imprime un grupo de 10 columnas por línea
# x es izquierda

['SUBJECT_ID', 'SESSION_ID', 'CLASS_LABEL', 'CLASS_LABEL_DETAILED', 'SEX', 'AGE']
['HEIGHT', 'BODY_WEIGHT', 'BODY_MASS', 'SHOE_SIZE', 'AFFECTED_SIDE', 'TRAIN']
['TRAIN_BALANCED', 'TEST', 'TRIAL_ID', 'F_V_PRO_1_x', 'F_V_PRO_2_x', 'F_V_PRO_3_x']
['F_V_PRO_4_x', 'F_V_PRO_5_x', 'F_V_PRO_6_x', 'F_V_PRO_7_x', 'F_V_PRO_8_x', 'F_V_PRO_9_x']
['F_V_PRO_10_x', 'F_V_PRO_11_x', 'F_V_PRO_12_x', 'F_V_PRO_13_x', 'F_V_PRO_14_x', 'F_V_PRO_15_x']
['F_V_PRO_16_x', 'F_V_PRO_17_x', 'F_V_PRO_18_x', 'F_V_PRO_19_x', 'F_V_PRO_20_x', 'F_V_PRO_21_x']
['F_V_PRO_22_x', 'F_V_PRO_23_x', 'F_V_PRO_24_x', 'F_V_PRO_25_x', 'F_V_PRO_26_x', 'F_V_PRO_27_x']
['F_V_PRO_28_x', 'F_V_PRO_29_x', 'F_V_PRO_30_x', 'F_V_PRO_31_x', 'F_V_PRO_32_x', 'F_V_PRO_33_x']
['F_V_PRO_34_x', 'F_V_PRO_35_x', 'F_V_PRO_36_x', 'F_V_PRO_37_x', 'F_V_PRO_38_x', 'F_V_PRO_39_x']
['F_V_PRO_40_x', 'F_V_PRO_41_x', 'F_V_PRO_42_x', 'F_V_PRO_43_x', 'F_V_PRO_44_x', 'F_V_PRO_45_x']
['F_V_PRO_46_x', 'F_V_PRO_47_x', 'F_V_PRO_48_x', 'F_V_PRO_49_x', 'F_V_PRO_50_x', 'F

### Conteo de Pacientes Únicos en el Conjunto de Datos

Este fragmento de código cuenta el número de pacientes únicos en el conjunto de datos, agrupando las observaciones por la columna `SUBJECT_ID`. El propósito es obtener una visión general de la cantidad de sujetos individuales registrados en el DataFrame.

#### Resultado Final:

El código determina que existen **2295 pacientes únicos** en la base de datos, lo cual se obtiene mediante el conteo de valores únicos en la columna `SUBJECT_ID`. Este conteo es fundamental para análisis posteriores, ya que asegura que la muestra incluye una amplia variedad de pacientes, permitiendo inferencias precisas sobre las características y patrones observados.

Esta información es particularmente útil en el contexto de estudios biomecánicos y facilita una correcta organización y segmentación de los datos de acuerdo con cada paciente en el conjunto de observaciones.


In [5]:
# Contar el número de pacientes únicos en el DataFrame
num_pacientes = df["SUBJECT_ID"].nunique()

# Impresión descriptiva del resultado
print(f"Total de pacientes únicos en la base de datos: {num_pacientes}")


Total de pacientes únicos en la base de datos: 2295


### Distribución de Observaciones por Etiqueta de Clase (`CLASS_LABEL`)

Este análisis agrupa las observaciones en el conjunto de datos según la columna `CLASS_LABEL`, proporcionando un conteo detallado de registros para cada clase. Este enfoque permite observar la frecuencia de cada etiqueta en el conjunto, lo cual es útil para comprender la composición de los datos en función de las clases asignadas a las observaciones.

#### Resultados de la Agrupación por `CLASS_LABEL`:

| Clase (`CLASS_LABEL`) | Observaciones (`trials`) |
|-----------------------|--------------------------|
| **HC**                | 7755                     |
| **H**                 | 12748                    |
| **C**                 | 13970                    |
| **K**                 | 19873                    |
| **A**                 | 21386                    |

#### Total de Observaciones:

La suma total de las observaciones agrupadas por clase es **75732**:

- **7755 + 12748 + 13970 + 19873 + 21386 = 75732**

Este desglose proporciona una visión clara de la distribución de etiquetas en el conjunto de datos, lo cual es valioso para el análisis y modelado, especialmente en problemas de clasificación multiclase. La diversidad en la cantidad de observaciones por clase también puede influir en el balance de los datos y la interpretación de los resultados en aplicaciones de Machine Learning.



In [6]:
df.groupby(by=["CLASS_LABEL"])["CLASS_LABEL"].count().reset_index(name='trials').sort_values(['trials'])

Unnamed: 0,CLASS_LABEL,trials
3,HC,7755
2,H,12748
1,C,13970
4,K,19873
0,A,21386


### Distribución de Observaciones por Extremidad Afectada

Este análisis presenta la distribución de observaciones en el conjunto de datos, agrupadas según la extremidad afectada, representada en la columna `AFFECTED_SIDE`. El objetivo es entender cómo se distribuyen las observaciones en función de si la extremidad afectada es la izquierda, la derecha, ambas o si el paciente está sano.

#### Resultados:

- **Extremidad izquierda afectada (0)**: 32,884 observaciones
- **Extremidad derecha afectada (1)**: 31,556 observaciones
- **Ambas extremidades afectadas (2)**: 3,537 observaciones
- **Pacientes sanos (NaN)**: 7,755 observaciones

#### Total de Observaciones:

El conjunto de datos contiene un total de **75,732 observaciones**.

#### Verificación del Cálculo:

Para asegurar la precisión en la distribución total, se verifica la suma de cada categoría:
- **Izquierda + Derecha + Ambas + Sanos** = **Total**
- 32,884 + 31,556 + 3,537 + 7,755 = 75,732

Este desglose permite obtener una visión clara de la composición del conjunto de datos en relación con la condición de la extremidad afectada de los pacientes, facilitando un análisis detallado y enfocado en el estado físico de cada grupo.


In [7]:
# Conteo de observaciones por condición de extremidad afectada
afectacion_lado = df["AFFECTED_SIDE"].value_counts(dropna=False)

# Impresión de resultados con descripciones claras
print("Distribución de observaciones según la extremidad afectada:")
print(f"- Izquierda (0): {afectacion_lado.get(0.0, 0)} observaciones")
print(f"- Derecha (1): {afectacion_lado.get(1.0, 0)} observaciones")
print(f"- Ambas (2): {afectacion_lado.get(2.0, 0)} observaciones")
print(f"- Sanos (NaN): {afectacion_lado.get(float('nan'), 0)} observaciones\n")

# Total de observaciones
total_observaciones = afectacion_lado.sum()
print(f"Total de observaciones en el conjunto de datos: {total_observaciones}")

# Verificación de la suma total
print("\nVerificación: Izquierda + Derecha + Ambas + Sanos = Total")
print(f"{afectacion_lado.get(0.0, 0)} + {afectacion_lado.get(1.0, 0)} + {afectacion_lado.get(2.0, 0)} + {afectacion_lado.get(float('nan'), 0)} = {total_observaciones}")


Distribución de observaciones según la extremidad afectada:
- Izquierda (0): 32884 observaciones
- Derecha (1): 31556 observaciones
- Ambas (2): 3537 observaciones
- Sanos (NaN): 7755 observaciones

Total de observaciones en el conjunto de datos: 75732

Verificación: Izquierda + Derecha + Ambas + Sanos = Total
32884 + 31556 + 3537 + 7755 = 75732


### Número de Trials por Paciente

Este análisis presenta el número de observaciones o "trials" registrados para cada paciente en el conjunto de datos, agrupando los registros según el identificador único de paciente `SUBJECT_ID`. Esta información es clave para entender la variabilidad en la cantidad de datos disponibles por paciente.

#### Resultados:

La tabla resultante muestra la cantidad de trials asociados a cada paciente, con un rango que varía desde un mínimo de **3 trials** hasta un máximo de **160 trials**. A continuación se listan algunos ejemplos de la distribución de trials:

- **Pacientes con menos trials**:
  - Paciente con `SUBJECT_ID` 2247: 3 trials
  - Paciente con `SUBJECT_ID` 657: 3 trials
  - Paciente con `SUBJECT_ID` 642: 3 trials
  
- **Pacientes con más trials**:
  - Paciente con `SUBJECT_ID` 1710: 131 trials
  - Paciente con `SUBJECT_ID` 1623: 135 trials
  - Paciente con `SUBJECT_ID` 1608: 151 trials
  - Paciente con `SUBJECT_ID` 1151: 160 trials

#### Resumen Adicional:

- **Total de pacientes**: 2295
- **Distribución**: Los datos varían significativamente en cuanto al número de observaciones por paciente, lo cual puede ser relevante para los análisis posteriores, especialmente en modelos que requieren uniformidad en el tamaño de las muestras.

Este desglose ayuda a visualizar la cantidad de datos disponibles por paciente, proporcionando una base para evaluar la consistencia y la calidad de la información en el conjunto de datos.


In [8]:
#numero de trials para cada paciente
trials_paciente = df.groupby(by=["SUBJECT_ID"])["SUBJECT_ID"].count().reset_index(name='trials').sort_values(['trials'])
trials_paciente

Unnamed: 0,SUBJECT_ID,trials
2154,2247,3
636,657,3
622,642,3
749,776,3
774,801,3
...,...,...
1638,1710,131
1559,1623,135
544,563,143
1545,1608,151


### Distribución de Pacientes por Número de Trials

Este análisis muestra cuántos pacientes tienen una cantidad específica de trials en el conjunto de datos. La tabla resultante agrupa a los pacientes en función de la cantidad de observaciones (trials) que tienen asociadas, lo que permite observar la variabilidad en la disponibilidad de datos para cada paciente.

#### Resultados:

La tabla `npac` presenta el número de pacientes que poseen un número determinado de trials, ordenado de menor a mayor cantidad de pacientes con esa cantidad de trials. A continuación se detallan algunos casos específicos:

- **Pacientes con mayor cantidad de trials**:
  - 1 paciente tiene 160 trials
  - 1 paciente tiene 151 trials
  - 1 paciente tiene 79 trials

- **Pacientes con menor cantidad de trials**:
  - 74 pacientes tienen 28 trials
  - 76 pacientes tienen 18 trials
  - 76 pacientes tienen 27 trials
  - 77 pacientes tienen 29 trials
  - 83 pacientes tienen 19 trials

#### Resumen Adicional:

- **Total de filas**: 111 combinaciones de número de trials y cantidad de pacientes
- **Distribución**: La mayoría de los pacientes tienen una cantidad de trials moderada, mientras que una minoría tiene un número extremo de observaciones, tanto bajo como alto.

Esta información es útil para evaluar la homogeneidad en la cantidad de datos por paciente, lo cual puede influir en el diseño de modelos y en el análisis posterior de los resultados.


In [9]:
# numero de trials --> numero pacientes que tienen esa camtidad de trials
npac = trials_paciente.groupby(by=["trials"])["trials"].count().reset_index(name='#pac').sort_values(['#pac'])
npac

Unnamed: 0,trials,#pac
110,160,1
109,151,1
76,79,1
80,84,1
87,91,1
...,...,...
25,28,74
15,18,76
24,27,76
26,29,77


### Eliminación de Trials de Pacientes con Ambas Extremidades Afectadas

Este código filtra el conjunto de datos para eliminar las observaciones de pacientes con ambas extremidades afectadas (`AFFECTED_SIDE == 2.0`). Esto permite enfocar el análisis en pacientes con afectación unilateral o sin afectación, simplificando el estudio de las observaciones biomecánicas.

#### Resultados:

- **Trials eliminados**: 3,537 observaciones correspondientes a pacientes con ambas extremidades afectadas fueron removidas del DataFrame.
- **Total de observaciones restantes**: Después de la eliminación, el DataFrame contiene **72,195 observaciones**.

Este filtrado asegura que el análisis se centre en casos específicos de afectación y permite simplificar los datos para un estudio más preciso de las observaciones en pacientes con una sola extremidad afectada o sin afectación.


In [10]:
# Eliminación de trials de pacientes con ambas extremidades afectadas (AFFECTED_SIDE == 2.0)
num_trials_to_remove = df[df['AFFECTED_SIDE'] == 2.0].shape[0]
df = df[df['AFFECTED_SIDE'] != 2.0]  # Filtramos en lugar de usar el índice para simplificar

# Mensaje descriptivo
print(f"Trials eliminados de pacientes con ambas extremidades afectadas: {num_trials_to_remove}")
print(f"Total de observaciones restantes en el DataFrame: {df.shape[0]}")


Trials eliminados de pacientes con ambas extremidades afectadas: 3537
Total de observaciones restantes en el DataFrame: 72195


### Separación de Observaciones según la Extremidad Afectada

Este fragmento de código divide el conjunto de datos en tres grupos, basado en el valor de la columna `AFFECTED_SIDE`. Esto permite analizar cada grupo de pacientes en función de su condición de afectación de manera independiente.

#### Resultados de la Separación:

- **Pacientes con afectación en la extremidad izquierda (`AFFECTED_SIDE == 0.0`)**:
  - Total de observaciones: **32,884**
  - Dimensiones del DataFrame: (32,884, 621)

- **Pacientes con afectación en la extremidad derecha (`AFFECTED_SIDE == 1.0`)**:
  - Total de observaciones: **31,556**
  - Dimensiones del DataFrame: (31,556, 621)

- **Pacientes sanos (sin afectación; `AFFECTED_SIDE == NaN`)**:
  - Total de observaciones: **7,755**
  - Dimensiones del DataFrame: (7,755, 621)


In [11]:
# Separación de observaciones según la extremidad afectada: izquierda, derecha y sanos
ALL_AFF_I = df[df['AFFECTED_SIDE'] == 0.0]  # Pacientes con afectación en la extremidad izquierda
ALL_AFF_D = df[df['AFFECTED_SIDE'] == 1.0]  # Pacientes con afectación en la extremidad derecha
ALL_AFF_S = df[df['AFFECTED_SIDE'].isna()]  # Pacientes sanos (sin afectación)

# Impresión de resultados con descripciones
print("Dimensiones de los grupos de pacientes según la extremidad afectada:")
print(f"- Afectados en la extremidad izquierda: {ALL_AFF_I.shape[0]} observaciones, {ALL_AFF_I.shape[1]} columnas")
print(f"- Afectados en la extremidad derecha: {ALL_AFF_D.shape[0]} observaciones, {ALL_AFF_D.shape[1]} columnas")
print(f"- Pacientes sanos: {ALL_AFF_S.shape[0]} observaciones, {ALL_AFF_S.shape[1]} columnas")


Dimensiones de los grupos de pacientes según la extremidad afectada:
- Afectados en la extremidad izquierda: 32884 observaciones, 621 columnas
- Afectados en la extremidad derecha: 31556 observaciones, 621 columnas
- Pacientes sanos: 7755 observaciones, 621 columnas


### Ajuste de Índices para DataFrames `ALL_AFF_I`, `ALL_AFF_D`, y `ALL_AFF_S`

Este fragmento de código ajusta los índices de tres DataFrames (`ALL_AFF_I`, `ALL_AFF_D`, y `ALL_AFF_S`) para evitar conflictos de índices al momento de unirlos. Además, garantiza que los índices estén ordenados de forma consecutiva, lo cual facilita cualquier proceso de concatenación posterior.

#### Resultado Final:

Este ajuste en los índices garantiza que los DataFrames se puedan concatenar sin problemas de duplicación de índices y permite un orden consecutivo y coherente. Esto facilita el manejo de datos en análisis posteriores y asegura una estructura clara en el DataFrame combinado.


In [12]:
# Ajuste de índices para evitar conflictos al unir los DataFrames y asegurar un orden consecutivo
ALL_AFF_I.index = range(1, len(ALL_AFF_I) + 1)
ALL_AFF_D.index = range(len(ALL_AFF_I) + 1, len(ALL_AFF_I) + len(ALL_AFF_D) + 1)
ALL_AFF_S.index = range(len(ALL_AFF_I) + len(ALL_AFF_D) + 1, len(ALL_AFF_I) + len(ALL_AFF_D) + len(ALL_AFF_S) + 1)

# Mostrar los primeros y últimos valores de la columna 'AFFECTED_SIDE' para verificar el ajuste de índices
print("Primeros y últimos índices de 'AFFECTED_SIDE' en ALL_AFF_I:")
print(ALL_AFF_I["AFFECTED_SIDE"].head(3))
print(ALL_AFF_I["AFFECTED_SIDE"].tail(3))

print("\nPrimeros y últimos índices de 'AFFECTED_SIDE' en ALL_AFF_D:")
print(ALL_AFF_D["AFFECTED_SIDE"].head(3))
print(ALL_AFF_D["AFFECTED_SIDE"].tail(3))

print("\nPrimeros y últimos índices de 'AFFECTED_SIDE' en ALL_AFF_S:")
print(ALL_AFF_S["AFFECTED_SIDE"].head(3))
print(ALL_AFF_S["AFFECTED_SIDE"].tail(3))


Primeros y últimos índices de 'AFFECTED_SIDE' en ALL_AFF_I:
1    0.0
2    0.0
3    0.0
Name: AFFECTED_SIDE, dtype: float64
32882    0.0
32883    0.0
32884    0.0
Name: AFFECTED_SIDE, dtype: float64

Primeros y últimos índices de 'AFFECTED_SIDE' en ALL_AFF_D:
32885    1.0
32886    1.0
32887    1.0
Name: AFFECTED_SIDE, dtype: float64
64438    1.0
64439    1.0
64440    1.0
Name: AFFECTED_SIDE, dtype: float64

Primeros y últimos índices de 'AFFECTED_SIDE' en ALL_AFF_S:
64441   NaN
64442   NaN
64443   NaN
Name: AFFECTED_SIDE, dtype: float64
72193   NaN
72194   NaN
72195   NaN
Name: AFFECTED_SIDE, dtype: float64


In [13]:
import re

# Cambiamos los nombres de las columnas para los DataFrames de las piernas izquierda (ALL_AFF_I) y pacientes sanos (ALL_AFF_S)
columnas_afectada_izquierda = [re.sub("x", 'a', s) for s in df.columns]  # 'a' para la pierna afectada
columnas_afectada_izquierda = [re.sub("y", 'na', s) for s in columnas_afectada_izquierda]  # 'na' para la pierna no afectada

ALL_AFF_I.columns = columnas_afectada_izquierda
ALL_AFF_S.columns = columnas_afectada_izquierda

# Visualizamos las primeras y últimas columnas para verificar
print("Columnas en ALL_AFF_I (pierna afectada primero):")
print(list(ALL_AFF_I.columns)[:4] + list(ALL_AFF_I.columns)[-4:])

print("\nColumnas en ALL_AFF_S (pierna afectada primero):")
print(list(ALL_AFF_S.columns)[:4] + list(ALL_AFF_S.columns)[-4:])

# Cambiamos los nombres de las columnas para el DataFrame de la pierna derecha afectada (ALL_AFF_D)
columnas_afectada_derecha = [re.sub("y", 'a', s) for s in df.columns]  # 'a' para la pierna afectada (derecha)
columnas_afectada_derecha = [re.sub("x", 'na', s) for s in columnas_afectada_derecha]  # 'na' para la pierna no afectada

ALL_AFF_D.columns = columnas_afectada_derecha

# Visualizamos las primeras y últimas columnas para verificar
print("\nColumnas en ALL_AFF_D (pierna afectada primero):")
print(list(ALL_AFF_D.columns)[:4] + list(ALL_AFF_D.columns)[-4:])

# Concatenamos los DataFrames con las columnas renombradas
aff_naff = pd.concat([ALL_AFF_I, ALL_AFF_D, ALL_AFF_S])

# Verificamos la estructura de los datos resultantes
aff_naff.head()


Columnas en ALL_AFF_I (pierna afectada primero):
['SUBJECT_ID', 'SESSION_ID', 'CLASS_LABEL', 'CLASS_LABEL_DETAILED', 'F_ML_PRO_98_na', 'F_ML_PRO_99_na', 'F_ML_PRO_100_na', 'F_ML_PRO_101_na']

Columnas en ALL_AFF_S (pierna afectada primero):
['SUBJECT_ID', 'SESSION_ID', 'CLASS_LABEL', 'CLASS_LABEL_DETAILED', 'F_ML_PRO_98_na', 'F_ML_PRO_99_na', 'F_ML_PRO_100_na', 'F_ML_PRO_101_na']

Columnas en ALL_AFF_D (pierna afectada primero):
['SUBJECT_ID', 'SESSION_ID', 'CLASS_LABEL', 'CLASS_LABEL_DETAILED', 'F_ML_PRO_98_a', 'F_ML_PRO_99_a', 'F_ML_PRO_100_a', 'F_ML_PRO_101_a']


Unnamed: 0,SUBJECT_ID,SESSION_ID,CLASS_LABEL,CLASS_LABEL_DETAILED,SEX,AGE,HEIGHT,BODY_WEIGHT,BODY_MASS,SHOE_SIZE,...,F_ML_PRO_92_na,F_ML_PRO_93_na,F_ML_PRO_94_na,F_ML_PRO_95_na,F_ML_PRO_96_na,F_ML_PRO_97_na,F_ML_PRO_98_na,F_ML_PRO_99_na,F_ML_PRO_100_na,F_ML_PRO_101_na
1,216,22338,C,C_F,1,43,165.0,782.9,79.8,43.0,...,-0.0075,-0.006972,-0.003866,-0.000271,0.002656,0.004161,0.004351,0.004112,0.004033,0.003761
2,216,22338,C,C_F,1,43,165.0,782.9,79.8,43.0,...,-0.003801,-0.003775,-0.002422,-0.000498,0.001896,0.004313,0.005838,0.006395,0.006668,0.006096
3,216,22338,C,C_F,1,43,165.0,782.9,79.8,43.0,...,-0.009598,-0.007355,-0.00364,-0.000749,0.001056,0.002328,0.003198,0.003785,0.004276,0.004235
4,216,22659,C,C_F,1,43,165.0,766.0,78.1,43.0,...,0.002678,-0.001649,-0.003787,-0.003664,-0.002116,-0.000194,0.001217,0.001643,0.001356,0.00081
5,216,22659,C,C_F,1,43,165.0,766.0,78.1,43.0,...,-0.008005,-0.00754,-0.005838,-0.003002,0.000574,0.004201,0.007218,0.009062,0.009486,0.008401


### Eliminación de Columnas Opcionales en `aff_naff`

Este código elimina una serie de columnas opcionales del DataFrame `aff_naff` que contienen información de metadatos y atributos generales del sujeto, para así concentrarse únicamente en las columnas de interés para el análisis de clasificación.

#### Columnas Eliminadas:

Las columnas eliminadas incluyen:

- **Identificadores y etiquetas**: `SUBJECT_ID`, `SESSION_ID`, `TRIAL_ID`, `CLASS_LABEL_DETAILED`
- **Características del sujeto**: `SEX`, `AGE`, `HEIGHT`, `BODY_WEIGHT`, `BODY_MASS`, `SHOE_SIZE`
- **Información de condición y partición**: `AFFECTED_SIDE`, `TRAIN`, `TRAIN_BALANCED`, `TEST`

#### Resultado Final:

- **Tamaño del DataFrame**: Después de eliminar estas columnas, el DataFrame `aff_naff` tiene una cantidad reducida de columnas, únicamente enfocadas en las variables de medición relevantes para el análisis de clasificación.
- **Visualización de columnas**: Las columnas restantes pueden visualizarse mediante `aff_naff.columns`, permitiendo verificar que solo permanecen las variables críticas para el análisis.

Este proceso de limpieza optimiza el DataFrame para su uso en modelos de clasificación al eliminar información adicional que no es necesaria en el análisis específico de la afectación y los valores de medición.


In [14]:
""" ['SUBJECT_ID','SESSION_ID',"TRIAL_ID","CLASS_LABEL","CLASS_LABEL_DETAILED",
     "SEX","AGE","HEIGHT", "BODY_WEIGHT","BODY_MASS","SHOE_SIZE",
     "AFFECTED_SIDE","TRAIN","TRAIN_BALANCED","TEST"] """
opcionales = ['SUBJECT_ID','SESSION_ID',"TRIAL_ID","CLASS_LABEL_DETAILED",
              "SEX","AGE","HEIGHT", "BODY_WEIGHT","BODY_MASS","SHOE_SIZE",
              "AFFECTED_SIDE","TRAIN","TRAIN_BALANCED","TEST"]
aff_naff = aff_naff.drop(opcionales, axis=1)
print(aff_naff.shape)
aff_naff.columns

(72195, 607)


Index(['CLASS_LABEL', 'F_V_PRO_1_a', 'F_V_PRO_2_a', 'F_V_PRO_3_a',
       'F_V_PRO_4_a', 'F_V_PRO_5_a', 'F_V_PRO_6_a', 'F_V_PRO_7_a',
       'F_V_PRO_8_a', 'F_V_PRO_9_a',
       ...
       'F_ML_PRO_92_na', 'F_ML_PRO_93_na', 'F_ML_PRO_94_na', 'F_ML_PRO_95_na',
       'F_ML_PRO_96_na', 'F_ML_PRO_97_na', 'F_ML_PRO_98_na', 'F_ML_PRO_99_na',
       'F_ML_PRO_100_na', 'F_ML_PRO_101_na'],
      dtype='object', length=607)

### Distribución de Observaciones en `aff_naff` por Etiqueta de Clase (`CLASS_LABEL`)

Este código agrupa y cuenta el número de observaciones en el DataFrame `aff_naff` según la etiqueta de clase (`CLASS_LABEL`). Esta distribución permite analizar la cantidad de datos disponibles para cada clase y es fundamental para entender la composición del conjunto de datos.

#### Resultados:

- **Clase 'HC'**: 7,755 observaciones
- **Clase 'C'**: 11,434 observaciones
- **Clase 'H'**: 12,183 observaciones
- **Clase 'K'**: 19,597 observaciones
- **Clase 'A'**: 21,226 observaciones

#### Total de Observaciones

Este análisis proporciona una visión clara de la cantidad de observaciones por clase, lo que facilita la preparación de datos y el ajuste de modelos de clasificación. Cada clase tiene una representación diferente, lo cual puede influir en el balance de clases y, en última instancia, en la precisión del modelo.



In [15]:
aff_naff.groupby(by=["CLASS_LABEL"])["CLASS_LABEL"].count().reset_index(name='trials').sort_values(['trials'])

Unnamed: 0,CLASS_LABEL,trials
3,HC,7755
1,C,11434
2,H,12183
4,K,19597
0,A,21226


### Conversión de Clases a Clasificación Binaria en `aff_naff`

Este fragmento de código transforma el problema de clasificación multiclase en uno de clasificación binaria en el DataFrame `aff_naff`, específicamente en la columna `CLASS_LABEL`. Esta conversión facilita el análisis binario para distinguir entre dos grupos: un grupo de interés (clases combinadas) y un grupo de control.

#### Pasos Clave:

1. **Configuración de Downcasting**:
   - Se establece la opción `pd.set_option('future.no_silent_downcasting', True)` para evitar advertencias relacionadas con la conversión automática de tipos en pandas. Esto asegura que los cambios de tipo en las columnas ocurran sin emitir advertencias futuras.

2. **Conversión de Clases**:
   - Las clases `"C"`, `"A"`, `"H"`, y `"K"` se reemplazan por `1`, indicando la clase de interés.
   - La clase `"HC"` se reemplaza por `0`, indicando el grupo de control.
   - Esto crea un esquema de clasificación binaria en la columna `CLASS_LABEL`.

3. **Verificación de Resultados**:
   - Se imprime la distribución de valores en `CLASS_LABEL` para confirmar la cantidad de observaciones en cada clase después de la conversión.

#### Cálculos Adicionales:

- **Total de Observaciones Originales**: 75,732
- **Observaciones Eliminadas (Afectación en ambas extremidades)**: 3,537, dejando un total de **72,195 observaciones**.
- **Porcentaje de la clase de interés (`1`) en el conjunto de datos**: aproximadamente 89.26% (64,440 observaciones).
- **Porcentaje de la clase de control (`0`) en el conjunto de datos**: aproximadamente 10.74% (7,755 observaciones).
- **Duplicado del grupo de control**: Si se requiere duplicar las observaciones de la clase `0` para balancear los datos, se necesitarían **15,510 observaciones** en total para este grupo.

Este procedimiento permite transformar el conjunto de datos en un formato adecuado para modelos de clasificación binaria, optimizando su uso en análisis posteriores y asegurando una estructura clara entre la clase de interés y el grupo de control.


In [16]:
# Configurar la opción para evitar la advertencia de downcasting
pd.set_option('future.no_silent_downcasting', True)

# Realizar la conversión de clases
aux = aff_naff.replace(["C", "A", "H", "K"], 1)
aff_naff = aux.replace("HC", 0)

# Verificación de los cambios
print(aff_naff['CLASS_LABEL'].value_counts())

CLASS_LABEL
1    64440
0     7755
Name: count, dtype: int64


In [17]:
aff_naff.to_csv(r"../Datos/BinarioAllUnballanced.csv",index=False)

### Submuestreo Aleatorio para Balancear Clases

Este código aplica un submuestreo aleatorio para balancear las clases en el conjunto de datos `aff_naff`. Al utilizar la clase `RandomUnderSampler` de `imblearn`, se ajusta la cantidad de observaciones en cada clase para tener el mismo número de instancias, asegurando así que no haya una clase mayoritaria que domine el análisis.

#### Pasos y Resultados:

1. **Definición de la Variable de Clase (`Y`)**:
   - La variable `Y` contiene los valores de `CLASS_LABEL`, convertidos a enteros para facilitar el procesamiento. En este contexto:
     - `1` representa las clases de interés combinadas.
     - `0` representa la clase "HC".

2. **Aplicación de Submuestreo**:
   - El submuestreo se realiza mediante `RandomUnderSampler` con la estrategia `'majority'`, lo que reduce el número de observaciones en la clase mayoritaria para igualarlo con el de la clase minoritaria.

3. **Distribución de Clases después del Balanceo**:
   - **Clase `0`**: 7,755 observaciones
   - **Clase `1`**: 7,755 observaciones

#### Resumen:

Después de aplicar el submuestreo, ambas clases (`0` y `1`) cuentan con el mismo número de observaciones (7,755), lo que asegura un balance en los datos y permite un análisis de clasificación más equitativo. Este proceso es útil en problemas donde un desbalance significativo puede sesgar los resultados hacia la clase dominante.


In [18]:
import imblearn
print("imblearn", imblearn.__version__)

imblearn 0.12.4


In [19]:
from imblearn.under_sampling import RandomUnderSampler

Y = aff_naff['CLASS_LABEL'].astype(int)

# Aplicar el submuestreo
undersample = RandomUnderSampler(sampling_strategy='majority')
X_under, Y_under = undersample.fit_resample(aff_naff, Y)

print("Distribución de clases después de balancear:")
print(Y_under.value_counts())

Distribución de clases después de balancear:
CLASS_LABEL
0    7755
1    7755
Name: count, dtype: int64


### División y Distribución de Datos en Conjuntos de Entrenamiento y Prueba

Este código realiza una división del conjunto de datos (`X_under`) en diferentes subconjuntos para el análisis y la validación de un modelo. La distribución de los datos se evalúa para asegurar representatividad en cada conjunto.

#### Pasos de División de los Datos:

1. **División Inicial**:
   - **Conjunto de Entrenamiento**: 80% de los datos originales, destinado para el ajuste del modelo.
   - **Conjunto de Prueba Inicial**: 20% de los datos originales, utilizado para la evaluación del modelo.

2. **División Secundaria del Conjunto de Prueba**:
   - El conjunto de prueba se subdivide en dos subconjuntos iguales:
     - **Prueba 1**: 50% del conjunto de prueba inicial.
     - **Prueba 2**: 50% del conjunto de prueba inicial.

#### Resultados de la División:

- **Total de observaciones en el conjunto original**: 15,510 observaciones
- **Conjunto de Entrenamiento**: 12,408 observaciones
- **Conjunto de Prueba Inicial**: 3,102 observaciones
  - **Prueba 1**: 1,551 observaciones
  - **Prueba 2**: 1,551 observaciones

In [20]:
from sklearn.model_selection import train_test_split

# División de los datos en conjunto de entrenamiento (80%) y prueba (20%)
X_train, X_test = train_test_split(X_under, test_size=0.2, random_state=42)

# División adicional del conjunto de prueba en dos subconjuntos (50%-50%)
X_test1, X_test2 = train_test_split(X_test, test_size=0.5, random_state=42)

# Resultados de la división
print("=== División de los Datos ===")
print(f"Total de observaciones en el conjunto original: {X_under.shape[0]}")
print(f"Total de observaciones en el conjunto de entrenamiento: {X_train.shape[0]}")
print(f"Total de observaciones en el conjunto de prueba inicial: {X_test.shape[0]}")
print(f"Observaciones en el conjunto de prueba 1: {X_test1.shape[0]}")
print(f"Observaciones en el conjunto de prueba 2: {X_test2.shape[0]}")

=== División de los Datos ===
Total de observaciones en el conjunto original: 15510
Total de observaciones en el conjunto de entrenamiento: 12408
Total de observaciones en el conjunto de prueba inicial: 3102
Observaciones en el conjunto de prueba 1: 1551
Observaciones en el conjunto de prueba 2: 1551


In [21]:
# Función para mostrar datos de distribución y proporciones de clase
def mostrar_distribucion(nombre, datos):
    print(f"\n=== Datos de {nombre} ===")
    nr_clases = datos['CLASS_LABEL'].value_counts(sort=True)

    # Impresión de cantidad y porcentaje
    print("\nCantidad por clase:\n", nr_clases)
    print("\nPorcentajes por clase:\n", (nr_clases * 100 / datos.shape[0]).round(2))
    print(f"Tamaño del conjunto de {nombre}: {datos.shape}")


In [22]:

# Mostrar distribución en los diferentes conjuntos de datos
mostrar_distribucion("Totales", X_under)
mostrar_distribucion("Entrenamiento", X_train)
mostrar_distribucion("Prueba 1", X_test1)
mostrar_distribucion("Prueba 2", X_test2)



=== Datos de Totales ===

Cantidad por clase:
 CLASS_LABEL
0    7755
1    7755
Name: count, dtype: int64

Porcentajes por clase:
 CLASS_LABEL
0    50.0
1    50.0
Name: count, dtype: float64
Tamaño del conjunto de Totales: (15510, 607)

=== Datos de Entrenamiento ===

Cantidad por clase:
 CLASS_LABEL
0    6212
1    6196
Name: count, dtype: int64

Porcentajes por clase:
 CLASS_LABEL
0    50.06
1    49.94
Name: count, dtype: float64
Tamaño del conjunto de Entrenamiento: (12408, 607)

=== Datos de Prueba 1 ===

Cantidad por clase:
 CLASS_LABEL
0    777
1    774
Name: count, dtype: int64

Porcentajes por clase:
 CLASS_LABEL
0    50.1
1    49.9
Name: count, dtype: float64
Tamaño del conjunto de Prueba 1: (1551, 607)

=== Datos de Prueba 2 ===

Cantidad por clase:
 CLASS_LABEL
1    785
0    766
Name: count, dtype: int64

Porcentajes por clase:
 CLASS_LABEL
1    50.61
0    49.39
Name: count, dtype: float64
Tamaño del conjunto de Prueba 2: (1551, 607)


### Exportación de Conjuntos de Datos Balanceados

Este fragmento de código guarda los conjuntos de datos balanceados en archivos CSV, asegurando que se mantenga una proporción equilibrada de observaciones entre pacientes sanos y afectados. Estos archivos son útiles para el entrenamiento y evaluación de modelos de clasificación binaria.

#### Detalles de Exportación:

1. **Conjunto Total Balanceado (`BinarioAllBalanced.csv`)**:
   - **Total de Observaciones**: 15,510
   - **Distribución de Clases**: 7,755 sanos y 7,755 afectados

2. **Conjunto de Entrenamiento Balanceado (`BinarioTrainBalanced.csv`)**:
   - **Total de Observaciones**: 12,408
   - **Distribución de Clases**: 6,212 sanos y 6,196 afectados

3. **Conjunto de Prueba 1 Balanceado (`BinarioTest1Balanced.csv`)**:
   - **Total de Observaciones**: 1,551
   - **Distribución de Clases**: 777 sanos y 774 afectados

4. **Conjunto de Prueba 2 Balanceado (`BinarioTest2Balanced.csv`)**:
   - **Total de Observaciones**: 1,551
   - **Distribución de Clases**: 785 sanos y 766 afectados

In [23]:
X_under.to_csv(r"../Datos/BinarioAllBalanced.csv",index=False)    # Balaced dataset 7755 sanos y 7755 afectados
X_train.to_csv(r"../Datos/BinarioTrainBalanced.csv",index=False)  #6212 sanos y 6196 afectados
X_test1.to_csv(r"../Datos/BinarioTest1Balanced.csv",index=False)  #777  sanos y 774  afectados
X_test2.to_csv(r"../Datos/BinarioTest2Balanced.csv",index=False)  #785  sanos y 766 afectados