# Gestión Clínica en Odontología Universitaria: Un Enfoque de Clasificación, Dificultad de Operaciones Quirúrgicas.

**Proyecto Whittheh**

La gestión eficiente de los recursos clínicos y la optimización de los resultados de los pacientes constituyen desafíos cruciales en el ámbito de la odontología universitaria. Con el aumento de la complejidad en los procedimientos quirúrgicos dentales y la necesidad de una planificación meticulosa, es imperativo emplear herramientas avanzadas que permitan una evaluación precisa de las dificultades operativas. Este estudio explora la aplicación de técnicas de ciencia de datos en la odontología universitaria, específicamente mediante el uso de un modelo de clasificación Random Forest (RF), para predecir la dificultad de las intervenciones quirúrgicas.

A través de la recolección y limpieza de datos operativos, seguida de la clasificación de intervenciones en categorías basadas en patologías sistemáticas identificadas previamente mediante análisis de componentes principales (PCA), este enfoque busca no solo mejorar la organización médica sino también asegurar una asignación más efectiva de los recursos y una mejor atención al paciente.

Este documento detalla el proceso desde la carga inicial de los datos hasta la implementación del modelo de clasificación, destacando cómo la ciencia de datos puede ser una herramienta valiosa en la mejora continua de la práctica odontológica en entornos académicos.


# Índice

- [Carga y preparación de datos](#Carga-y-preparación-de-datos)
- [Clasificación de dificultad de intervenciones](#Clasificación-de-dificultad-de-intervenciones)
- [Preparación de los datos para el modelo](#Preparación-de-los-datos-para-el-modelo)
- [Modelo de Clasificación](#Modelo-de-clasificación)
- [Conclusiones](#Conclusiones)

## Carga y preparación de datos

Este estudio comienza con la carga de datos clínicos desde la base de datos odontológica de la universidad, enfocándose en seleccionar variables clave como el tiempo de intervención, la fecha, los participantes, y las patologías importantes. Estas variables son cruciales para evaluar la dificultad y delicadeza de las intervenciones quirúrgicas.

La correcta organización y limpieza de estos datos son esenciales para garantizar la precisión en el análisis y la efectividad de las predicciones del modelo.

In [64]:
# Cargamos los datos
import pandas as pd

data = pd.read_csv('General_data.csv')

data.head()

  data = pd.read_csv('General_data.csv')


Unnamed: 0,respondent_id,collector_id,date_created,date_modified,ip_address,email_address,first_name,last_name,custom_1,Operador,...,Amoxicilina 500 mg,Amoxicilina/Ácido Clavulánico 1000/125 mg,Metronidazol 250 mg,Ibuprofeno 400 mg,Ibuprofeno 20 mg/ml,Dexketoprofeno 25 mg,Diclofenaco 50 mg,Paracetamol 500 mg,Paracetamol 100 mg/ml,Otro (especifique).5
0,6962042000.0,166180500.0,11/26/2018 11:42:28 AM,11/26/2018 12:37:25 PM,83.50.30.214,,,,,Ana Juiz,...,,,,,,,,,,
1,6962030000.0,166180500.0,11/26/2018 11:36:01 AM,11/26/2018 11:38:40 AM,83.50.30.214,,,,,Ana Juiz,...,,,,,,,,,,
2,6962029000.0,166180500.0,11/26/2018 11:31:09 AM,11/26/2018 11:35:34 AM,83.50.30.214,,,,,Ana Juiz,...,,,,,,,,,,"Metilprednisolona 16 mg V.O: 2 días 1/8h, 2 dí..."
3,6962029000.0,166180500.0,11/26/2018 11:27:49 AM,11/26/2018 11:31:03 AM,83.50.30.214,,,,,Ana Juiz,...,,,,,,,,,,
4,6962028000.0,166180500.0,11/26/2018 11:25:58 AM,11/26/2018 11:27:44 AM,83.50.30.214,,,,,Ana Juiz,...,,,,,,,,,,


In [65]:
data_selected = data[['Fecha Intervención','Fecha de Nacimiento','Género',
                     'Alcohol','Hipertensión Arterial','Hipercolesterolemia','Fumador/a','Diabetes II','Diabetes I',
                     'Osteoporosis','Quimioterapia','Tipo de Intervención Quirúrgica','Tipo de cirugía',
                     'Duración de la intervención quirúrgica']]

data_selected.head()

Unnamed: 0,Fecha Intervención,Fecha de Nacimiento,Género,Alcohol,Hipertensión Arterial,Hipercolesterolemia,Fumador/a,Diabetes II,Diabetes I,Osteoporosis,Quimioterapia,Tipo de Intervención Quirúrgica,Tipo de cirugía,Duración de la intervención quirúrgica
0,23/11/2018,17/09/2001,Hombre,No consumo,,,,,,,,Cirugía Dentoalveolar,,10-20 minutos
1,23/11/2018,30/07/1996,Mujer,No consumo,,,,,,,,Cirugía Dentoalveolar,,20-40 minutos
2,22/11/2018,16/06/1993,Hombre,No consumo,,,,,,,,Cirugía Dentoalveolar,,60-90 minutos
3,22/11/2018,11/11/1932,Mujer,No consumo,Hipertensión Arterial,Hipercolesterolemia,,,,Osteoporosis,,Cirugía Dentoalveolar,,10-20 minutos
4,22/11/2018,17/12/1994,Mujer,No consumo,,,,,,,,Cirugía Dentoalveolar,,20-40 minutos


In [66]:
for columna in data_selected.columns:
    valores_unicos = data_selected[columna].unique()
    print(f'Valores únicos en {columna}: {valores_unicos}')

Valores únicos en Fecha Intervención: ['23/11/2018' '22/11/2018' '19/11/2018' '14/11/2018' '13/11/2018'
 '12/11/2018' '09/11/2018' '08/11/2018' '05/11/2018' '31/10/2018'
 '30/10/2018' '26/10/2018' '25/10/2018' '23/10/2018' '22/10/2018'
 '19/10/2018' '18/10/2018' '17/10/2018' '16/10/2018' '15/10/2018'
 '28/09/2018' '27/09/2018' '25/09/2018' '21/09/2018' '20/09/2018'
 '19/09/2018' '18/09/2018' '11/10/2018' '09/10/2018' '10/10/2018'
 '05/10/2018' '04/10/2018' '03/10/2018' '02/10/2018' '26/09/2018'
 '17/09/2018' '14/09/2018' '13/09/2018' '07/09/2018' '12/09/2018'
 '06/09/2018' '05/09/2018' '04/09/2018' '03/09/2018' '20/07/2018'
 '30/07/2018' '19/07/2018' '17/07/2018' '16/07/2018' '13/07/2018'
 '12/07/2018' '11/07/2018' '10/07/2018' '06/07/2018' '05/07/2018'
 '04/07/2018' '03/07/2018' '29/06/2018' '26/06/2018' '25/06/2018'
 '22/06/2018' '21/06/2018' '18/06/2018' '15/06/2018' '14/06/2018'
 '13/06/2018' '12/06/2018' '11/06/2018' '07/06/2018' '08/06/2018'
 '06/06/2018' '05/06/2018' '04/06/2018

Como podemos observar, tenemos varias variables que albergan el valor 'Response' Vamos a eliminarlo, es un error de captura en la encuesta.

In [67]:
import numpy as np

def replace_response(val):
    return np.nan if val == 'Response' else val

# Aplicar la función a todo el DataFrame
data_selected = data_selected.applymap(replace_response)

# Mostrar el DataFrame modificado
print(data_selected)

     Fecha Intervención Fecha de Nacimiento  Género           Alcohol  \
0            23/11/2018          17/09/2001  Hombre        No consumo   
1            23/11/2018          30/07/1996   Mujer        No consumo   
2            22/11/2018          16/06/1993  Hombre        No consumo   
3            22/11/2018          11/11/1932   Mujer        No consumo   
4            22/11/2018          17/12/1994   Mujer        No consumo   
...                 ...                 ...     ...               ...   
2978         25/11/2016          27/03/1998   Mujer        No consumo   
2979         14/11/2016          30/01/1997  Hombre        No consumo   
2980         07/11/2016          03/11/1989   Mujer        No consumo   
2981         24/11/2016          26/06/1995  Hombre  Consumo moderado   
2982         03/11/2016          21/06/1970  Hombre  Consumo moderado   

      Hipertensión Arterial  Hipercolesterolemia  Fumador/a Diabetes II  \
0                       NaN                  NaN

In [68]:
for columna in data_selected.columns:
    valores_unicos = data_selected[columna].unique()
    print(f'Valores únicos en {columna}: {valores_unicos}')

Valores únicos en Fecha Intervención: ['23/11/2018' '22/11/2018' '19/11/2018' '14/11/2018' '13/11/2018'
 '12/11/2018' '09/11/2018' '08/11/2018' '05/11/2018' '31/10/2018'
 '30/10/2018' '26/10/2018' '25/10/2018' '23/10/2018' '22/10/2018'
 '19/10/2018' '18/10/2018' '17/10/2018' '16/10/2018' '15/10/2018'
 '28/09/2018' '27/09/2018' '25/09/2018' '21/09/2018' '20/09/2018'
 '19/09/2018' '18/09/2018' '11/10/2018' '09/10/2018' '10/10/2018'
 '05/10/2018' '04/10/2018' '03/10/2018' '02/10/2018' '26/09/2018'
 '17/09/2018' '14/09/2018' '13/09/2018' '07/09/2018' '12/09/2018'
 '06/09/2018' '05/09/2018' '04/09/2018' '03/09/2018' '20/07/2018'
 '30/07/2018' '19/07/2018' '17/07/2018' '16/07/2018' '13/07/2018'
 '12/07/2018' '11/07/2018' '10/07/2018' '06/07/2018' '05/07/2018'
 '04/07/2018' '03/07/2018' '29/06/2018' '26/06/2018' '25/06/2018'
 '22/06/2018' '21/06/2018' '18/06/2018' '15/06/2018' '14/06/2018'
 '13/06/2018' '12/06/2018' '11/06/2018' '07/06/2018' '08/06/2018'
 '06/06/2018' '05/06/2018' '04/06/2018

Como observamos, el valor de responde se ha eliminado correctamente, fantastico.

Ya tenemos los datos, cargados y parcialmente arreglados, por lo que comenzemos con el primer análisis y agrupamiento.

## Clasificación de dificultad de intervenciones

Este segmento del estudio aborda el análisis de datos clínicos para clasificar la dificultad de intervenciones quirúrgicas en odontología universitaria. Se calcula la edad del paciente y se asignan puntajes a patologías y duraciones de intervención, sumando estos para obtener una clasificación de dificultad.

Los análisis estadísticos proporcionan insights adicionales, optimizando la gestión clínica y la formación educativa.

In [69]:
data_selected.head()

Unnamed: 0,Fecha Intervención,Fecha de Nacimiento,Género,Alcohol,Hipertensión Arterial,Hipercolesterolemia,Fumador/a,Diabetes II,Diabetes I,Osteoporosis,Quimioterapia,Tipo de Intervención Quirúrgica,Tipo de cirugía,Duración de la intervención quirúrgica
0,23/11/2018,17/09/2001,Hombre,No consumo,,,,,,,,Cirugía Dentoalveolar,,10-20 minutos
1,23/11/2018,30/07/1996,Mujer,No consumo,,,,,,,,Cirugía Dentoalveolar,,20-40 minutos
2,22/11/2018,16/06/1993,Hombre,No consumo,,,,,,,,Cirugía Dentoalveolar,,60-90 minutos
3,22/11/2018,11/11/1932,Mujer,No consumo,Hipertensión Arterial,Hipercolesterolemia,,,,Osteoporosis,,Cirugía Dentoalveolar,,10-20 minutos
4,22/11/2018,17/12/1994,Mujer,No consumo,,,,,,,,Cirugía Dentoalveolar,,20-40 minutos


In [70]:
import pandas as pd
from datetime import datetime

# Función para convertir fechas con distintos formatos
def convertir_fecha(fecha):
    for fmt in ('%d/%m/%Y', '%m/%d/%Y'):
        try:
            return pd.to_datetime(fecha, format=fmt)
        except ValueError:
            continue
    return pd.NaT

# Convertir las fechas a formato datetime
data_selected['Fecha Intervención'] = data_selected['Fecha Intervención'].apply(convertir_fecha)
data_selected['Fecha de Nacimiento'] = data_selected['Fecha de Nacimiento'].apply(convertir_fecha)

# Calcular la edad
data_selected['Edad'] = (data_selected['Fecha Intervención'] - data_selected['Fecha de Nacimiento']).dt.days // 365

data_selected['Edad']

0       17.0
1       22.0
2       25.0
3       86.0
4       23.0
        ... 
2978    18.0
2979    19.0
2980    27.0
2981    21.0
2982    46.0
Name: Edad, Length: 2983, dtype: float64

In [71]:
# Definir los puntajes para cada característica patológica
def asignar_puntaje(row):
    puntaje = 0
    if pd.notna(row['Hipertensión Arterial']):
        puntaje += 1
    if pd.notna(row['Hipercolesterolemia']):
        puntaje += 1
    if pd.notna(row['Fumador/a']):
        puntaje += 1
    if pd.notna(row['Diabetes II']):
        puntaje += 1
    if pd.notna(row['Diabetes I']):
        puntaje += 1
    if pd.notna(row['Osteoporosis']):
        puntaje += 1
    if pd.notna(row['Quimioterapia']):
        puntaje += 1
    return puntaje

data_selected['Puntaje Patológico'] = data_selected.apply(asignar_puntaje, axis=1)

# Asignar puntajes a la duración de la intervención
def asignar_puntaje_duracion(duracion):
    if duracion == '0-5 minutos':
        return 1
    elif duracion == '5-10 minutos':
        return 2
    elif duracion == '10-20 minutos':
        return 3
    elif duracion == '20-40 minutos':
        return 4
    elif duracion == '40-60 minutos':
        return 5
    elif duracion == '60-90 minutos':
        return 6
    elif duracion == '90-120 minutos':
        return 7
    elif duracion == '120-180 minutos':
        return 8
    elif duracion == '>180 minutos':
        return 9
    else:
        return 0

data_selected['Puntaje Duración'] = data_selected['Duración de la intervención quirúrgica'].apply(asignar_puntaje_duracion)

# Crear la columna de clasificación de dificultad
data_selected['Clasificación Dificultad'] = data_selected['Puntaje Patológico'] + data_selected['Puntaje Duración']

print(data_selected[['Edad','Puntaje Patológico', 'Puntaje Duración', 'Clasificación Dificultad']])


      Edad  Puntaje Patológico  Puntaje Duración  Clasificación Dificultad
0     17.0                   0                 3                         3
1     22.0                   0                 4                         4
2     25.0                   0                 6                         6
3     86.0                   3                 3                         6
4     23.0                   0                 4                         4
...    ...                 ...               ...                       ...
2978  18.0                   0                 5                         5
2979  19.0                   0                 3                         3
2980  27.0                   0                 2                         2
2981  21.0                   1                 3                         4
2982  46.0                   1                 3                         4

[2983 rows x 4 columns]


In [72]:
print(data_selected['Clasificación Dificultad'])

0       3
1       4
2       6
3       6
4       4
       ..
2978    5
2979    3
2980    2
2981    4
2982    4
Name: Clasificación Dificultad, Length: 2983, dtype: int64


In [73]:
# Análisis estadístico básico para variables numéricas
estadisticas_numericas = data_selected['Clasificación Dificultad'].describe()

# Análisis estadístico básico para variables categóricas
estadisticas_categoricas = data_selected['Clasificación Dificultad'].value_counts()

print("Estadísticas Descriptivas para Variables Numéricas:\n", estadisticas_numericas)
print("\nConteo de Frecuencia para Variable Categórica 'Clasificación Dificultad':\n", estadisticas_categoricas)


Estadísticas Descriptivas para Variables Numéricas:
 count    2983.000000
mean        3.872276
std         1.732858
min         0.000000
25%         3.000000
50%         4.000000
75%         5.000000
max        12.000000
Name: Clasificación Dificultad, dtype: float64

Conteo de Frecuencia para Variable Categórica 'Clasificación Dificultad':
 Clasificación Dificultad
4     885
3     612
5     526
2     287
6     238
0     127
1     122
7     111
8      44
9      23
10      5
12      2
11      1
Name: count, dtype: int64


In [74]:
# Eliminar columnas innecesarias
data_selected.drop(columns=['Puntaje Patológico',
                           'Puntaje Duración'], inplace=True)

data_selected.head()

Unnamed: 0,Fecha Intervención,Fecha de Nacimiento,Género,Alcohol,Hipertensión Arterial,Hipercolesterolemia,Fumador/a,Diabetes II,Diabetes I,Osteoporosis,Quimioterapia,Tipo de Intervención Quirúrgica,Tipo de cirugía,Duración de la intervención quirúrgica,Edad,Clasificación Dificultad
0,2018-11-23,2001-09-17,Hombre,No consumo,,,,,,,,Cirugía Dentoalveolar,,10-20 minutos,17.0,3
1,2018-11-23,1996-07-30,Mujer,No consumo,,,,,,,,Cirugía Dentoalveolar,,20-40 minutos,22.0,4
2,2018-11-22,1993-06-16,Hombre,No consumo,,,,,,,,Cirugía Dentoalveolar,,60-90 minutos,25.0,6
3,2018-11-22,1932-11-11,Mujer,No consumo,Hipertensión Arterial,Hipercolesterolemia,,,,Osteoporosis,,Cirugía Dentoalveolar,,10-20 minutos,86.0,6
4,2018-11-22,1994-12-17,Mujer,No consumo,,,,,,,,Cirugía Dentoalveolar,,20-40 minutos,23.0,4


## Preparación de los datos para el modelo

Antes de proceder con el modelado predictivo, es fundamental asegurar que los datos estén correctamente preparados y limpios. En esta fase, transformamos el conjunto de datos seleccionado, convirtiendo todas las columnas a formato de texto para unificar los tipos de datos.

Posteriormente, se separa la columna 'Clasificación Dificultad' y se retira del DataFrame principal para evitar su influencia durante el proceso de limpieza. Utilizamos la herramienta autoclean para automatizar la limpieza del resto de los datos, asegurando que estén libres de inconsistencias y formatos erróneos.

Finalmente, reintegramos la columna de dificultad y analizamos su distribución, preparando el terreno para la aplicación de modelos de clasificación que ayudarán a predecir la dificultad de futuras intervenciones quirúrgicas

In [75]:
data_selected = data_selected.astype(str)

In [76]:
tiempo = data_selected['Clasificación Dificultad'].copy()
data_selected.drop('Clasificación Dificultad', axis = 1, inplace=True)

!pip install datacleaner
import pandas as pd
from datacleaner import autoclean

# Crear una instancia de AutoClean
autoclean = autoclean(data_selected)

# Mostrar el DataFrame limpio
print(autoclean)

data_selected['Clasificación Dificultad'] = tiempo


      Fecha Intervención  Fecha de Nacimiento  Género  Alcohol  \
0                    506                 2209       0        2   
1                    506                 1889       1        2   
2                    505                 1629       0        2   
3                    505                   14       1        2   
4                    505                 1747       1        2   
...                  ...                  ...     ...      ...   
2978                 141                 2016       1        2   
2979                 138                 1926       0        2   
2980                 136                 1383       1        2   
2981                 140                 1791       0        1   
2982                 134                  618       0        1   

      Hipertensión Arterial  Hipercolesterolemia  Fumador/a  Diabetes II  \
0                         1                    1          1            1   
1                         1                    1       

In [77]:
data_selected['Clasificación Dificultad'].value_counts()

Clasificación Dificultad
4     885
3     612
5     526
2     287
6     238
0     127
1     122
7     111
8      44
9      23
10      5
12      2
11      1
Name: count, dtype: int64

In [78]:
# Eliminar columnas innecesarias
data_selected.drop(columns=['Fecha Intervención',
                           'Fecha de Nacimiento'], inplace=True)

data_selected.head()

Unnamed: 0,Género,Alcohol,Hipertensión Arterial,Hipercolesterolemia,Fumador/a,Diabetes II,Diabetes I,Osteoporosis,Quimioterapia,Tipo de Intervención Quirúrgica,Tipo de cirugía,Duración de la intervención quirúrgica,Edad,Clasificación Dificultad
0,0,2,1,1,1,1,1,1,1,0,4,1,16,3
1,1,2,1,1,1,1,1,1,1,0,4,3,22,4
2,0,2,1,1,1,1,1,1,1,0,4,6,25,6
3,1,2,0,0,1,1,1,0,1,0,4,1,89,6
4,1,2,1,1,1,1,1,1,1,0,4,3,23,4


**Codificación**

En este paso, la columna 'Clasificación Dificultad' se convierte de formato texto a numérico (float), permitiendo un tratamiento matemático más riguroso. Posteriormente, implementamos una estrategia de discretización basada en cuartiles para convertir los valores numéricos en categorías que representen niveles de dificultad:
- Muy Fácil
- Fácil
- Moderada
- Difícil

Esta codificación categorial no solo simplifica el análisis visual de los datos, sino que también prepara el conjunto para técnicas de clasificación supervisada, facilitando la interpretación de los resultados y la toma de decisiones clínicas.

In [79]:
# Convertir la columna 'Clasificación Dificultad' a tipo numérico (float)
data_selected['Clasificación Dificultad'] = pd.to_numeric(data_selected['Clasificación Dificultad'])

# Crear una nueva columna con las clases categóricas usando cuartiles
data_selected['Clasificación Dificultad'] = pd.qcut(data_selected['Clasificación Dificultad'], q=4, labels=['Muy Fácil',
                                                                                                            'Fácil',
                                                                                                            'Moderada',
                                                                                                            'Difícil'])

# Mostrar el DataFrame con la nueva columna
print(data_selected[['Clasificación Dificultad']])

     Clasificación Dificultad
0                   Muy Fácil
1                       Fácil
2                     Difícil
3                     Difícil
4                       Fácil
...                       ...
2978                 Moderada
2979                Muy Fácil
2980                Muy Fácil
2981                    Fácil
2982                    Fácil

[2983 rows x 1 columns]


In [83]:
data_selected

Unnamed: 0,Género,Alcohol,Hipertensión Arterial,Hipercolesterolemia,Fumador/a,Diabetes II,Diabetes I,Osteoporosis,Quimioterapia,Tipo de Intervención Quirúrgica,Tipo de cirugía,Duración de la intervención quirúrgica,Edad,Clasificación Dificultad
0,0,2,1,1,1,1,1,1,1,0,4,1,16,Muy Fácil
1,1,2,1,1,1,1,1,1,1,0,4,3,22,Fácil
2,0,2,1,1,1,1,1,1,1,0,4,6,25,Difícil
3,1,2,0,0,1,1,1,0,1,0,4,1,89,Difícil
4,1,2,1,1,1,1,1,1,1,0,4,3,23,Fácil
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2978,1,2,1,1,1,1,1,1,1,0,4,4,17,Moderada
2979,0,2,1,1,1,1,1,1,1,0,4,1,18,Muy Fácil
2980,1,2,1,1,1,1,1,1,1,0,4,5,27,Muy Fácil
2981,0,1,1,1,0,1,1,1,1,0,4,1,21,Fácil


## Modelo de clasificación

Este segmento del estudio detalla la implementación de un modelo de clasificación utilizando Random Forest. Comenzamos dividiendo los datos en conjuntos de entrenamiento y prueba, donde el 20% de los datos se reserva para la prueba. El modelo se entrena con el conjunto de entrenamiento y luego se evalúa su rendimiento en el conjunto de prueba. Las métricas clave utilizadas para la evaluación incluyen la precisión general del modelo y un informe de clasificación que desglosa la precisión, recall y F1-score por cada clase de dificultad.

Estos pasos aseguran que el modelo sea robusto y efectivo para predecir la dificultad de las intervenciones quirúrgicas en un contexto educativo y clínico.

In [84]:
import numpy as np
import pandas as pd
from sklearn.metrics import roc_curve, auc, roc_auc_score
from sklearn.preprocessing import label_binarize
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
from itertools import cycle
from sklearn.metrics import accuracy_score, classification_report

# Definir las características (features) y la etiqueta (target)
X = data_selected.drop('Clasificación Dificultad', axis=1)
y = data_selected['Clasificación Dificultad']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo de Bosque Aleatorio
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

Accuracy: 0.9715242881072027
              precision    recall  f1-score   support

     Difícil       0.88      0.99      0.93        74
       Fácil       0.99      0.96      0.97       178
    Moderada       0.98      0.95      0.96       110
   Muy Fácil       0.98      0.99      0.99       235

    accuracy                           0.97       597
   macro avg       0.96      0.97      0.96       597
weighted avg       0.97      0.97      0.97       597



In [86]:
X_train

Unnamed: 0,Género,Alcohol,Hipertensión Arterial,Hipercolesterolemia,Fumador/a,Diabetes II,Diabetes I,Osteoporosis,Quimioterapia,Tipo de Intervención Quirúrgica,Tipo de cirugía,Duración de la intervención quirúrgica,Edad
2737,0,2,1,1,0,1,1,1,1,0,4,6,23
2656,1,2,1,1,1,1,1,1,1,0,4,3,25
1251,1,2,1,1,0,1,1,1,1,0,4,5,26
1565,0,1,1,1,0,1,1,1,1,0,4,3,26
509,0,2,1,1,0,1,1,1,1,0,4,4,23
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1638,0,1,1,1,1,1,1,1,1,0,4,4,20
1095,1,2,1,1,1,1,1,1,1,0,4,5,22
1130,0,2,1,1,1,1,1,1,1,0,4,4,24
1294,1,2,1,1,0,1,1,1,1,2,4,6,47


#### Métricas Generales:

Accuracy (Exactitud): 0.9715

Indica que el 97.15% de las predicciones del modelo fueron correctas. La exactitud es la proporción de predicciones correctas sobre el total de instancias evaluadas.

#### Métricas por Clase:

Para cada clase se proporcionan las siguientes métricas: precisión, recall (sensibilidad) y f1-score, además del número de instancias (support) en cada clase.

**Difícil:**
- Precisión: 0.88
- De todas las instancias predichas como "Difícil", el 88% eran correctas.
- Recall: 0.99
- El modelo identificó correctamente el 99% de las instancias verdaderamente "Difícil".
- F1-Score: 0.93
- La media armónica de la precisión y el recall. Indica un buen equilibrio entre ambas métricas.
- Support: 74
- Hubo 74 instancias reales de "Difícil".

**Fácil:**
- Precisión: 0.99
- El 99% de las instancias predichas como "Fácil" eran correctas.
- Recall: 0.96
- El modelo identificó correctamente el 96% de las instancias verdaderamente "Fácil".
- F1-Score: 0.97
- Alta precisión y recall, lo que indica un buen rendimiento para esta clase.
- Support: 178
- Hubo 178 instancias reales de "Fácil".

**Moderada:**
- Precisión: 0.98
- El 98% de las instancias predichas como "Moderada" eran correctas.
- Recall: 0.95
- El modelo identificó correctamente el 95% de las instancias verdaderamente "Moderada".
- F1-Score: 0.96
- Buen equilibrio entre precisión y recall.
- Support: 110
- Hubo 110 instancias reales de "Moderada".

**Muy Fácil:**
- Precisión: 0.98
- El 98% de las instancias predichas como "Muy Fácil" eran correctas.
- Recall: 0.99
- El modelo identificó correctamente el 99% de las instancias verdaderamente "Muy Fácil".
- F1-Score: 0.99
- Excelente rendimiento en esta clase.
- Support: 235
- Hubo 235 instancias reales de "Muy Fácil".

**Promedios:**

Macro avg:
- Promedio simple de las métricas (precisión, recall y f1-score) para todas las clases. Esto trata todas las clases por igual sin considerar el número de instancias.
- Precisión: 0.96
- Recall: 0.97
- F1-Score: 0.96

Weighted avg:
- Promedio ponderado de las métricas, teniendo en cuenta el número de instancias en cada clase.
- Precisión: 0.97
- Recall: 0.97
- F1-Score: 0.97

El modelo tiene un **alto rendimiento general** con una exactitud del 97.15%, y las métricas por clase indican que el modelo maneja bien cada categoría, especialmente "Fácil" y "Muy Fácil" que tienen los f1-scores más altos.

In [85]:
import joblib

joblib_file = "modelo_random_forest.joblib"
joblib.dump(model, joblib_file)

['modelo_random_forest.joblib']

## Conclusiones

Este estudio ha demostrado cómo las técnicas avanzadas pueden ser aplicadas efectivamente en la gestión clínica dentro de la odontología universitaria para mejorar la organización y la planificación de las intervenciones quirúrgicas. A través de la carga y preparación meticulosa de los datos, la creación de clases basadas en análisis de componentes principales, y la aplicación de un modelo de clasificación Random Forest, hemos logrado predecir con precisión la dificultad de las intervenciones quirúrgicas.

El uso de datos limpios y estandarizados permitió un modelado preciso y eficiente, mientras que la categorización de las dificultades de las intervenciones ayudó a simplificar el análisis y facilitar la toma de decisiones clínicas. La implementación del modelo de Random Forest reveló ser particularmente valiosa, proporcionando insights claros sobre la correlación entre diversas patologías y la dificultad de las operaciones, y ayudando a asignar de manera óptima los recursos humanos y materiales.

Finalmente, este enfoque no solo ha mejorado la eficiencia operativa, sino que también ha contribuido significativamente a la formación práctica de los estudiantes, preparándolos mejor para enfrentar los desafíos del mundo real en el ámbito odontológico. Este estudio ilustra la importancia y la utilidad de integrar métodos analíticos avanzados en la educación y práctica odontológica, sugiriendo caminos para futuras investigaciones y aplicaciones en otras áreas de la medicina.