Análisis de la variable "CRP"
Basado en la evidencia que proporcionas, la columna "CRP" corresponde casi con total seguridad a la Proteína C Reactiva (C-Reactive Protein en inglés). Es uno de los marcadores analíticos más importantes y utilizados en el seguimiento de pacientes con COVID-19.

¿Qué es y qué mide esta variable?
La Proteína C Reactiva (PCR), que no debe confundirse con la prueba de Reacción en Cadena de la Polimerasa (PCR) para detectar el virus, es una proteína producida por el hígado. Su concentración en la sangre aumenta drásticamente en respuesta a un proceso de inflamación en el cuerpo.

En resumen:

Qué es: Proteína C Reactiva, un biomarcador de inflamación.

Qué mide: Mide el nivel de inflamación sistémica (generalizada) en el organismo. No es específica de una enfermedad, pero en un paciente diagnosticado con COVID-19, indica la intensidad de la respuesta inflamatoria del cuerpo contra la infección viral.

Relevancia en COVID-19: Niveles elevados de CRP en pacientes con COVID-19 se asocian directamente con una mayor gravedad de la enfermedad, mayor riesgo de necesitar ventilación mecánica y un peor pronóstico. Es una métrica clave para evaluar la "tormenta de citoquinas".

Las unidades de medida habituales son miligramos por litro (mg/L), lo que encaja perfectamente con el formato decimal que observas (ej: 4.5 mg/L, 15.2 mg/L).

¿Cuál es el rango de normalidad?
El rango de normalidad puede variar ligeramente entre laboratorios, pero en general, se interpreta de la siguiente manera:

Normal: Un nivel de CRP inferior a 10 mg/L se considera generalmente bajo o normal. En personas sanas sin inflamación activa, el valor suele ser inferior a 3 mg/L.

Inflamación leve a moderada: Valores entre 10 y 40 mg/L. El rango que mencionas (1 a 20) cae principalmente en esta categoría, lo que podría corresponder a pacientes con enfermedad leve o en fases iniciales.

Inflamación severa: Valores superiores a 40-50 mg/L indican una respuesta inflamatoria significativa. En casos graves de COVID-19, no es raro ver valores que superan los 100 o incluso 200 mg/L.

En tu contexto: El rango de 1 a 20 mg/L sugiere que estás analizando mayoritariamente a pacientes con una respuesta inflamatoria de leve a moderada.

Interpretación de los valores no numéricos
Aquí es donde resolvemos la confusión con la pista que encontraste.

El significado de "NO existe" y la pista sobre la PCR
La pista que mencionas: "El ADN obtenido de la muestra recibida no ha sido de calidad óptima para la PCR (RT-PCR). Se recomienda una nueva toma de muestra." es extremadamente reveladora.

Aunque el comentario habla de una prueba RT-PCR (la del virus), el problema de fondo es una muestra inválida. Es muy probable que tu sistema de datos utilice el valor "NO existe" como un indicador genérico para cualquier analítica cuyo resultado no se pudo obtener.

Por lo tanto, "NO existe" en la columna CRP muy probablemente significa:

La prueba no se pudo realizar: La muestra de sangre recibida para medir la CRP era inadecuada (ej: hemolizada, insuficiente, coagulada).

Error técnico: Hubo un fallo en el equipo del laboratorio al procesar la muestra.

Muestra perdida o no solicitada: La analítica no se solicitó para ese paciente o la muestra se extravió.

En esencia, "NO existe" equivale a "Resultado no disponible por fallo pre-analítico o técnico". La pista sobre la RT-PCR es solo un ejemplo del tipo de error que puede ocurrir, aunque se refiera a otro tipo de prueba.

El significado de "se detecta" y "no se detecta"
Que una prueba cuantitativa como la CRP se reporte de forma cualitativa ("se detecta" / "no se detecta") es menos común, pero tiene una explicación lógica en el contexto de un laboratorio.

"no se detecta": Esto suele significar que el nivel de la proteína está por debajo del límite de detección del ensayo. Cada prueba de laboratorio tiene una sensibilidad mínima. Por ejemplo, si el límite inferior de detección es de 0.5 mg/L, un valor real de 0.2 mg/L se informaría como "<0.5 mg/L" o, de forma simplificada, "no se detecta". Clínicamente, equivale a un resultado normal y sin inflamación.

"se detecta": Este valor es un poco redundante si ya tienes un número, pero podría ser una bandera automática del sistema que significa que el valor está por encima del límite de detección y, por lo tanto, es cuantificable. En la práctica, simplemente confirma que hay un nivel medible de CRP, indicando algún grado de inflamación.

In [1]:
import pandas as pd

df = pd.read_csv('C:\\Users\\Lenovo\\Desktop\\MASTER\\2º Cuatrimestre\\TFM\\2º fase\\r35_historia_clinica_sintetica\\R35_sopra_steria\\data\\real\\df_final.csv',
                sep=',', low_memory=False, encoding="utf-8")

In [2]:
# filtrar valores que no contienen numeros decimales en el string
df_filtered = df[df["RESULTADO/VAL_RESULT"].str.contains(r'^\d+(\.\d+)?$', na=False)]
# filtrar valores que contienen numeros en el string
df_no_filtered = df[~df["RESULTADO/VAL_RESULT"].str.contains(r'^\d+(\.\d+)?$', na=False)]

  df_filtered = df[df["RESULTADO/VAL_RESULT"].str.contains(r'^\d+(\.\d+)?$', na=False)]
  df_no_filtered = df[~df["RESULTADO/VAL_RESULT"].str.contains(r'^\d+(\.\d+)?$', na=False)]


In [3]:
# # Convert the 'RESULTADO/VAL_RESULT' column to float
df_filtered['RESULTADO/VAL_RESULT'] = df_filtered['RESULTADO/VAL_RESULT'].astype(float)
# # Convert the 'RESULTADO/VAL_RESULT' column to numeric, forcing errors to NaN

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtered['RESULTADO/VAL_RESULT'] = df_filtered['RESULTADO/VAL_RESULT'].astype(float)


In [4]:
# df_no_filtered["RESULTADO/VAL_RESULT"].unique()

In [5]:
df_filtered['RESULTADO/VAL_RESULT'].describe()

count     1895.000000
mean        36.835259
std        312.635651
min          0.000000
25%         10.800000
50%         12.800000
75%         14.500000
max      10283.000000
Name: RESULTADO/VAL_RESULT, dtype: float64

In [6]:
# quantiles
quantiles = df_filtered['RESULTADO/VAL_RESULT'].quantile([0.25, 0.5, 0.75])
print("Quantiles:")
print(quantiles)
# Calculate the interquartile range (IQR)
iqr = quantiles[0.75] - quantiles[0.25]
print("Interquartile Range (IQR):", iqr)
# Calculate the lower and upper bounds for outliers
lower_bound = quantiles[0.25] - 1.5 * iqr
upper_bound = quantiles[0.75] + 1.5 * iqr
print("Lower Bound for Outliers:", lower_bound)
print("Upper Bound for Outliers:", upper_bound)

Quantiles:
0.25    10.8
0.50    12.8
0.75    14.5
Name: RESULTADO/VAL_RESULT, dtype: float64
Interquartile Range (IQR): 3.6999999999999993
Lower Bound for Outliers: 5.250000000000002
Upper Bound for Outliers: 20.049999999999997


In [7]:
# diccionario de valores no filtrados con su valor numérico asociado
values_dict = {
    'Se detecta': '13', 
    'No se detecta': '0', 
    'No se detecta ADN de CMV.': '0', 
    '-2.9': '-2.9',
    'Negativo': '8',
    'Prueba ya solicitada en fecha 2020-04-09 en muestra 620207662': '0',
    'Indeterminado': '0',
    'Negativo (0.76)': '0.76', 
    'Se detecta Ct: 34': '34',
    'Negativo (< 0.1)': '0.1',
    'Negativo (0.16)': '0.16',
    'Indeterminado (se solicita nueva muestra': '0',
    'Sin resultado': '0',
    'Negativo TÂ¡tulo <1/100': '0.1',
    'Enviado al Hospital 12 de Octubre': '0', 
    'Negativo (0.08)': '0.08',
    'Negativo\\X0A\\- Influenza A: No se detecta\\X0A\\- Influenza B: No se detecta\\X0A\\- Influenza H1N1: No se detecta\\X0A\\- Coronavirus (Cor 229, Cor 63, Cor 43 y HKU): No se detecta\\X0A\\- Parainfluenza (HPIV1, HPIV2, HPIV3 y HPIV4): No se detecta\\X0A\\- Adenovirus (HAdV): No se detecta.\\X0A\\- Virus Respiratorio Sincitial (HRSVA/B): No se detecta.\\X0A\\- Bocavirus (HBoV): No se detecta.\\X0A\\- Metapneumovirus (HMPV A/B): No se detecta.\\X0A\\- Rinovirus (RV): No se detecta.\\X0A\\- Parechovirus (HPeV): No se detecta.\\X0A\\- Mycoplasma pneumoniae (Mpneu): No se detecta.': '0',
    'PORTADOR PSEUDOMONA MR': '0',
    'No remite muestra': '0',
    '-5.2': '5.2',
    '----': '0',
    'BLASTOS': '0',
    '-4.5': '4.5',
    'No se detecta ADN del complejo M. tuberculosis': '0',
    'LACTATO': '0',
    'PLAQUETAS AGREGADAS': '0', 
    'HERIDA SACRO': '0',
    'Indeterminado (se solicita nueva muestra, si es posible BAL o BAS).': '0',
    'Negativo (0.15)': '0.15',
    '-1.2': '1.2',
    'Se envÂ¡a al RamÂ¢n y Cajal': '0',
    'Negativo (0.25)': '0.25',
    '-10.7': '10.7',
    'URG': '0',
    '> 100.0': '100.0',
    'CONTROL PORTADOR BLEE': '0', 
    'ALEJANDRO': '0',
    '-2.6': '2.6',
    'Negativo (0.19)': '0.19',
    'MALENA': '0',
    'Se observan neutrÂ¢filos vacuolados y agregados plaquetarios. Serie roja no valorable por artefacto.': '0',
    'No procede': '0',
    'CONTROL PORTADOR BLEE + EPC': '0',
    'Se realiza la determinaciÂ¢n en NÂ§ 620021892': '0', 
    '-1.9': '1.9',
    'PoblaciÂ¢n analizada: Linfocitaria (12.4%). Se identifican las siguientes subpoblaciones: Linfocitos T CD3+ (75.40%)': '0',
    'Control Portador SARM': '0',
    'Negativo (0.07)': '0.07',
    'Negativo (0.43)': '0.43',
    '-8.5': '8.5',
    'Procesado en 420061445': '0',
    '< 0.1': '0.1',
    'Prueba ya solicitada en fecha 2020-11-20 en muestra 420821695': '0',
    'Positivo. Se observan una banda correspondiente a la proteÂ¡na C1 y otra dÂ\x82bil correspondiente a la proteÂ¡na NS3': '15',
    '-3.3': '3.3',
    '-1.7': '1.7',
    'Procesado en la muestra 420169512 del dÂ¡a 16/09/2020': '0',
    'Procesada en HMV': '0',
    'Negativo (0.14)': '0.14',
    '-3.7': '3.7',
    'No valorable por material genÂ\x82tico insuficiente en la muestra remitida': '0',
    'El ADN obtenido de la muestra recibida no ha sido de calidad Â¢ptima para la PCR (RT-PCR). Se recomienda una nueva toma de muestra.' : '0'
    
}
# reemplazar los valores no filtrados por su valor numérico asociado
df["RESULTADO/VAL_RESULT"] = df["RESULTADO/VAL_RESULT"].replace(values_dict)


In [8]:
df['RESULTADO/VAL_RESULT'] = df['RESULTADO/VAL_RESULT'].astype(float)


In [None]:
# save the modified DataFrame to a new CSV file
df.to_csv('C:\\Users\\Lenovo\\Desktop\\MASTER\\2º Cuatrimestre\\TFM\\2º fase\\r35_historia_clinica_sintetica\\R35_sopra_steria\\data\\real\\df_final_v2.csv', 
        sep=',', index=False, encoding="utf-8")