In [17]:
import pandas as pd
import numpy as np
from tabulate import tabulate

In [18]:
df = pd.read_excel("RCV.xlsx")

In [19]:
df_resultados = df[
    ["id_persona", "sexo", "Edad", "HTA", "DM", "PAS", "PAD", "AlertaRiesgoHTA", "IMC", "IMCAnterior",
     "Peso", "PesoAnterior", "G22-1", "G22-2", "953-1", "C86-1", "G06", "AlertaDMSinFindrisk", "PerimetroAbdominal",
     "ActividadFisica", "Alimentacion", "antihipertensivos", "TestFindrisc", "AlertaTestFindrisc", "AlertaConfirmadoHTAoDM",
     "ResultadoCreatininaActual", "ResultadoCreatininaAnterior", "TFGCyGActual", "TFGCyGAnterior", "AlertaTFGCyG", "TFGActual",
     "TFGAnterior", "AlertaTFG", "Albuminuria", "Microalbuminuria", "Proteinuria", "AlertaAlbuMicroProteinuria"]
]

# Cálculo alerta:

Para el cálculo del riesgo cardiovascular, nuestra variable de respuesta estará hecha através de la suma de las diferentes alertas como:

* AlertaRiesgoHTA
* AlertaDMSinFindrisk
* AlertaTestFindrisc
* AlertaConfirmadoHTAoDM
* AlertaTFGCyG
* AlertaTFG
* AlertaAlbuMicroProteinuria

In [20]:
df_con_suma = df_resultados.copy()

df_con_suma["AlertasSumadas"] = (
    df_con_suma["AlertaRiesgoHTA"].fillna(0) +
    df_con_suma["AlertaDMSinFindrisk"].fillna(0) +
    df_con_suma["AlertaTestFindrisc"].fillna(0) +
    df_con_suma["AlertaConfirmadoHTAoDM"].fillna(0) +
    df_con_suma["AlertaTFGCyG"].fillna(0) +
    df_con_suma["AlertaTFG"].fillna(0) +
    df_con_suma["AlertaAlbuMicroProteinuria"].fillna(0)
)

In [21]:
df_con_suma.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 38 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   id_persona                   5000 non-null   int64  
 1   sexo                         5000 non-null   object 
 2   Edad                         5000 non-null   int64  
 3   HTA                          5000 non-null   int64  
 4   DM                           5000 non-null   int64  
 5   PAS                          3179 non-null   float64
 6   PAD                          3179 non-null   float64
 7   AlertaRiesgoHTA              5000 non-null   int64  
 8   IMC                          3842 non-null   object 
 9   IMCAnterior                  3843 non-null   object 
 10  Peso                         3842 non-null   object 
 11  PesoAnterior                 3843 non-null   object 
 12  G22-1                        35 non-null     float64
 13  G22-2             

In [22]:
df_con_condicional = df_con_suma.copy()

df_con_condicional["RCV"] = np.where(df_con_condicional["AlertasSumadas"] > 0, 1, 0)

In [23]:
df_con_condicional[['id_persona', 'AlertasSumadas', 'RCV']].head(10)

Unnamed: 0,id_persona,AlertasSumadas,RCV
0,8086,0,0
1,3109,0,0
2,2718,0,0
3,4494,0,0
4,4262,0,0
5,4622,0,0
6,9713,0,0
7,6774,2,1
8,2227,0,0
9,7925,0,0


In [24]:
df_final = df_con_condicional[
    ["id_persona", "sexo", "Edad", "HTA", "DM", "PAS", "PAD", "IMC", "IMCAnterior",
     "Peso", "PesoAnterior", "G22-1", "G22-2", "953-1", "C86-1", "G06", "PerimetroAbdominal",
     "ActividadFisica", "Alimentacion", "antihipertensivos", "TestFindrisc",
     "ResultadoCreatininaActual", "ResultadoCreatininaAnterior", "TFGCyGActual", "TFGCyGAnterior", "TFGActual",
     "TFGAnterior", "Albuminuria", "Microalbuminuria", "Proteinuria", "RCV"]
]

In [25]:
columnas_numericas = ['PAS', 'PAD', 'IMC', 'IMCAnterior', 'Peso', 'PesoAnterior', 'G22-1',
                     'G22-2', '953-1', 'C86-1', 'G06', 'PerimetroAbdominal', 'ResultadoCreatininaActual',
                     'ResultadoCreatininaAnterior', 'TFGCyGActual', 'TFGCyGAnterior', 'TFGActual', 'TFGAnterior',
                      'Albuminuria', 'Microalbuminuria', 'Proteinuria']

for c in columnas_numericas:
    # Reemplazar ',' por '.' y convertir a float
    df_final[c] = df_final[c].astype(str).str.replace(',', '.', regex=False)
    df_final[c] = pd.to_numeric(df_final[c], errors='coerce')

# Para mostrar esquema y primeras filas (similar a printSchema y show en PySpark)
print(df_final.dtypes)
print(df_final.head())


id_persona                       int64
sexo                            object
Edad                             int64
HTA                              int64
DM                               int64
PAS                            float64
PAD                            float64
IMC                            float64
IMCAnterior                    float64
Peso                           float64
PesoAnterior                   float64
G22-1                          float64
G22-2                          float64
953-1                          float64
C86-1                          float64
G06                            float64
PerimetroAbdominal             float64
ActividadFisica                 object
Alimentacion                    object
antihipertensivos              float64
TestFindrisc                     int64
ResultadoCreatininaActual      float64
ResultadoCreatininaAnterior    float64
TFGCyGActual                   float64
TFGCyGAnterior                 float64
TFGActual                

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final[c] = df_final[c].astype(str).str.replace(',', '.', regex=False)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final[c] = pd.to_numeric(df_final[c], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_final[c] = df_final[c].astype(str).str.replace(',', '.', regex=False)
A

# Arreglo problema con IMC

Ciertos IMC tienen problemas de input ya que no tiene sentido que haya IMC's mayores a 60. Por lo que tomaremos dichos datos y los dejaremos como NA para que no nos afecte los modelos ni el análisis exploratorio.

In [26]:
df_final.loc[df_final['IMC'] > 100, 'IMC']

47        2776.69430
162      10000.00000
163      10000.00000
251        139.64497
758       2776.69430
794     192974.00000
1613    492000.03000
2102     10000.00000
2332       139.64497
2416     10000.00000
2418     10000.00000
2579    213017.77000
2589    251919.28000
2594    192394.75000
2598    176000.00000
2611    251962.80000
2714      2776.69430
2763    213017.77000
3070    360899.62000
3321       139.64497
3430     10000.00000
3535     10000.00000
4140    294700.00000
Name: IMC, dtype: float64

In [27]:
df_final.loc[df_final['IMC'] > 100, 'IMC'] = np.nan

# Problema con 0 y negativos

Para las variables clínicas en el siguiente resumen podemos ver que tenemos incongruencias.

1. Datos con 0: Es imposible que la medida de Presión arterial **Diastólica** y **Sistólica**
2. Datos negativos: Tampoco es posible que una persona tenga un perímetro abdominal negativo.

Por lo que para estos datos lo que haremos es ponerlos en NA.

In [28]:
# 3. Tabla resumen (media ± std, mediana, min, max) para variables clínicas

vars_clinicas = ['PerimetroAbdominal', 'PAS', 'PAD', 'Peso']
summary = df_final[vars_clinicas].agg(['mean','std','median','min','max']).T
summary['mean ± std'] = summary.apply(lambda r: f"{r['mean']:.2f} ± {r['std']:.2f}", axis=1)
summary_final = summary[['mean ± std','median','min','max']]
print("\nResumen variables clínicas:")
print(tabulate(summary_final, headers='keys', tablefmt='psql'))


Resumen variables clínicas:
+--------------------+----------------+----------+-------+-------+
|                    | mean ± std     |   median |   min |   max |
|--------------------+----------------+----------+-------+-------|
| PerimetroAbdominal | 22.74 ± 38.19  |        0 |    -2 |   159 |
| PAS                | 112.12 ± 24.59 |      118 |     0 |   200 |
| PAD                | 73.51 ± 16.30  |       77 |     0 |   150 |
| Peso               | 61.93 ± 18.18  |       63 |     1 |   160 |
+--------------------+----------------+----------+-------+-------+


In [29]:
cols = ['PerimetroAbdominal', 'PAS', 'PAD', 'Peso']

for col in cols:
    df_final.loc[df_final[col] <= 0, col] = np.nan

In [30]:
df_final.to_csv("RCV_DataPrep.csv")