In [2]:
import pandas as pd

# Cargar el dataset
file_path = '../data/processed/df_cancer_prostata_processed.csv'
data = pd.read_csv(file_path)


# Mostrar las primeras filas y un resumen de los datos
data.describe(), data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 870 entries, 0 to 869
Columns: 121 entries, IDPACIENTE to DIAS_HASTA_INICIO_TRATAMIENTO
dtypes: float64(24), int64(5), object(92)
memory usage: 822.5+ KB


(         IDPACIENTE       IDTUMOR  FECHA_COMITE  INTERVALO_INGRESO_DIAGNO  \
 count    870.000000    870.000000           0.0                870.000000   
 mean   27910.850575  25382.272414           NaN               -135.877011   
 std     5536.667455   3749.857476           NaN                289.603049   
 min     1646.000000  16920.000000           NaN              -1607.000000   
 25%    24087.500000  22280.250000           NaN               -211.000000   
 50%    28002.500000  25178.500000           NaN               -108.000000   
 75%    31985.250000  27650.750000           NaN                  6.750000   
 max    37144.000000  33121.000000           NaN               3060.000000   
 
        COD_TOPOLOGIA  LINFOMA  FIGO  FIGO_LETRA  TNM_3  SUBTIPO  ...  \
 count          870.0      0.0   0.0         0.0    0.0    870.0  ...   
 mean            61.0      NaN   NaN         NaN    NaN      0.0  ...   
 std              0.0      NaN   NaN         NaN    NaN      0.0  ...   
 min

In [3]:
# Calcular el porcentaje de valores faltantes por columna
missing_data = data.isnull().mean() * 100

# Mostrar las columnas con el porcentaje de valores faltantes
missing_data.sort_values(ascending=False)


TIPO_TERAPIA_10                  100.0
FECHA_TERMINO_TRATAMIENTO_10     100.0
TIPO_TRATAMIENTO_8               100.0
FECHA_COMITE                     100.0
FECHA_TERMINO_TRATAMIENTO_8      100.0
                                 ...  
EXTENSION_NOM                      0.0
NOM_COMPORTAMIENTO                 0.0
MORFO_COMPLETA                     0.0
COD_CIE10                          0.0
DIAS_HASTA_INICIO_TRATAMIENTO      0.0
Length: 121, dtype: float64

Algunas columnas en el dataset tienen un 100% de valores faltantes, lo que significa que no contienen información útil y podrían ser eliminadas. Vamos a eliminar todas las columnas que tienen un porcentaje de valores faltantes superior al 90%, ya que no aportarán mucho al análisis. Posteriormente, revisaremos cómo manejar las demás columnas con valores faltantes.



In [4]:
# Eliminar columnas con más del 90% de valores faltantes
data_cleaned = data.loc[:, (data.isnull().mean() < 0.9)]

# Mostrar las columnas eliminadas y el resumen del dataset resultante
columns_removed = data.columns.difference(data_cleaned.columns)
data_cleaned.info(), columns_removed


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 870 entries, 0 to 869
Data columns (total 69 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   IDPACIENTE                     870 non-null    int64  
 1   IDTUMOR                        870 non-null    int64  
 2   SEXO                           870 non-null    object 
 3   FEC_NACIMIENTO                 870 non-null    object 
 4   PREVISION                      870 non-null    object 
 5   RELIGION                       869 non-null    object 
 6   ETNIA                          870 non-null    object 
 7   ZONA_VIVIENDA                  866 non-null    object 
 8   COMUNA                         870 non-null    object 
 9   REGION                         870 non-null    object 
 10  SSREFERENCIA                   870 non-null    object 
 11  RECINTO_PROCEDE                870 non-null    object 
 12  ESTABLE_DESTINO                869 non-null    obj

(None,
 Index(['CAUSAFALLECIMIENTO', 'FECHA_CANCER_PREVIO_1', 'FECHA_CANCER_PREVIO_2',
        'FECHA_COMITE', 'FECHA_FALLECIMIENTO', 'FECHA_INICIO_TRATAMIENTO_10',
        'FECHA_INICIO_TRATAMIENTO_3', 'FECHA_INICIO_TRATAMIENTO_4',
        'FECHA_INICIO_TRATAMIENTO_5', 'FECHA_INICIO_TRATAMIENTO_6',
        'FECHA_INICIO_TRATAMIENTO_7', 'FECHA_INICIO_TRATAMIENTO_8',
        'FECHA_INICIO_TRATAMIENTO_9', 'FECHA_TERMINO_TRATAMIENTO_10',
        'FECHA_TERMINO_TRATAMIENTO_3', 'FECHA_TERMINO_TRATAMIENTO_4',
        'FECHA_TERMINO_TRATAMIENTO_5', 'FECHA_TERMINO_TRATAMIENTO_6',
        'FECHA_TERMINO_TRATAMIENTO_7', 'FECHA_TERMINO_TRATAMIENTO_8',
        'FECHA_TERMINO_TRATAMIENTO_9', 'FIGO', 'FIGO_LETRA', 'FUENTE3',
        'LINFOMA', 'OBSERVACION_TRATAMIENTO_10', 'OBSERVACION_TRATAMIENTO_3',
        'OBSERVACION_TRATAMIENTO_4', 'OBSERVACION_TRATAMIENTO_5',
        'OBSERVACION_TRATAMIENTO_6', 'OBSERVACION_TRATAMIENTO_7',
        'OBSERVACION_TRATAMIENTO_8', 'OBSERVACION_TRATAMIENTO_9', 'RE

Hemos eliminado 52 columnas que contenían más del 90% de valores faltantes, dejando el dataset con 69 columnas. Ahora podemos concentrarnos en mejorar la calidad de las columnas restantes.

In [5]:
# Calcular nuevamente el porcentaje de valores faltantes en las columnas restantes
missing_data_updated = data_cleaned.isnull().mean() * 100

# Filtrar y mostrar columnas con valores faltantes, ordenados
missing_data_filtered = missing_data_updated[missing_data_updated > 0].sort_values(ascending=False)
missing_data_filtered


ETAPA_LETRA                    89.195402
FUENTE2                        82.413793
OBSERVACION_TRATAMIENTO_2      81.034483
FECHA_TERMINO_TRATAMIENTO_2    79.885057
FECHA_INICIO_TRATAMIENTO_2     76.666667
TIPO_TRATAMIENTO_2             75.057471
TIPO_TERAPIA_2                 75.057471
TNM_1                          26.781609
ETAPA_CLINICA                  25.977011
FECHA_TERMINO_TRATAMIENTO_1     8.160920
FUENTE1                         4.022989
OBSERVACION_TRATAMIENTO_1       3.448276
SITUACION_LABORAL               0.804598
INTENCION_TRATA                 0.689655
ZONA_VIVIENDA                   0.459770
ULT_CURSO_APROBADO              0.459770
GRADO_DIFERENCIACION            0.459770
RESPUESTA_TRATA                 0.229885
ESTABLE_DESTINO                 0.114943
CANCER_PARENTESCO3              0.114943
PARENTESCO3                     0.114943
CANCER_PARENTESCO_2             0.114943
PARENTESCO_2                    0.114943
CANCER_PARENTESCO_1             0.114943
CANCER_PREVIO_2 

In [6]:
# Eliminar columnas con más del 75% de valores faltantes
columns_to_drop = missing_data_filtered[missing_data_filtered > 75].index
data_cleaned = data_cleaned.drop(columns=columns_to_drop)

# Mostrar las columnas eliminadas y la información actualizada del dataset
columns_to_drop, data_cleaned.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 870 entries, 0 to 869
Data columns (total 62 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   IDPACIENTE                     870 non-null    int64  
 1   IDTUMOR                        870 non-null    int64  
 2   SEXO                           870 non-null    object 
 3   FEC_NACIMIENTO                 870 non-null    object 
 4   PREVISION                      870 non-null    object 
 5   RELIGION                       869 non-null    object 
 6   ETNIA                          870 non-null    object 
 7   ZONA_VIVIENDA                  866 non-null    object 
 8   COMUNA                         870 non-null    object 
 9   REGION                         870 non-null    object 
 10  SSREFERENCIA                   870 non-null    object 
 11  RECINTO_PROCEDE                870 non-null    object 
 12  ESTABLE_DESTINO                869 non-null    obj

(Index(['ETAPA_LETRA', 'FUENTE2', 'OBSERVACION_TRATAMIENTO_2',
        'FECHA_TERMINO_TRATAMIENTO_2', 'FECHA_INICIO_TRATAMIENTO_2',
        'TIPO_TRATAMIENTO_2', 'TIPO_TERAPIA_2'],
       dtype='object'),
 None)

Hemos eliminado 7 columnas más con más del 75% de datos faltantes. El dataset ahora tiene 62 columnas.

Para las columnas restantes con valores faltantes, usaremos diferentes estrategias de imputación dependiendo de su tipo y la cantidad de datos faltantes:

* Columnas Numéricas: Podemos imputar usando la mediana para minimizar el impacto de valores extremos.
* Columnas Categóricas: Podemos imputar usando la moda, es decir, el valor más frecuente.

In [7]:
from sklearn.impute import SimpleImputer

# Imputador para datos categóricos (usando la moda)
imputer_categorical = SimpleImputer(strategy='most_frequent')

# Columnas categóricas con menos del 10% de datos faltantes
categorical_columns = data_cleaned.select_dtypes(include=['object']).columns
categorical_missing = missing_data_filtered[(missing_data_filtered > 0) & (missing_data_filtered < 10)]
categorical_to_impute = [col for col in categorical_missing.index if col in categorical_columns]

# Aplicar imputación
data_cleaned[categorical_to_impute] = imputer_categorical.fit_transform(data_cleaned[categorical_to_impute])

# Verificar que ya no hay valores faltantes en esas columnas
data_cleaned[categorical_to_impute].isnull().sum()


FECHA_TERMINO_TRATAMIENTO_1    0
FUENTE1                        0
OBSERVACION_TRATAMIENTO_1      0
SITUACION_LABORAL              0
INTENCION_TRATA                0
ZONA_VIVIENDA                  0
ULT_CURSO_APROBADO             0
GRADO_DIFERENCIACION           0
RESPUESTA_TRATA                0
ESTABLE_DESTINO                0
CANCER_PARENTESCO3             0
PARENTESCO3                    0
CANCER_PARENTESCO_2            0
PARENTESCO_2                   0
CANCER_PARENTESCO_1            0
CANCER_PREVIO_2                0
RELIGION                       0
dtype: int64