In [4]:
# conda create -n pi_env python=3.9
# conda activate pi_env
# pip install pandas
# pip install seaborn
# pip install matplotlib
# pip install fastparquet

## Librerías

In [63]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [6]:
# Option 1: Using pandas display options
pd.options.display.float_format = '{:.6f}'.format  # Display up to 6 decimal places

Importar la base de datos

In [19]:
data_raw = pd.read_parquet(r"..\Modelo_CA_Mama\Data_Ca_Mama.parquet", engine='fastparquet')
data_raw.head()

Unnamed: 0,Afiliado_Id,Ind_Frecuencia_Licor,Sexo_Cd,Raza_Desc,Valor_IMC,Num_Edad_Menopausia,Num_Edad_Menarca,Ind_Terapia_Hormonal,Num_Birads,Ind_Ooforectomia_Bilateral,Num_Fam_Primer_Grado_Otros,Num_Fam_Segundo_Grado_Otros,Ind_Ant_Fam_Otros,Num_Fam_Primer_Grado_CAM,Num_Fam_Segundo_Grado_CAM,Ind_Ant_Fam_CAM,Ind_Ant_Radio_Torax,Edad,Ind_CAM
0,6915312.0,,F,SIN INFORMACION DESDE LA FUENTE,29.01,,13.0,No,,No,0.0,0.0,No,0.0,0.0,No,No,34.0,No
1,1520483.0,,F,MESTIZO,,,14.0,No,,No,0.0,0.0,No,0.0,0.0,No,No,40.0,No
2,10964151.0,Si,F,SIN INFORMACION DESDE LA FUENTE,33.01,,,No,,No,0.0,0.0,No,0.0,0.0,No,Si,41.0,No
3,10814984.0,No,F,SIN INFORMACION DESDE LA FUENTE,23.34,,,No,,No,0.0,0.0,No,0.0,0.0,No,No,25.0,No
4,1301025.0,No,F,MESTIZO,24.67,,9.0,No,1.0,No,0.0,0.0,No,0.0,0.0,No,No,61.0,No


# Comprensión de los datos

In [20]:
# Revisar las variables que están en el DataFrame
data_raw.columns

Index(['Afiliado_Id', 'Ind_Frecuencia_Licor', 'Sexo_Cd', 'Raza_Desc',
       'Valor_IMC', 'Num_Edad_Menopausia', 'Num_Edad_Menarca',
       'Ind_Terapia_Hormonal', 'Num_Birads', 'Ind_Ooforectomia_Bilateral',
       'Num_Fam_Primer_Grado_Otros', 'Num_Fam_Segundo_Grado_Otros',
       'Ind_Ant_Fam_Otros', 'Num_Fam_Primer_Grado_CAM',
       'Num_Fam_Segundo_Grado_CAM', 'Ind_Ant_Fam_CAM', 'Ind_Ant_Radio_Torax',
       'Edad', 'Ind_CAM'],
      dtype='object')

In [29]:
data_raw.shape

(2190213, 19)

Se tiene un total de 2.190.279 registros, con 19 variables.

In [25]:
# Cantidad de registros por población sana y enferma
data_raw.Ind_CAM.value_counts()

Ind_CAM
No    2172026
Si      18253
Name: count, dtype: int64

- Casos positivos: 18.253 mujeres afiliadas con diagnóstico positivo de cáncer de mama.
- Casos negativos: 2.172.026 mujeres sin diagnóstico de cáncer de mama.

## Calidad de los datos

### Duplicidad

In [26]:
# Contar el número de filas duplicadas
num_duplicated = data_raw.duplicated().sum()
print(f"Número de filas duplicadas: {num_duplicated}")

Número de filas duplicadas: 66


In [27]:
# Eliminar registros duplicados
data_raw = data_raw.drop_duplicates()

### Completitud

In [18]:
# Calcular el porcentaje de valores faltantes por columna
missing_percentage = data_raw.isnull().mean() * 100
print('Porcentaje de valores faltantes por columna:')
missing_percentage[missing_percentage > 0]

Porcentaje de valores faltantes por columna:


Ind_Frecuencia_Licor   33.812876
Valor_IMC              11.055957
Num_Edad_Menopausia    98.576075
Num_Edad_Menarca       59.428238
Num_Birads             77.865304
dtype: float64

In [None]:
data_raw.Edad.describe()

Unnamed: 0,Edad
count,2190213.0
mean,43.159533
std,16.741093
min,18.0
25%,29.0
50%,40.0
75%,55.0
max,139.0


Se puede apreciar que 98,58% de los registros de la variable edad de menopausia se encuentra vacío. Sin embargo, dado que el 75% de las mujeres en el dataset tienen una edad igual o inferior a los 55 años, el registro es coherente ya que la menopausia es un proceso natural que suele ocurrir entre los 45 y 55 años de edad, aunque la edad promedio es de 51 años.

### Conformidad

In [28]:
# Revisión general del tipo de datos
data_raw.dtypes

Afiliado_Id                    float64
Ind_Frecuencia_Licor            object
Sexo_Cd                         object
Raza_Desc                       object
Valor_IMC                      float64
Num_Edad_Menopausia            float64
Num_Edad_Menarca               float64
Ind_Terapia_Hormonal            object
Num_Birads                      object
Ind_Ooforectomia_Bilateral      object
Num_Fam_Primer_Grado_Otros     float64
Num_Fam_Segundo_Grado_Otros    float64
Ind_Ant_Fam_Otros               object
Num_Fam_Primer_Grado_CAM       float64
Num_Fam_Segundo_Grado_CAM      float64
Ind_Ant_Fam_CAM                 object
Ind_Ant_Radio_Torax             object
Edad                           float64
Ind_CAM                         object
dtype: object

In [48]:
data_raw.Afiliado_Id = data_raw.Afiliado_Id.astype('int')
data_raw.Num_Edad_Menarca = data_raw.Num_Edad_Menarca.astype('int', errors= 'ignore')
data_raw.Num_Edad_Menopausia = data_raw.Num_Edad_Menopausia.astype('int', errors= 'ignore')
data_raw.Num_Fam_Primer_Grado_Otros = data_raw.Num_Fam_Primer_Grado_Otros.astype('int', errors= 'ignore')
data_raw.Num_Fam_Segundo_Grado_Otros = data_raw.Num_Fam_Segundo_Grado_Otros.astype('int', errors= 'ignore')
data_raw.Num_Fam_Primer_Grado_CAM = data_raw.Num_Fam_Primer_Grado_CAM.astype('int', errors= 'ignore')
data_raw.Num_Fam_Segundo_Grado_CAM = data_raw.Num_Fam_Segundo_Grado_CAM.astype('int', errors= 'ignore')
data_raw.Edad = data_raw.Edad.astype('int', errors= 'ignore')

Se decide cambiar los datos numericos de float64 a int, exceptuando el Valor de IMC.

Lo siguiente, sería analizar que las categorías de las variables categorícas se encuentren bien.

In [49]:
for column in data_raw.select_dtypes(include=['object']):
    print(f"Categorías en la columna {column}:")
    print(data_raw[column].unique())

Categorías en la columna Ind_Frecuencia_Licor:
[None 'Si' 'No']
Categorías en la columna Sexo_Cd:
['F']
Categorías en la columna Raza_Desc:
['SIN INFORMACION DESDE LA FUENTE' 'MESTIZO' 'BLANCO' 'AFROAMERICANO'
 'MULATO' 'ZAMBO' 'INDÍGENA']
Categorías en la columna Ind_Terapia_Hormonal:
['No' 'Si']
Categorías en la columna Num_Birads:
[None '1' 'BIRA' '2' '0' '4' '3' '6' 'BI-R' 'BI R' 'CATE' '5' 'BI -'
 'CLAS']
Categorías en la columna Ind_Ooforectomia_Bilateral:
['No' 'Si']
Categorías en la columna Ind_Ant_Fam_Otros:
['No' 'Si']
Categorías en la columna Ind_Ant_Fam_CAM:
['No' 'Si']
Categorías en la columna Ind_Ant_Radio_Torax:
['No' 'Si']
Categorías en la columna Ind_CAM:
['No' 'Si']


En general, las categorías de las variables categoricas se encuentran bien. Para la variable raza se encuentra la categoría 'SIN INFORMACION DESDE LA FUENTE' la cual debe ser eliminada ya que no corresponde a una categoría permitida. Por otro lado, en la variable Num_Birads también se encuentran categorías no permitidas como: 'BIRA', 'BI-R', 'BI R', 'CATE', 'BI -', 'CLAS'. Se decide limpiar estas categorías en los registros que aparecen.

In [54]:
# Función para verificar si un valor de BI-RADS es válido
def es_birads_valido(valor):
    try:
        valor_int = int(valor)
        return 0 <= valor_int <= 6
    except:
        return False

In [64]:
# Aplicar la función a la columna y reemplazar los valores no válidos por Na
data_raw['Num_Birads'] = data_raw['Num_Birads'].apply(lambda x: x if es_birads_valido(x) else np.nan)

In [66]:
# Aplicar la función a la columna y reemplazar los valores no válidos por Na
data_raw.Raza_Desc = data_raw.Raza_Desc.replace('SIN INFORMACION DESDE LA FUENTE', np.nan)

In [67]:
for column in data_raw.select_dtypes(include=['object']):
    print(f"Categorías en la columna {column}:")
    print(data_raw[column].unique())

Categorías en la columna Ind_Frecuencia_Licor:
[None 'Si' 'No']
Categorías en la columna Sexo_Cd:
['F']
Categorías en la columna Raza_Desc:
[nan 'MESTIZO' 'BLANCO' 'AFROAMERICANO' 'MULATO' 'ZAMBO' 'INDÍGENA']
Categorías en la columna Ind_Terapia_Hormonal:
['No' 'Si']
Categorías en la columna Num_Birads:
[nan '1' '2' '0' '4' '3' '6' '5']
Categorías en la columna Ind_Ooforectomia_Bilateral:
['No' 'Si']
Categorías en la columna Ind_Ant_Fam_Otros:
['No' 'Si']
Categorías en la columna Ind_Ant_Fam_CAM:
['No' 'Si']
Categorías en la columna Ind_Ant_Radio_Torax:
['No' 'Si']
Categorías en la columna Ind_CAM:
['No' 'Si']


Ahora, se analiza que la edad de la menopausia sea mayor que la edad de la menarca.

In [68]:
# Edad de menarca debe ser menor que edad de menopausia
edad_inconsistente = data_raw[data_raw['Num_Edad_Menopausia'] <= data_raw['Num_Edad_Menarca']]
print(f"Registros con inconsistencia en edades de menarca y menopausia: {len(edad_inconsistente)}")

Registros con inconsistencia en edades de menarca y menopausia: 0


In [71]:
# Edad de menarca debe ser menor que edad de menopausia
edad_inconsistente = data_raw[data_raw['Edad'] <= data_raw['Num_Edad_Menarca']]
print(f"Registros con inconsistencia en edades de menarca y edad: {len(edad_inconsistente)}")

Registros con inconsistencia en edades de menarca y edad: 0


In [78]:
# Edad de menarca debe ser menor que edad de menopausia
edad_inconsistente = data_raw[data_raw['Edad'] < data_raw['Num_Edad_Menopausia']]
print(f"Registros con inconsistencia en edades de menopausia y edad: {len(edad_inconsistente)}")

Registros con inconsistencia en edades de menopausia y edad: 3


In [86]:
condicion_inconsistente = data_raw['Num_Edad_Menopausia'] > data_raw['Edad']

In [88]:
# Invertir la condición para obtener los registros consistentes
data_raw = data_raw[~condicion_inconsistente]
data_raw.shape

(2190210, 19)

### Precisión

Verificar si los datos son correctos y representan fielmente la realidad.

In [90]:
for column in data_raw.select_dtypes(include=['float64', 'int']):
    print(f"Categorías en la columna {column}:")
    print(data_raw[column].unique())

Categorías en la columna Afiliado_Id:
[ 6915312  1520483 10964151 ...  1274761  4612105  1423928]
Categorías en la columna Valor_IMC:
[29.01               nan 33.01       ... 29.93056859 51.48
 39.17092768]
Categorías en la columna Num_Edad_Menopausia:
[nan 50. 56. 52. 53. 45. 48. 39. 37. 51. 55. 46. 38. 40. 54. 47. 49. 36.
 44. 43. 41. 57. 42.]
Categorías en la columna Num_Edad_Menarca:
[13. 14. nan  9. 12. 15. 11. 10. 16. 17.]
Categorías en la columna Num_Fam_Primer_Grado_Otros:
[0 1 2 3 4]
Categorías en la columna Num_Fam_Segundo_Grado_Otros:
[0 1 2 3]
Categorías en la columna Num_Fam_Primer_Grado_CAM:
[0 1 2]
Categorías en la columna Num_Fam_Segundo_Grado_CAM:
[0 1 2]
Categorías en la columna Edad:
[ 34  40  41  25  61  86  60  24  32  78  30  51  26  74  58  47  55  23
  35  50  39  73  27  29  18  68  67  54  63  21  37  84  53  20  59  43
  56  64  36  31  52  38  79  48  83  62  33  44  65  45  28  93  19  81
  42  57  22  49  66  46  69  95  71  77  82  72  80  75  70  76  88 

In [91]:
# Edad de menarca improbable
edad_menarca_improbable = data_raw[(data_raw['Num_Edad_Menarca'] < 8) | (data_raw['Num_Edad_Menarca'] > 18)]
print(f"Registros con edad de menarca improbable: {len(edad_menarca_improbable)}")

Registros con edad de menarca improbable: 0


In [92]:
# Edad de menopausia improbable
edad_menopausia_improbable = data_raw[(data_raw['Num_Edad_Menopausia'] < 35)]
print(f"Registros con edad de menarca improbable: {len(edad_menopausia_improbable)}")

Registros con edad de menarca improbable: 0


### Consistencia

Verificar que en los casos donde el número de familiares es diferente de 0 o None (es decir, hay al menos un familiar afectado), el indicador correspondiente sea Si, y en caso contrario, sea No.

In [110]:
# Calcular el total de familiares con otros cánceres
data_raw['Total_Fam_Otros'] = data_raw['Num_Fam_Primer_Grado_Otros'].fillna(0) + data_raw['Num_Fam_Segundo_Grado_Otros'].fillna(0)

# Generar el indicador esperado: 1 si Total_Fam_Otros > 0, 0 si no
data_raw['Ind_Ant_Fam_Otros_Esperado'] = data_raw['Total_Fam_Otros'].apply(lambda x: 'Si' if x > 0 else 'No')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_raw['Total_Fam_Otros'] = data_raw['Num_Fam_Primer_Grado_Otros'].fillna(0) + data_raw['Num_Fam_Segundo_Grado_Otros'].fillna(0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_raw['Ind_Ant_Fam_Otros_Esperado'] = data_raw['Total_Fam_Otros'].apply(lambda x: 'Si' if x > 0 else 'No')


In [112]:
# Crear una columna que indique si hay discrepancia
data_raw['Discrepancia_Otros'] = data_raw['Ind_Ant_Fam_Otros'] != data_raw['Ind_Ant_Fam_Otros_Esperado']

# Identificar registros con discrepancias
discrepancias_otros = data_raw[data_raw['Discrepancia_Otros'] == True]

print(f"Número de registros con discrepancias en 'Ind_Ant_Fam_Otros': {len(discrepancias_otros)}")

Número de registros con discrepancias en 'Ind_Ant_Fam_Otros': 82192


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_raw['Discrepancia_Otros'] = data_raw['Ind_Ant_Fam_Otros'] != data_raw['Ind_Ant_Fam_Otros_Esperado']


In [114]:
discrepancias_otros.columns

Index(['Afiliado_Id', 'Ind_Frecuencia_Licor', 'Sexo_Cd', 'Raza_Desc',
       'Valor_IMC', 'Num_Edad_Menopausia', 'Num_Edad_Menarca',
       'Ind_Terapia_Hormonal', 'Num_Birads', 'Ind_Ooforectomia_Bilateral',
       'Num_Fam_Primer_Grado_Otros', 'Num_Fam_Segundo_Grado_Otros',
       'Ind_Ant_Fam_Otros', 'Num_Fam_Primer_Grado_CAM',
       'Num_Fam_Segundo_Grado_CAM', 'Ind_Ant_Fam_CAM', 'Ind_Ant_Radio_Torax',
       'Edad', 'Ind_CAM', 'Total_Fam_Otros', 'Ind_Ant_Fam_Otros_Esperado',
       'Discrepancia_Otros'],
      dtype='object')

In [None]:
discrepancias_otros.loc[:,['Afiliado_Id','Num_Fam_Primer_Grado_Otros', 'Num_Fam_Segundo_Grado_Otros',
       'Ind_Ant_Fam_Otros' , 'Total_Fam_Otros', 'Ind_Ant_Fam_Otros_Esperado',
       'Discrepancia_Otros']].Ind_Ant_Fam_Otros.value_counts()

Ind_Ant_Fam_Otros
No    82192
Name: count, dtype: int64

Dado que todos los valores donde hay discrepancia con la variable original son "No", se decide eliminar la variable Ind_Ant_Fam_Otros y reemplazarla por la variable nueva llamada Ind_Ant_Fam_Otros_Esperado

Se repite el mismo proceso para la variable de CA Mama

In [117]:
# Calcular el total de familiares con otros cánceres
data_raw['Total_Fam_CAM'] = data_raw['Num_Fam_Primer_Grado_CAM'].fillna(0) + data_raw['Num_Fam_Segundo_Grado_CAM'].fillna(0)

# Generar el indicador esperado: 1 si Total_Fam_Otros > 0, 0 si no
data_raw['Ind_Ant_Fam_CAM_Esperado'] = data_raw['Total_Fam_CAM'].apply(lambda x: 'Si' if x > 0 else 'No')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_raw['Total_Fam_CAM'] = data_raw['Num_Fam_Primer_Grado_CAM'].fillna(0) + data_raw['Num_Fam_Segundo_Grado_CAM'].fillna(0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_raw['Ind_Ant_Fam_CAM_Esperado'] = data_raw['Total_Fam_CAM'].apply(lambda x: 'Si' if x > 0 else 'No')


In [119]:
# Crear una columna que indique si hay discrepancia
data_raw['Discrepancia_CAM'] = data_raw['Ind_Ant_Fam_CAM'] != data_raw['Ind_Ant_Fam_CAM_Esperado']

# Identificar registros con discrepancias
discrepancias_CAM = data_raw[data_raw['Discrepancia_CAM'] == True]

print(f"Número de registros con discrepancias en 'Ind_Ant_Fam_CAM': {len(discrepancias_CAM)}")

Número de registros con discrepancias en 'Ind_Ant_Fam_CAM': 0


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_raw['Discrepancia_CAM'] = data_raw['Ind_Ant_Fam_CAM'] != data_raw['Ind_Ant_Fam_CAM_Esperado']


No se encontraron discrepancias en esta variable.

In [120]:
data_raw.columns

Index(['Afiliado_Id', 'Ind_Frecuencia_Licor', 'Sexo_Cd', 'Raza_Desc',
       'Valor_IMC', 'Num_Edad_Menopausia', 'Num_Edad_Menarca',
       'Ind_Terapia_Hormonal', 'Num_Birads', 'Ind_Ooforectomia_Bilateral',
       'Num_Fam_Primer_Grado_Otros', 'Num_Fam_Segundo_Grado_Otros',
       'Ind_Ant_Fam_Otros', 'Num_Fam_Primer_Grado_CAM',
       'Num_Fam_Segundo_Grado_CAM', 'Ind_Ant_Fam_CAM', 'Ind_Ant_Radio_Torax',
       'Edad', 'Ind_CAM', 'Total_Fam_Otros', 'Ind_Ant_Fam_Otros_Esperado',
       'Discrepancia_Otros', 'Total_Fam_CAM', 'Ind_Ant_Fam_CAM_Esperado',
       'Discrepancia_CAM'],
      dtype='object')

In [122]:
# Eliminar columnas temporales
columnas_eliminar = ['Ind_Ant_Fam_Otros', 'Total_Fam_Otros', 'Discrepancia_Otros',
                      'Total_Fam_CAM', 'Ind_Ant_Fam_CAM_Esperado', 'Discrepancia_CAM'
                      ]

data_raw = data_raw.drop(columnas_eliminar, axis=1)

In [123]:
data_raw

Unnamed: 0,Afiliado_Id,Ind_Frecuencia_Licor,Sexo_Cd,Raza_Desc,Valor_IMC,Num_Edad_Menopausia,Num_Edad_Menarca,Ind_Terapia_Hormonal,Num_Birads,Ind_Ooforectomia_Bilateral,Num_Fam_Primer_Grado_Otros,Num_Fam_Segundo_Grado_Otros,Num_Fam_Primer_Grado_CAM,Num_Fam_Segundo_Grado_CAM,Ind_Ant_Fam_CAM,Ind_Ant_Radio_Torax,Edad,Ind_CAM,Ind_Ant_Fam_Otros_Esperado
0,6915312,,F,,29.010000,,13.000000,No,,No,0,0,0,0,No,No,34,No,No
1,1520483,,F,MESTIZO,,,14.000000,No,,No,0,0,0,0,No,No,40,No,No
2,10964151,Si,F,,33.010000,,,No,,No,0,0,0,0,No,Si,41,No,No
3,10814984,No,F,,23.340000,,,No,,No,0,0,0,0,No,No,25,No,No
4,1301025,No,F,MESTIZO,24.670000,,9.000000,No,1,No,0,0,0,0,No,No,61,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2190274,278615,Si,F,,24.767566,,,No,,No,0,0,0,0,No,No,22,No,No
2190275,6455230,No,F,MESTIZO,29.300000,,,No,1,No,0,0,0,0,No,No,28,No,No
2190276,1274761,No,F,MESTIZO,24.300734,,12.000000,No,1,No,1,1,0,0,No,Si,70,No,Si
2190277,4612105,No,F,MESTIZO,,,12.000000,No,,No,0,0,0,0,No,Si,38,No,No


# Preparación de los datos