# **Proyecto de Ciencia de Datos**

* **Autor:** Jonathan Araiza Guzmán

* **Profesor:** Jaime Alejandro Romero Sierra
- - -

### **Descripción de inicial de la base de datos**

* **Fuente de la base de datos:** https://www.kaggle.com/datasets/joshdoit/master

* **Descripción general del contenido:** La presente base de datos fue publicada por la CENATRA, recopilando datos abiertos del gobierno de México. Esta contiene 52501 diferentes entradas (filas) y 24 diferentes variables (columnas) de diferentes donadores en México, las cuales registran el proceso de la donación de órganos. La base abarca datos desde el año 2007 al primer semestre de 2019.

* **Significado de cada columna:** 

| Categoría | Nombre de la Columna | Descripción |
| :--- | :--- | :--- |
| **Demográfica** | `SEXO` | El sexo registrado del donante (ej. 'MASCULINO', 'FEMENINO'). |
| **Demográfica** | `CODIGO_SEXO` | Una codificación numérica para el sexo (ej. 1 para Masculino, 2 para Femenino). |
| **Demográfica** | `EDAD_ANIOS` | La edad del donante en años, registrada como un número entero. |
| **Proceso** | `TIPO_DONANTE` | Indica el tipo de donante (ej. 'CADÁVER' para donante fallecido). |
| **Proceso** | `MUERTE` | Describe la causa de muerte que permitió la donación (ej. 'MUERTE ENCEFÁLICA', 'PARO CARDIORESPIRATORIO'). |
| **Proceso** | `FECHA_PROCURACION` | La fecha en que se realizó el procedimiento de procuración de órganos. |
| **Geográfica / Institucional** | `ENTIDAD_FEDERATIVA` | El estado de la República Mexicana donde se llevó a cabo la donación. |
| **Geográfica / Institucional** | `CODIGO_ENTIDAD_FEDERATIVA` | El código numérico oficial para la entidad federativa. |
| **Geográfica / Institucional** | `ESTABLECIMIENTO` | El nombre del hospital o centro médico específico donde se realizó la procuración. |
| **Geográfica / Institucional** | `INSTITUCION` | La red de salud a la que pertenece el establecimiento (ej. 'IMSS', 'ISSSTE', 'SSE'). |
| **Órganos / Tejidos** | `RINON_IZQUIERDO` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `RINON_DERECHO` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `RINON_BLOCK` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `PULMON_IZQUIERDO` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `PULMON_DERECHO` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `CORAZON` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `HIGADO` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `PANCREAS` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `INTESTINO` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `CORNEA_IZQUIERDA` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `CORNEA_DERECHA` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `PIEL` | Variable binaria (1 si fue donado, 0 si no). |
| **Órganos / Tejidos** | `CORAZON_TEJIDOS` | Variable binaria (1 si fue donado, 0 si no). 
| **Órganos / Tejidos** | `HUESOS` | Variable de conteo (no binaria) que indica el número total de órganos donados. |







- - -

### **1. Importación de bibliotecas y carga del dataset.**

Para empezar, debemos de tener instaladas e instaladas las bibliotecas necesarias y tener cargado el dataset.

In [1]:
# Instalamos las bibliotecas necesarias.
import pandas as pd

In [2]:
# Creamos un DataFrame que contiene datos sucios.
df_main = pd.read_csv("data/dataset_sucio.csv")

# Visualizamos nuestro DataFrame hasta 5 entradas (filas).
df_main.head()

Unnamed: 0,SEXO,CODIGO_SEXO,TIPO_DONANTE,MUERTE,ENTIDAD_FEDERATIVA,CODIGO_ENTIDAD_FEDERATIVA,ESTABLECIMIENTO,INSTITUCION,EDAD_ANIOS,FECHA_PROCURACION,...,PULMON_DERECHO,CORAZON,HIGADO,PANCREAS,INTESTINO,CORNEA_IZQUIERDA,CORNEA_DERECHA,PIEL,HUESOS,CORAZON_TEJIDOS
0,,2.0,CADÁVER,PARO CARDIORESPIRATORIO,NUEVO LEÓN,19,U.M.A.E. HOSPITAL DE ESPECIALIDADES No. 25,IMSS,49.0,2007-06-11,...,0.0,0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0
1,MASCULINO,1.0,CADÁVER,PARO CARDIORESPIRATORIO,CIUDAD DE MEXICO,9,U.M.A.E. HOSPITAL DE CARDIOLOGIA DEL CENTRO ME...,IMSS,,2008-05-08,...,0.0,0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0
2,FEMENINO,2.0,CADÁVER,MUERTE ENCEFÁLICA,PUEBLA,21,,IMSS,61.0,2009-04-21,...,0.0,0,,0.0,0.0,1.0,1.0,0.0,0.0,
3,FEMENINO,2.0,bbb,PARO CARDIORESPIRATORIO,QUERÉTARO,22,HOSPITAL GENERAL DE QUERETARO,SSE,71.0,2010-04-29,...,0.0,0,0.0,0.0,0.0,0.0,,0.0,1.0,0.0
4,MASCULINO,1.0,,PARO CARDIORESPIRATORIO,MÉXICO,15,,SSE,63.0,2011-09-16,...,0.0,0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0


- - - 

### **2. Exploración y diagnóstico del DataFrame**

Antes de modificar los datos de nuestro DataSet debemos de conocer su estructura. Conocer su composición nos permite diagnosticar problemas que no son visbles.

In [3]:
# Debemos conocer el total de filas y columnas de nuestro DataFrame. 
print(f"\n--- El DataFrame tiene {df_main.shape[0]} filas y {df_main.shape[1]} columnas ---")
print("")
# Hacemos uso de .info() para realizar un diagnóstico más profundo.
# .info() nos permite ver el número de entradas, las columnas y cuantos valores "no nulos" tienen.
# .info() también nos permite conocer el tipo de dato (Dtype) de cada columna. 
print("\n--- Diagnóscito con .info() ---")
df_main.info()
print("")


--- El DataFrame tiene 52501 filas y 24 columnas ---


--- Diagnóscito con .info() ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52501 entries, 0 to 52500
Data columns (total 24 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   SEXO                       50396 non-null  object 
 1   CODIGO_SEXO                49382 non-null  float64
 2   TIPO_DONANTE               50401 non-null  object 
 3   MUERTE                     50401 non-null  object 
 4   ENTIDAD_FEDERATIVA         50401 non-null  object 
 5   CODIGO_ENTIDAD_FEDERATIVA  50401 non-null  object 
 6   ESTABLECIMIENTO            50401 non-null  object 
 7   INSTITUCION                50401 non-null  object 
 8   EDAD_ANIOS                 49403 non-null  float64
 9   FECHA_PROCURACION          50401 non-null  object 
 10  RINON_IZQUIERDO            50401 non-null  object 
 11  RINON_DERECHO              50401 non-null  float64
 12  RINON_BLOCK   

Si observamos el tipo de dato de cada columna, encontramos que las columnas que solamente tenían valores binarios (1, 0) son del tipo `object`. Esto quiere decir que debemos de eliminar valores que no pertenecen al tipo de dato anteriormente establecido.

In [4]:
# Encontramos los valores nulos de cada columna con .isnull() y .sum() para contar todos los valores nulos de cada uno.
print("\n--- Total de valores nulos ---")
df_main.isnull().sum()


--- Total de valores nulos ---


SEXO                         2105
CODIGO_SEXO                  3119
TIPO_DONANTE                 2100
MUERTE                       2100
ENTIDAD_FEDERATIVA           2100
CODIGO_ENTIDAD_FEDERATIVA    2100
ESTABLECIMIENTO              2100
INSTITUCION                  2100
EDAD_ANIOS                   3098
FECHA_PROCURACION            2100
RINON_IZQUIERDO              2100
RINON_DERECHO                2100
RINON_BLOCK                  2100
PULMON_IZQUIERDO             2100
PULMON_DERECHO               2100
CORAZON                      2100
HIGADO                       2100
PANCREAS                     2100
INTESTINO                    2100
CORNEA_IZQUIERDA             2100
CORNEA_DERECHA               2100
PIEL                         2100
HUESOS                       2100
CORAZON_TEJIDOS              3113
dtype: int64

- - -

### **3. Limpieza y transformación de datos**

Este proceso nos permitirá visualizar los valores de cada variable de nuestro DataFrame. Si se encuentra algún valor anómalo en alguna de nuestras variables, se procede a realizar la transformacion de valores de esta misma, es decir, se realizará la limpieza de cada entrada de nuestro DataFrame.
- - - 

##### ***3.1 Visualización de columnas con pocos valores***

*A continuación, se clasificaron las columnas elegidas como columnas de pocos valores y se muestran los valores de cada una:*

In [5]:
# Bloque de código para visualizar columnas con pocos valores. 
print(f"Los valores de 'SEXO' son: \n---> {(df_main["SEXO"].unique())}")
print("")
print(f"Los valores de 'CODIGO_SEXO' son: \n---> {(df_main["CODIGO_SEXO"].unique())}")
print("")
print(f"Los valores de 'TIPO_DONANTE' son: \n---> {(df_main["TIPO_DONANTE"].unique())}")
print("")
print(f"Los valores de 'MUERTE' son: \n---> {(df_main["MUERTE"].unique())}")
print("")
print(f"Los valores de 'ENTIDAD_FEDERATIVA' son: \n---> {(df_main["ENTIDAD_FEDERATIVA"].unique())}")
print("")
print(f"Los valores de 'CODIGO_ENTIDAD_FEDERATIVA' son: \n---> {(df_main["CODIGO_ENTIDAD_FEDERATIVA"].unique())}")
print("")
print(f"Los valores de 'INSTITUCION' son: \n---> {(df_main["INSTITUCION"].unique())}")
print("")

Los valores de 'SEXO' son: 
---> [nan 'MASCULINO' 'FEMENINO' 'bbb']

Los valores de 'CODIGO_SEXO' son: 
---> [ 2.  1. nan]

Los valores de 'TIPO_DONANTE' son: 
---> ['CADÁVER' 'bbb' nan 'VIVO']

Los valores de 'MUERTE' son: 
---> ['PARO CARDIORESPIRATORIO' 'MUERTE ENCEFÁLICA' nan 'bbb' 'NO APLICA']

Los valores de 'ENTIDAD_FEDERATIVA' son: 
---> ['NUEVO LEÓN' 'CIUDAD DE MEXICO' 'PUEBLA' 'QUERÉTARO' 'MÉXICO'
 'SAN LUIS POTOSÍ' 'GUANAJUATO' 'TABASCO' 'VERACRUZ' 'BAJA CALIFORNIA'
 'DURANGO' 'AGUASCALIENTES' 'SONORA' 'MICHOACÁN' 'COAHUILA' 'CHIHUAHUA'
 'SINALOA' nan 'MORELOS' 'ZACATECAS' 'COLIMA' 'BAJA CALIFORNIA SUR'
 'JALISCO' 'OAXACA' 'YUCATÁN' 'GUERRERO' 'TAMAULIPAS' 'QUINTANA ROO'
 'NAYARIT' 'TLAXCALA' 'HIDALGO' 'CHIAPAS' 'CAMPECHE']

Los valores de 'CODIGO_ENTIDAD_FEDERATIVA' son: 
---> ['19' '9' '21' '22' '15' '24' '11' '27' '30' '2' 'bbb' '10' '1' '26' '16'
 '5' '8' '25' nan '17' '6' '3' '14' '20' '31' '12' '32' '28' '23' '18'
 '29' '13' '7' '4']

Los valores de 'INSTITUCION' son: 

- - -

In [6]:
# Antes de proceder a limpiar los datos, es importante hacer una copia de seguridad del DataFrame original.
df_backup = df_main.copy()
print("\n--- Copia de seguridad del DataFrame creada ---\n")


--- Copia de seguridad del DataFrame creada ---



- - -

In [7]:
# Procedemos a limpiar los datos de esta sección.
# Eliminamos las filas duplicadas.
df_backup.drop_duplicates(inplace=True)

# Mostramos  el número de filas y columnas antes de eliminar duplicados.
print(f"\n--- Antes de eliminar duplicados, el DataFrame tenía {df_main.shape[0]} filas y {df_main.shape[1]} columnas ---\n")

# Verificamos que se hayan eliminado las filas duplicadas.
print(f"\n--- Después de eliminar duplicados, el DataFrame tiene {df_backup.shape[0]} filas y {df_backup.shape[1]} columnas ---\n")


--- Antes de eliminar duplicados, el DataFrame tenía 52501 filas y 24 columnas ---


--- Después de eliminar duplicados, el DataFrame tiene 51658 filas y 24 columnas ---



- - -

#### ***3.2 Limpieza y transformación de columnas con pocos valores***

Después de conocer todos los valores de cada columna de esta sección, procedemos a transformar los que no nos sirven. A continuación, los valores que necesitamos transformar de cada columna:

* Para 'SEXO' los valores son: `'nan'` y `'bbb'`

* Para 'CODIGO_SEXO' los valores son:  `'nan'`

* Para 'TIPO_DONANTE' los valores son: `'nan'` y `'bbb'`

* Para 'MUERTE' los valores son: `'nan'` y `'bbb'`

* Para 'ENTIDAD_FEDERATIVA' los valores son: `'nan'`, `'NUEVO LEÓN'`, `'QUERÉTARO'`, `'MÉXICO'`, `'SAN LUIS POTOSÍ'`, `'MICHOACÁN'` y `'YUCATÁN'` 

* Para 'CODIGO_ENTIDAD_FEDERATIVA' los valores son: `'nan'`y `'bbb'`

* Para 'INSTITUCION' los valores son: `'nan'` y `'bbb'`

In [8]:
# Limpiza de la columna 'SEXO'.
print("\n--- Valores únicos en 'SEXO' antes de la limpieza ---")
print(df_backup['SEXO'].unique())

# Limpiamos los valores nulos en la columna 'SEXO' reemplazándolos con 'DESCONOCIDO'.
df_backup.fillna({'SEXO': 'DESCONOCIDO'}, inplace=True)

# Ahora, los valores 'bbb' los reemplazamos con 'DESCONOCIDO'.
df_backup['SEXO'].replace('bbb', 'DESCONOCIDO', inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'SEXO' después de la limpieza ---")
print(df_backup['SEXO'].unique())
print("")


--- Valores únicos en 'SEXO' antes de la limpieza ---
[nan 'MASCULINO' 'FEMENINO' 'bbb']

--- Valores únicos en 'SEXO' después de la limpieza ---
['DESCONOCIDO' 'MASCULINO' 'FEMENINO']



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['SEXO'].replace('bbb', 'DESCONOCIDO', inplace=True)


In [9]:
# Limpieza de la columna 'CODIGO_SEXO'.
print("\n--- Valores únicos en 'CODIGO_SEXO' antes de la limpieza ---")
print(df_backup['CODIGO_SEXO'].unique())

# La columna 'CODIGO_SEXO' debe contener solo valores 'string' que representen números.
# Limpiamos los valores nulos en la columna 'CODIGO_SEXO' reemplazándolos con 'DESCONOCIO'.
df_backup.fillna({'CODIGO_SEXO': 'DESCONOCIDO'}, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'CODIGO_SEXO' después de la limpieza ---")
print(df_backup['CODIGO_SEXO'].unique())
print("")



--- Valores únicos en 'CODIGO_SEXO' antes de la limpieza ---
[ 2.  1. nan]

--- Valores únicos en 'CODIGO_SEXO' después de la limpieza ---
[2.0 1.0 'DESCONOCIDO']



In [10]:
# Limpieza de la columna 'TIPO_DONANTE'. 
print("\n--- Valores únicos en 'TIPO_DONANTE' antes de la limpieza ---")
print(df_backup['TIPO_DONANTE'].unique())

# Limpiamos los valores nulos en la columna 'TIPO_DONANTE' reemplazándolos con 'DESCONOCIDO'.
df_backup.fillna({'TIPO_DONANTE': 'DESCONOCIDO'}, inplace=True)

# Ahora, los valores 'bbb' los reemplazamos con 'DESCONOCIDO'.
df_backup['TIPO_DONANTE'].replace('bbb', 'DESCONOCIDO', inplace=True)

# Transformamos 'CADÁVER' a 'CADAVER' para estandarizar.
df_backup['TIPO_DONANTE'].replace('CADÁVER', 'CADAVER', inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'TIPO_DONANTE' después de la limpieza ---")
print(df_backup['TIPO_DONANTE'].unique())
print("")


--- Valores únicos en 'TIPO_DONANTE' antes de la limpieza ---
['CADÁVER' 'bbb' nan 'VIVO']

--- Valores únicos en 'TIPO_DONANTE' después de la limpieza ---
['CADAVER' 'DESCONOCIDO' 'VIVO']



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['TIPO_DONANTE'].replace('bbb', 'DESCONOCIDO', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['TIPO_DONANTE'].replace('CADÁVER', 'CADAVER', inplace=True)


In [11]:
# Limpieza para la columna 'MUERTE'.
print("\n--- Valores únicos en 'MUERTE' antes de la limpieza ---")
print(df_backup['MUERTE'].unique())

# Limpiamos los valores nulos en la columna 'MUERTE'.
df_backup.fillna({'MUERTE': 'DESCONOCIDO'}, inplace=True)

# Ahora, los valores 'bbb' los reemplazamos con 'DESCONOCIDO'.
df_backup['MUERTE'].replace('bbb', 'DESCONOCIDO', inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'MUERTE' después de la limpieza ---")
print(df_backup['MUERTE'].unique())
print("")


--- Valores únicos en 'MUERTE' antes de la limpieza ---
['PARO CARDIORESPIRATORIO' 'MUERTE ENCEFÁLICA' nan 'bbb' 'NO APLICA']

--- Valores únicos en 'MUERTE' después de la limpieza ---
['PARO CARDIORESPIRATORIO' 'MUERTE ENCEFÁLICA' 'DESCONOCIDO' 'NO APLICA']



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['MUERTE'].replace('bbb', 'DESCONOCIDO', inplace=True)


In [12]:
# Limpieza de la columna 'ENTIDAD_FEDERATIVA'.
print("\n--- Valores únicos en 'ENTIDAD_FEDERATIVA' antes de la limpieza ---")
print(df_backup['ENTIDAD_FEDERATIVA'].unique())

# Limpiamos los valores nulos en la columna 'ENTIDAD_FEDERATIVA'.
df_backup.fillna({'ENTIDAD_FEDERATIVA': 'DESCONOCIDO'}, inplace=True)

# Transformamos los valores con acentos a sin acentos.
# 'NUEVO LEON' tiene acento en la 'O'.
df_backup['ENTIDAD_FEDERATIVA'].replace('NUEVO LEÓN', 'NUEVO LEON', inplace=True)

# 'QUERETARO' tiene acento en la 'E'.
df_backup['ENTIDAD_FEDERATIVA'].replace('QUERÉTARO', 'QUERETARO', inplace=True)

# 'MÉXICO' tiene acento en la 'E'.
df_backup['ENTIDAD_FEDERATIVA'].replace('MÉXICO', 'MEXICO', inplace=True)

# 'SAN LUIS POTOSÍ' tiene acento en la 'I'.
df_backup['ENTIDAD_FEDERATIVA'].replace('SAN LUIS POTOSÍ', 'SAN LUIS POTOSI', inplace=True)

# 'MICHOACÁN' tiene acento en la 'A'.
df_backup['ENTIDAD_FEDERATIVA'].replace('MICHOACÁN', 'MICHOACAN', inplace=True)

# 'YUCATÁN' tiene acento en la 'A'.
df_backup['ENTIDAD_FEDERATIVA'].replace('YUCATÁN', 'YUCATAN', inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'ENTIDAD_FEDERATIVA' después de la limpieza ---")
print(df_backup['ENTIDAD_FEDERATIVA'].unique())
print("")


--- Valores únicos en 'ENTIDAD_FEDERATIVA' antes de la limpieza ---
['NUEVO LEÓN' 'CIUDAD DE MEXICO' 'PUEBLA' 'QUERÉTARO' 'MÉXICO'
 'SAN LUIS POTOSÍ' 'GUANAJUATO' 'TABASCO' 'VERACRUZ' 'BAJA CALIFORNIA'
 'DURANGO' 'AGUASCALIENTES' 'SONORA' 'MICHOACÁN' 'COAHUILA' 'CHIHUAHUA'
 'SINALOA' nan 'MORELOS' 'ZACATECAS' 'COLIMA' 'BAJA CALIFORNIA SUR'
 'JALISCO' 'OAXACA' 'YUCATÁN' 'GUERRERO' 'TAMAULIPAS' 'QUINTANA ROO'
 'NAYARIT' 'TLAXCALA' 'HIDALGO' 'CHIAPAS' 'CAMPECHE']

--- Valores únicos en 'ENTIDAD_FEDERATIVA' después de la limpieza ---
['NUEVO LEON' 'CIUDAD DE MEXICO' 'PUEBLA' 'QUERETARO' 'MEXICO'
 'SAN LUIS POTOSI' 'GUANAJUATO' 'TABASCO' 'VERACRUZ' 'BAJA CALIFORNIA'
 'DURANGO' 'AGUASCALIENTES' 'SONORA' 'MICHOACAN' 'COAHUILA' 'CHIHUAHUA'
 'SINALOA' 'DESCONOCIDO' 'MORELOS' 'ZACATECAS' 'COLIMA'
 'BAJA CALIFORNIA SUR' 'JALISCO' 'OAXACA' 'YUCATAN' 'GUERRERO'
 'TAMAULIPAS' 'QUINTANA ROO' 'NAYARIT' 'TLAXCALA' 'HIDALGO' 'CHIAPAS'
 'CAMPECHE']



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['ENTIDAD_FEDERATIVA'].replace('NUEVO LEÓN', 'NUEVO LEON', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['ENTIDAD_FEDERATIVA'].replace('QUERÉTARO', 'QUERETARO', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never

In [13]:
# Limpieza de la columna 'CODIGO_ENTIDAD_FEDERATIVA'.
print("\n--- Valores únicos en 'CODIGO_ENTIDAD_FEDERATIVA' antes de la limpieza ---")
print(df_backup['CODIGO_ENTIDAD_FEDERATIVA'].unique())

# Limpiamos los valores nulos en la columna 'CODIGO_ENTIDAD_FEDERATIVA'.
df_backup.fillna({'CODIGO_ENTIDAD_FEDERATIVA': 'DESCONOCIDO'}, inplace=True)

# Ahora, los valores 'bbb' los reemplazamos con 'DESCONOCIDO'.
df_backup['CODIGO_ENTIDAD_FEDERATIVA'].replace('bbb', 'DESCONOCIDO', inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'CODIGO_ENTIDAD_FEDERATIVA' después de la limpieza ---")
print(df_backup['CODIGO_ENTIDAD_FEDERATIVA'].unique())
print("")


--- Valores únicos en 'CODIGO_ENTIDAD_FEDERATIVA' antes de la limpieza ---
['19' '9' '21' '22' '15' '24' '11' '27' '30' '2' 'bbb' '10' '1' '26' '16'
 '5' '8' '25' nan '17' '6' '3' '14' '20' '31' '12' '32' '28' '23' '18'
 '29' '13' '7' '4']

--- Valores únicos en 'CODIGO_ENTIDAD_FEDERATIVA' después de la limpieza ---
['19' '9' '21' '22' '15' '24' '11' '27' '30' '2' 'DESCONOCIDO' '10' '1'
 '26' '16' '5' '8' '25' '17' '6' '3' '14' '20' '31' '12' '32' '28' '23'
 '18' '29' '13' '7' '4']



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CODIGO_ENTIDAD_FEDERATIVA'].replace('bbb', 'DESCONOCIDO', inplace=True)


In [14]:
# Limpieza de la columna 'INSTITUCION'.
print("\n--- Valores únicos en 'INSTITUCION' antes de la limpieza ---")
print(df_backup['INSTITUCION'].unique())

# Limpiamos los valores nulos en la columna 'INSTITUCION'.
df_backup.fillna({'INSTITUCION': 'DESCONOCIDO'}, inplace=True)

# Ahora, los valores 'bbb' los reemplazamos con 'DESCONOCIDO'.
df_backup['INSTITUCION'].replace('bbb', 'DESCONOCIDO', inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'INSTITUCION' después de la limpieza ---")
print(df_backup['INSTITUCION'].unique())
print("")


--- Valores únicos en 'INSTITUCION' antes de la limpieza ---
['IMSS' 'SSE' 'PRIVADO' nan 'ISSSTE' 'SSA' 'bbb' 'PEMEX' 'SNTE' 'SEDENA'
 'SEMAR']

--- Valores únicos en 'INSTITUCION' después de la limpieza ---
['IMSS' 'SSE' 'PRIVADO' 'DESCONOCIDO' 'ISSSTE' 'SSA' 'PEMEX' 'SNTE'
 'SEDENA' 'SEMAR']



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['INSTITUCION'].replace('bbb', 'DESCONOCIDO', inplace=True)


##### ***3.3 Visualización de columnas con muchos valores***

*A continuación, se clasificaron las columnas elegidas como columnas con muchos valores:*

In [15]:
# Columna "ESTABLECIMIENTO".
print(f"Los valores de 'ESTABLECIMIENTO' son: \n---> {(df_main['ESTABLECIMIENTO'].unique())}")
print("")


Los valores de 'ESTABLECIMIENTO' son: 
---> ['U.M.A.E. HOSPITAL DE ESPECIALIDADES No. 25'
 'U.M.A.E. HOSPITAL DE CARDIOLOGIA DEL CENTRO MEDICO NACIONAL SIGLO XXI'
 nan 'HOSPITAL GENERAL DE QUERETARO'
 'HOSPITAL LOMAS DE SAN LUIS INTERNACIONAL' 'HOSPITAL GENERAL DE CELAYA'
 'HOSPITAL GENERAL DE ZONA C/U M.A.  No. 46'
 'HOSPITAL CENTRAL "DR. IGNACIO MORONES PRIETO"'
 'HOSPITAL GENERAL REGIONAL DE LEON' 'HOSPITAL GENERAL DE ZONA NO. 17'
 'HOSPITAL JUAREZ DE MÉXICO ORGANISMO PUBLICO DESCENTRALIZADO'
 'U.M.A.E. HOSPITALES DE ESPECIALIDADES DEL CENTRO MEDICO NACIONAL'
 'HOSPITAL PARA EL NIÑO' 'HOSPITAL FRAY JUNIPERO SERRA'
 'OPERADORA DE HOSPITALES ANGELES S.A DE C.V.'
 'HOSPITAL GENERAL DE VERACRUZ'
 'U.M.A.E. HOSPITAL DE ESPECIALIDADES C.M.N. GRAL. DE DIV. "MANUEL AVILA CAMACHO"'
 'HOSPITAL REGIONAL GRAL. IGNACIO ZARAGOZA'
 'HOSPITAL GENERAL DE MEXICO DR. EDUARDO LICEAGA'
 'HOSPITAL GENERAL DE DURANGO'
 'CRUZ ROJA MEXICANA DELEGACION AGUASCALIENTES'
 'HOSPITAL GENERAL DE PUEBLA DR. EDUARDO

In [16]:
# Total de valores de "ESTABLECIMIENTO" con .nunique().
print("Total de establecimientos únicos:", df_main['ESTABLECIMIENTO'].nunique())

Total de establecimientos únicos: 356


In [17]:
# Columna "EDAD_ANIOS".
print(f"Los valores de 'EDAD_ANIOS' son: \n---> {(df_main['EDAD_ANIOS'].unique())}")
print("")


Los valores de 'EDAD_ANIOS' son: 
---> [ 4.90000000e+01             nan  6.10000000e+01  7.10000000e+01
  6.30000000e+01  4.10000000e+01  5.80000000e+01  3.10000000e+01
  6.00000000e+01  4.50000000e+01  7.00000000e+01  6.40000000e+01
  4.00000000e+00  2.00000000e+00  5.50000000e+01  3.70000000e+01
  5.30000000e+01  1.70000000e+01  5.10000000e+01  7.20000000e+01
  4.80000000e+01  5.60000000e+01  9.00000000e+00  0.00000000e+00
  4.20000000e+01  5.90000000e+01  2.60000000e+01  3.00000000e+00
  1.80000000e+01  3.80000000e+01  1.30000000e+01  1.50000000e+01
  3.00000000e+01  1.90000000e+01  2.20000000e+01  1.60000000e+01
  7.30000000e+01  6.70000000e+01  3.90000000e+01  4.40000000e+01
  6.80000000e+01  4.30000000e+01  2.40000000e+01  3.20000000e+01
  3.40000000e+01  2.70000000e+01  4.60000000e+01  2.80000000e+01
  5.70000000e+01  6.00000000e+00  1.40000000e+01  1.20000000e+01
  5.20000000e+01  2.00000000e+01  2.30000000e+01  2.10000000e+01
  9.00000000e+01  2.50000000e+01  3.60000000e+01  3

In [18]:
# Total de valores de "EDAD_ANIOS" con .nunique().
print("Total de edades únicas:", df_main['EDAD_ANIOS'].nunique())

Total de edades únicas: 161


In [19]:
# Columna "FECHA_PROCURACION".
print(f"Los valores de 'FECHA_PROCURACION' son: \n---> {(df_main['FECHA_PROCURACION'].unique())}")
print("")


Los valores de 'FECHA_PROCURACION' son: 
---> ['2007-06-11' '2008-05-08' '2009-04-21' ... '2016-12-17' '2017-07-15'
 '2019-06-08']



In [20]:
# Total de valores de "FECHA_PROCURACION" con .nunique().
print("Total de fechas de procuración únicas:", df_main['FECHA_PROCURACION'].nunique())

Total de fechas de procuración únicas: 4481


#### ***3.4 Limpieza y transformación de columnas con muchos valores***

Después de conocer todos los valores de cada columna de esta sección, procedemos a transformar los valores que no nos sirven. A continuación, los valores que necesitamos transformar de cada columna:

* Para 'ESTABLECIMIENTO' los valores son: `'nan'` y `'bbb'`. Además, es preferible cambiar palabras particulares.

* Para 'EDAD_ANIOS' los valores son: `'nan'` y `'bbb'`. Además, se transformará el tipo de dato a entero.

* Para 'FECHA_PROCURACIÓN' los valores son: `nan` y `'bbb'`. Además, se transformará el tipo de dato a fecha.

In [21]:
# Limpieza de la columna 'ESTABLECIMIENTO'.
print("\n--- Valores únicos en 'ESTABLECIMIENTO' antes de la limpieza ---")
print(df_backup['ESTABLECIMIENTO'].unique())

# Limpiamos los valores nulos en la columna 'ESTABLECIMIENTO'.
df_backup.fillna({'ESTABLECIMIENTO': 'DESCONOCIDO'}, inplace=True)

# Ahora, los valores 'bbb' los reemplazamos con 'DESCONOCIDO'.
df_backup['ESTABLECIMIENTO'].replace('bbb', 'DESCONOCIDO', inplace=True)

# Simplificamos los nombres largos en la columna 'ESTABLECIMIENTO'.
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('HOSPITAL', 'HOSP.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('CENTRO MEDICO', 'C. MED.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('CLINICA', 'CLIN.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('UNIVERSITARIO', 'UNIV.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('NACIONAL', 'NAC.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('REGIONAL', 'REG.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('GENERAL', 'GEN.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('INSTITUTO', 'INST.', regex=True)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace('CENTRO DE SALUD', 'C. SALUD', regex=True)

# Eliminamos siglas como S.A. de C.V., S.A. y S.S. de R.L. que no aportan información relevante.
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A. de C.V.', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A de C.V', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A. de C.V', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A de C.V.', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A.C.V.', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A.C.V', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A.', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.S. de R.L.', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S. A. DE C. V.', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A DE C.V', '', regex=False)
df_backup['ESTABLECIMIENTO'] = df_backup['ESTABLECIMIENTO'].str.replace(' S.A DE C. V', '', regex=False)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'ESTABLECIMIENTO' después de la limpieza ---")
print(df_backup['ESTABLECIMIENTO'].unique())
print("")



--- Valores únicos en 'ESTABLECIMIENTO' antes de la limpieza ---
['U.M.A.E. HOSPITAL DE ESPECIALIDADES No. 25'
 'U.M.A.E. HOSPITAL DE CARDIOLOGIA DEL CENTRO MEDICO NACIONAL SIGLO XXI'
 nan 'HOSPITAL GENERAL DE QUERETARO'
 'HOSPITAL LOMAS DE SAN LUIS INTERNACIONAL' 'HOSPITAL GENERAL DE CELAYA'
 'HOSPITAL GENERAL DE ZONA C/U M.A.  No. 46'
 'HOSPITAL CENTRAL "DR. IGNACIO MORONES PRIETO"'
 'HOSPITAL GENERAL REGIONAL DE LEON' 'HOSPITAL GENERAL DE ZONA NO. 17'
 'HOSPITAL JUAREZ DE MÉXICO ORGANISMO PUBLICO DESCENTRALIZADO'
 'U.M.A.E. HOSPITALES DE ESPECIALIDADES DEL CENTRO MEDICO NACIONAL'
 'HOSPITAL PARA EL NIÑO' 'HOSPITAL FRAY JUNIPERO SERRA'
 'OPERADORA DE HOSPITALES ANGELES S.A DE C.V.'
 'HOSPITAL GENERAL DE VERACRUZ'
 'U.M.A.E. HOSPITAL DE ESPECIALIDADES C.M.N. GRAL. DE DIV. "MANUEL AVILA CAMACHO"'
 'HOSPITAL REGIONAL GRAL. IGNACIO ZARAGOZA'
 'HOSPITAL GENERAL DE MEXICO DR. EDUARDO LICEAGA'
 'HOSPITAL GENERAL DE DURANGO'
 'CRUZ ROJA MEXICANA DELEGACION AGUASCALIENTES'
 'HOSPITAL GENERAL

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['ESTABLECIMIENTO'].replace('bbb', 'DESCONOCIDO', inplace=True)



--- Valores únicos en 'ESTABLECIMIENTO' después de la limpieza ---
['U.M.A.E. HOSP. DE ESPECIALIDADES No. 25'
 'U.M.A.E. HOSP. DE CARDIOLOGIA DEL C. MED. NAC. SIGLO XXI' 'DESCONOCIDO'
 'HOSP. GEN. DE QUERETARO' 'HOSP. LOMAS DE SAN LUIS INTERNAC.'
 'HOSP. GEN. DE CELAYA' 'HOSP. GEN. DE ZONA C/U M.A.  No. 46'
 'HOSP. CENTRAL "DR. IGNACIO MORONES PRIETO"' 'HOSP. GEN. REG. DE LEON'
 'HOSP. GEN. DE ZONA NO. 17'
 'HOSP. JUAREZ DE MÉXICO ORGANISMO PUBLICO DESCENTRALIZADO'
 'U.M.A.E. HOSP.ES DE ESPECIALIDADES DEL C. MED. NAC.'
 'HOSP. PARA EL NIÑO' 'HOSP. FRAY JUNIPERO SERRA'
 'OPERADORA DE HOSP.ES ANGELES.' 'HOSP. GEN. DE VERACRUZ'
 'U.M.A.E. HOSP. DE ESPECIALIDADES C.M.N. GRAL. DE DIV. "MANUEL AVILA CAMACHO"'
 'HOSP. REG. GRAL. IGNACIO ZARAGOZA'
 'HOSP. GEN. DE MEXICO DR. EDUARDO LICEAGA' 'HOSP. GEN. DE DURANGO'
 'CRUZ ROJA MEXICANA DELEGACION AGUASCALIENTES'
 'HOSP. GEN. DE PUEBLA DR. EDUARDO VAZQUEZ NAVARRO'
 'HOSP. GEN. LA PERLA DE CD. NEZAHUALCOYOTL'
 'HOSP. DE ESPECIALIDADES NO. 2' 'HO

In [22]:
# Limpieza de la columna 'EDAD_ANIOS'.
print("\n--- Valores únicos en 'EDAD_ANIOS' antes de la limpieza ---")
print(df_backup['EDAD_ANIOS'].unique())

# Transformamos los valores de 'EDAD_ANIOS' a enteros, manejando errores.
# Iniciamos con convertir a string para eliminar espacios en blanco.
df_backup['EDAD_ANIOS'] = df_backup['EDAD_ANIOS'].astype(str).str.strip()
# Luego convertimos a numérico.
df_backup['EDAD_ANIOS'] = pd.to_numeric(df_backup['EDAD_ANIOS'], errors='coerce')

# Limpiamos valores negativos a 0 en la columna 'EDAD_ANIOS'.
df_backup.loc[df_backup['EDAD_ANIOS'] < 0, 'EDAD_ANIOS'] = 0

# Ahora, convertimos a enteros, manejando los valores nulos.
df_backup['EDAD_ANIOS'] = df_backup['EDAD_ANIOS'].fillna(0).astype(int)

# Convertimos edades mayores a 120 a 120, ya que es un valor más realista.
df_backup.loc[df_backup['EDAD_ANIOS'] > 120, 'EDAD_ANIOS'] = 120

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'EDAD_ANIOS' después de la limpieza ---")
print(df_backup['EDAD_ANIOS'].unique())
print("")



--- Valores únicos en 'EDAD_ANIOS' antes de la limpieza ---
[ 4.90000000e+01             nan  6.10000000e+01  7.10000000e+01
  6.30000000e+01  4.10000000e+01  5.80000000e+01  3.10000000e+01
  6.00000000e+01  4.50000000e+01  7.00000000e+01  6.40000000e+01
  4.00000000e+00  2.00000000e+00  5.50000000e+01  3.70000000e+01
  5.30000000e+01  1.70000000e+01  5.10000000e+01  7.20000000e+01
  4.80000000e+01  5.60000000e+01  9.00000000e+00  0.00000000e+00
  4.20000000e+01  5.90000000e+01  2.60000000e+01  3.00000000e+00
  1.80000000e+01  3.80000000e+01  1.30000000e+01  1.50000000e+01
  3.00000000e+01  1.90000000e+01  2.20000000e+01  1.60000000e+01
  7.30000000e+01  6.70000000e+01  3.90000000e+01  4.40000000e+01
  6.80000000e+01  4.30000000e+01  2.40000000e+01  3.20000000e+01
  3.40000000e+01  2.70000000e+01  4.60000000e+01  2.80000000e+01
  5.70000000e+01  6.00000000e+00  1.40000000e+01  1.20000000e+01
  5.20000000e+01  2.00000000e+01  2.30000000e+01  2.10000000e+01
  9.00000000e+01  2.50000000e

In [23]:
# Limpieza de la columna 'FECHA_PROCURACION'.
print("\n--- Valores únicos en 'FECHA_PROCURACION' antes de la limpieza ---")
print(df_backup['FECHA_PROCURACION'].unique())

# Primero, reemplazamos los valores 'bbb' con NaN antes de convertir.
df_backup['FECHA_PROCURACION'] = df_backup['FECHA_PROCURACION'].replace('bbb', pd.NA)

# Convertimos la columna 'FECHA_PROCURACION' a formato datetime, manejando errores.
df_backup['FECHA_PROCURACION'] = pd.to_datetime(df_backup['FECHA_PROCURACION'], errors='coerce')

# Ahora llenamos los valores NaT (Not a Time) con la fecha ficticia '1900-01-01'.
df_backup['FECHA_PROCURACION'] = df_backup['FECHA_PROCURACION'].fillna(pd.Timestamp('1900-01-01'))

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'FECHA_PROCURACION' después de la limpieza ---")
print(df_backup['FECHA_PROCURACION'].unique())
print("")


--- Valores únicos en 'FECHA_PROCURACION' antes de la limpieza ---
['2007-06-11' '2008-05-08' '2009-04-21' ... '2016-12-17' '2017-07-15'
 '2019-06-08']

--- Valores únicos en 'FECHA_PROCURACION' después de la limpieza ---
<DatetimeArray>
['2007-06-11 00:00:00', '2008-05-08 00:00:00', '2009-04-21 00:00:00',
 '2010-04-29 00:00:00', '2011-09-16 00:00:00', '2012-03-04 00:00:00',
 '2013-07-12 00:00:00', '2014-08-27 00:00:00', '2015-05-20 00:00:00',
 '2016-03-21 00:00:00',
 ...
 '2016-06-05 00:00:00', '2016-08-06 00:00:00', '2017-03-11 00:00:00',
 '2016-11-06 00:00:00', '2016-12-10 00:00:00', '2016-12-18 00:00:00',
 '2016-12-11 00:00:00', '2016-12-17 00:00:00', '2017-07-15 00:00:00',
 '2019-06-08 00:00:00']
Length: 4482, dtype: datetime64[ns]



##### ***3.5 Visualización de columnas con valores numéricos y binarios***

*A continuación, se clasificaron las columnas elegidas como columnas con valores numéricos y binarios:*

In [24]:
# Bloque de código para vizualizar columnas con el total de organos donados de cada columna.
# Se incluye la columnas "HUESOS" a pesar de tener un máximo de 14, ya que es importante verificar que no existan valores mayores a 14.
# El máximo de riñón izquierdo es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'RINON_IZQUIERDO' son: \n---> {(df_main['RINON_IZQUIERDO'].unique())}")
print("")

# El máximo de riñón derecho es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'RINON_DERECHO' son: \n---> {(df_main['RINON_DERECHO'].unique())}")
print("")

# El máximo de bloque de riñón es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'RINON_BLOCK' son: \n---> {(df_main['RINON_BLOCK'].unique())}")
print("")

# El máximo de pulmón izquierdo es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'PULMON_IZQUIERDO' son: \n---> {(df_main['PULMON_IZQUIERDO'].unique())}")
print("")

# El máximo de pulmón derecho es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'PULMON_DERECHO' son: \n---> {(df_main['PULMON_DERECHO'].unique())}")
print("")

# El máximo de corazón es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'CORAZON' son: \n---> {(df_main['CORAZON'].unique())}")
print("")

# El máximo de hígado es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'HIGADO' son: \n---> {(df_main['HIGADO'].unique())}")
print("")

# El máximo de páncreas es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'PANCREAS' son: \n---> {(df_main['PANCREAS'].unique())}")
print("")

# El máximo de intestino es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'INTESTINO' son: \n---> {(df_main['INTESTINO'].unique())}")
print("")

# El máximo de córnea izquierda es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'CORNEA_IZQUIERDA' son: \n---> {(df_main['CORNEA_IZQUIERDA'].unique())}")
print("")

# El máximo de córnea derecha es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'CORNEA_DERECHA' son: \n---> {(df_main['CORNEA_DERECHA'].unique())}")
print("")

# El máximo de piel es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'PIEL' son: \n---> {(df_main['PIEL'].unique())}")
print("")

# El máximo de tejidos de corazón es 1, por lo que, si notamos algún valor mayor a 1, es un valor erróneo.
print(f"Los valores de 'CORAZON_TEJIDOS' son: \n---> {(df_main['CORAZON_TEJIDOS'].unique())}")
print("")

# El máximo de huesos es 14, por lo que, si notamos algún valor mayor a 14, es un valor erróneo.
print(f"Los valores de 'HUESOS' son: \n---> {(df_main['HUESOS'].unique())}")
print("")


Los valores de 'RINON_IZQUIERDO' son: 
---> ['0' '1' nan '2' 'bbb' '4']

Los valores de 'RINON_DERECHO' son: 
---> [ 0.  1.  2. nan  4.  3.]

Los valores de 'RINON_BLOCK' son: 
---> ['0' nan '1' 'bbb' '4' '2']

Los valores de 'PULMON_IZQUIERDO' son: 
---> ['0' nan '1' 'bbb' '2']

Los valores de 'PULMON_DERECHO' son: 
---> [ 0. nan  1.  2.]

Los valores de 'CORAZON' son: 
---> ['0' nan '1' 'bbb' '2']

Los valores de 'HIGADO' son: 
---> [ 0. nan  1.  2.]

Los valores de 'PANCREAS' son: 
---> [ 0. nan  1.  2.]

Los valores de 'INTESTINO' son: 
---> [ 0. nan  1.]

Los valores de 'CORNEA_IZQUIERDA' son: 
---> [ 1.  0. nan  2.  3.  4.]

Los valores de 'CORNEA_DERECHA' son: 
---> [ 1. nan  0.  2.  3.  4.]

Los valores de 'PIEL' son: 
---> [ 0.  1. nan  2.]

Los valores de 'CORAZON_TEJIDOS' son: 
---> [ 0. nan  1.  2.]

Los valores de 'HUESOS' son: 
---> [ 0.  1.  2. nan  9.  5.  6. 12.  8. 14.  4.]



#### ***3.6 Limpieza y transformación de columnas con valores binarios (0 y 1)***

Después de conocer todos los valores de cada columna de esta sección, procedemos a transformar los que no nos sirven. A continuación, los valores que necesitamos transformar de cada columna:

* Para 'RINON_IZQUIERDO' los valores son: `'nan'`, `'bbb'`, `'2'` y `'4'` 

* Para 'RINON DERECHO' los valores son: `'nan'`, `'2'`, `'3'` y `'4'`

* Para 'RINON_BLOCK' los valores son: `'nan'`, `'bbb'`, `'2'` y `'4'`

* Para 'PULMON_IZQUIERDO' los valores son: `'nan'`, `'bbb'` y `'2'`

* Para 'PULMON_DERECHO' los valores son: `'nan'` y `'2'`

* Para 'CORAZON' los valores son: `'nan'`, `'bbb'` y `'2'`

* Para 'HIGADO' los valores son: `'nan'` y `'2'`

* Para 'PANCREAS' los valores son: `'nan'` y `'2'` 

* Para 'INTESTINO' los valores son: `'nan'`

* Para 'CORNEA_IZQUIERDA' los valores son: `'nan'`, `'2'`, `'3'` y `'4'`

* Para 'CORNEA_DERECHA' los valores son: `'nan'`, `'2'`, `'3'` y `'4'`

* Para 'PIEL' los valores son: `'nan'` y `'2'`

* Para 'CORAZON_TEJIDOS' los valores son: `'nan'` y `'2'`

* Para 'HUESOS' los valores son: `'nan'`

- - -
***IMPORTANTE:***
1. Se considera la columna 'HUESOS' miembro de este grupo a pesar de tener más de 2 valores debido a su parecido para señalar sus valores: indicar el total de órganos donados (en este caso, huesos).

2. Para evitar posibles errores, convertimos todos los valores a enteros.
- - -

In [25]:
# Limpieza columna 'RINON_IZQUIERDO'.
print("\n--- Valores únicos en 'RINON_IZQUIERDO' antes de la limpieza ---")
print(df_backup['RINON_IZQUIERDO'].unique())

# Convertimos todos los valores a enteros.
df_backup['RINON_IZQUIERDO'] = pd.to_numeric(df_backup['RINON_IZQUIERDO'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'RINON_IZQUIERDO' reemplazándolos con 0.
df_backup['RINON_IZQUIERDO'].fillna(0, inplace=True)

# Ahora, los valores 'bbb' los remplazamos con 0.
df_backup['RINON_IZQUIERDO'].replace('bbb', 0, inplace=True)

# Se realiza lo mismo con 2 y 4.
df_backup['RINON_IZQUIERDO'].replace(2, 0, inplace=True)
df_backup['RINON_IZQUIERDO'].replace(4, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'RINON_IZQUIERDO' después de la limpieza ---")
print(df_backup['RINON_IZQUIERDO'].unique())
print("")


--- Valores únicos en 'RINON_IZQUIERDO' antes de la limpieza ---
['0' '1' nan '2' 'bbb' '4']

--- Valores únicos en 'RINON_IZQUIERDO' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['RINON_IZQUIERDO'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['RINON_IZQUIERDO'].replace('bbb', 0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which w


- - -

In [26]:
# Limpieza de la columna 'RINON_DERECHO'.
print("\n--- Valores únicos en 'RINON_DERECHO' antes de la limpieza ---")
print(df_backup['RINON_DERECHO'].unique())

# Convertimos todos los valores a enteros.
df_backup['RINON_DERECHO'] = pd.to_numeric(df_backup['RINON_DERECHO'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'RINON_DERECHO' reemplazándolos con 0.
df_backup['RINON_DERECHO'].fillna(0, inplace=True)

# Se realiza lo mismo con 2, 3 y 4.
df_backup['RINON_DERECHO'].replace(2, 0, inplace=True)
df_backup['RINON_DERECHO'].replace(3, 0, inplace=True)
df_backup['RINON_DERECHO'].replace(4, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'RINON_DERECHO' después de la limpieza ---")
print(df_backup['RINON_DERECHO'].unique())
print("")


--- Valores únicos en 'RINON_DERECHO' antes de la limpieza ---
[ 0.  1.  2. nan  4.  3.]

--- Valores únicos en 'RINON_DERECHO' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['RINON_DERECHO'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['RINON_DERECHO'].replace(2, 0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are se

In [27]:
# Limpieza de la columna 'RINON_BLOCK'.
print("\n--- Valores únicos en 'RINON_BLOCK' antes de la limpieza ---")
print(df_backup['RINON_BLOCK'].unique())

# Convertimos todos los valores a enteros.
df_backup['RINON_BLOCK'] = pd.to_numeric(df_backup['RINON_BLOCK'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'RINON_BLOCK' reemplazándolos con 0.
df_backup['RINON_BLOCK'].fillna(0, inplace=True)

# Ahora, los valores 'bbb' los remplazamos con 0.
df_backup['RINON_BLOCK'].replace('bbb', 0, inplace=True)

# Se realiza lo mismo con 2 y 4.
df_backup['RINON_BLOCK'].replace(2, 0, inplace=True)
df_backup['RINON_BLOCK'].replace(4, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'RINON_BLOCK' después de la limpieza ---")
print(df_backup['RINON_BLOCK'].unique())
print("")


--- Valores únicos en 'RINON_BLOCK' antes de la limpieza ---
['0' nan '1' 'bbb' '4' '2']

--- Valores únicos en 'RINON_BLOCK' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['RINON_BLOCK'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['RINON_BLOCK'].replace('bbb', 0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are se

In [28]:
# Limpieza de la columna 'PULMON_IZQUIERDO'.
print("\n--- Valores únicos en 'PULMON_IZQUIERDO' antes de la limpieza ---")
print(df_backup['PULMON_IZQUIERDO'].unique())

# Convertimos todos los valores a enteros.
df_backup['PULMON_IZQUIERDO'] = pd.to_numeric(df_backup['PULMON_IZQUIERDO'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'PULMON_IZQUIERDO' reemplazándolos con 0.
df_backup['PULMON_IZQUIERDO'].fillna(0, inplace=True)

# Ahora, los valores 'bbb' los remplazamos con 0.
df_backup['PULMON_IZQUIERDO'].replace('bbb', 0, inplace=True)

# Se realiza lo mismo con 2.
df_backup['PULMON_IZQUIERDO'].replace(2, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'PULMON_IZQUIERDO' después de la limpieza ---")
print(df_backup['PULMON_IZQUIERDO'].unique())
print("")


--- Valores únicos en 'PULMON_IZQUIERDO' antes de la limpieza ---
['0' nan '1' 'bbb' '2']

--- Valores únicos en 'PULMON_IZQUIERDO' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PULMON_IZQUIERDO'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PULMON_IZQUIERDO'].replace('bbb', 0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which

In [29]:
# Limpieza de la columna 'PULMON_DERECHO'.
print("\n--- Valores únicos en 'PULMON_DERECHO' antes de la limpieza ---")
print(df_backup['PULMON_DERECHO'].unique())

# Convertimos todos los valores a enteros.
df_backup['PULMON_DERECHO'] = pd.to_numeric(df_backup['PULMON_DERECHO'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'PULMON_DERECHO' reemplazándolos con 0.
df_backup['PULMON_DERECHO'].fillna(0, inplace=True)

# Se realiza lo mismo con 2.
df_backup['PULMON_DERECHO'].replace(2, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'PULMON_DERECHO' después de la limpieza ---")
print(df_backup['PULMON_DERECHO'].unique())
print("")


--- Valores únicos en 'PULMON_DERECHO' antes de la limpieza ---
[ 0. nan  1.  2.]

--- Valores únicos en 'PULMON_DERECHO' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PULMON_DERECHO'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PULMON_DERECHO'].replace(2, 0, inplace=True)


In [30]:
# Limpieza de la columna 'CORAZON'.
print("\n--- Valores únicos en 'CORAZON' antes de la limpieza ---")
print(df_backup['CORAZON'].unique())

# Convertimos todos los valores a enteros.
df_backup['CORAZON'] = pd.to_numeric(df_backup['CORAZON'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'CORAZON' reemplazándolos con 0.
df_backup['CORAZON'].fillna(0, inplace=True)

# Ahora, los valores 'bbb' los remplazamos con 0.
df_backup['CORAZON'].replace('bbb', 0, inplace=True)

# Se realiza lo mismo con 2.
df_backup['CORAZON'].replace(2, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'CORAZON' después de la limpieza ---")
print(df_backup['CORAZON'].unique())
print("")


--- Valores únicos en 'CORAZON' antes de la limpieza ---
['0' nan '1' 'bbb' '2']

--- Valores únicos en 'CORAZON' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORAZON'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORAZON'].replace('bbb', 0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting va

In [31]:
# Limpieza de la columna 'HIGADO'.
print("\n--- Valores únicos en 'HIGADO' antes de la limpieza ---")
print(df_backup['HIGADO'].unique())

# Convertimos todos los valores a enteros.
df_backup['HIGADO'] = pd.to_numeric(df_backup['HIGADO'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'HIGADO' reemplazándolos con 0.
df_backup['HIGADO'].fillna(0, inplace=True)

# Se realiza lo mismo con 2.
df_backup['HIGADO'].replace(2, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'HIGADO' después de la limpieza ---")
print(df_backup['HIGADO'].unique())
print("")


--- Valores únicos en 'HIGADO' antes de la limpieza ---
[ 0. nan  1.  2.]

--- Valores únicos en 'HIGADO' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['HIGADO'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['HIGADO'].replace(2, 0, inplace=True)


In [32]:
# Limpieza de la columna 'PANCREAS'.
print("\n--- Valores únicos en 'PANCREAS' antes de la limpieza ---")
print(df_backup['PANCREAS'].unique())

# Convertimos todos los valores a enteros.
df_backup['PANCREAS'] = pd.to_numeric(df_backup['PANCREAS'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'PANCREAS' reemplazándolos con 0.
df_backup['PANCREAS'].fillna(0, inplace=True)

# Se realiza lo mismo con 2.
df_backup['PANCREAS'].replace(2, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'PANCREAS' después de la limpieza ---")
print(df_backup['PANCREAS'].unique())
print("")


--- Valores únicos en 'PANCREAS' antes de la limpieza ---
[ 0. nan  1.  2.]

--- Valores únicos en 'PANCREAS' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PANCREAS'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PANCREAS'].replace(2, 0, inplace=True)


In [33]:
# Limpieza de la columna 'INTESTINO'. 
print("\n--- Valores únicos en 'INTESTINO' antes de la limpieza ---")
print(df_backup['INTESTINO'].unique())

# Convertimos todos los valores a enteros.
df_backup['INTESTINO'] = pd.to_numeric(df_backup['INTESTINO'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'INTESTINO' reemplazándolos con 0.
df_backup['INTESTINO'].fillna(0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'INTESTINO' después de la limpieza ---")
print(df_backup['INTESTINO'].unique())
print("")


--- Valores únicos en 'INTESTINO' antes de la limpieza ---
[ 0. nan  1.]

--- Valores únicos en 'INTESTINO' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['INTESTINO'].fillna(0, inplace=True)


In [34]:
# Limpieza de la columna 'CORNEA_IZQUIERDA'.
print("\n--- Valores únicos en 'CORNEA_IZQUIERDA' antes de la limpieza ---")
print(df_backup['CORNEA_IZQUIERDA'].unique())

# Convertimos todos los valores a enteros.
df_backup['CORNEA_IZQUIERDA'] = pd.to_numeric(df_backup['CORNEA_IZQUIERDA'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'CORNEA_IZQUIERDA' reemplazándolos con 0.
df_backup['CORNEA_IZQUIERDA'].fillna(0, inplace=True)

# Se realiza lo mismo con 2,3 y 4.
df_backup['CORNEA_IZQUIERDA'].replace(2, 0, inplace=True)
df_backup['CORNEA_IZQUIERDA'].replace(3, 0, inplace=True)
df_backup['CORNEA_IZQUIERDA'].replace(4, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'CORNEA_IZQUIERDA' después de la limpieza ---")
print(df_backup['CORNEA_IZQUIERDA'].unique())
print("")


--- Valores únicos en 'CORNEA_IZQUIERDA' antes de la limpieza ---
[ 1.  0. nan  2.  3.  4.]

--- Valores únicos en 'CORNEA_IZQUIERDA' después de la limpieza ---
[1 0]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORNEA_IZQUIERDA'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORNEA_IZQUIERDA'].replace(2, 0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we 

In [35]:
# Limpieza de la columna 'CORNEA_DERECHA'.
print("\n--- Valores únicos en 'CORNEA_DERECHA' antes de la limpieza ---")
print(df_backup['CORNEA_DERECHA'].unique())

# Convertimos todos los valores a enteros.
df_backup['CORNEA_DERECHA'] = pd.to_numeric(df_backup['CORNEA_DERECHA'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'CORNEA_DERECHA' reemplazándolos con 0.
df_backup['CORNEA_DERECHA'].fillna(0, inplace=True)

# Se realiza lo mismo con 2, 3 y 4.
df_backup['CORNEA_DERECHA'].replace(2, 0, inplace=True)
df_backup['CORNEA_DERECHA'].replace(3, 0, inplace=True)
df_backup['CORNEA_DERECHA'].replace(4, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'CORNEA_DERECHA' después de la limpieza ---")
print(df_backup['CORNEA_DERECHA'].unique())
print("")


--- Valores únicos en 'CORNEA_DERECHA' antes de la limpieza ---
[ 1. nan  0.  2.  3.  4.]

--- Valores únicos en 'CORNEA_DERECHA' después de la limpieza ---
[1 0]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORNEA_DERECHA'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORNEA_DERECHA'].replace(2, 0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are 

In [36]:
# Limpieza de la columna 'PIEL'. 
print("\n--- Valores únicos en 'PIEL' antes de la limpieza ---")
print(df_backup['PIEL'].unique())

# Convertimos todos los valores a enteros.
df_backup['PIEL'] = pd.to_numeric(df_backup['PIEL'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'PIEL' reemplazándolos con 0.
df_backup['PIEL'].fillna(0, inplace=True)

# Se realiza lo mismo con 2.
df_backup['PIEL'].replace(2, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'PIEL' después de la limpieza ---")
print(df_backup['PIEL'].unique())
print("")


--- Valores únicos en 'PIEL' antes de la limpieza ---
[ 0.  1. nan  2.]

--- Valores únicos en 'PIEL' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PIEL'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['PIEL'].replace(2, 0, inplace=True)


In [37]:
# Limpieza de la columna 'CORAZON_TEJIDOS'.
print("\n--- Valores únicos en 'CORAZON_TEJIDOS' antes de la limpieza ---")
print(df_backup['CORAZON_TEJIDOS'].unique())

# Convertimos todos los valores a enteros.
df_backup['CORAZON_TEJIDOS'] = pd.to_numeric(df_backup['CORAZON_TEJIDOS'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'CORAZON_TEJIDOS' reemplazándolos con 0.
df_backup['CORAZON_TEJIDOS'].fillna(0, inplace=True)

# Se realiza lo mismo con 2.
df_backup['CORAZON_TEJIDOS'].replace(2, 0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'CORAZON_TEJIDOS' después de la limpieza ---")
print(df_backup['CORAZON_TEJIDOS'].unique())
print("")


--- Valores únicos en 'CORAZON_TEJIDOS' antes de la limpieza ---
[ 0. nan  1.  2.]

--- Valores únicos en 'CORAZON_TEJIDOS' después de la limpieza ---
[0 1]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORAZON_TEJIDOS'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['CORAZON_TEJIDOS'].replace(2, 0, inplace=True)


In [38]:
# Limpieza de la columna 'HUESOS'.
print("\n--- Valores únicos en 'HUESOS' antes de la limpieza ---")
print(df_backup['HUESOS'].unique())

# Convertimos todos los valores a enteros.
df_backup['HUESOS'] = pd.to_numeric(df_backup['HUESOS'], errors='coerce').fillna(0).astype(int)

# Limpiamos los valores nulos en la columna 'HUESOS' reemplazándolos con 0.
df_backup['HUESOS'].fillna(0, inplace=True)

# Verificamos los valores únicos después de la limpieza.
print("\n--- Valores únicos en 'HUESOS' después de la limpieza ---")
print(df_backup['HUESOS'].unique())
print("")


--- Valores únicos en 'HUESOS' antes de la limpieza ---
[ 0.  1.  2. nan  9.  5.  6. 12.  8. 14.  4.]

--- Valores únicos en 'HUESOS' después de la limpieza ---
[ 0  1  2  9  5  6 12  8 14  4]



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_backup['HUESOS'].fillna(0, inplace=True)


- - -

### **4. Resultados de la limpieza del DataFrame y creación del nuevo DataSet** 

Ahora, visualizamos el total de valores nulos que hay en el DataFrame `df_backup` y lo comparamos con `df_main`.

In [39]:
# Dimensiones del DataFrame original y del DataFrame limpio.
print(f"\n--- Dimensiones del DataFrame original: {df_main.shape} ---")
print(f"\n--- Dimensiones del DataFrame limpio: {df_backup.shape} ---")

# Valores nulos del DataFrame original y del DataFrame limpio.
print("\n--- Valores nulos en el DataFrame original ---")
print(df_main.isnull().sum())
print("\n--- Valores nulos en el DataFrame limpio ---")
print(df_backup.isnull().sum())


--- Dimensiones del DataFrame original: (52501, 24) ---

--- Dimensiones del DataFrame limpio: (51658, 24) ---

--- Valores nulos en el DataFrame original ---
SEXO                         2105
CODIGO_SEXO                  3119
TIPO_DONANTE                 2100
MUERTE                       2100
ENTIDAD_FEDERATIVA           2100
CODIGO_ENTIDAD_FEDERATIVA    2100
ESTABLECIMIENTO              2100
INSTITUCION                  2100
EDAD_ANIOS                   3098
FECHA_PROCURACION            2100
RINON_IZQUIERDO              2100
RINON_DERECHO                2100
RINON_BLOCK                  2100
PULMON_IZQUIERDO             2100
PULMON_DERECHO               2100
CORAZON                      2100
HIGADO                       2100
PANCREAS                     2100
INTESTINO                    2100
CORNEA_IZQUIERDA             2100
CORNEA_DERECHA               2100
PIEL                         2100
HUESOS                       2100
CORAZON_TEJIDOS              3113
dtype: int64

--- Valore

In [40]:
print("\n--- Diagnóstico con .info() ---")
df_backup.info()
print("")


--- Diagnóstico con .info() ---
<class 'pandas.core.frame.DataFrame'>
Index: 51658 entries, 0 to 52500
Data columns (total 24 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   SEXO                       51658 non-null  object        
 1   CODIGO_SEXO                51658 non-null  object        
 2   TIPO_DONANTE               51658 non-null  object        
 3   MUERTE                     51658 non-null  object        
 4   ENTIDAD_FEDERATIVA         51658 non-null  object        
 5   CODIGO_ENTIDAD_FEDERATIVA  51658 non-null  object        
 6   ESTABLECIMIENTO            51658 non-null  object        
 7   INSTITUCION                51658 non-null  object        
 8   EDAD_ANIOS                 51658 non-null  int64         
 9   FECHA_PROCURACION          51658 non-null  datetime64[ns]
 10  RINON_IZQUIERDO            51658 non-null  int64         
 11  RINON_DERECHO              51658 non-nu

Solo queda crear el nuevo DataSet para su posterior análisis.

In [41]:
# Exportamos el DataFrame limpio a un nuevo archivo CSV.
df_backup.to_csv('data/donantes_organos_limpio.csv', index=False)

- - - 