# Análisis y visualización de datos con python
# 3. Limpieza de datos

La limpieza de datos es el proceso de identificar, corregir o eliminar datos incorrectos, incompletos, irrelevantes o duplicados en un conjunto de datos. La limpieza de datos es importante para garantizar la precisión y la calidad de los datos y evitar errores en el análisis posterior. Algunas técnicas comunes de limpieza de datos incluyen la eliminación de valores atípicos, la eliminación de valores faltantes, la corrección de errores tipográficos y la eliminación de duplicados.

Empezaremos cargando los datos.

In [1]:
#pip install numpy

In [2]:
#!pip install openpyxl

In [3]:
from numpy import nan
import pandas as pd

file_mfc = 'data_raw/MFC_PCDmayo2023.xlsx'
df = pd.read_excel(file_mfc, index_col='ID' )
df.head()

Unnamed: 0_level_0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,Inhumación,2015-12-12,2015-12-05 00:00:00,,Cadáver,Masculino,45,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,10*15,4270,4856,30,
2,,Inhumación,2015-12-12,2015-12-05 00:00:00,,Cadáver,Masculino,49,5a clase,1,...,Hernandez,Sebastian Martinez Hernandez,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,11*15,4271,4858,30,
3,,Inhumación,2015-12-12,2015-12-05 00:00:00,,Cadáver,Masculino,35,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,12*15,4272,4860,30,
4,,Inhumación,2015-12-12,2015-12-05 00:00:00,,Cadáver,Masculino,30,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,24*15,4273,4862,30,
5,,Inhumación,2015-12-12,2015-12-05 00:00:00,,Cadáver,Masculino,48,5a clase,1,...,Estrada,Juvencio Gomez Estrada,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,25*15,4274,4864,30,


## 3.1 Tipos de datos

Cómo vimos anteriormente hay varios tipos de datos como: texto, númerico, fecha, etc.
De manera automática pandas infiere el tipo de datos al leer el archivo, de una manera muy similar a como Excel interpreta si un dato es texto o numérico.

Los tipos de datos de pandas son:
* `object`: texto o mezcla de varios tipos de datos, este es el tipo de dato por defecto
* `category`: información categórica, similar a Factors en R
* `int64`: números enteros
* `float64`: números con punto decimal
* `bool`: valores verdadero o falso
* `datetime64`: fechas
* `timedelta[ns]`: diferencias de tiempo

Podemos ver los tipos de datos inferidos usando la opción `.dtypes`.

In [4]:
df.dtypes

Cargables                                          float64
Estatus_FC                                          object
Fecha_inhumación                            datetime64[ns]
Fecha_defunción                                     object
Fecha_exhumación                                   float64
Restos_tipo                                         object
Sexo                                                object
Edad                                                object
Zona                                                object
Línea                                               object
Fosa                                                object
Nivel                                              float64
Profundidad                                         object
Conocido o Desconocido                              object
Nombre(s)                                           object
Apellido_paterno                                    object
Apellido_materno                                    obje

Dependiendo del tipo de dato se pueden hacer diferentes operaciones y hay tipos de limpieza específica.

Cómo vimos en la definición de datos ordenados o tidy data idealmente cada tabla tendrá solo datos de un tipo. Esto es para facilitar las operaciones. Si esto no es posible es importante que una columna o variable tenga datos de un solo tipo, ya que esto puede generar errores.

Por ejemplo, si tratamos de obtener el promedio de las edades nos genera un error de `ValueError`, ya que hay valores de texto `str` y número `int` mezclados, además de datos faltantes.

In [5]:
df['Edad'].unique()

array([45, 49, 35, 30, 48, 88, 51, 62, 67, 60, 40, 55, 34, 78, 99, 85, 74,
       80, 46, 36, 79, 38, 53, 81, 70, 54, 42, 'Se Ignora',
       '42  SEMANAS ', 32, 27, 17, 25, 44, 22, 77, 50, '24 SEMANAS ',
       '38 SEMANAS ', 76, 33, 24, 15, 21, 4638, 4852, 4880, 4892, 4900,
       4903, 4912, 4914, 4918, 8, 10, 23, 59, 71, 52, 72, '24.8 semanas',
       19, 16, 28, 41, 2, 39, 65, 57, 75, '20 SEMANAS ', 12, 87, 96, 93,
       37, 83, 86, 63, 68, 66, 64, 69, 58, 91, 90, 84, 82, '22 SEMANAS',
       '25 SEMANAS ', 31, 3, 47, '05 SEMANAS ', '21 SEMANAS ',
       '06 SEMANAS ', '20 SEMANA S', 20, 103, '32 semanas ',
       '11.2 semanas ', '17  semanas ', 89, 26, 94, 73, 29, '40 Semanas ',
       '20  Semanas ', 56, 18, '23 SEMANAS ', 61, '36 SEMANAS',
       '38 SEMANAS', '31- SEMANAS ', 98, 97, 4, '37  SEMANAS ',
       '21  SEMANAS ', '14  SEMANAS ', '24  SEMANAS ', '22  SEMANAS ',
       '19 SEMANAS', 43, '28 SEMANAS ', 106, 9, '14 SEMANAS',
       '39 SEMANAS', '15 SEMANAS', '18 SEMA

In [6]:
df = pd.read_excel(file_mfc, index_col='ID', dtype='str' )
df.head()

Unnamed: 0_level_0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,45,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,10*15,4270,4856,30,
2,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,49,5a clase,1,...,Hernandez,Sebastian Martinez Hernandez,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,11*15,4271,4858,30,
3,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,35,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,12*15,4272,4860,30,
4,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,30,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,24*15,4273,4862,30,
5,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,48,5a clase,1,...,Estrada,Juvencio Gomez Estrada,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,25*15,4274,4864,30,


Los tipos de datos aparecen cómo object

In [7]:
df.dtypes

Cargables                                   object
Estatus_FC                                  object
Fecha_inhumación                            object
Fecha_defunción                             object
Fecha_exhumación                            object
Restos_tipo                                 object
Sexo                                        object
Edad                                        object
Zona                                        object
Línea                                       object
Fosa                                        object
Nivel                                       object
Profundidad                                 object
Conocido o Desconocido                      object
Nombre(s)                                   object
Apellido_paterno                            object
Apellido_materno                            object
Nombre_completo                             object
Nombre_alternativa                          object
C.I._AVP                       

## 3.2 Eliminación de observaciones y variables

Es posible que no todos los datos contenidos en el conjunto de datos sean de interes. Eliminarlos facilita el análisis y eficientiza el uso de memoria.

Podemos eliminar filas o columnas si:
* Baja variabilidad, por ejemplo una columna donde todos los valores son iguales
* Información repetida, por ejemplo filas idénticas
* Existe una gran cantidad de datos faltantes
* Información no relevante para el análisis.

Mucha de esta información se puede obtener del diccionario de datos y el profile.

Para determinar filas duplicadas usamos el comando `duplicated()`.

In [8]:
df[ df.duplicated() ]

Unnamed: 0_level_0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
3263,,,,,,,,,,,...,,,,,,,,,,
4084,,,,,,,,,,,...,,,,,,,,,,
5258,,,,,,,,,,,...,,,,,,,,,,


In [9]:
#!pip install ydata_profiling

In [10]:
from ydata_profiling import ProfileReport

file_profile = "profiles/MFC_profile_short.html"
prof = ProfileReport(df) 
prof.to_file(output_file=file_profile)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [11]:
df['Cargables']

ID
1       NaN
2       NaN
3       NaN
4       NaN
5       NaN
       ... 
7067      1
7068      1
7069      1
7070      1
7071      1
Name: Cargables, Length: 7071, dtype: object

In [12]:
df['Cargables'].dropna()

ID
5933    1
5934    1
5935    1
5936    1
5937    1
       ..
7067    1
7068    1
7069    1
7070    1
7071    1
Name: Cargables, Length: 1139, dtype: object

In [13]:
df.drop_duplicates(keep=False, inplace=True, ignore_index=True)

In [14]:
df[ df.duplicated() ]

Unnamed: 0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones


In [15]:
df['Cargables']

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
       ... 
7062      1
7063      1
7064      1
7065      1
7066      1
Name: Cargables, Length: 7067, dtype: object

In [16]:
df['Cargables'].dropna()

5928    1
5929    1
5930    1
5931    1
5932    1
       ..
7062    1
7063    1
7064    1
7065    1
7066    1
Name: Cargables, Length: 1139, dtype: object

### Profile

In [17]:
from ydata_profiling import ProfileReport

file_profile = "profiles/MFC_profile_short-moddropduplicates.html"
prof = ProfileReport(df) 
prof.to_file(output_file=file_profile)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [18]:
df['Edad']

0              45
1              49
2              35
3              30
4              48
          ...    
7062    Se Ignora
7063    Se Ignora
7064    Se Ignora
7065           67
7066           64
Name: Edad, Length: 7067, dtype: object

In [19]:
df['Edad'].dropna()

0              45
1              49
2              35
3              30
4              48
          ...    
7062    Se Ignora
7063    Se Ignora
7064    Se Ignora
7065           67
7066           64
Name: Edad, Length: 7064, dtype: object

## 3.3 Valores faltantes

Un valor faltante es un valor que falta o está incompleto en un conjunto de datos. A menudo, los valores faltantes se deben a errores de entrada de datos, fallas en la recolección de datos o problemas técnicos. Los valores faltantes pueden aparecer como espacios en blanco, ceros, letras u otros caracteres. La presencia de valores faltantes en un conjunto de datos puede afectar la precisión y la calidad del análisis de los datos, por lo que es importante identificarlos y manejarlos adecuadamente durante la limpieza y el preprocesamiento de los datos.

Otra razón para quitar datos es por que hay una gran cantidad de faltantes. El comando `dropna()` sirve para quitar estas filas (`axis=0`) o columnas (`axis=1`).
Existen varias opciones:

* `how='any'` quita las filas o columnas donde hay al menos un nan, este parametró es el default
* `how='all'` quita las filas o columnas donde todos son nan
* `thresh=numero` quita las filas o columnas con más de cierto número de nans, esto es útil para detectar automáticamente columnas donde faltan muchos datos

Quitemos las columnas donde todos los valores son nan, en este caso 'Datos alternativos':

Para determinar si debemos de quitar filas por nan en primer lugar hay que análizar la cantidad de faltantes y su distribución.

**Nota** Explicación del comando
```
df.isna()         <-- determinar si las celdas son na
  .sum(axis=1)    <-- sumar los faltantes por fila
  .value_counts() <-- contar cuantas veces aparece cada número
  .sort_index()   <-- ordenar por el indice, que en este caso es el número de faltantes
```


In [20]:
df.isna().sum(axis=1).value_counts().sort_index()

2     143
3    2041
4    1433
5     439
6    1753
7    1217
8      29
9      12
dtype: int64

In [21]:
df[  df.isna().sum(axis=1)>=4  ]

Unnamed: 0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
0,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,45,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,10*15,4270,4856,30,
1,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,49,5a clase,1,...,Hernandez,Sebastian Martinez Hernandez,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,11*15,4271,4858,30,
2,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,35,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,12*15,4272,4860,30,
3,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,30,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,24*15,4273,4862,30,
4,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,48,5a clase,1,...,Estrada,Juvencio Gomez Estrada,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,25*15,4274,4864,30,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7049,1,Inhumación,2023-07-25 00:00:00,2023-07-03 00:00:00,,Cadáver,Masculino,Se Ignora,5 clase,2,...,,,,CI-FICUH/UAT-CUH-6/UI-1S/D/01004/07-2023,CIENCIAS FORENSES DEL PODER JUDICIAL,2787,428,15683,,TRAUMATISMO CRANEO ENCEFALICO
7050,1,Inhumación,2023-07-25 00:00:00,2023-07-04 00:00:00,,Cadáver,Masculino,Se Ignora,5 clase,2,...,,,,CI-FIVC/UAT-VC-2/UI-1S/D/01053/07-2023,CIENCIAS FORENSES DEL PODER JUDICIAL,2799,430,15680,,INFARTO AGUDO DEL MIOCARDIO
7051,1,Inhumación,2023-07-25 00:00:00,2023-07-06 00:00:00,,Cadáver,Masculino,Se Ignora,5 clase,2,...,,,,CI-FIIZP/IZP-4/UI-1S/D/03014/07-2023,CIENCIAS FORENSES DEL PODER JUDICIAL,2827,429,15681,,TRAUMATISMO PELVICO
7057,1,Inhumación,2023-07-25 00:00:00,2023-06-30 00:00:00,,Cadáver,Masculino,Se Ignora,5 clase,2,...,,,,CI-FIBJ/UAT-BJ-3/UI-1S/D/02269/06-2023,CIENCIAS FORENSES DEL PODER JUDICIAL,2740,416,15686,,NEUMONIA


En este caso son desconocidos donde no se sabe la edad, por lo que no es necesario quitarlas.

### Valores especiales

Otra opción es llenar los faltantes con un valor específico o especial. Por ejemplo, veamos la columna `Fecha_defunción`.
En esta columna hay varios tipos de valores faltantes, los cuales son representados no por `nan`, sino por 'S/D' y '??'

Esta es una forma de representar incertidumbre en los datos. Los datos faltantes pueden provenir de varias fuentes. Por ejemplo, en este caso el MFC incluye transcripciones de los registros de las fosas comunes del país. Es diferente que un dato no este en la fuente original a que no haya sido capturado al MFC. 

Existen varias formas de tratar estos datos faltantes, por ejemplo en este caso no se tiene la hora de defunción, por lo que por convención se representa la hora cómo 00:00:00, esto no significa que la persona haya muerto a esa hora, sino que es un valor default. El llenar los datos con valores default puede sesgar la distribución de los datos.

In [22]:
df['Fecha_defunción'].unique() [0:15]

array(['2015-12-05 00:00:00', '2014-10-20 00:00:00',
       '2014-10-21 00:00:00', '2014-10-25 00:00:00',
       '2014-10-29 00:00:00', '2014-12-16 00:00:00',
       '2014-12-03 00:00:00', '2014-12-18 00:00:00',
       '2015-01-03 00:00:00', '2015-01-04 00:00:00',
       '2015-01-16 00:00:00', '2015-01-17 00:00:00',
       '2015-01-23 00:00:00', '2015-02-01 00:00:00',
       '2015-02-27 00:00:00'], dtype=object)

In [23]:
df['Fecha_exhumación'].unique() [0:15]

array([nan], dtype=object)

In [24]:
df['Edad'].unique()

array(['45', '49', '35', '30', '48', '88', '51', '62', '67', '60', '40',
       '55', '34', '78', '99', '85', '74', '80', '46', '36', '79', '38',
       '53', '81', '70', '54', '42', 'Se Ignora', '42  SEMANAS ', '32',
       '27', '17', '25', '44', '22', '77', '50', '24 SEMANAS ',
       '38 SEMANAS ', '76', '33', '24', '15', '21', '4638', '4852',
       '4880', '4892', '4900', '4903', '4912', '4914', '4918', '8', '10',
       '23', '59', '71', '52', '72', '24.8 semanas', '19', '16', '28',
       '41', '2', '39', '65', '57', '75', '20 SEMANAS ', '12', '87', '96',
       '93', '37', '83', '86', '63', '68', '66', '64', '69', '58', '91',
       '90', '84', '82', '22 SEMANAS', '25 SEMANAS ', '31', '3', '47',
       '05 SEMANAS ', '21 SEMANAS ', '06 SEMANAS ', '20 SEMANA S', '20',
       '103', '32 semanas ', '11.2 semanas ', '17  semanas ', '89', '26',
       '94', '73', '29', '40 Semanas ', '20  Semanas ', '56', '18',
       '23 SEMANAS ', '61', '36 SEMANAS', '38 SEMANAS', '31- SEMANAS ',

In [25]:
df['Zona'].unique() [0:15]

array(['5a  clase ', '1900-02-14 00:00:00', '5 clase'], dtype=object)

Otro ejemplo es lo que sucede con los nombres. En este caso tenemos varios valores especiales, ya que hay nombres de desconocidos que se representan con un espacio '  ', con `nan` o con el texto 'Nombre de particular que se encuentra con vida, se clasifica como confidencial con fundamento en el artículo 116 de la LGTAIP.  '. Cada uno de estos representa diferentes tipos de falta de información y amerita un tratamiento diferente.

In [26]:
df.dtypes

Cargables                                   object
Estatus_FC                                  object
Fecha_inhumación                            object
Fecha_defunción                             object
Fecha_exhumación                            object
Restos_tipo                                 object
Sexo                                        object
Edad                                        object
Zona                                        object
Línea                                       object
Fosa                                        object
Nivel                                       object
Profundidad                                 object
Conocido o Desconocido                      object
Nombre(s)                                   object
Apellido_paterno                            object
Apellido_materno                            object
Nombre_completo                             object
Nombre_alternativa                          object
C.I._AVP                       

In [27]:
df['Nombre_completo'].value_counts(dropna=False)[0:25].index

Index(['  ', 'DESCONOCIDO  ', 'N N N', '  Sanchez', '  Vazquez', '  Martinez',
       'Vanesa Hernandez Bustos', 'N  N N', 'Celia  Guzman  Soto',
       'Alberto Granados  Isaias', 'Carlos  Hernandez ', '  Hernandez',
       'Carmen  N N', '  Gonzalez', 'Daniel Sanchez   Otero', 'Roberto N N',
       'Jose Luis  N N', 'Jesus Fernando Vazquez  Gonzalez ', 'Juan  N N',
       'Erick Renato Padilla Perez', 'Edith Ibañez  Valerio ', 'Javier N N',
       '  Tapia ', 'Diana Maybet Ramirez ', 'Hector Samuel  Flores   Muñoz'],
      dtype='object')

In [28]:
df['Nombre(s)'].value_counts(dropna=False)[0:20].index

Index([            nan,          'Jose',         'Juan ',    'Jose Luis ',
          'Francisco ',       'Carlos ', 'Miguel Angel ',      'Antonio ',
           'Fernando ',       'Manuel ',        'Jesus ',        'Jorge ',
            'Enrique ',       'Antonio',      'Ricardo ',        'Javier',
              'Pedro ',         'Jose ',      'Roberto ',        'Mario '],
      dtype='object')

In [29]:
df['Apellido_paterno'].value_counts(dropna=False)[0:20].index

Index([         nan,          'N',   'Martinez',  'Hernandez',    'Garcia ',
        'Gonzalez ', 'Hernandez ',      'Lopez',  'Rodriguez',    'Sanchez',
            'Perez',   'Ramirez ',    'Ramirez',      'Gomez',       'Cruz',
           'Garcia',  'Gutierrez',   'Gonzalez',       'Diaz',    'Jimenez'],
      dtype='object')

In [30]:
df['Apellido_materno'].value_counts(dropna=False)[0:20].index

Index([         nan,          'N',  'Hernandez',   'Martinez',      'Lopez',
            'Perez',    'Sanchez',  'Rodriguez',  'Gonzalez ',     'Garcia',
          'Garcia ',       'Cruz',   'Gonzalez',    'Ramirez',     'Flores',
       'Hernandez ',      'Gomez',     'Chavez',     'Torres',    'Vazquez'],
      dtype='object')

En el caso de datos númericos se puede sustituir con 'nan', cero, el promedio de los datos o un dato aleatorio de la población (un proceso similar a bootstrapping). Estas últimas opciones estan mas alla del alcance de este tutorial.

## 3.4 Limpieza de texto

En este conjunto las columnas de texto son:
* 'Primer apellido'
* 'Segundo Apellido'
* 'Nombre(s)'
* 'Nombre completo'
* 'Institución_origen'
* 'Rdoc'

In [31]:
df.columns

Index(['Cargables', 'Estatus_FC', 'Fecha_inhumación', 'Fecha_defunción',
       'Fecha_exhumación', 'Restos_tipo', 'Sexo', 'Edad', 'Zona', 'Línea',
       'Fosa', 'Nivel', 'Profundidad', 'Conocido o Desconocido', 'Nombre(s)',
       'Apellido_paterno', 'Apellido_materno', 'Nombre_completo',
       'Nombre_alternativa', 'C.I._AVP', 'Institución_origen',
       'Institución_expediente', 'Folio Boleta de inhumación',
       'Folio Certificado de muerte fetal',
       'Carpeta en donde se ubica la información', 'Observaciones'],
      dtype='object')

In [32]:
col_str = ['Nombre(s)', 'Apellido_paterno', 'Apellido_materno', 'Nombre_completo',
           'Estatus_FC', 'Conocido o Desconocido']

# Este comando obtiene para cada columna de interes los cinco valores mas comunes
# y los despliega para poder revisar los datos
for col in col_str:
    print(col)
    display( df[col].value_counts(dropna=False).index.tolist()[0:5] )

Nombre(s)


[nan, 'Jose', 'Juan ', 'Jose Luis ', 'Francisco ']

Apellido_paterno


[nan, 'N', 'Martinez', 'Hernandez', 'Garcia ']

Apellido_materno


[nan, 'N', 'Hernandez', 'Martinez', 'Lopez']

Nombre_completo


['  ', 'DESCONOCIDO  ', 'N N N', '  Sanchez', '  Vazquez']

Estatus_FC


['Inhumación']

Conocido o Desconocido


['Conocido', 'Desconocido', 'Desconocido  ', 'Desconocido ', nan]

In [33]:
# esta operación solo se aplica y guarda sobre las columnas de texto
df[col_str] = df[col_str].fillna('')

for col in col_str:
    print(col)
    display( df[col].value_counts(dropna=False).index.tolist()[0:10] )

Nombre(s)


['',
 'Jose',
 'Juan ',
 'Jose Luis ',
 'Francisco ',
 'Carlos ',
 'Miguel Angel ',
 'Antonio ',
 'Fernando ',
 'Manuel ']

Apellido_paterno


['',
 'N',
 'Martinez',
 'Hernandez',
 'Garcia ',
 'Gonzalez ',
 'Hernandez ',
 'Lopez',
 'Rodriguez',
 'Sanchez']

Apellido_materno


['',
 'N',
 'Hernandez',
 'Martinez',
 'Lopez',
 'Perez',
 'Sanchez',
 'Rodriguez',
 'Gonzalez ',
 'Garcia']

Nombre_completo


['  ',
 'DESCONOCIDO  ',
 'N N N',
 '  Sanchez',
 '  Vazquez',
 '  Martinez',
 'Vanesa Hernandez Bustos',
 'N  N N',
 'Celia  Guzman  Soto',
 'Alberto Granados  Isaias']

Estatus_FC


['Inhumación']

Conocido o Desconocido


['Conocido',
 'Desconocido',
 'Desconocido  ',
 'Desconocido ',
 '',
 'Desconocido Indeterminado',
 'Se Ignora']

In [34]:
replace_str = {'  ':'',
               'N':'',
               'N ':'',
               ' N':'',
               'DESCONOCIDO  ':'',
              '5a  clase ':'5a clase',
              '1900-02-14 00:00:00':'',
               '2 BIS ':'2 BIS',
               '2b':'2 BIS',
               'Desconocido  ':'Desconocido',
               'Desconocido ':'Desconocido',
               'Desconocido Indeterminado':'Desconocido',
               'Se Ignora':'Desconocido',
               'Se Ignora ':'',
               'Desconocido':'',
              }

# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_str:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_str)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:15] )

Remplazando columna: Nombre(s)


['',
 'Jose',
 'Juan ',
 'Jose Luis ',
 'Francisco ',
 'Carlos ',
 'Miguel Angel ',
 'Antonio ',
 'Fernando ',
 'Manuel ',
 'Jesus ',
 'Jorge ',
 'Enrique ',
 'Antonio',
 'Ricardo ']

Remplazando columna: Apellido_paterno


['',
 'Martinez',
 'Hernandez',
 'Garcia ',
 'Gonzalez ',
 'Hernandez ',
 'Lopez',
 'Rodriguez',
 'Sanchez',
 'Perez',
 'Gomez',
 'Ramirez ',
 'Ramirez',
 'Cruz',
 'Garcia']

Remplazando columna: Apellido_materno


['',
 'Hernandez',
 'Martinez',
 'Lopez',
 'Perez',
 'Sanchez',
 'Rodriguez',
 'Gonzalez ',
 'Garcia',
 'Garcia ',
 'Cruz',
 'Gonzalez',
 'Ramirez',
 'Flores',
 'Hernandez ']

Remplazando columna: Nombre_completo


['',
 'N N N',
 '  Vazquez',
 '  Sanchez',
 '  Martinez',
 'Vanesa Hernandez Bustos',
 'Daniel Sanchez   Otero',
 'N  N N',
 'Celia  Guzman  Soto',
 'Alberto Granados  Isaias',
 'Carlos  Hernandez ',
 '  Hernandez',
 'Carmen  N N',
 'Jose Luis  N N',
 'Javier N N']

Remplazando columna: Estatus_FC


['Inhumación']

Remplazando columna: Conocido o Desconocido


['Conocido', '', 'Desconocido']

In [35]:
df['Profundidad'].unique() [0:15]

array(['150', '200', 'Se Ignora ', '250', '240', '180', '350', '3000',
       '100', '900', '80', '280', '90', '220', '300'], dtype=object)

In [36]:
col_prof = ['Profundidad']

replace_prof = {'Desconocido':'',
                'Se Ignora ':'',
              }

for col in col_prof:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_str)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:15] )

Remplazando columna: Profundidad


['200',
 '250',
 '150',
 '180',
 '280',
 '100',
 '300',
 nan,
 '350',
 '90',
 '',
 '80',
 '290',
 '190',
 'Desconocido']

In [37]:
df.head()

Unnamed: 0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
0,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,45,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,10*15,4270,4856,30,
1,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,49,5a clase,1,...,Hernandez,Sebastian Martinez Hernandez,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,11*15,4271,4858,30,
2,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,35,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,12*15,4272,4860,30,
3,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,30,5a clase,1,...,,,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,24*15,4273,4862,30,
4,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,48,5a clase,1,...,Estrada,Juvencio Gomez Estrada,,FMED/JEF/DPM/193/2015,UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO,25*15,4274,4864,30,


Vamos a reemplazar los datos de la ubicación, origen de datos e instituciones.

In [38]:
df['Institución_origen'].unique()

array(['UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO ',
       'INSTITUTO POLITECNICO NACIONAL ', 'CIENCIAS FORENCES  TSJDF ',
       'CIENCIAS FORENSES DEL PODER JUDICIAL',
       'UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO',
       'SUBPROCURADURIA ESPECIALIZADA EN DELINCUENCIA ORGANIZADA',
       'INSTITUTO POLITECNICO NACIONAL',
       'INSTITUTO DE CIENCIAS  FORENSES  DEL  D.F.',
       'UNIVERSIDAD  ANAHUAC ', 'UNIVERSIDAD  TOMINADA  NAKAMOTO ',
       'UNIVERSIDAD  WESTHILL', 'UNIVERSIDAD AUTONOMA DE MEXICO',
       'UNIVERSIDAD TOMINAGA TOMINAGA', 'UPAEP',
       'ESCUELA LIBRE DE HOMEOPATIA DE MEXICO ',
       'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA ',
       'UNIVERSIDAD DE CELAYA ', 'ESCUELA  MEDICO  MILITAR ',
       'UNIVERSIDAD WESTILL', 'UNIVERSIDAD ANAHUAC ',
       'INSTITUTO DE CIENCIAS FORENSES DE LA CDMX',
       'UNIVERSIDAD WESTHILL', 'CENTRO MEDICO , A. B. C. ',
       'UNIVERSIDAD ANAHUAC', 'SECRETARIA DE EDUCACION PUBLICA',
       'UNIVERSIDAD TOMINAGA NAKAMOTO',
 

In [39]:
df['Institución_expediente'].unique()

array(['10*15', '11*15', '12*15', ..., '2760', '13/2022', '14/2022'],
      dtype=object)

In [40]:
df['Folio Boleta de inhumación'].unique()

array(['4270', '4271', '4272', ..., '418', '419', '10054'], dtype=object)

In [41]:
df['Folio Certificado de muerte fetal'].unique()

array(['4856', '4858', '4860', ..., '15710', '16589', '16588'],
      dtype=object)

In [42]:
df['Carpeta en donde se ubica la información'].unique()

array(['30', '31', '32', '33', '34', '36', '37', '38', '39', '40',
       'No va ', '41', '42', '43', '44', '45', '46', '47', '50', '49',
       '51', '52', '53', '54', '55', '56', nan], dtype=object)

In [43]:
col_fuente = ['Institución_origen', 'Institución_expediente', 'Folio Boleta de inhumación', 
              'Folio Certificado de muerte fetal', 'Carpeta en donde se ubica la información']

df[col_fuente] = df[col_fuente].fillna('')

for col in col_fuente:
    print(col)
    display( df[col].value_counts(dropna=False) )

Institución_origen


INSTITUTO DE CIENCIAS FORENSES DE LA CDMX                   2776
CIENCIAS FORENSES DEL PODER JUDICIAL                        1662
INSTITUTO POLITECNICO NACIONAL                               886
UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO                      455
UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO                      334
INSTITUTO POLITECNICO NACIONAL                               302
UNIVERSIDAD AUTONOMA DE MEXICO                               140
CIENCIAS FORENCES  TSJDF                                      80
UNIVERSIDAD WESTHILL                                          44
CENTRO CULTURAL UNIVERSITYARIO JUSTO SIERRA                   38
UNIVERSIDAD NACIONAL AUTONIOMA DE MEXICO                      33
CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA                    32
INSTITUTO DE CIENCIAS  FORENSES  DEL  D.F.                    31
UNIVERSIDAD ANAHUAC                                           27
SECRETARIA DE EDUCACION PUBLICA                               18
UNIVERSIDAD NACIONAL  AUT

Institución_expediente


S/N        12
1          10
4          10
3          10
7           9
           ..
331/19      1
415/19      1
67`18       1
69`18       1
14/2022     1
Name: Institución_expediente, Length: 5462, dtype: int64

Folio Boleta de inhumación


Se Ignora    25
             16
0            13
10967         4
S/N           4
             ..
1984          1
1983          1
1982          1
2058          1
10054         1
Name: Folio Boleta de inhumación, Length: 6054, dtype: int64

Folio Certificado de muerte fetal


Se Ignora     56
Se Ignora     28
              15
0             13
S/N           11
              ..
2607           1
2598           1
2524           1
2518           1
16588          1
Name: Folio Certificado de muerte fetal, Length: 6218, dtype: int64

Carpeta en donde se ubica la información


          918
55        840
51        374
50        368
47        324
52        313
43        280
41        261
31        258
42        246
46        236
40        221
39        219
38        202
33        201
30        198
44        193
45        188
36        188
32        187
53        176
49        174
34        160
37        150
54        136
56         55
No va       1
Name: Carpeta en donde se ubica la información, dtype: int64

In [44]:
col_inst = ['Institución_origen', 'Institución_expediente']

replace_inst = {'INSTITUTO DE CIENCIAS FORENSES DE LA CDMX':'INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
                  'CIENCIAS FORENSES DEL PODER JUDICIAL':'INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
                  'INSTITUTO DE CIENCIAS FORENSES DE LA CDMX COVID -19':'INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
                  'INSTITUTO POLITECNICO NACIONAL ':'INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA',
                  'UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO ':'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
                  'UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO':'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
                  'INSTITUTO POLITECNICO NACIONAL':'INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA',
                  'UNIVERSIDAD AUTONOMA DE MEXICO':'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
                  'CIENCIAS FORENCES  TSJDF ':'INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
                  'UNIVERSIDAD WESTHILL':'UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA',
                  'CENTRO CULTURAL UNIVERSITYARIO JUSTO SIERRA ':'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA',
                  'UNIVERSIDAD NACIONAL AUTONIOMA DE MEXICO ':'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
                  'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA ':'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA',
                  'INSTITUTO DE CIENCIAS  FORENSES  DEL  D.F.':'INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
                  'UNIVERSIDAD ANAHUAC ':'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
                  'SECRETARIA DE EDUCACION PUBLICA ':'SECRETARÍA DE EDUCACIÓN PÚBLICA',
                  'UPAEP':'UNIVERSIDAD POPULAR AUTÓNOMA DEL ESTADO DE PUEBLA',
                  'UNIVERSIDAD DE CELAYA ':'ESCUELA DE MEDICINA DE LA UNIVERSIDAD DE CELAYA',
                  'CENTRO CULTURAL UNIVERSITARIO':'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA',
                  'S/N ':'',
                  'Se Ignora':'',
                  '':'',
                  '0':'',
                  'S/N ':'',
                  '?':'',
                  'Se Ignora':'',
                  'Se Ignora ':'',
                  '':'',
                  '0':'',
                  'S/N ':'',
                  'S/F':'',
                'No va ':'',
                  'UNIVERSIDAD NACIONAL  AUTONOMA  DE  MEXICO  ':'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
                  'UNIVERSIDAD ANAHUAC MEXICO ':'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
                  'ESCUELA MILITAR DE MEDICINA ':'SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA',
                  'UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO  ':'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
                  'ESCUELA  MEDICO  MILITAR ':'SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA',
                  'SECRETARIA DE EDUCACION PUBLICA':'SECRETARÍA DE EDUCACIÓN PÚBLICA',
                  'UNIVERSIDAD TOMINAGA NAKAMOTO':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'UNIVERSIDAD WESTHILL ':'UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA',
                  'ESCUELA LIBRE DE HOMEOPATIA DE MEXICO ':'INSTITUCIÓN DE ASISTENCIA PRIVADA - ESCUELA LIBRE DE HOMEOPATÍA DE MÉXICO',
                  'UNIVERSIDAD TOMINAGA NAKAMOTO,S.C.':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'UNIVERSIDAD POPULAR AUTONOMA DEL ESTADO DE PUEBLA ':'UNIVERSIDAD POPULAR AUTÓNOMA DEL ESTADO DE PUEBLA',
                  'UNIVERSIDAD DEL EJERCITO Y FUERZA AEREA ':'SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA',
                  'ST. LUKE ESCUELA DE MEDICINA ':'ESCUELA DE MEDICINA SAINT LUKE',
                  'UNIVERSIDAD ANAHUAC MEXICO':'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
                  'UNIVERSIDAD ANAHUAC':'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
                  'UNIVERSIDAD  ANAHUAC ':'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
                   'UNIVERSIDAD  WESTHILL':'UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA',
                  'UNIVERSIDAD WESTILL':'UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA',
                  'UNIVERSIDAD TOMINAGA NAKAMOTO,S.C.':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'SECRETARIA DE LA DEFENSA NACIONAL ':'SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA',
                  'ESCUELA LIBRE DE HOMEOPATIA DE MEXICO':'INSTITUCIÓN DE ASISTENCIA PRIVADA - ESCUELA LIBRE DE HOMEOPATÍA DE MÉXICO',
                  'PROCURADURIA GENERAL DE LA REPUBLICA ':'PROCURADURÍA GENERAL DE LA REPÚBLICA',
                  'UNIVERSIDAD TOMINAGA NAKAMOTO, S.C. ':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'UNIVERSIDAD TOMINAGA NAKAMOTO,S.C. ':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'UNIVERSIDAD TOMINAGA TOMINAGA':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'CENTRO MEDICO , A. B. C. ':'THE AMERICAN BRITISH COWDRAY MEDICAL CENTER LA.P.',
                  'SUBPROCURADURIA ESPECIALIZADA EN DELINCUENCIA ORGANIZADA':'SUBPROCURADURÍA ESPECIALIZADA EN DELINCUENCIA ORGANIZADA (SEIDO)',
                  'UNIVERSIDAD  TOMINADA  NAKAMOTO ':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'CENTRO  MEDICO  ABC ':'THE AMERICAN BRITISH COWDRAY MEDICAL CENTER LA.P.',
                  'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'UNIVERSIDAD TOMINAGA NAKAMOTO, S. C. ':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                   'UNIVERSIDAD TOMINAGA NAKAMOTO ':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                  'UNIVESIDAD TOMINAGA NAKAMOTO ':'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
                 }

# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_fuente:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_inst)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Institución_origen


['INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
 'INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA',
 'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
 'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA',
 'UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA',
 'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
 'SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA',
 'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
 'SECRETARÍA DE EDUCACIÓN PÚBLICA',
 'UNIVERSIDAD POPULAR AUTÓNOMA DEL ESTADO DE PUEBLA',
 'ESCUELA DE MEDICINA SAINT LUKE',
 'INSTITUCIÓN DE ASISTENCIA PRIVADA - ESCUELA LIBRE DE HOMEOPATÍA DE MÉXICO',
 'ESCUELA DE MEDICINA DE LA UNIVERSIDAD DE CELAYA',
 'THE AMERICAN BRITISH COWDRAY MEDICAL CENTER LA.P.',
 'SUBPROCURADURÍA ESPECIALIZADA EN DELINCUENCIA ORGANIZADA (SEIDO)',
 'PROCURADURÍA GENERAL DE LA REPÚBLICA']

Remplazando columna: Institución_expediente


['',
 '1',
 '3',
 '4',
 '5',
 '7',
 '6',
 '2',
 '10',
 '1699',
 '9',
 '11',
 '3803',
 '4716',
 '8',
 '4474',
 '3192',
 '1540',
 '2767',
 '3047',
 '1709',
 '4482',
 '2616',
 '599',
 '449']

Remplazando columna: Folio Boleta de inhumación


['',
 '4608',
 '193',
 '6617',
 '4567',
 '384',
 '3768',
 '10967',
 '245',
 '4092',
 '7450',
 '7166',
 '10968',
 '6878',
 '152',
 '7451',
 '2969',
 '43010',
 '661',
 '1779',
 '2565',
 '14478',
 '1144',
 '14370',
 '3402']

Remplazando columna: Folio Certificado de muerte fetal


['',
 '9903',
 '2604',
 '3777',
 '1144',
 '2616',
 '1985',
 '2553',
 '2552',
 '4061',
 '1380',
 '6548',
 '5198',
 '10527',
 '5199',
 '14112',
 '3538',
 '1988',
 '32808',
 '5191',
 '15414',
 '15420',
 '4193',
 '1086',
 '25119']

Remplazando columna: Carpeta en donde se ubica la información


['',
 '55',
 '51',
 '50',
 '47',
 '52',
 '43',
 '41',
 '31',
 '42',
 '46',
 '40',
 '39',
 '38',
 '33',
 '30',
 '44',
 '45',
 '36',
 '32',
 '53',
 '49',
 '34',
 '37',
 '54']

In [45]:
df['Zona'].unique()

array(['5a  clase ', '1900-02-14 00:00:00', '5 clase'], dtype=object)

In [46]:
col_zona = [ 'Zona']

replace_zona = {'5a  clase ':'5a clase',
                '1900-02-14 00:00:00':'5a clase',
                '5 clase':'5a clase',
              }
    
# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_zona:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_zona)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Zona


['5a clase']

In [47]:
df['Línea'].unique()

array(['1', '2 BIS', '2 Bis', '2BIS', '2 Bis ', '2 BIS ', '2 B IS',
       '2  BIS', '80', '2 bis', '2', '21', '3', '15', '2 B ', '2 b ',
       '2b', '26', '2b '], dtype=object)

In [48]:
col_linea = ['Línea']

replace_linea = {'2 BIS':'2 BIS',
                 '2 Bis':'2 BIS',
                 '2BIS':'2 BIS',
                 '2 Bis ':'2 BIS',
                 '2 BIS ':'2 BIS',
                 '2 B IS':'2 BIS',
                 '2  BIS':'2 BIS',
                 '2 bis':'2 BIS',
                 '2 B ':'2 BIS',
                 '2 b ':'2 BIS',
                 '2b':'2 BIS',
                 '2b ':'2 BIS',
              }
    
# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_linea:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_linea)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Línea


['1', '2 BIS', '2', '3', '80', '15', '21', '26']

In [49]:
df['Fosa'].unique()

array(['61', '65', '66', '69', '34', '40', '37', '38', '32', '36', '70',
       '30', '71', '73', '72', '75', '43', '42', '47', '7', '80', '49',
       '41', '83', '46', '40 BIS', '81', '4 bis', '4 BIS', '44', '76',
       '51', '48', '45', '50', '35', '25', '24', '33', '23', '31', '22',
       '29', '21', '1', '18', '20', '26', '17', '16', '19', '15', '12',
       '4', '14', '3', '10', '11', '2', '9', '8', '5'], dtype=object)

In [50]:
col_fosa = ['Fosa']

replace_fosa = {'4 bis':'4 BIS',
              }
    
# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_fosa:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_fosa)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Fosa


['16',
 '15',
 '14',
 '42',
 '17',
 '71',
 '73',
 '83',
 '80',
 '4',
 '43',
 '40',
 '66',
 '31',
 '19',
 '2',
 '38',
 '70',
 '30',
 '75',
 '47',
 '41',
 '11',
 '21',
 '34']

In [51]:
df['Nivel'].unique()

array(['21', '22', '3', '1', '2', '4', '5', '6', '7', '8', '10', '11',
       '60', '12', '13', '9', '14', '16', '15', '17', '18', '19', '20',
       '70'], dtype=object)

In [52]:
df['Profundidad'].unique()

array(['150', '200', '', '250', '240', '180', '350', '3000', '100', '900',
       '80', '280', '90', '220', '300', '190', '3', '290', '228',
       'Desconocido', '260', '"', nan, '160', '2', '1800', '120', '170',
       '340', '320', '400', '50', '40', '4', '1.7', '2.2', '2.3', '2.5',
       '1.9', '1.5', '1.2'], dtype=object)

In [53]:
col_profundidad = ['Profundidad']

df[col_profundidad] = df[col_profundidad].fillna('')

df['Profundidad'].unique()

array(['150', '200', '', '250', '240', '180', '350', '3000', '100', '900',
       '80', '280', '90', '220', '300', '190', '3', '290', '228',
       'Desconocido', '260', '"', '160', '2', '1800', '120', '170', '340',
       '320', '400', '50', '40', '4', '1.7', '2.2', '2.3', '2.5', '1.9',
       '1.5', '1.2'], dtype=object)

In [54]:
replace_porf = { '1.7':'170', 
                        '2.2':'220', 
                        '2.3':'230', 
                        '2.5':'250', 
                        '1.9':'190', 
                        '1.5':'150', 
                        '1.2':'120',
                'Desconocido':'',
              }
    
# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_profundidad:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_porf)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Profundidad


['200',
 '250',
 '',
 '150',
 '180',
 '280',
 '100',
 '300',
 '350',
 '90',
 '80',
 '290',
 '190',
 '"',
 '240',
 '3',
 '220',
 '120',
 '50',
 '3000',
 '170',
 '160',
 '230',
 '320',
 '400']

In [55]:
df['Sexo'].unique()

array(['Masculino', 'Femenino', 'Indeterminado', nan, 'Se Ignora',
       'Indeterminado ', 'Se ignora ', 'Desconocido', 'Se desconoce'],
      dtype=object)

In [56]:
col_sexo = ['Sexo']

df[col_sexo] = df[col_sexo].fillna('')

df['Sexo'].unique()

array(['Masculino', 'Femenino', 'Indeterminado', '', 'Se Ignora',
       'Indeterminado ', 'Se ignora ', 'Desconocido', 'Se desconoce'],
      dtype=object)

In [57]:
replace_sexo = { 'Masculino':'Masculino',
                'Femenino':'Femenino',
                'Indeterminado':'Indeterminado',
                '':'Indeterminado',
                'Se Ignora':'Indeterminado',
                'Indeterminado ':'Indeterminado',
                'Se ignora ':'Indeterminado',
                'Desconocido':'Indeterminado',
                'Se desconoce':'Indeterminado',
              }
    
# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_sexo:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_sexo)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Sexo


['Masculino', 'Femenino', 'Indeterminado']

## Limpiando nombres

Dependiendo del tipo de dato se pueden hacer diferentes operaciones. Por ejemplo, se puede pasar a mayusculas un texto pero no un número, se puede obtener el año de una fecha pero no de un texto

Por ejemplo, pensemos que queremos que las instituciones de origen no esten todas en mayusculas, sino solo la primera letra de la palabra.

Para hacer esto seleccionaremos la columna de interes, y luego aplicaremos la función `.str.title()`. 

**Nota**: existen varias funciones para mayusculas y minusculas como `.upper()`, `.lower()`, `.capitalize()` y `.title()`

Existen funciones que no se encuentran en pandas pero que pueden ser utiles. Por ejemplo, para quitar los acentos es posible con la función `unidecode()`, la cual es parte de la biblioteca `unidecode`.

In [58]:
#!pip install unidecode

In [59]:
texto= 'México'
from unidecode import unidecode
unidecode('México')

'Mexico'

In [60]:
def limpiar_texto(s):
    # checar el tipo
    if type(s)==str: # esto solo se ejecutará si es un string
        ### aqui agrega tus pasos de limpieza 
        s = unidecode(s) #quitar acento
        s = ' '.join( s.split() ) #quitar espacios extra
        s = s.title() #primera letra en mayuscula
    else: # esto se ejecutará si NO es un string
        s = s #devolveremos la entrada sin modificaciones, pero puedes cambiar esto
    return s
    
limpiar_texto(texto)

'Mexico'

In [61]:
df.columns

Index(['Cargables', 'Estatus_FC', 'Fecha_inhumación', 'Fecha_defunción',
       'Fecha_exhumación', 'Restos_tipo', 'Sexo', 'Edad', 'Zona', 'Línea',
       'Fosa', 'Nivel', 'Profundidad', 'Conocido o Desconocido', 'Nombre(s)',
       'Apellido_paterno', 'Apellido_materno', 'Nombre_completo',
       'Nombre_alternativa', 'C.I._AVP', 'Institución_origen',
       'Institución_expediente', 'Folio Boleta de inhumación',
       'Folio Certificado de muerte fetal',
       'Carpeta en donde se ubica la información', 'Observaciones'],
      dtype='object')

In [62]:
col_lim = ['Nombre(s)', 'Apellido_paterno', 'Apellido_materno', 'Nombre_completo',
       'Nombre_alternativa']

In [63]:
for col in col_lim:
    print('Limpieza de texto:', col)
    df[col] = df[col].apply( limpiar_texto )
df.tail()

Limpieza de texto: Nombre(s)
Limpieza de texto: Apellido_paterno
Limpieza de texto: Apellido_materno
Limpieza de texto: Nombre_completo
Limpieza de texto: Nombre_alternativa


Unnamed: 0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
7062,1,Inhumación,2023-07-25 00:00:00,2023-07-05 00:00:00,,Cadáver,Masculino,Se Ignora,5a clase,2,...,Diaz,Crisogono Garcia Diaz,,CI-FIIZC/UAT-IZC-2/UI-1S/D/03831/07-2023,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,2820,422,15708,,SEPSIS
7063,1,Inhumación,2023-07-25 00:00:00,2023-07-05 00:00:00,,Cadáver,Masculino,Se Ignora,5a clase,2,...,Diaz,Ismael Cardoso Diaz,,CI-FIMH/H1/UI-1S/D/00116/07-2023,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,2823,423,15718,,NEUMONIA BILATERAL NO TRAUMATICA
7064,1,Inhumación,2023-07-25 00:00:00,2023-07-06 00:00:00,,Cadáver,Masculino,Se Ignora,5a clase,2,...,Romero,Cristian Tadeo Perez Romero,,CI-FICUH/CUH-4/UI-1S/D/00598/07-2023,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,2829,424,15710,,SEPSIS COMPLICACION DETERMINADA POR TRAUMA OCULAR
7065,1,Inhumación,2023-08-02 00:00:00,2022-08-18 00:00:00,,Cadáver,Masculino,67,5a clase,2 BIS,...,Lopez,Jesus Diaz Lopez,,CI-FIIZC/UAT-IZC-2/UI-1S/D/04823/08-2023,UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE ...,13/2022,10046,16589,,EDEMA PULMONAR EN UN SUJETO CON CIRROSIS
7066,1,Inhumación,2023-08-02 00:00:00,2023-08-13 00:00:00,,Cadáver,Masculino,64,5a clase,2 BIS,...,,Alejandro Munoz N,,CI-FIGAM/UAT-GAM-2/UI-1S/D/02462/08-2023,UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE ...,14/2022,10054,16588,,INFARTO AL MIOCARDIO


In [64]:
for col in col_lim:
    print(col)
    display( df[col].value_counts(dropna=False).index.tolist()[0:5] )

Nombre(s)


['', 'Jose', 'Juan', 'Antonio', 'Jose Luis']

Apellido_paterno


['', 'Hernandez', 'Garcia', 'Martinez', 'Gonzalez']

Apellido_materno


['', 'Hernandez', 'Garcia', 'Lopez', 'Martinez']

Nombre_completo


['', 'N N N', 'Juan N N', 'Vazquez', 'Javier N N']

Nombre_alternativa


[nan]

In [65]:
df['Nombre(s)'].unique() [0:40]

array(['', 'Sebastian', 'Juvencio', 'Trinidad', 'Pedro', 'Adrian',
       'Tomas', 'Perfecto', 'Miguel Angel', 'Remedios', 'Victor',
       'Antonio', 'Ernesto David', 'Jose Alberto', 'Alfonso', 'Jose Luis',
       'Paulino', 'Andres', 'Fermin', 'Domiongo', 'Rodolfo', 'Daniel',
       'Gilberto', 'Edgar Antonio', 'Margarita', 'Jose Juan', 'Juan',
       'Inocencio', 'Juan Ivan', 'Jose Ramon', 'Karla Cristina', 'Carlos',
       'Agustin', 'Juan Carlos', 'Francisco Javier', 'Soledad',
       'Cesar Leonardo', 'Angel', 'Juana', 'Adriana'], dtype=object)

In [66]:
df['Apellido_paterno'].unique() [0:40]

array(['', 'Martinez', 'Gomez', 'Munoz', 'Hernandez', 'Contreras',
       'Zamarripa', 'Cen', 'Sanchez', 'Perez', 'Lopez', 'Alfaro',
       'Aguilar', 'Guerrero', 'Lorenzo', 'Cordero', 'Tirado', 'Nunez',
       'Ron', 'Cano', 'Lucaz', 'Romano', 'Bernardez', 'Benitez', 'Reyes',
       'Angeles', 'Labastida', 'Rivera', 'Moreno', 'Palacios', 'Vazquez',
       'Romero', 'Rivas', 'Gonzalez', 'Anselmo', 'Salomon', 'Leyva',
       'Del Sangel', 'Meza', 'Gallardo'], dtype=object)

In [67]:
df['Apellido_materno'].unique() [0:40]

array(['', 'Hernandez', 'Estrada', 'Dominguez', 'Picazo', 'Lopez',
       'Matus', 'Castaneda', 'Raygoza', 'Celis', 'Osorio', 'Trinidad',
       'Esquivel', 'Raya', 'Cruz', 'Garcia', 'Patino', 'Rios',
       'Sibforiano', 'Gonzales', 'Sanchez', 'Alanis', 'Corona', 'Moreno',
       'Morales', 'Martinez', 'Vazquez', 'Sandoval', 'Valencia',
       'Gonzalez', 'Perez', 'Olivares', 'Santillan', 'Joaquin', 'Tornado',
       'Montoya', 'Guevara', 'Rodriguez', 'Luzan', 'Olivar'], dtype=object)

In [68]:
df['Nombre_alternativa'].unique() [0:40]

array([nan])

## Limpiando restos y edad

In [69]:
df['Restos_tipo'].unique() [0:40]

array(['Cadáver', 'Feto', 'Miembros', 'Restos humanos', 'Restos óseos'],
      dtype=object)

In [70]:
df['Edad'].unique()

array(['45', '49', '35', '30', '48', '88', '51', '62', '67', '60', '40',
       '55', '34', '78', '99', '85', '74', '80', '46', '36', '79', '38',
       '53', '81', '70', '54', '42', 'Se Ignora', '42  SEMANAS ', '32',
       '27', '17', '25', '44', '22', '77', '50', '24 SEMANAS ',
       '38 SEMANAS ', '76', '33', '24', '15', '21', '4638', '4852',
       '4880', '4892', '4900', '4903', '4912', '4914', '4918', '8', '10',
       '23', '59', '71', '52', '72', '24.8 semanas', '19', '16', '28',
       '41', '2', '39', '65', '57', '75', '20 SEMANAS ', '12', '87', '96',
       '93', '37', '83', '86', '63', '68', '66', '64', '69', '58', '91',
       '90', '84', '82', '22 SEMANAS', '25 SEMANAS ', '31', '3', '47',
       '05 SEMANAS ', '21 SEMANAS ', '06 SEMANAS ', '20 SEMANA S', '20',
       '103', '32 semanas ', '11.2 semanas ', '17  semanas ', '89', '26',
       '94', '73', '29', '40 Semanas ', '20  Semanas ', '56', '18',
       '23 SEMANAS ', '61', '36 SEMANAS', '38 SEMANAS', '31- SEMANAS ',

In [71]:
def limpiar_edad(s):
    # checar el tipo
    if type(s)==str: # esto solo se ejecutará si es un string
        ### aqui agrega tus pasos de limpieza 
        s = unidecode(s) #quitar acento
        s = ' '.join( s.split() ) #quitar espacios extra
        s = s.lower() # letras en minúsculas
    else: # esto se ejecutará si NO es un string
        s = s #devolveremos la entrada sin modificaciones, pero puedes cambiar esto
    return s

In [72]:
col_edad = ['Edad']

for col in col_edad:
    print('Limpieza de texto:', col)
    df[col] = df[col].apply( limpiar_edad )
df.tail()

Limpieza de texto: Edad


Unnamed: 0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Apellido_materno,Nombre_completo,Nombre_alternativa,C.I._AVP,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
7062,1,Inhumación,2023-07-25 00:00:00,2023-07-05 00:00:00,,Cadáver,Masculino,se ignora,5a clase,2,...,Diaz,Crisogono Garcia Diaz,,CI-FIIZC/UAT-IZC-2/UI-1S/D/03831/07-2023,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,2820,422,15708,,SEPSIS
7063,1,Inhumación,2023-07-25 00:00:00,2023-07-05 00:00:00,,Cadáver,Masculino,se ignora,5a clase,2,...,Diaz,Ismael Cardoso Diaz,,CI-FIMH/H1/UI-1S/D/00116/07-2023,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,2823,423,15718,,NEUMONIA BILATERAL NO TRAUMATICA
7064,1,Inhumación,2023-07-25 00:00:00,2023-07-06 00:00:00,,Cadáver,Masculino,se ignora,5a clase,2,...,Romero,Cristian Tadeo Perez Romero,,CI-FICUH/CUH-4/UI-1S/D/00598/07-2023,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,2829,424,15710,,SEPSIS COMPLICACION DETERMINADA POR TRAUMA OCULAR
7065,1,Inhumación,2023-08-02 00:00:00,2022-08-18 00:00:00,,Cadáver,Masculino,67,5a clase,2 BIS,...,Lopez,Jesus Diaz Lopez,,CI-FIIZC/UAT-IZC-2/UI-1S/D/04823/08-2023,UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE ...,13/2022,10046,16589,,EDEMA PULMONAR EN UN SUJETO CON CIRROSIS
7066,1,Inhumación,2023-08-02 00:00:00,2023-08-13 00:00:00,,Cadáver,Masculino,64,5a clase,2 BIS,...,,Alejandro Munoz N,,CI-FIGAM/UAT-GAM-2/UI-1S/D/02462/08-2023,UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE ...,14/2022,10054,16588,,INFARTO AL MIOCARDIO


In [73]:
df['Edad'].unique()

array(['45', '49', '35', '30', '48', '88', '51', '62', '67', '60', '40',
       '55', '34', '78', '99', '85', '74', '80', '46', '36', '79', '38',
       '53', '81', '70', '54', '42', 'se ignora', '42 semanas', '32',
       '27', '17', '25', '44', '22', '77', '50', '24 semanas',
       '38 semanas', '76', '33', '24', '15', '21', '4638', '4852', '4880',
       '4892', '4900', '4903', '4912', '4914', '4918', '8', '10', '23',
       '59', '71', '52', '72', '24.8 semanas', '19', '16', '28', '41',
       '2', '39', '65', '57', '75', '20 semanas', '12', '87', '96', '93',
       '37', '83', '86', '63', '68', '66', '64', '69', '58', '91', '90',
       '84', '82', '22 semanas', '25 semanas', '31', '3', '47',
       '05 semanas', '21 semanas', '06 semanas', '20 semana s', '20',
       '103', '32 semanas', '11.2 semanas', '17 semanas', '89', '26',
       '94', '73', '29', '40 semanas', '56', '18', '23 semanas', '61',
       '36 semanas', '31- semanas', '98', '97', '4', '37 semanas',
       '14 sem

In [74]:
df[col_edad] = df[col_edad].fillna('')

replace_edad = { 'se ignora':'',
                '05 semanas':'5 semanas',
                '06 semanas':'6 semanas', 
                '20 semana s':'20 semanas',
                '31- semanas':'31 semanas',
                '1 dia':'1 día',
                '8 dias':'8 días',
                '5 dias':'5 días',
                '19 semana s':'19 semanas',
              }
    
# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_edad:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_edad)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Edad


['',
 '50',
 '40',
 '60',
 '45',
 '70',
 '30',
 '35',
 '65',
 '55',
 '25',
 '80',
 '85',
 '71',
 '69',
 '82',
 '78',
 '75',
 '77',
 '66',
 '74',
 '68',
 '64',
 '67',
 '62']

In [75]:
df['Edad'].unique()

array(['45', '49', '35', '30', '48', '88', '51', '62', '67', '60', '40',
       '55', '34', '78', '99', '85', '74', '80', '46', '36', '79', '38',
       '53', '81', '70', '54', '42', '', '42 semanas', '32', '27', '17',
       '25', '44', '22', '77', '50', '24 semanas', '38 semanas', '76',
       '33', '24', '15', '21', '4638', '4852', '4880', '4892', '4900',
       '4903', '4912', '4914', '4918', '8', '10', '23', '59', '71', '52',
       '72', '24.8 semanas', '19', '16', '28', '41', '2', '39', '65',
       '57', '75', '20 semanas', '12', '87', '96', '93', '37', '83', '86',
       '63', '68', '66', '64', '69', '58', '91', '90', '84', '82',
       '22 semanas', '25 semanas', '31', '3', '47', '5 semanas',
       '21 semanas', '6 semanas', '20', '103', '32 semanas',
       '11.2 semanas', '17 semanas', '89', '26', '94', '73', '29',
       '40 semanas', '56', '18', '23 semanas', '61', '36 semanas',
       '31 semanas', '98', '97', '4', '37 semanas', '14 semanas',
       '19 semanas', '43', 

In [76]:
df['Edad_int'] = pd.to_numeric(df['Edad'], errors="ignore")
df['Edad_int'].unique()

array(['45', '49', '35', '30', '48', '88', '51', '62', '67', '60', '40',
       '55', '34', '78', '99', '85', '74', '80', '46', '36', '79', '38',
       '53', '81', '70', '54', '42', '', '42 semanas', '32', '27', '17',
       '25', '44', '22', '77', '50', '24 semanas', '38 semanas', '76',
       '33', '24', '15', '21', '4638', '4852', '4880', '4892', '4900',
       '4903', '4912', '4914', '4918', '8', '10', '23', '59', '71', '52',
       '72', '24.8 semanas', '19', '16', '28', '41', '2', '39', '65',
       '57', '75', '20 semanas', '12', '87', '96', '93', '37', '83', '86',
       '63', '68', '66', '64', '69', '58', '91', '90', '84', '82',
       '22 semanas', '25 semanas', '31', '3', '47', '5 semanas',
       '21 semanas', '6 semanas', '20', '103', '32 semanas',
       '11.2 semanas', '17 semanas', '89', '26', '94', '73', '29',
       '40 semanas', '56', '18', '23 semanas', '61', '36 semanas',
       '31 semanas', '98', '97', '4', '37 semanas', '14 semanas',
       '19 semanas', '43', 

## 3.5 Limpieza de categóricos

En general se considera que un dato es categorico cuando hay pocas posibilidades definidas. Una aproximación rápida es que tenga menos de diez opciones de texto. Sin embargo esta no es una regla dura, por ejemplo el catálogo del INEGI de Estados, Municipios y Localidades tiene miles de opciones.

In [77]:
df.columns

Index(['Cargables', 'Estatus_FC', 'Fecha_inhumación', 'Fecha_defunción',
       'Fecha_exhumación', 'Restos_tipo', 'Sexo', 'Edad', 'Zona', 'Línea',
       'Fosa', 'Nivel', 'Profundidad', 'Conocido o Desconocido', 'Nombre(s)',
       'Apellido_paterno', 'Apellido_materno', 'Nombre_completo',
       'Nombre_alternativa', 'C.I._AVP', 'Institución_origen',
       'Institución_expediente', 'Folio Boleta de inhumación',
       'Folio Certificado de muerte fetal',
       'Carpeta en donde se ubica la información', 'Observaciones',
       'Edad_int'],
      dtype='object')

In [78]:
col_cat = ['Estatus_FC', 'Restos_tipo', 'Sexo', 'Zona', 'Conocido o Desconocido', 'Institución_origen']

# este es el mismo comando que usamos para ver col_str, pero cambiamos la lista que se usará
for col in col_cat:
    print(col)
    display( df[col].value_counts(dropna=False).index.tolist() )

Estatus_FC


['Inhumación']

Restos_tipo


['Cadáver', 'Miembros', 'Feto', 'Restos humanos', 'Restos óseos']

Sexo


['Masculino', 'Femenino', 'Indeterminado']

Zona


['5a clase']

Conocido o Desconocido


['Conocido', '', 'Desconocido']

Institución_origen


['INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPERIOR DE JUSTICIA DE LA CIUDAD DE MÉXICO',
 'INSTITUTO POLITÉCNICO NACIONAL - ESCUELA NACIONAL DE MEDICINA Y HOMEOPATÍA',
 'UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACULTAD DE MEDICINA',
 'CENTRO CULTURAL UNIVERSITARIO JUSTO SIERRA',
 'UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA',
 'UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE LA SALUD',
 'SECRETARÍA DE LA DEFENSA NACIONAL - ESCUELA MILITAR DE MEDICINA',
 'UNIVERSIDAD TOMINAGA NAKAMOTO S.C. ESCUELA DE MEDICINA CIENCIAS BÁSICAS',
 'SECRETARÍA DE EDUCACIÓN PÚBLICA',
 'UNIVERSIDAD POPULAR AUTÓNOMA DEL ESTADO DE PUEBLA',
 'ESCUELA DE MEDICINA SAINT LUKE',
 'INSTITUCIÓN DE ASISTENCIA PRIVADA - ESCUELA LIBRE DE HOMEOPATÍA DE MÉXICO',
 'ESCUELA DE MEDICINA DE LA UNIVERSIDAD DE CELAYA',
 'THE AMERICAN BRITISH COWDRAY MEDICAL CENTER LA.P.',
 'SUBPROCURADURÍA ESPECIALIZADA EN DELINCUENCIA ORGANIZADA (SEIDO)',
 'PROCURADURÍA GENERAL DE LA REPÚBLICA']

In [79]:
for col in col_cat:
    df[col] = df[col].astype("category")

Podemos ver que el tipo a cambiado

In [80]:
df.dtypes

Cargables                                     object
Estatus_FC                                  category
Fecha_inhumación                              object
Fecha_defunción                               object
Fecha_exhumación                              object
Restos_tipo                                 category
Sexo                                        category
Edad                                          object
Zona                                        category
Línea                                         object
Fosa                                          object
Nivel                                         object
Profundidad                                   object
Conocido o Desconocido                      category
Nombre(s)                                     object
Apellido_paterno                              object
Apellido_materno                              object
Nombre_completo                               object
Nombre_alternativa                           f

## 3.7 Limpieza de fechas

Las fechas se encuentran en formato `datetime64`, lo cual incluye, fecha y hora.
Este formato sigue el patrón: `yyyy-mm-dd hh:mm:ss`

En este conjunto las columnas de texto son:
* 'Fecha_inhumación'
* 'Fecha_defunción'
* 'Marca_temporal'

In [81]:
df.columns

Index(['Cargables', 'Estatus_FC', 'Fecha_inhumación', 'Fecha_defunción',
       'Fecha_exhumación', 'Restos_tipo', 'Sexo', 'Edad', 'Zona', 'Línea',
       'Fosa', 'Nivel', 'Profundidad', 'Conocido o Desconocido', 'Nombre(s)',
       'Apellido_paterno', 'Apellido_materno', 'Nombre_completo',
       'Nombre_alternativa', 'C.I._AVP', 'Institución_origen',
       'Institución_expediente', 'Folio Boleta de inhumación',
       'Folio Certificado de muerte fetal',
       'Carpeta en donde se ubica la información', 'Observaciones',
       'Edad_int'],
      dtype='object')

In [82]:
col_date = ['Fecha_inhumación', 'Fecha_defunción','Fecha_exhumación']

for col in col_date:
    print(col)
    display( df[col].value_counts(dropna=False).index.tolist()[0:5] )

Fecha_inhumación


['2019-03-30 00:00:00',
 '2023-04-17 00:00:00',
 '2017-05-13 00:00:00',
 '2016-04-30 00:00:00',
 '2018-07-07 00:00:00']

Fecha_defunción


['2019-12-28 00:00:00',
 '2019-11-28 00:00:00',
 'Se Ignora ',
 '2017-05-20 00:00:00',
 '2016-02-18 00:00:00']

Fecha_exhumación


[nan]

In [83]:
df['Fecha_inhumación'].unique()

array(['2015-12-12 00:00:00', '2015-12-17 00:00:00',
       '2015-12-19 00:00:00', '2016-01-16 00:00:00',
       '2016-01-19 00:00:00', '2016-01-23 00:00:00',
       '2016-02-05 00:00:00', '2016-01-27 00:00:00',
       '2016-02-13 00:00:00', '2016-02-20 00:00:00',
       '2016-03-03 00:00:00', '2016-03-05 00:00:00',
       '2016-03-18 00:00:00', '2016-04-09 00:00:00',
       '2016-04-30 00:00:00', '2016-11-06 00:00:00',
       '2016-05-13 00:00:00', '2016-05-14 00:00:00',
       '2016-05-19 00:00:00', '2016-05-21 00:00:00',
       '2016-05-31 00:00:00', '2016-06-01 00:00:00',
       '2016-06-11 00:00:00', '2016-06-18 00:00:00',
       '2016-06-22 00:00:00', '2016-06-25 00:00:00',
       '2016-07-02 00:00:00', '2016-07-07 00:00:00',
       '2016-07-08 00:00:00', '2016-07-23 00:00:00',
       '2016-07-25 00:00:00', '2016-08-08 00:00:00',
       '2016-08-26 00:00:00', '2016-08-27 00:00:00',
       '2016-09-03 00:00:00', '2016-09-10 00:00:00',
       '2016-09-21 00:00:00', '2016-10-01 00:0

In [84]:
df['Fecha_defunción'].unique()

array(['2015-12-05 00:00:00', '2014-10-20 00:00:00',
       '2014-10-21 00:00:00', ..., '2023-06-30 00:00:00',
       '2023-07-02 00:00:00', '2023-08-13 00:00:00'], dtype=object)

In [85]:
col_fechadef = ['Fecha_defunción', 'Fecha_inhumación', 'Fecha_exhumación']

df[col_fechadef] = df[col_fechadef].fillna('')

replace_fechadef= { 'Se Ignora ':'',
                   'Se Ignora':'',
                   'S/F':'',
                   '?':'',
                   '24/11/207':'24/11/2007',
                   '23/17/2017':'23/07/2017',
                   '149/12/2017':'14/12/2017',
                   '20/22/2017':'20/12/2017',
                   '28-023-18':'28/02/2018',
                   'Se ignora':'',
                   'Deconocida':'',
                   'Se desconoce':'',
                   'Se ignora':'',
                   'Se ignora':'',
              }
    
# remplazamos con un for loop columna por columna, en lugar de usar selección
# esto es solo por ejemplo

for col in col_fechadef:
    print('Remplazando columna:', col)
    df[col] = df[col].replace(replace_fechadef)
    # veamos los cinco valores mas comunes de la columna despúes de la sustitución
    display( df[col].value_counts(dropna=False).index.tolist()[0:25] )

Remplazando columna: Fecha_defunción


['2019-12-28 00:00:00',
 '',
 '2019-11-28 00:00:00',
 '2017-05-20 00:00:00',
 '2016-02-18 00:00:00',
 '2015-12-05 00:00:00',
 '2015-11-21 00:00:00',
 '2016-01-13 00:00:00',
 '2016-05-21 00:00:00',
 '2017-05-29 00:00:00',
 '2015-12-25 00:00:00',
 '2015-08-29 00:00:00',
 '2016-02-21 00:00:00',
 '2015-05-13 00:00:00',
 '2018-01-17 00:00:00',
 '2015-12-31 00:00:00',
 '2021-02-06 00:00:00',
 '2021-08-11 00:00:00',
 '2016-10-24 00:00:00',
 '2016-06-29 00:00:00',
 '2022-01-31 00:00:00',
 '2015-11-06 00:00:00',
 '2015-05-28 00:00:00',
 '2022-04-09 00:00:00',
 '2022-01-06 00:00:00']

Remplazando columna: Fecha_inhumación


['2019-03-30 00:00:00',
 '2023-04-17 00:00:00',
 '2017-05-13 00:00:00',
 '2016-04-30 00:00:00',
 '2018-07-07 00:00:00',
 '2023-01-30 00:00:00',
 '2018-06-16 00:00:00',
 '2023-03-24 00:00:00',
 '2021-02-06 00:00:00',
 '2022-08-13 00:00:00',
 '2022-07-25 00:00:00',
 '2022-08-19 00:00:00',
 '2016-06-11 00:00:00',
 '2022-02-05 00:00:00',
 '2018-05-19 00:00:00',
 '2022-09-30 00:00:00',
 '2022-07-29 00:00:00',
 '2022-05-07 00:00:00',
 '2019-05-04 00:00:00',
 '2017-10-14 00:00:00',
 '2021-03-13 00:00:00',
 '2023-05-22 00:00:00',
 '2022-06-11 00:00:00',
 '2022-02-26 00:00:00',
 '2022-06-13 00:00:00']

Remplazando columna: Fecha_exhumación


['']

Convertiremos las fechas a datetime con `to_datetime()` y veremos en que casos fracasa la función.
Guardaremos el resultado en una columna con el sufijo `_date`.

**Nota:** Para entender esta función es muy importante ver en donde se agrega el modificador que indica una nueva columna

In [86]:
for col in col_date:
    print('Convirtiendo columna:' + col)
    df[col+'_date'] = pd.to_datetime(df[col], errors='coerce')
    display(df.loc[ (df[col].notna()) & (df[col+'_date'].isna()), [col, col+'_date'] ].drop_duplicates())

Convirtiendo columna:Fecha_inhumación


Unnamed: 0,Fecha_inhumación,Fecha_inhumación_date


Convirtiendo columna:Fecha_defunción


  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)
  cache_array = _maybe_cache(arg, format, cache, convert_listlike)


Unnamed: 0,Fecha_defunción,Fecha_defunción_date
407,,NaT
4393,Se ignora,NaT


Convirtiendo columna:Fecha_exhumación


Unnamed: 0,Fecha_exhumación,Fecha_exhumación_date
0,,NaT


## 3.8 Ordenar y guardar datos

Antes de guardar los datos veamos las columnas, esto nos dará una idea de que hemos hecho.

In [90]:
df.head()

Unnamed: 0,Cargables,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Zona,Línea,...,Institución_origen,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones,Edad_int,Fecha_inhumación_date,Fecha_defunción_date,Fecha_exhumación_date
0,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,45,5a clase,1,...,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,10*15,4270,4856,30,,45,2015-12-12,2015-12-05,NaT
1,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,49,5a clase,1,...,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,11*15,4271,4858,30,,49,2015-12-12,2015-12-05,NaT
2,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,35,5a clase,1,...,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,12*15,4272,4860,30,,35,2015-12-12,2015-12-05,NaT
3,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,30,5a clase,1,...,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,24*15,4273,4862,30,,30,2015-12-12,2015-12-05,NaT
4,,Inhumación,2015-12-12 00:00:00,2015-12-05 00:00:00,,Cadáver,Masculino,48,5a clase,1,...,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,25*15,4274,4864,30,,48,2015-12-12,2015-12-05,NaT


In [91]:
df.columns

Index(['Cargables', 'Estatus_FC', 'Fecha_inhumación', 'Fecha_defunción',
       'Fecha_exhumación', 'Restos_tipo', 'Sexo', 'Edad', 'Zona', 'Línea',
       'Fosa', 'Nivel', 'Profundidad', 'Conocido o Desconocido', 'Nombre(s)',
       'Apellido_paterno', 'Apellido_materno', 'Nombre_completo',
       'Nombre_alternativa', 'C.I._AVP', 'Institución_origen',
       'Institución_expediente', 'Folio Boleta de inhumación',
       'Folio Certificado de muerte fetal',
       'Carpeta en donde se ubica la información', 'Observaciones', 'Edad_int',
       'Fecha_inhumación_date', 'Fecha_defunción_date',
       'Fecha_exhumación_date'],
      dtype='object')

Al agregar columnas estas se ponen al final, por lo que sería bueno ordenarlas. Además, las columnas de fecha originales se parecen mucho a las procesadas, excepto por el cambio de formato. Entonces, podríamos quitar las originales para hacer mas pequeña la tabla. Este también es un buen momento para arrepentirse, por ejemplo quitaremos las columnas de 'diaaño'.

Dependiendo del análisis podemos quitar columnas. Por ejemplo, la columna de `Marca_temporal` y sus columnas derivadas describen cuando se hizo la captura de la información del panteón al MFC. Esto es útil si nos interesa la información administrativa del Módulo, pero no si estamos interesados en los datos demográficos de los restos en Fosa común. Por lo tanto en este caso quitaremos estas columnas.


In [95]:
df = df[['Cargables', 'Estatus_FC', 'Fecha_inhumación_date', 'Fecha_defunción_date',
       'Fecha_exhumación_date', 'Restos_tipo', 'Sexo', 'Edad', 'Edad_int', 'Zona', 'Línea',
       'Fosa', 'Nivel', 'Profundidad', 'Conocido o Desconocido', 
       'Apellido_paterno', 'Apellido_materno','Nombre(s)', 'Nombre_completo',
       'Nombre_alternativa',  'Institución_origen', 'C.I._AVP',
       'Institución_expediente', 'Folio Boleta de inhumación',
       'Folio Certificado de muerte fetal',
       'Carpeta en donde se ubica la información', 'Observaciones']]
df.tail()

Unnamed: 0,Cargables,Estatus_FC,Fecha_inhumación_date,Fecha_defunción_date,Fecha_exhumación_date,Restos_tipo,Sexo,Edad,Edad_int,Zona,...,Nombre(s),Nombre_completo,Nombre_alternativa,Institución_origen,C.I._AVP,Institución_expediente,Folio Boleta de inhumación,Folio Certificado de muerte fetal,Carpeta en donde se ubica la información,Observaciones
7062,1,Inhumación,2023-07-25,2023-07-05,NaT,Cadáver,Masculino,,,5a clase,...,Crisogono,Crisogono Garcia Diaz,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,CI-FIIZC/UAT-IZC-2/UI-1S/D/03831/07-2023,2820,422,15708,,SEPSIS
7063,1,Inhumación,2023-07-25,2023-07-05,NaT,Cadáver,Masculino,,,5a clase,...,Ismael,Ismael Cardoso Diaz,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,CI-FIMH/H1/UI-1S/D/00116/07-2023,2823,423,15718,,NEUMONIA BILATERAL NO TRAUMATICA
7064,1,Inhumación,2023-07-25,2023-07-06,NaT,Cadáver,Masculino,,,5a clase,...,Cristian Tadeo,Cristian Tadeo Perez Romero,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,CI-FICUH/CUH-4/UI-1S/D/00598/07-2023,2829,424,15710,,SEPSIS COMPLICACION DETERMINADA POR TRAUMA OCULAR
7065,1,Inhumación,2023-08-02,2022-08-18,NaT,Cadáver,Masculino,67.0,67.0,5a clase,...,Jesus,Jesus Diaz Lopez,,UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE ...,CI-FIIZC/UAT-IZC-2/UI-1S/D/04823/08-2023,13/2022,10046,16589,,EDEMA PULMONAR EN UN SUJETO CON CIRROSIS
7066,1,Inhumación,2023-08-02,2023-08-13,NaT,Cadáver,Masculino,64.0,64.0,5a clase,...,Alejandro,Alejandro Munoz N,,UNIVERSIDAD ANÁHUAC - FACULTAD DE CIENCIAS DE ...,CI-FIGAM/UAT-GAM-2/UI-1S/D/02462/08-2023,14/2022,10054,16588,,INFARTO AL MIOCARDIO


In [97]:
#!pip install ydata_profiling

from ydata_profiling import ProfileReport

file_profile = "profiles/MFC_profile_clean.html"
prof = ProfileReport(df, minimal=True) 
prof.to_file(output_file=file_profile)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [98]:
file_out = "data_clean/MFC_ActualizacionJul2024-vf_clean.csv"
df.to_csv(file_out)

In [99]:
from joblib import dump

file_out_pickle = "data_clean/MFC_ActualizacionJul2024-vf_clean.pkl"

with open(file_out_pickle, 'wb') as f:
    dump(df, f)

In [101]:
#!pip install xlwt

Collecting xlwt
  Using cached xlwt-1.3.0-py2.py3-none-any.whl (99 kB)
Installing collected packages: xlwt
Successfully installed xlwt-1.3.0


In [102]:
file_out = "data_clean/MFC_ActualizacionJul2024-vf_clean.xls"
df.to_excel(file_out)

  df.to_excel(file_out)
