# Análisis y visualización de datos con python
# 3. Indexación y selección de dataframes

    - a) Estructura de una tabla 
    - b) Slicing
    - c) Únicos y conteo
    - d) Ordenar
    - e) Subsetting
    - f) Guardar datos

---

## 4.a Estructura de una tabla 

En primer lugar cargaremos el Histórico de las Bitácoras Onomásticas (HBO) como vimos en el tutorial anterior. 

Adicionalmente, marcaremos que la columna `ID` es el indice de la tabla usando la opción `index_col`. El indice debé de ser único, es decir, los valores no deben de repetirse. También transformaremos la columna `Edad_transcrito` a datos numéricos, ignorando por ahora los textos.

In [1]:
import pandas as pd

filename = 'data_raw/CNB_DOB_BPGS_Respuesta_Solicitud 332163723000249.xlsx'
df = pd.read_excel(filename, #nombre del archivo
                   sheet_name="HBO", #nombre de la hoja
                   index_col='ID' #nombre de la columna del indice
                  )
df['Edad_transcrito'] = pd.to_numeric(df['Edad_transcrito'], errors='coerce') #Limpieza
df

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,15A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,27A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido


Una tabla de pandas o dataframe consta de varios elementos:
* Nombres de columnas, las cuales pueden ser vistas como la primera fila en letras negritas. Para verlas usa _.columns_.
* Nombres de filas, las cuales pueden ser vistas como la primera columna, la cual carece de nombre. Para verlas usa _.index_.
* Valores, los datos dentro de la tabla. Para verlas usa _.values_.
* El número de filas y columnas total. Para verla usa _.shape_.
* Tipo de datos de cada columna. Para verla usa _.dtype_.

Con el fin de conocer el nombre de las columnas usaremos la opción _.columns_. Es importante notar que esta opción no tiene paréntesis no corchetes, ya que es un elemento del objeto.

In [2]:
df.columns

Index(['Numero_progresivo_transcrito', 'Nombre_completo_transcrito',
       'Primer_apellido', 'Segundo_apellido', 'Nombres_propios',
       'Fecha_transcrito', 'Fecha_estandar', 'Expediente_SEMEFO_transcrito',
       'Procedencia_transcrito', 'Procedencia_estandar',
       'Procedencia_direccion', 'Procedencia_alcaldia',
       'Numero_acta_transcrito', 'Procedencia_acta', 'Diagnostico_transcrito',
       'Diagnostico_estandar', 'Diagnostico_extendido', 'Sexo',
       'Edad_transcrito', 'Tipo_restos', 'Bitacora_ingresos', 'Pagina_PDF',
       'Foja_transcrito', 'Observaciones', 'Conocido_desconocido'],
      dtype='object')

Estas columnas corresponden a las del diccionario de datos que se encuentra en la Hoja 2 del archivo.

### Ejercicio 1

Usa cada una de las opciones mencionadas en esta sección y describe que regresa.
* `df.index`
* `df.values`
* `df.shape`
* `df.dtypes`


In [3]:
df.shape

(96844, 25)

## 4.b Slicing

Muchas veces no queremos trabajar sobre toda la tabla de datos, en su lugar queremos usar unicamente una fracción de ella. Para ello, existen varias formas de selecionar partes de una tabla.

Por ejemplo, la función `.head()` devuelve las primeras filas de la tabla. Por defecto estos comandos muestran solo cinco filas, pero es posible cambiar el número de filas poniendo un número entre paréntesis.

In [4]:
df.head()

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido


Si queremos ver las últimas filas se puede usar el comando `.tail()`. 

En ambos casos se puede específicar el número de filas que se quieren ver

In [5]:
df.tail( 10 )

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1982_07484,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-10-27 00:00:00,1982-10-27,6040,32a,32A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,250,155,punto rojo en expediente_semefo y raya roja en...,conocido
BO_1982_07485,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-10-27 00:00:00,1982-10-27,6041,34a,34A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,250,155,punto rojo en expediente_semefo y raya roja en...,conocido
BO_1982_07486,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-03-11 00:00:00,1982-03-11,1453,37a,37A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,251,156,,conocido
BO_1982_07487,S-D,restos placentarios,s-d,s-d,s-d,1982-06-10 00:00:00,1982-06-10,3258,8a,8A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07488,S-D,restos humanos de desconocido,s-d,s-d,s-d,1982-05-03 00:00:00,1982-05-03,1100,23a,23A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,15A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,27A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07493,S-D,osamenta de desconocido,s-d,s-d,s-d,1982-10-11 00:00:00,1982-10-11,5629,9a,9A,...,S-D,sin datos,S-D,,Cadáver,semefo_df_bo_1982,251,156,no se recibio necropsia. es una osamenta.,desconocido


Para ver una columna específica se pone el nombre del dataframe seguido por corchetes con el nombre de la columna. Una sola columna es del tipo `pd.Series`. Por ejemplo, para ver la columna del sexo ponemos su nombre 'Sexo' entre corchetes. Esto es similar a la forma en la que se seleccionan elementos en listas o diccionarios.

In [6]:
df[ 'Sexo' ]

ID
BO_1968_00001     Femenino
BO_1968_00002     Femenino
BO_1968_00003    Masculino
BO_1968_00004    Masculino
BO_1968_00005     Femenino
                   ...    
BO_1982_07489          S-D
BO_1982_07490          S-D
BO_1982_07491          S-D
BO_1982_07492          S-D
BO_1982_07493          S-D
Name: Sexo, Length: 96844, dtype: object

Se pueden seleccionar varias columnas a la vez, poniendo sus nombres en una lista dentro de corchetes. Lo anterior significa que para seleccionar varias columnas hay que usar corchetes dobles.

In [7]:
df[  ['Conocido_desconocido','Sexo']  ]

Unnamed: 0_level_0,Conocido_desconocido,Sexo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
BO_1968_00001,conocido,Femenino
BO_1968_00002,conocido,Femenino
BO_1968_00003,conocido,Masculino
BO_1968_00004,conocido,Masculino
BO_1968_00005,conocido,Femenino
...,...,...
BO_1982_07489,desconocido,S-D
BO_1982_07490,desconocido,S-D
BO_1982_07491,desconocido,S-D
BO_1982_07492,desconocido,S-D


La primera columna que podemos observar en la tabla y carece de nombre, es el índice de las filas. 
Por default, pandas asigna números de identificación a cada una de las filas, empezando por el cero . 
Sin embargo, es posible especificar que columna es el indice cómo se vió al principio del tutorial.

Podemos seleccionar las filas por posición o por el nombren el indice.
Con `.iloc` se selecciona el número de posición de la fila, sin olvidar que la numeración empieza en 0. Por ejemplo, seleccionemos la novena fila.

In [8]:
df.iloc[9]

Numero_progresivo_transcrito                        S-D
Nombre_completo_transcrito      alvarez almaguer arturo
Primer_apellido                                 alvarez
Segundo_apellido                               almaguer
Nombres_propios                                  arturo
Fecha_transcrito                    1968-01-10 00:00:00
Fecha_estandar                      1968-01-10 00:00:00
Expediente_SEMEFO_transcrito                        132
Procedencia_transcrito                              S-D
Procedencia_estandar                                S-D
Procedencia_direccion                         Sin datos
Procedencia_alcaldia                                NaN
Numero_acta_transcrito                              S-D
Procedencia_acta                                    NaN
Diagnostico_transcrito                              S-D
Diagnostico_estandar                                S-D
Diagnostico_extendido                         sin datos
Sexo                                          Ma

De la misma manera, se pueden seleccionar varias filas usando una lista.

In [9]:
df.iloc[  [9, 13, 62, 201]  ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00010,S-D,alvarez almaguer arturo,alvarez,almaguer,arturo,1968-01-10 00:00:00,1968-01-10,132,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00014,S-D,angeles garcia felipe pedro,angeles,garcia,felipe pedro,1968-01-18 00:00:00,1968-01-18,236,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00063,S-D,arenas canales luz maria,arenas,canales,luz maria,1968-04-04 00:00:00,1968-04-04,1331,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,3,1 reverso,,conocido
BO_1968_00202,S-D,asacencio gallardo baltazar,asacencio,gallardo,baltazar,1968-10-29 00:00:00,1968-10-29,3941,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,8,4,,conocido


O se puede marcar una secuencia de posiciones como si fuera una lista

In [10]:
df.iloc[  5:10  ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00006,S-D,arce macedo justo,arce,macedo,justo,1968-01-09 00:00:00,1968-01-09,115,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00007,S-D,alvarez vela jesus,alvarez,vela,jesus,1968-01-02 00:00:00,1968-01-02,22,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00008,S-D,avila ramirez pablo,avila,ramirez,pablo,1968-01-10 00:00:00,1968-01-10,137,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00009,S-D,alvarado aurelio,alvarado,s-d,aurelio,1968-01-10 00:00:00,1968-01-10,139,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00010,S-D,alvarez almaguer arturo,alvarez,almaguer,arturo,1968-01-10 00:00:00,1968-01-10,132,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido


Este comando también se puede usar para seleccionar un conjunto de filas y columnas específico usando la posición. Para hacerlo se utiliza el formato: `df.iloc[filas, columnas]`.

In [11]:
df.iloc[ 9:15, [2,5,7] ]

Unnamed: 0_level_0,Primer_apellido,Fecha_transcrito,Expediente_SEMEFO_transcrito
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BO_1968_00010,alvarez,1968-01-10 00:00:00,132
BO_1968_00011,aceves,1968-01-16 00:00:00,214
BO_1968_00012,alcantara,1968-01-18 00:00:00,229
BO_1968_00013,aragon,1968-01-09 00:00:00,91
BO_1968_00014,angeles,1968-01-18 00:00:00,236
BO_1968_00015,armenta,1968-01-18 00:00:00,291


Con `.loc` (sin la **i**) se selecciona la llave de la fila.

In [12]:
df.loc[ 'BO_1968_00005' ]

Numero_progresivo_transcrito                             S-D
Nombre_completo_transcrito      arellano viuda de campos ma.
Primer_apellido                                     arellano
Segundo_apellido                             viuda de campos
Nombres_propios                                          ma.
Fecha_transcrito                         1968-01-07 00:00:00
Fecha_estandar                           1968-01-07 00:00:00
Expediente_SEMEFO_transcrito                              88
Procedencia_transcrito                                   S-D
Procedencia_estandar                                     S-D
Procedencia_direccion                              Sin datos
Procedencia_alcaldia                                     NaN
Numero_acta_transcrito                                   S-D
Procedencia_acta                                         NaN
Diagnostico_transcrito                                   S-D
Diagnostico_estandar                                     S-D
Diagnostico_extendido   

Este comando también se puede usar para seleccionar un conjunto de filas y columnas específico por la llave o el nombre en el indice y las columnas. Para hacerlo se utiliza el formato: `df.loc[filas, columnas]`.

In [13]:
df.loc[  ['BO_1968_00005','BO_1969_00005','BO_1970_00005','BO_1971_00005']  , 
         ['Conocido_desconocido','Sexo']  ]

Unnamed: 0_level_0,Conocido_desconocido,Sexo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
BO_1968_00005,conocido,Femenino
BO_1969_00005,conocido,Masculino
BO_1970_00005,conocido,Masculino
BO_1971_00005,conocido,Masculino


## 4.c Únicos y conteo

Se pueden hacer varias cosas con una columna o `pd.Series`. 

Por ejemplo, se pueden determinar los valores únicos de la columna para entender la información contenida en ella con la función `.unique()`.

Por ejemplo, al revisar el profile se puede ver que hay múltiples instituciones de origen, así que obtendremos una lista de estas.

In [14]:
df['Tipo_restos'].unique()

array(['Cadáver', 'Miembros', 'Feto', 'Restos óseos', 'Recién nacido'],
      dtype=object)

Si lo único que nos interesa saber es cuantos datos únicos hay, y no cuales son, se puede usar la función `.nunique()`.

In [15]:
df['Tipo_restos'].nunique()

5

También, se puede contabilizar cuántas veces aparece cada uno de estos valores con `.value_counts()`. Esto permite saber cuantas veces aparece cada valor único. El resultado de la función es un dataframe.

In [16]:
df['Tipo_restos'].value_counts()

Cadáver          91254
Feto              2844
Miembros          2065
Recién nacido      633
Restos óseos        48
Name: Tipo_restos, dtype: int64

Para ver estos resultados como porcentaje se puede usar el parámetro _normalize_. 


In [17]:
df['Tipo_restos'].value_counts( normalize=True )

Cadáver          0.942278
Feto             0.029367
Miembros         0.021323
Recién nacido    0.006536
Restos óseos     0.000496
Name: Tipo_restos, dtype: float64

Es posible usar la función `.value_counts()` sobre varias columnas a la vez.
Esto regrese un dataframe con un `multi index`.

In [18]:
df[ ['Sexo','Conocido_desconocido'] ].value_counts()

Sexo       Conocido_desconocido
Masculino  conocido                59774
Femenino   conocido                18298
Masculino  desconocido             13967
Femenino   desconocido              2303
S-D        desconocido              1942
           conocido                  541
           S-D                        19
dtype: int64

Es posible que en una columna o variable haya filas u observaciones donde no se registro el dato. 
Para incluir los NaN es necesario cambiar los parámetros de la función,usando el parámetro `dropna=False`.
Esto es de suma importancia al normalizar los datos, ya que el porcentaje de cada valor único cambiará dependiendo de si se toman, o no, en cuenta los NaN.

In [19]:
df['Edad_transcrito'].value_counts(normalize=True ,  dropna=False, )

NaN      0.614968
40.0     0.017843
30.0     0.017668
35.0     0.017203
25.0     0.016707
           ...   
5.3      0.000010
25.1     0.000010
2.2      0.000010
8.3      0.000010
107.0    0.000010
Name: Edad_transcrito, Length: 132, dtype: float64

Como el resultado de la función `.value_counts()` es un dataframe podemos utilizar funciones propias de dataframe como `.head()` o slicing.

Por ejemplo, para ver las cinco instituciones que entregan más cadaveres obtendremos el conteo de valores con `.value_counts()` y después seleccionaremos los cinco primeros usando un slicing de lista.

In [20]:
df['Procedencia_transcrito'].value_counts().head(5)

S-D    25780
32a     2073
33a     1968
37a     1701
32      1561
Name: Procedencia_transcrito, dtype: int64

### Ejercicio 2

* ¿Cuáles son los cinco apellidos más comunes?
* ¿Cuántas veces aparece cada uno?
* ¿Qué porcentaje de la población tiene cada apellido? ¿Es lo mismo si normalizamos?
* ¿Cómo afectan los datos protegidos por razones legales estas cuentas?


## 4.d Ordenar

Además de poder seleccionar los datos muchas veces es muy importante poder ordenarlos. Para eso usaremos `.sort_values()`.

Para ordenar una sola columna:

In [21]:
df['Nombres_propios'].sort_values()

ID
BO_1971_04771    "n"
BO_1975_03863    "n"
BO_1975_03379    "n"
BO_1972_00508    "n"
BO_1971_03440    "n"
                ... 
BO_1982_07482    NaN
BO_1982_07483    NaN
BO_1982_07484    NaN
BO_1982_07485    NaN
BO_1982_07486    NaN
Name: Nombres_propios, Length: 96844, dtype: object

Por default `.sort_values()` ordena en orden alfábetico o de menor a mayor, en caso de datos númericos. 
Para cambiar esto podemos usar el parámetro `ascending`. En el caso de los datos de texto los caracteres especiales van al principio. Por default los datos con `NaN` siempre van al final de la tabla.
Es importante destacar que los acentos pueden causar problemas al ordenar alfabeticamente.

In [22]:
df['Nombres_propios'].sort_values( ascending=False )

ID
BO_1979_00128     zulema
BO_1982_03084     zulema
BO_1971_04512    zoziamo
BO_1979_02455    zoraida
BO_1981_02728      zoilo
                  ...   
BO_1982_07482        NaN
BO_1982_07483        NaN
BO_1982_07484        NaN
BO_1982_07485        NaN
BO_1982_07486        NaN
Name: Nombres_propios, Length: 96844, dtype: object

Para ordenar todo el dataframe por una columna es necesario decir explicitamente que columna se va a usar.

Nota como en ambos casos se selecciona primero sobre que se va a trabajar, ya sea el dataframe completo (`df`) o una columna específica (`df[nombre_columna]`), después se dice que se va a hacer con el nombre de la función (`.sort_values()`) y finalmente se dan instrucciones específicas a la función de cómo hacerlo si es necesario poniendo los parametros dentro del parentesis.

In [23]:
df.sort_values( 'Nombres_propios' )

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1971_04771,S-D,"rocha moureliu ""n"" o desc.",rocha,moureliu,"""n""",1971-12-04 00:00:00,1971-12-04,5301,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1971,143,132 reverso,"nombre_completo se agrega ""o desconocido""",conocido
BO_1975_03863,174,"paredes felipe ""n""",paredes,felipe,"""n""",1975-07-20 00:00:00,1975-07-20,3670,IZO-1,IZO-1,...,TM,traumatismo multiple,Masculino,35.0,Cadáver,semefo_df_bo_1975,119,70,orden del nombre posiblemente erroneo,conocido
BO_1975_03379,707,moreno paulino n,moreno,paulino,"""n""",1975-11-25 00:00:00,1975-11-25,6135,C-HX,HX,...,TAP,traumatismo abdomen pelvis,Masculino,35.0,Cadáver,semefo_df_bo_1975,105,60 reverso,punto rojo en expediente semefo nombre propio n,conocido
BO_1972_00508,S-D,"cruz cresencio ""n""",cruz,cresencio,"""n""",1972-03-02 00:00:00,1972-03-02,1037,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1972,19,18,,conocido
BO_1971_03440,S-D,"moran flora ""n""",moran,flora,"""n""",1971-03-09 00:00:00,1971-03-09,1183,S-D,S-D,...,S-D,sin datos,S-D,,Cadáver,semefo_df_bo_1971,104,94 reverso,no es posible inferir el sexo ya que solo tene...,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07482,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-12-31 00:00:00,1982-12-31,7276,32a,32A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,250,155,punto rojo en expediente_semefo,conocido
BO_1982_07483,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-11-08 00:00:00,1982-11-08,6168,13a,13A,...,S-D,sin datos,Femenino,,Miembros,semefo_df_bo_1982,250,155,sin autopsia,conocido
BO_1982_07484,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-10-27 00:00:00,1982-10-27,6040,32a,32A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,250,155,punto rojo en expediente_semefo y raya roja en...,conocido
BO_1982_07485,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-10-27 00:00:00,1982-10-27,6041,34a,34A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,250,155,punto rojo en expediente_semefo y raya roja en...,conocido


Es posible ordenar por varias columnas especificando el nombre de las columnas en una lista y la forma de ordenarlas usando _ascending_.

In [24]:
df.sort_values(  ['Sexo', 'Conocido_desconocido']  ,  ascending=[True,False]   )
df

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,15A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,27A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido


## 4.e Subsetting

Es posible seleccionar los datos de acuerdo a una (o más) condición. 

Por ejemplo para seleccionar las filas con registros de mujeres buscamos las filas donde el 'Sexo' es 'Femenino' con la condición:

In [25]:
df['Sexo'] == 'Femenino'

ID
BO_1968_00001     True
BO_1968_00002     True
BO_1968_00003    False
BO_1968_00004    False
BO_1968_00005     True
                 ...  
BO_1982_07489    False
BO_1982_07490    False
BO_1982_07491    False
BO_1982_07492    False
BO_1982_07493    False
Name: Sexo, Length: 96844, dtype: bool

Esta condicion nos dice para cada fila si el valos es 'Femenino', si ponemos esto dentro de _.loc[]_ podemos usarlo para encontrar las filas con registros de mujeres.

In [26]:
df.loc[ df['Sexo']=='Femenino' ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00012,S-D,alcantara viuda de borja ma.,alcantara,viuda de borja,ma.,1968-01-18 00:00:00,1968-01-18,229,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00016,S-D,aguirre macias sara,aguirre,macias,sara,1968-01-19 00:00:00,1968-01-19,254,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07471,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-12-06 00:00:00,1982-12-06,6745,37a,37A,...,S-D,sin datos,Femenino,,Miembros,semefo_df_bo_1982,249,154 reverso,,conocido
BO_1982_07472,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-12-09 00:00:00,1982-12-09,6753,37a,37A,...,S-D,sin datos,Femenino,,Miembros,semefo_df_bo_1982,249,154 reverso,,conocido
BO_1982_07475,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-12-06 00:00:00,1982-12-06,6770,33a,33A,...,S-D,sin datos,Femenino,,Miembros,semefo_df_bo_1982,249,154 reverso,punto rojo en expediente_semefo,conocido
BO_1982_07479,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-12-25 00:00:00,1982-12-25,7041,32a,32A,...,S-D,sin datos,Femenino,,Miembros,semefo_df_bo_1982,250,155,,conocido


Para seleccionar las filas que NO son registros de mujeres buscamos aquellos donde el sexo es diferenente (_!=_) a 'Femenino'

In [27]:
df[  df['Sexo'] != 'Femenino'  ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00006,S-D,arce macedo justo,arce,macedo,justo,1968-01-09 00:00:00,1968-01-09,115,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00007,S-D,alvarez vela jesus,alvarez,vela,jesus,1968-01-02 00:00:00,1968-01-02,22,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00008,S-D,avila ramirez pablo,avila,ramirez,pablo,1968-01-10 00:00:00,1968-01-10,137,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,15A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,27A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido


Si los datos son numéricos es posible usar operaciones como mayor, menor o igual para seleccionar con esas condiciones. Por ejemplo para ver los cadaveres menor de edad podriamos buscar todos las filas donde el valor de la edad es menor que 18.

**Nota** Al cargar los datos en la primera celda de código se limpio la celda para que solo incluyera valores numéricos.

In [28]:
df[  df['Edad_transcrito']<18  ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1974_00002,2,aragon gomez david,aragon,gomez,david,1974-01-01 00:00:00,1974-01-01,16,HB,HTB,...,,,Masculino,17.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00013,13,avelina lozada joaquin,avelina,lozada,joaquin,1974-01-10 00:00:00,1974-01-10,156,CR,CR,...,,,Masculino,17.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00024,24,arredondo rodriguez ulises a,arredondo,rodriguez,ulises a,1974-01-26 00:00:00,1974-01-26,433,3a,3A,...,ASB,asfixia por sumersion,Masculino,4.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00031,31,andrade aceves carlos,andrade,aceves,carlos,1974-02-05 00:00:00,1974-02-05,601,HRL,HRL,...,HIPCPT,herida punzo cortante torax,Masculino,17.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00033,33,alonso flores ofelia,alonso,flores,ofelia,1974-02-06 00:00:00,1974-02-06,608,CR,CR,...,TM,traumatismo multiple,Femenino,16.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1979_07380,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-08-30 00:00:00,1979-08-30,4839,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,14.0,Miembros,semefo_df_bo_1979,258,150,,conocido
BO_1979_07397,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-09-25 00:00:00,1979-09-25,5430,37a,37A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,13.0,Miembros,semefo_df_bo_1979,258,150,,conocido
BO_1979_07407,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-09-23 00:00:00,1979-09-23,5379,38a,38A,...,GANG,gangrena,Femenino,7.0,Miembros,semefo_df_bo_1979,259,150 reverso,,conocido
BO_1979_07428,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-10-31 00:00:00,1979-10-31,6033,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,16.0,Miembros,semefo_df_bo_1979,259,150 reverso,,conocido


En varios casos podemos ver que no hay datos sobre el edad, lo cual se representa con _NaN_. Para ver las filas con valor _NaN_ se usa la función _isna()_.

Lo anterior puede representar un problema al momento del análisis, ya que significa que los datos son incompletos y generalmente es necesario procesarlos como veremos mas adelante. Es por esto que es importante revisar los faltantes.

In [29]:
df[  df['Edad_transcrito'].isna()  ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,15A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,27A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido


Es posible hacer lo contrario a la instrucción de selección agregando una negación al principio del comando de selección. 

Por ejemplo, para seleccionar las observaciones donde SI hay una edad, seleccionamos aquellas que no tienen Edad con isna() y luego las negamos. Recuerda que dos negaciones son una afirmación.

In [30]:
df[ ~ df['Edad_transcrito'].isna() ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1974_00001,1,arguello de sandoval elena,arguello,de sandoval,elena,1974-01-02 00:00:00,1974-01-02,31,HB,HTB,...,TCT,traumatismo craneo torax,Femenino,63.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00002,2,aragon gomez david,aragon,gomez,david,1974-01-01 00:00:00,1974-01-01,16,HB,HTB,...,,,Masculino,17.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00003,3,arellano sanchez ana maria,arellano,sanchez,ana maria,1974-01-04 00:00:00,1974-01-04,56,CR,CR,...,,,Femenino,69.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00004,4,aguendez martinez arturo,aguendez,martinez,arturo,1974-01-05 00:00:00,1974-01-05,66,3a,3A,...,,,Masculino,40.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00005,5,alvarez corona rosa,alvarez,corona,rosa,1974-01-05 00:00:00,1974-01-05,72,20a,20A,...,BN,bronconeumonia,Femenino,40.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1979_07440,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-06 00:00:00,1979-12-06,6881,32a,32A,...,,,Masculino,23.0,Miembros,semefo_df_bo_1979,260,151,,conocido
BO_1979_07442,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-07 00:00:00,1979-12-07,5886,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,17.0,Miembros,semefo_df_bo_1979,260,151,subrayado en azul numero_acta,conocido
BO_1979_07451,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-18 00:00:00,1979-12-18,7196,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,22.0,Miembros,semefo_df_bo_1979,260,151,,conocido
BO_1979_07452,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-14 00:00:00,1979-12-14,7100,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Femenino,65.0,Miembros,semefo_df_bo_1979,260,151,,conocido


A veces no queremos seleccionar las columnas que tienen un solo valor, sino varios. Por ejemplo, si queremos ver los restos que provienen de hospitales podemos generar una lista llamada 'hospitales' y despues los buscamos con el comando _.isin()_

In [31]:
hospitales = ['HX', 'XO', 'HTB', 'VO', 'HTV', 'CR','HRL', 'HCM', 'MH-CR' ]
df[ df['Procedencia_estandar'].isin(hospitales) ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00732,S-D,desconocida,s-d,s-d,s-d,1968-01-02 00:00:00,1968-01-02,14,Xoco,HX,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,27,18,,desconocido
BO_1968_00737,S-D,desconocido,s-d,s-d,s-d,1968-01-04 00:00:00,1968-01-04,48,Xochimilco,XO,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,27,18,,desconocido
BO_1968_00746,S-D,desconocido,s-d,s-d,s-d,1968-01-02 00:00:00,1968-01-02,33,H.T. Balbuena,HTB,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,27,18,,desconocido
BO_1968_00747,S-D,desconocido,s-d,s-d,s-d,1968-01-04 00:00:00,1968-01-04,50,H.T. Balbuena,HTB,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,27,18,,desconocido
BO_1968_00748,S-D,desconocido,s-d,s-d,s-d,1968-01-06 00:00:00,1968-01-06,76,H.T. Balbuena,HTB,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,27,18,,desconocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1977_07093,121,Nombre de particular que podría encontrarse co...,,s-d,,1977-09-08 00:00:00,1977-09-08,4738,MH-HRL-,HRL,...,,,Femenino,37.0,Miembros,semefo_df_bo_1977,252,185 reverso,el diagnostico no se ve completo,conocido
BO_1982_03705,S-D,martinez rosas jose demetrio,martinez,rosas,jose demetrio,1982-10-20 00:00:00,1982-10-20,5801,HB,HTB,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1982,124,74 reverso,punto rojo en expediente_semefo,conocido
BO_1982_04554,S-D,ruiz fuentes eloisa,ruiz,fuentes,eloisa,1982-04-13 00:00:00,1982-04-13,5801,HB,HTB,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1982,154,95,,conocido
BO_1982_05345,S-D,sanchez carranza isaias,sanchez,carranza,isaias,1982-10-12 00:00:00,1982-10-12,5657,HB,HTB,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1982,180,108 reverso,,conocido


Si queremos los registros que no provienen de hospitales, podemos usar el comando de negación `~` para obtener el conjunto complementario.

In [32]:
df[ ~df['Procedencia_estandar'].isin(hospitales) ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,15A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,32A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido
BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,27A,...,S-D,sin datos,S-D,,Miembros,semefo_df_bo_1982,251,156,,desconocido


Se pueden usar varias condiciones al mismo tiempo.
Para combinar varias condiciones es necesario poner cada condición entre parentesis.
Las condiciones se unen usando los operadores booleanos:
* _&_ se cumplen ambas condiciones
* _|_ se cumple al menos una de las condiciones
* _~_ negación

Por ejemplo, para seleccionar los restos de mujeres menores de 18 años ponemos cada uno de los selectores de edades antes visto entre paréntesis y los unimos con _&_


In [33]:
# df.loc[ (seleccionar_mujeres) & (seleccionar_menores_de_edad)] 
df.loc[  ( df['Sexo']=='Femenino' ) & ( df['Edad_transcrito']<18 ) ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1974_00033,33,alonso flores ofelia,alonso,flores,ofelia,1974-02-06 00:00:00,1974-02-06,608,CR,CR,...,TM,traumatismo multiple,Femenino,16.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00081,81,alcantar valero emma,alcantar,valero,emma,1974-04-03 00:00:00,1974-04-03,1634,12a,12A,...,TCT,traumatismo craneo torax,Femenino,2.0,Cadáver,semefo_df_bo_1974,5,2,,conocido
BO_1974_00152,153,almazan leon silvia,almazan,leon,silvia,1974-06-22 00:00:00,1974-06-22,3023,23a,23A,...,TM,traumatismo multiple,Femenino,17.0,Cadáver,semefo_df_bo_1974,7,3,,conocido
BO_1974_00157,158,alanis robles maria guadalupe,alanis,robles,maria guadalupe,1974-07-03 00:00:00,1974-07-03,3175,20a,20A,...,,,Femenino,3.0,Cadáver,semefo_df_bo_1974,7,3,,conocido
BO_1974_00164,165,alva valdovinos elizabeth,alva,valdovinos,elizabeth,1974-07-11 00:00:00,1974-07-11,3315,5a,5A,...,ASB,asfixia por sumersion,Femenino,2.0,Cadáver,semefo_df_bo_1974,7,3,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1979_07217,S-D,recien nacido,s-d,s-d,s-d,1979-08-25 00:00:00,1979-08-25,5731,22a,22A,...,ANEN,asfixia neo natorum,Femenino,-72.0,Recién nacido,semefo_df_bo_1979,253,145,,desconocido
BO_1979_07219,S-D,recien nacido,s-d,s-d,s-d,1979-11-13 00:00:00,1979-11-13,6227,24a,24A,...,ANEN,asfixia neo natorum,Femenino,-72.0,Recién nacido,semefo_df_bo_1979,253,145,,desconocido
BO_1979_07223,S-D,recien nacido,s-d,s-d,s-d,1979-11-20 00:00:00,1979-11-20,6512,24a,24A,...,ANEN,asfixia neo natorum,Femenino,-72.0,Recién nacido,semefo_df_bo_1979,253,145,,desconocido
BO_1979_07229,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-01-05 00:00:00,1979-01-05,62,14a,14A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Femenino,8.0,Miembros,semefo_df_bo_1979,254,148,,conocido


Es posible hacer combinaciones de selecciones bastante complicadas, sin embargo se recomienda guardarlas en un dataframe específico e ir haciendo las selecciones por pasos.

In [34]:
df_vulnerables = df[ ~df['Edad_transcrito'].isna() ] #ignorar aquellos que no tienen edad
# seleccionar menores de edad 
s_menores = df_vulnerables['Edad_transcrito']<18
# seleccionar mujeres
s_mujeres = df_vulnerables['Sexo']=='Femenino'
# nota como seleccionamos sobre la primera seleccion y no el dataframe en general
df_vulnerables = df_vulnerables[ (s_menores) | (s_mujeres) ]
df_vulnerables #ver el resultado


Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1974_00001,1,arguello de sandoval elena,arguello,de sandoval,elena,1974-01-02 00:00:00,1974-01-02,31,HB,HTB,...,TCT,traumatismo craneo torax,Femenino,63.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00002,2,aragon gomez david,aragon,gomez,david,1974-01-01 00:00:00,1974-01-01,16,HB,HTB,...,,,Masculino,17.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00003,3,arellano sanchez ana maria,arellano,sanchez,ana maria,1974-01-04 00:00:00,1974-01-04,56,CR,CR,...,,,Femenino,69.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00005,5,alvarez corona rosa,alvarez,corona,rosa,1974-01-05 00:00:00,1974-01-05,72,20a,20A,...,BN,bronconeumonia,Femenino,40.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00009,9,arvizu romero maria natividad,arvizu,romero,maria natividad,1974-01-12 00:00:00,1974-01-12,134,HB,HTB,...,,,Femenino,66.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1979_07428,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-10-31 00:00:00,1979-10-31,6033,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,16.0,Miembros,semefo_df_bo_1979,259,150 reverso,,conocido
BO_1979_07429,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-11-02 00:00:00,1979-11-02,6114,12a,12A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Femenino,71.0,Miembros,semefo_df_bo_1979,259,150 reverso,,conocido
BO_1979_07442,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-07 00:00:00,1979-12-07,5886,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,17.0,Miembros,semefo_df_bo_1979,260,151,subrayado en azul numero_acta,conocido
BO_1979_07452,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-14 00:00:00,1979-12-14,7100,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Femenino,65.0,Miembros,semefo_df_bo_1979,260,151,,conocido


Nota sobre fechas

Algunos tipos de datos permiten realizar operaciones especializadas. Por ejemplo con las fechas se pueden extraes el mes, día, día de la semana, hora, etc. Veremos esto más adelante pero dejamos un ejemplo de registros inhumados en viernes.

In [35]:
df[ df['Fecha_estandar'].dt.day_name() == 'Friday' ]

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00016,S-D,aguirre macias sara,aguirre,macias,sara,1968-01-19 00:00:00,1968-01-19,254,S-D,S-D,...,S-D,sin datos,Femenino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00017,S-D,avila ruiz saul,avila,ruiz,saul,1968-01-19 00:00:00,1968-01-19,255,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00025,S-D,aguado jesus,aguado,s-d,jesus,1968-01-26 00:00:00,1968-01-26,348,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,2,1,,conocido
BO_1968_00046,S-D,arellano mora daniel,arellano,mora,daniel,1968-03-01 00:00:00,1968-03-01,877,S-D,S-D,...,S-D,sin datos,Masculino,,Cadáver,semefo_df_bo_1968,3,1 reverso,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1982_07432,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-09-03 00:00:00,1982-09-03,4855,7a,7A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,248,154,,conocido
BO_1982_07451,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-11-05 00:00:00,1982-11-05,6096,32a,32A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,249,154 reverso,,conocido
BO_1982_07463,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-11-26 00:00:00,1982-11-26,6518,32a,32A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,249,154 reverso,,conocido
BO_1982_07482,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1982-12-31 00:00:00,1982-12-31,7276,32a,32A,...,S-D,sin datos,Masculino,,Miembros,semefo_df_bo_1982,250,155,punto rojo en expediente_semefo,conocido


### Ejercicio 3

* Escribe tres combinaciones de datos que te interesaria conocer y escribelas. Por ejemplo los restos recibidos en enero.
* Tratá de resolver estas combinaciones de datos usando pandas. En caso de no poder anota que datos u operaciones hacen falta.
* Escribe tres formas en las que te gustaría ordenar los datos.
* Obten las tablas ordenadas, en caso de no poder hacerlo indica que datos te harían falta.

## 4.f Guardar datos

Ya que tienen un subset, es posible guardarlo para utilizarlo mas adelante o abrirlo en otro programa como excel.

La nueva tabla debé de estar en una variable, en este caso usaremos `df_vulnerables`

In [36]:
df_vulnerables

Unnamed: 0_level_0,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,Procedencia_estandar,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
BO_1974_00001,1,arguello de sandoval elena,arguello,de sandoval,elena,1974-01-02 00:00:00,1974-01-02,31,HB,HTB,...,TCT,traumatismo craneo torax,Femenino,63.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00002,2,aragon gomez david,aragon,gomez,david,1974-01-01 00:00:00,1974-01-01,16,HB,HTB,...,,,Masculino,17.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00003,3,arellano sanchez ana maria,arellano,sanchez,ana maria,1974-01-04 00:00:00,1974-01-04,56,CR,CR,...,,,Femenino,69.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00005,5,alvarez corona rosa,alvarez,corona,rosa,1974-01-05 00:00:00,1974-01-05,72,20a,20A,...,BN,bronconeumonia,Femenino,40.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
BO_1974_00009,9,arvizu romero maria natividad,arvizu,romero,maria natividad,1974-01-12 00:00:00,1974-01-12,134,HB,HTB,...,,,Femenino,66.0,Cadáver,semefo_df_bo_1974,3,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
BO_1979_07428,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-10-31 00:00:00,1979-10-31,6033,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,16.0,Miembros,semefo_df_bo_1979,259,150 reverso,,conocido
BO_1979_07429,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-11-02 00:00:00,1979-11-02,6114,12a,12A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Femenino,71.0,Miembros,semefo_df_bo_1979,259,150 reverso,,conocido
BO_1979_07442,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-07 00:00:00,1979-12-07,5886,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Masculino,17.0,Miembros,semefo_df_bo_1979,260,151,subrayado en azul numero_acta,conocido
BO_1979_07452,S-D,Nombre de particular que podría encontrarse co...,,s-d,,1979-12-14 00:00:00,1979-12-14,7100,32a,32A,...,AQXT,amputacion quirurgica consecutiva al traumatismo,Femenino,65.0,Miembros,semefo_df_bo_1979,260,151,,conocido


Después, decidiremos el nombre del archivo y lo guardaremos en una variable con el nombre del archivo de salida.

Finalmente, exportaremos la tabla en formato `.csv` con `.to_csv()`. Esta función tiene varios parametros, los cuales incluyen el nombre del archivo de salida, el incluir o no el indice, etc. Estas pueden ser vistas en la documentación.

In [37]:
out_file = "data_clean/HBO_GruposVulnerables.csv"
df_vulnerables.to_csv(out_file)

**Gracias!**