# Análisis y visualización de datos con Python
# 3. Indexación y selección de DataFrames

    - a) Estructura de un DataFrame 
    - b) Selección (slicing)
    - c) Ordenar datos
    - d) Filtrado de datos
    - e) Conteo y valores únicos
    - f) Selección y revisión de un subconjunto
    - g) Resumen

---

En este notebook, aprenderemos a seleccionar un subconjunto de datos de interés. 
A menudo, los conjuntos de datos son muy grandes y contienen mucha información que no es relevante para nuestra pregunta de investigación. Por ello, es un paso fundamental en el análisis de datos es seleccionar un subconjunto de datos que contenga solo la información que nos interesa. Esto no solo hace que el análisis sea más rápido, sino que también nos permite concentrarnos en los datos que son realmente importantes para nuestro objetivo.

En este ejercicio, utilizaremos la base de datos de las **[Estadísticas de Defunciones Registradas (EDR)](https://www.inegi.org.mx/programas/edr/)** del INEGI para realizar un ejemplo práctico. Nuestro objetivo será aislar las defunciones causadas por enfermedades respiratorias. Este proceso te servirá de guía para el proyecto final del curso, donde aplicarás esta misma técnica para explorar un subconjunto de datos de tu elección.

A continuación, seguiremos estos pasos:
1. Identificaremos las variables relevantes para nuestro análisis.
2. Usaremos el diccionario de datos del INEGI para entender los códigos de las causas de muerte.
3. Filtraremos el conjunto de datos para quedarnos solo con las defunciones por enfermedades respiratorias.

Esta práctica te enseñará a manejar grandes volúmenes de datos de manera eficiente, lo que es una habilidad esencial en el análisis de datos.

En primer lugar, cargaremos el EDR como vimos en el tutorial anterior.

In [1]:
import pandas as pd
from dbfread import DBF

file_path = './data_raw/defunciones_base_datos_2023_dbf/DEFUN23.dbf'
df = DBF(file_path)
df = pd.DataFrame(df)
df

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
0,01,001,15,0001,32,044,5,0001,01,001,...,9,18,12,2022,,88,888,8888,,999
1,01,001,15,0001,01,001,15,0001,01,001,...,9,12,12,2022,,88,888,8888,,999
2,01,001,15,0001,01,001,15,0001,01,001,...,9,17,12,2022,,88,888,8888,,999
3,01,001,15,0001,01,001,15,0001,01,001,...,9,1,1,2023,,88,888,8888,,999
4,01,001,15,0001,14,053,1,7777,01,001,...,8,22,12,2022,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799864,32,024,8,0001,32,024,8,0001,32,024,...,8,99,12,2023,,88,888,8888,,999
799865,32,056,13,0001,32,056,13,0001,32,056,...,8,5,6,2023,,88,888,8888,,999
799866,32,056,13,0001,32,017,4,0042,32,056,...,8,9,8,2023,,88,888,8888,,999
799867,32,056,13,0001,32,017,13,0001,32,056,...,8,19,9,2023,,88,888,8888,,999


## 3.a Estructura de un DataFrame

Un **DataFrame** de **pandas**, la estructura principal con la que trabajaremos, es similar a una hoja de cálculo o una tabla de una base de datos. Está compuesto por tres elementos esenciales: los **valores**, las **columnas** y el **índice**.

  * **Valores**: Son los datos que contiene la tabla. Puedes acceder a ellos usando `.values`, que los devuelve como una matriz de NumPy.
  * **Columnas**: Son los nombres de cada variable. Puedes verlos como la fila superior de la tabla. Para ver solo los nombres de las columnas, usa el atributo `.columns`. Es un atributo, no una función, por lo que no lleva paréntesis.
  * **Índice**: Es la etiqueta de cada fila. Por defecto, pandas asigna un índice numérico secuencial (0, 1, 2, ...), pero puede ser personalizado. Puedes ver el índice con el atributo `.index`.

Además de estos elementos, hay otros atributos muy útiles para entender la estructura de tu DataFrame:

  * **`.shape`**: Te muestra el número total de filas y columnas del DataFrame. Por ejemplo, `(20000, 50)` significa que hay 20,000 filas y 50 columnas.
  * **`.dtypes`**: Te devuelve una lista de los tipos de datos de cada columna, lo que te ayuda a verificar si pandas infirió los tipos de datos correctamente durante la carga.

Para ver los nombres de las columnas, simplemente ejecuta: `df.columns`.

Nota: `.columns`, `.index`, `.values`, `.shape` y `.dtypes` son **atributos** del DataFrame, no métodos. Por ello, se escriben sin los paréntesis `()`.

In [2]:
df.columns

Index(['ENT_REGIS', 'MUN_REGIS', 'TLOC_REGIS', 'LOC_REGIS', 'ENT_RESID',
       'MUN_RESID', 'TLOC_RESID', 'LOC_RESID', 'ENT_OCURR', 'MUN_OCURR',
       'TLOC_OCURR', 'LOC_OCURR', 'CAUSA_DEF', 'COD_ADICIO', 'LISTA_MEX',
       'SEXO', 'ENT_NAC', 'AFROMEX', 'CONINDIG', 'LENGUA', 'CVE_LENGUA',
       'NACIONALID', 'NACESP_CVE', 'EDAD', 'SEM_GEST', 'GRAMOS', 'DIA_OCURR',
       'MES_OCURR', 'ANIO_OCUR', 'DIA_REGIS', 'MES_REGIS', 'ANIO_REGIS',
       'DIA_NACIM', 'MES_NACIM', 'ANIO_NACIM', 'COND_ACT', 'OCUPACION',
       'ESCOLARIDA', 'EDO_CIVIL', 'TIPO_DEFUN', 'OCURR_TRAB', 'LUGAR_OCUR',
       'PAR_AGRE', 'VIO_FAMI', 'ASIST_MEDI', 'CIRUGIA', 'NATVIOLE',
       'NECROPSIA', 'USONECROPS', 'ENCEFALICA', 'DONADOR', 'SITIO_OCUR',
       'COND_CERT', 'DERECHOHAB', 'EMBARAZO', 'REL_EMBA', 'HORAS', 'MINUTOS',
       'CAPITULO', 'GRUPO', 'LISTA1', 'GR_LISMEX', 'AREA_UR', 'EDAD_AGRU',
       'COMPLICARO', 'DIA_CERT', 'MES_CERT', 'ANIO_CERT', 'MATERNAS',
       'ENT_OCULES', 'MUN_OCULES', 'LOC_OCUL

La primera columna que observas en la tabla, la que no tiene nombre, es el **índice** del DataFrame. Por defecto, pandas asigna a cada fila un índice numérico que comienza en cero y va en aumento.

El índice es una etiqueta única para cada fila, no es una columna de datos. Se utiliza para identificar y acceder a las filas de manera eficiente. Si no especificamos una columna para que sirva como índice al cargar los datos, pandas simplemente los enumera de forma automática.

Para ver el índice de tu DataFrame, usa el atributo `.index`:

In [3]:
df.index

RangeIndex(start=0, stop=799869, step=1)

### Diccionario de datos

Un diccionario de datos proporciona una descripción detallada de las variables contenidas en un conjunto de datos, especificando su significado, tipo, formato y cualquier otra información relevante para su correcta interpretación y uso. El objetivo del diccionario de datos es garantizar la consistencia, claridad y estándares comunes entre todos los usuarios de los datos, facilitando su comprensión y reduciendo errores.

Un diccionario de datos debe contener.
* **Variable**: Nombre de la variable tal como aparece en el conjunto de datos.
* **Tipo**: Clasificación del tipo de dato (por ejemplo, numérico, texto, fecha, booleano, etc.).
* **Descripción**: Explicación detallada sobre el significado de la variable y cómo debe interpretarse.

Además, es útil que incluya:
* **Ejemplo**: Un valor de ejemplo representativo para ilustrar el formato y la información de la variable.
* **Formato**: Especificación del formato esperado para la variable (por ejemplo, "dd/mm/aaaa" para fechas o números con dos decimales).
* **Notas y aclaraciones**: Cualquier nota adicional o consideración especial que sea importante para la interpretación correcta de la variable.

Los estándares internacionales son normas, reglas o directrices establecidas por organismos reconocidos a nivel mundial para garantizar la interoperabilidad, calidad, seguridad y uniformidad en distintos ámbitos, como la tecnología, la industria, la salud y los datos. Estos estándares facilitan la comunicación y el intercambio de información entre sistemas, instituciones y países, asegurando que todos trabajen bajo las mismas reglas. Seguir estos estándares al estructurar los datos facilita la integración de datos provenientes de diferentes fuentes y se mejora la calidad de la información.

Algunos ejemplos de estándares internacionales:
* [ISO](www.iso.org) (International Organization for Standardization): ISO 11179 para metadatos y diccionarios de datos	
* [W3C](www.w3.org) (World Wide Web Consortium): DCAT para catalogación de datos abiertos incluyendo datos de gobierno
* [LOINC](loinc.org) y [SNOMED](www.snomed.org): ICE-10 u SNOMED CT para terminología médica
* [DCMI](www.dublincore.org) (Dublin Core Metadata Initiative): Dublin Core para descripción de recursos digitales	

Es importante recalcar las diferencias entre diccionario de datos, metadata y diccionario de Python:
* Diccionario de Datos (de un conjunto de datos). Es un documento estructurado que describe las variables de un conjunto de datos. Incluye nombre de la variable, tipo de dato, descripción.
* Metadatos. Son datos sobre los datos, proporcionando información adicional sobre un archivo, conjunto de datos o sistema. Incluyen detalles como fuente, fecha de creación, propietario, permisos de acceso y estructura.
* Diccionario en Python (`dict`). Es una estructura de datos en Python que almacena pares clave-valor. Por ejemplo: `persona = {"nombre": "Ana", "edad": 25, "pais": "Mexico"}`


En el caso del EDR podemos consultar el diccionario de datos incluido en `Descripcion_BD_Defunciones_2023.pdf`, el cual forma parte del conjunto de datos. El incluir el diccionario de datos permite entender la información incluida, el contexto de los datos, cómo fueron generados y sus limitaciones.

## 3.b Selección (slicing)

Trabajar con la tabla completa no siempre es necesario. A menudo, necesitamos seleccionar solo una porción de los datos, ya sean columnas, filas o un subconjunto específico. A este proceso se le conoce como **slicing**. Pandas ofrece varias formas de hacerlo.

Idealmente, los nombres de columnas y del índice  deben de ser únicos, para que sea posible referirse sin ambigüedad a cada celda. 

Para seleccionar una **única columna**, usa corchetes (`[]`) y el nombre de la columna como una cadena de texto. El resultado es una **`pandas.Series`**.

In [4]:
df['SEXO']

0         2
1         2
2         2
3         2
4         1
         ..
799864    2
799865    2
799866    2
799867    2
799868    1
Name: SEXO, Length: 799869, dtype: int64

Para seleccionar **varias columnas** a la vez, pasa una **lista** de nombres de columnas dentro de un par de corchetes. El resultado es un nuevo **DataFrame**. Por esta razón, se le conoce como el uso de "doble corchete".

In [5]:
df[['SEXO','EDAD']]

Unnamed: 0,SEXO,EDAD
0,2,4073
1,2,4077
2,2,4069
3,2,4094
4,1,4048
...,...,...
799864,2,2021
799865,2,3001
799866,2,1003
799867,2,2007


El método `.loc` se usa para seleccionar filas y columnas basándose en sus **nombres** o **etiquetas**. Se accede a él de la misma manera que a un diccionario. `df.loc[filas, columnas]`

Puedes seleccionar una fila específica por su nombre de índice, o un rango de filas de la misma forma que lo harías en una lista. También puedes pasar una lista para seleccionar filas no consecutivas.

In [6]:
df.loc[10]

ENT_REGIS       01
MUN_REGIS      001
TLOC_REGIS      15
LOC_REGIS     0001
ENT_RESID       01
              ... 
ENT_OCULES      88
MUN_OCULES     888
LOC_OCULES    8888
RAZON_M        NaN
DIS_RE_OAX     999
Name: 10, Length: 74, dtype: object

También puedes seleccionar un subconjunto específico de filas y columnas al mismo tiempo.

In [7]:
df.loc[7:13, ['SEXO','EDAD']]

Unnamed: 0,SEXO,EDAD
7,2,4084
8,1,4055
9,1,4087
10,2,4086
11,1,4064
12,2,4091
13,2,4042


El método `.iloc` (con la "i" de *integer*) se utiliza para seleccionar filas y columnas basándose en su **posición numérica**, similar a como se indexan los elementos en una lista de Python.

Usa la misma lógica para seleccionar un subconjunto por posición, solo que en lugar de etiquetas utiliza posiciones. En este caso para el índice las etiquetas son las posiciones, pero puedes notar la diferencia en las columnas.

In [8]:
df.iloc[7:13, [15, 23]]

Unnamed: 0,SEXO,EDAD
7,2,4084
8,1,4055
9,1,4087
10,2,4086
11,1,4064
12,2,4091


En resumen, utiliza `.loc` cuando trabajes con etiquetas (nombres de columnas o índice personalizado), y `.iloc` cuando trabajes con posiciones numéricas.

## 3.c Ordenar datos

Para cambiar el orden de las columnas de un DataFrame, la forma más sencilla es crear una lista con los nombres de las columnas en el orden deseado y usarla para indexar tu DataFrame.

Por ejemplo, imagina que tu DataFrame `df` tiene muchas columnas, pero solo te interesan `'SEXO'`, `'EDAD'` y `'CAUSA_DEF'`. Además, quieres que `'CAUSA_DEF'` sea la primera columna. Simplemente, crea una lista con ese orden y aplícala:

In [9]:
df[['CAUSA_DEF', 'SEXO', 'EDAD']]

Unnamed: 0,CAUSA_DEF,SEXO,EDAD
0,J189,2,4073
1,J80X,2,4077
2,J440,2,4069
3,E441,2,4094
4,K703,1,4048
...,...,...,...
799864,P249,2,2021
799865,P579,2,3001
799866,P220,2,1003
799867,Q793,2,2007


Es muy importante entender que esta operación **no modifica el DataFrame original**. Lo que hace es devolver una **vista temporal** del DataFrame con el nuevo orden. Para que los cambios persistan, es necesario **guardar** este resultado en una nueva variable o reasignarla a la variable original.

Este principio de reasignación es fundamental en pandas, ya que la mayoría de las operaciones de modificación no actúan sobre el objeto original por defecto.

In [10]:
df_reordenado = df[['CAUSA_DEF', 'SEXO', 'EDAD']]
df_reordenado

Unnamed: 0,CAUSA_DEF,SEXO,EDAD
0,J189,2,4073
1,J80X,2,4077
2,J440,2,4069
3,E441,2,4094
4,K703,1,4048
...,...,...,...
799864,P249,2,2021
799865,P579,2,3001
799866,P220,2,1003
799867,Q793,2,2007


La función **`.sort_values()`** de pandas te permite ordenar un DataFrame o una Serie basándote en los valores de una o más columnas. Ten en cuenta que:
* Por defecto, pandas ordena de forma ascendente (de menor a mayor o alfabéticamente). Para ordenar de forma descendente, usa el parámetro `ascending=False`.
* `NaN` (valores faltantes) siempre se colocan al final de la tabla por defecto.
* En datos de texto, los caracteres especiales y los acentos pueden afectar el orden alfabético.

Se puede notar en nuevo orden en el índice.

In [11]:
df_reordenado.sort_values(by='EDAD')

Unnamed: 0,CAUSA_DEF,SEXO,EDAD
65829,P072,1,1001
277954,P229,1,1001
156318,P072,1,1001
395587,Q790,2,1001
83928,P294,1,1001
...,...,...,...
126083,Y099,1,4998
6243,X704,1,4998
36187,Y344,1,4998
126719,L089,1,4998


Puedes ordenar los datos por varias columnas a la vez. Para ello, pasa una **lista** de nombres de columnas al parámetro `by`. También puedes especificar una dirección de ordenación diferente para cada columna usando una lista en el parámetro `ascending`.

Es importante entender la sintaxis de pandas:

1.  Selección de datos: primero, eliges sobre qué vas a trabajar (`df` o `df['columna']`).
2.  Llamado a la función: luego, llamas a la función que quieres usar (`.sort_values()`).
3.  Parámetros: finalmente, pasas las instrucciones específicas para la función dentro de los paréntesis (`by='EDAD'`, `ascending=False`, etc.).

In [12]:
df_reordenado.sort_values(by=['SEXO', 'EDAD'], ascending=[True, False])

Unnamed: 0,CAUSA_DEF,SEXO,EDAD
2146,K318,1,4998
2147,E43X,1,4998
2730,Y349,1,4998
3185,R99X,1,4998
3198,V099,1,4998
...,...,...,...
504264,Q897,9,1001
522327,Q897,9,1001
658015,P280,9,1001
706408,P220,9,1001


**Nota**: Cuando ordenas por una sola columna y hay filas con valores idénticos, el orden de estas filas no está garantizado (es arbitrario). Si necesitas un orden consistente, es una buena práctica ordenar por una segunda columna para "romper" esos empates. Por ejemplo, `df.sort_values(by=['EDAD', 'FECHA_DEF'])` garantizará que si dos personas tienen la misma edad, el orden entre ellas se determine por su fecha de defunción.

Reordenar el índice de un DataFrame es una operación diferente a reordenar las columnas, ya que el índice no es un dato de la tabla, sino una etiqueta.

El método `.reindex()` te permite reordenar el índice de tu DataFrame. Por defecto, si un índice no existe en el nuevo orden, se llenará con valores `NaN`.

El método `.sort_index()` también te permite ordenar el índice de forma alfabética o numérica, de manera similar a como `.sort_values()` ordena las columnas.

### Eliminar filas y columnas

La función `.drop()` permite eliminar filas o columnas de un DataFrame. Es importante recordar que, por defecto, `.drop()` devuelve una nueva copia del DataFrame sin las filas o columnas eliminadas. Para que los cambios persistan en tu DataFrame original, debes guardar el resultado o usar el parámetro `inplace=True`.

Para eliminar una o más filas, le pasas las etiquetas del índice a .drop(). Puedes pasar un solo índice o una lista de índices.

In [13]:
df.drop([0, 1, 2])

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
3,01,001,15,0001,01,001,15,0001,01,001,...,9,1,1,2023,,88,888,8888,,999
4,01,001,15,0001,14,053,1,7777,01,001,...,8,22,12,2022,,88,888,8888,,999
5,01,001,4,0239,01,001,15,0001,01,001,...,9,12,11,2022,,88,888,8888,,999
6,01,001,4,0239,01,001,15,0001,01,001,...,9,19,12,2022,,88,888,8888,,999
7,01,001,4,0239,01,001,15,0001,01,005,...,9,15,11,2022,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799864,32,024,8,0001,32,024,8,0001,32,024,...,8,99,12,2023,,88,888,8888,,999
799865,32,056,13,0001,32,056,13,0001,32,056,...,8,5,6,2023,,88,888,8888,,999
799866,32,056,13,0001,32,017,4,0042,32,056,...,8,9,8,2023,,88,888,8888,,999
799867,32,056,13,0001,32,017,13,0001,32,056,...,8,19,9,2023,,88,888,8888,,999


Para eliminar columnas, debes usar el parámetro `columns` dentro de la función `.drop()`. Al igual que con las filas, puedes pasarle un solo nombre de columna o una lista de nombres de columnas.

También puedes usar el parámetro `axis=1` para eliminar columnas, este le indica a pandas que la operación se debe realizar sobre las columnas (eje 1), y no sobre las filas (eje 0, que es el valor por defecto). Sin embargo, la forma más clara y recomendada es usar el parámetro `columns`.

Si quieres modificar el DataFrame original sin crear una nueva copia, puedes usar el parámetro `inplace=True`. Ten en cuenta que, una vez que usas este parámetro, los cambios son permanentes.

In [14]:
df.drop(columns=['ENT_REGIS','MUN_REGIS','TLOC_REGIS'])

Unnamed: 0,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,TLOC_OCURR,LOC_OCURR,CAUSA_DEF,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
0,0001,32,044,5,0001,01,001,15,0001,J189,...,9,18,12,2022,,88,888,8888,,999
1,0001,01,001,15,0001,01,001,15,0001,J80X,...,9,12,12,2022,,88,888,8888,,999
2,0001,01,001,15,0001,01,001,15,0001,J440,...,9,17,12,2022,,88,888,8888,,999
3,0001,01,001,15,0001,01,001,15,0001,E441,...,9,1,1,2023,,88,888,8888,,999
4,0001,14,053,1,7777,01,001,15,0001,K703,...,8,22,12,2022,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799864,0001,32,024,8,0001,32,024,8,0001,P249,...,8,99,12,2023,,88,888,8888,,999
799865,0001,32,056,13,0001,32,056,13,0001,P579,...,8,5,6,2023,,88,888,8888,,999
799866,0001,32,017,4,0042,32,056,13,0001,P220,...,8,9,8,2023,,88,888,8888,,999
799867,0001,32,017,13,0001,32,056,13,0001,Q793,...,8,19,9,2023,,88,888,8888,,999


## 3.d Filtrado de datos

Este proceso de filtrado nos permite trabajar con subconjuntos de datos de interés, seleccionando solo las filas que cumplen con ciertas condiciones, lo que es ayuda para responder preguntas específicas. En pandas, esto se conoce como **filtrado booleano**.

Nota: Al realizar los ejemplos, notarás que los valores de las columnas `CAUSA_DEF` son códigos numéricos. Para entender qué significa cada uno de estos códigos, es necesario consultar el catálogo de defunciones que viene en los archivos que descargaste del INEGI. Este es un ejemplo de por qué la exploración de metadatos es un paso importante en el análisis de datos.

Para seleccionar las filas que cumplen con una condición, debes:

1.  Crear una **condición booleana** que devuelva `True` o `False` para cada fila.
2.  Pasar esa condición al DataFrame dentro de corchetes.

Por ejemplo, para seleccionar las filas donde el sexo es femenino (según el catálogo, el valor es `2`):

In [15]:
df['SEXO'] == 2

0          True
1          True
2          True
3          True
4         False
          ...  
799864     True
799865     True
799866     True
799867     True
799868    False
Name: SEXO, Length: 799869, dtype: bool

Usa la condición para filtrar el DataFrame. Aunque usar `df[condicion]` es la forma más común y sencilla de filtrar, es buena práctica usar `.loc`.

La ventaja de `.loc` es que hace explícito que estás seleccionando filas basándote en su etiqueta (en este caso, una etiqueta booleana), lo que puede hacer tu código más legible. Además, es la forma más segura de evitar errores futuros al combinar la selección de filas y columnas.

In [16]:
df.loc[df['SEXO'] == 2]

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
0,01,001,15,0001,32,044,5,0001,01,001,...,9,18,12,2022,,88,888,8888,,999
1,01,001,15,0001,01,001,15,0001,01,001,...,9,12,12,2022,,88,888,8888,,999
2,01,001,15,0001,01,001,15,0001,01,001,...,9,17,12,2022,,88,888,8888,,999
3,01,001,15,0001,01,001,15,0001,01,001,...,9,1,1,2023,,88,888,8888,,999
5,01,001,4,0239,01,001,15,0001,01,001,...,9,12,11,2022,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799863,32,056,13,0001,32,054,4,0001,32,056,...,8,25,12,2023,,88,888,8888,,999
799864,32,024,8,0001,32,024,8,0001,32,024,...,8,99,12,2023,,88,888,8888,,999
799865,32,056,13,0001,32,056,13,0001,32,056,...,8,5,6,2023,,88,888,8888,,999
799866,32,056,13,0001,32,017,4,0042,32,056,...,8,9,8,2023,,88,888,8888,,999


De forma similar, puedes usar operadores como "diferente de" (`!=`) para seleccionar las filas que no cumplen la condición.

In [17]:
df.loc[df['SEXO'] != 2]

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
4,01,001,15,0001,14,053,1,7777,01,001,...,8,22,12,2022,,88,888,8888,,999
8,01,001,15,0001,01,001,2,0127,01,001,...,8,7,1,2023,,88,888,8888,,999
9,01,001,4,0239,01,011,7,0001,01,011,...,8,19,12,2022,,88,888,8888,,999
11,01,001,15,0001,01,001,15,0001,01,001,...,8,25,12,2022,,88,888,8888,,999
14,01,001,15,0001,01,001,15,0001,01,001,...,8,29,12,2022,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799855,32,055,6,0001,32,055,6,0001,32,055,...,8,20,8,2023,,88,888,8888,,999
799856,32,056,13,0001,32,050,1,0009,32,056,...,8,11,3,2023,,88,888,8888,,999
799859,32,039,9,0001,32,029,1,0005,32,039,...,8,18,8,2023,,88,888,8888,,999
799862,32,055,6,0001,32,055,1,0032,32,055,...,8,19,6,2023,,88,888,8888,,999


Si los datos son numéricos, puedes usar operadores de comparación como "mayor que" (`>`), "menor que" (`<`), "mayor o igual que" (`>=`), "menor o igual que" (`<=`).

Por ejemplo, para seleccionar las filas de decesos de personas de más de cien años (según el catálogo, el valor es `4100`):

In [18]:
df.loc[df['EDAD'] > 4065]

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
0,01,001,15,0001,32,044,5,0001,01,001,...,9,18,12,2022,,88,888,8888,,999
1,01,001,15,0001,01,001,15,0001,01,001,...,9,12,12,2022,,88,888,8888,,999
2,01,001,15,0001,01,001,15,0001,01,001,...,9,17,12,2022,,88,888,8888,,999
3,01,001,15,0001,01,001,15,0001,01,001,...,9,1,1,2023,,88,888,8888,,999
5,01,001,4,0239,01,001,15,0001,01,001,...,9,12,11,2022,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799826,32,024,8,0001,32,024,8,0001,32,024,...,8,13,11,2023,,88,888,8888,,999
799827,32,030,2,0001,32,030,2,0001,32,017,...,8,15,11,2023,,88,888,8888,,999
799830,32,024,8,0001,32,024,1,0017,32,024,...,8,17,12,2023,,88,888,8888,,999
799833,32,056,13,0001,32,056,13,0001,32,056,...,9,28,1,2023,,88,888,8888,,999


Los datos faltantes (`NaN`) son un problema común. Para identificar las filas que tienen valores nulos en una columna específica, se usa el método `.isna()`. 

Nota: En el caso de los datos del INEGI no hay faltantes con `NaN`, ya que los registros sin datos se codifican de otras maneras.

In [19]:
df.loc[df['EDAD'].isna()]

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX


Cuando necesitas seleccionar filas que coincidan con varios valores específicos, es más eficiente usar el método `.isin()`. Este método toma una lista de valores y devuelve `True` si el valor de la columna está en esa lista.

Por ejemplo, cinco causas más comunes de defunción son: 'I219', 'E116', 'J189', 'E117', 'E112'. Usemos esa lista para seleccionar los registros asociados a esas causas.

In [20]:
df.loc[  df['CAUSA_DEF'].isin(['I219', 'E116', 'J189', 'E117', 'E112'])  ]

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
0,01,001,15,0001,32,044,5,0001,01,001,...,9,18,12,2022,,88,888,8888,,999
7,01,001,4,0239,01,001,15,0001,01,005,...,9,15,11,2022,,88,888,8888,,999
8,01,001,15,0001,01,001,2,0127,01,001,...,8,7,1,2023,,88,888,8888,,999
15,01,001,15,0001,01,001,5,0479,01,001,...,8,16,1,2023,,88,888,8888,,999
20,01,001,15,0001,14,053,1,0299,01,001,...,9,15,1,2023,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799807,32,051,5,0001,32,051,5,0008,32,056,...,8,11,12,2023,,88,888,8888,,999
799808,32,047,4,0001,32,047,4,0001,32,047,...,8,20,12,2023,,88,888,8888,,999
799809,32,048,7,0001,32,048,7,0001,32,048,...,8,23,12,2023,,88,888,8888,,999
799825,32,022,7,0001,32,022,7,0001,32,022,...,9,29,11,2023,,88,888,8888,,999


Para combinar varias condiciones de filtrado, debes encerrar cada condición entre paréntesis y unirlas con operadores lógicos:

  * `&`: Para combinar condiciones con "y" (`AND`). Se deben cumplir ambas.
  * `|`: Para combinar condiciones con "o" (`OR`). Se debe cumplir al menos una.
  * `~`: Para negar una condición.

En selecciones complejas, 3s una buena práctica realizar las selecciones por pasos y guardar los resultados en variables con nombres descriptivos.

Para seleccionar los registros de mujeres menores de un año, se selecciona las filas donde el sexo es 2 (femenino) **Y** la edad es menor de 4001 (un año).

In [21]:
df.loc[(df['SEXO'] == 2) & (df['EDAD'] < 4001)]

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
162,01,001,15,0001,01,001,15,0001,01,001,...,8,9,1,2023,,88,888,8888,,999
444,01,005,11,0001,01,005,11,0001,01,005,...,8,13,2,2023,,88,888,8888,,999
548,01,001,15,0001,01,001,15,0001,01,001,...,8,24,2,2023,,88,888,8888,,999
684,01,007,9,0001,01,009,2,0012,01,005,...,8,8,1,2023,,88,888,8888,,999
826,01,005,11,0001,01,005,11,0001,01,005,...,8,6,2,2023,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799863,32,056,13,0001,32,054,4,0001,32,056,...,8,25,12,2023,,88,888,8888,,999
799864,32,024,8,0001,32,024,8,0001,32,024,...,8,99,12,2023,,88,888,8888,,999
799865,32,056,13,0001,32,056,13,0001,32,056,...,8,5,6,2023,,88,888,8888,,999
799866,32,056,13,0001,32,017,4,0042,32,056,...,8,9,8,2023,,88,888,8888,,999


Las columnas tienen funciones especializadas dependiendo de su tipo. Por ejemplo, las columnas de texto permiten hacer operaciones de `strings`.

Para seleccionar todas las defunciones por enfermedades respiratorias, que en el catálogo del CIE-10 son códigos que inician con la letra `J`, puedes usar el método `.str.startswith()`:

In [22]:
df.loc[df['CAUSA_DEF'].str.startswith('J')]

Unnamed: 0,ENT_REGIS,MUN_REGIS,TLOC_REGIS,LOC_REGIS,ENT_RESID,MUN_RESID,TLOC_RESID,LOC_RESID,ENT_OCURR,MUN_OCURR,...,COMPLICARO,DIA_CERT,MES_CERT,ANIO_CERT,MATERNAS,ENT_OCULES,MUN_OCULES,LOC_OCULES,RAZON_M,DIS_RE_OAX
0,01,001,15,0001,32,044,5,0001,01,001,...,9,18,12,2022,,88,888,8888,,999
1,01,001,15,0001,01,001,15,0001,01,001,...,9,12,12,2022,,88,888,8888,,999
2,01,001,15,0001,01,001,15,0001,01,001,...,9,17,12,2022,,88,888,8888,,999
26,01,001,15,0001,01,003,8,0001,01,001,...,8,14,1,2023,,88,888,8888,,999
38,01,001,15,0001,01,001,15,0001,01,001,...,8,18,1,2023,,88,888,8888,,999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799805,32,051,5,0001,32,051,1,7777,32,010,...,8,28,12,2023,,88,888,8888,,999
799813,32,051,5,0001,32,051,5,0008,32,051,...,8,12,12,2023,,88,888,8888,,999
799823,32,025,5,0001,32,025,1,7777,32,025,...,8,23,11,2023,,88,888,8888,,999
799829,32,010,13,0001,32,049,6,0001,32,010,...,8,27,12,2023,,88,888,8888,,999


## 3.e Conteo y valores únicos

Para conocer los valores que existen en una columna, puedes usar la función **`.unique()`**. Esto te devuelve una lista (un arreglo de NumPy, para ser exactos) de todos los valores distintos que se encuentran en esa columna. Por ejemplo, si revisamos el perfil de datos de las EDR, veremos que hay múltiples causas de defunción. Usando `.unique()`, podemos obtener una lista de todas ellas.

In [23]:
df['CAUSA_DEF'].unique()

array(['J189', 'J80X', 'J440', ..., 'V785', 'B870', 'N423'], dtype=object)

Si solo te interesa saber cuántos valores únicos hay, y no cuáles son, la función **`.nunique()`** devuelve un número entero con el conteo.

In [24]:
df['CAUSA_DEF'].nunique()

4119

La función **`.value_counts()`** es una de las más utilizadas en la exploración de datos. Te permite contabilizar la frecuencia con la que aparece cada valor único en una columna. El resultado es una `pd.Series` que tiene los valores únicos como índice y su respectiva cuenta como valor.

In [25]:
df['CAUSA_DEF'].value_counts()

CAUSA_DEF
I219    130456
E116     34229
J189     27039
E117     18392
E112     16464
         ...  
W519         1
P130         1
O036         1
M513         1
V544         1
Name: count, Length: 4119, dtype: int64

Aquí, `CAUSA_DEF` es el nombre del índice, y los códigos (`I219`, `E116`) son sus etiquetas. El `130456` es el valor asociado a `I219`, lo que significa que hubo 130,456 defunciones con ese código. La información al final `(Length: 4119, dtype: int64)` te dice que hay 4,119 códigos de causa de defunción únicos y que el conteo está almacenado como un número entero de 64 bits.

El nombre `count` que se muestra al final es el nombre de la columna de valores generada por la función.

Si lo que necesitas es ver la **distribución en porcentajes** en lugar de conteos absolutos, puedes usar el parámetro `normalize=True`.

La función `value_counts()` ignora los valores faltantes (`NaN`) por defecto. Para incluirlos en el conteo, debes usar el parámetro `dropna=False`. Esto es crucial al calcular porcentajes, ya que el denominador cambiará.

En el caso de los datos del INEGI, los faltantes se codifican con una clave, por ejemplo `9999` qué pandas trata cómo un valor. Sin embargo, recuerda esto para otras tablas.


In [26]:
df['CAUSA_DEF'].value_counts(normalize=True, dropna=False)

CAUSA_DEF
I219    0.163097
E116    0.042793
J189    0.033804
E117    0.022994
E112    0.020583
          ...   
W519    0.000001
P130    0.000001
O036    0.000001
M513    0.000001
V544    0.000001
Name: proportion, Length: 4119, dtype: float64

También puedes aplicar `.value_counts()` a **varias columnas** al mismo tiempo, lo que te permite ver la frecuencia de combinaciones de valores. 

Cuando aplicas `.value_counts()` a varias columnas, como `[['SEXO', 'EDAD']]`, Pandas agrupa las filas por la combinación única de valores en esas columnas. El resultado es una `pd.Series` cuyo índice se convierte en un índice jerárquico o `MultiIndex`.

In [27]:
df[['SEXO', 'EDAD']].value_counts()

SEXO  EDAD
1     4075    8706
      4076    8657
2     4082    8608
1     4077    8577
      4078    8563
              ... 
9     2017       1
      2024       1
      2020       1
      3001       1
      2029       1
Name: count, Length: 430, dtype: int64

La función `.reset_index()` permite transformar la `pd.Series` con `MultiIndex` en un DataFrame más fácil de usar. Al aplicarla, los niveles del `MultiIndex` se convierten en columnas regulares del nuevo DataFrame. La columna de conteo, que por defecto se llama `count`, también se vuelve una columna más. 

Este proceso también se puede usar para transformar series con un índice sencillo a DataFrame.

In [28]:
df[['SEXO', 'EDAD']].value_counts().reset_index()

Unnamed: 0,SEXO,EDAD,count
0,1,4075,8706
1,1,4076,8657
2,2,4082,8608
3,1,4077,8577
4,1,4078,8563
...,...,...,...
425,9,2017,1
426,9,2024,1
427,9,2020,1
428,9,3001,1


Dado que el resultado de **`.value_counts()`** es una `pd.Series` (o un DataFrame si usas `.reset_index()`, puedes usar otras funciones de pandas, como `.head()`, para ver los resultados más importantes. Por ejemplo, para ver las cinco causas de defunción más comunes:

In [29]:
df['CAUSA_DEF'].value_counts().head(5)

CAUSA_DEF
I219    130456
E116     34229
J189     27039
E117     18392
E112     16464
Name: count, dtype: int64

## 3.f Selección y revisión de un subconjunto

A partir de nuestras preguntas, hemos identificado las siguientes variables del conjunto de datos. En la etapa de limpieza, nos centraremos en estas columnas y eliminaremos el resto para optimizar el análisis.

| Categoría | Variables del INEGI |
| :--- | :--- |
| **Causas Respiratorias** | `'CAUSA_DEF'` |
| **Tiempo** | `'DIA_OCURR'`, `'MES_OCURR'`, `'ANIO_OCUR'` |
| **Lugar** | `'ENT_OCURR'`, `'MUN_OCURR'`, `'AREA_UR'` |
| **Grupo etario** | `'SEXO'`, `'EDAD'` |
| **Sistema de salud** | `'SITIO_OCUR'`, `'COND_CERT'`, `'DERECHOHAB'` |

Para seleccionar el subconjunto de datos que nos interesa, seguiremos dos pasos:
1.  **Filtrar por variables**: Primero, seleccionaremos únicamente las columnas de interés que definimos en la tabla anterior.
2.  **Filtrar por observaciones**: Luego, seleccionaremos solo las filas que corresponden a defunciones por enfermedades respiratorias. Como vimos en la exploración, estas se identifican en la columna `'CAUSA_DEF'` con códigos que comienzan con la letra `'J'`.

Nota como guardamos el resultado de la selección en un nuevo DataFrame llamado `df_respiratorio`.

In [30]:
# Paso 1: Seleccionar las columnas de interés
columnas = ['CAUSA_DEF', 'TIPO_DEFUN', 'DIA_OCURR', 'MES_OCURR', 'ANIO_OCUR',
                       'ENT_OCURR', 'MUN_OCURR', 'AREA_UR', 'SEXO',
                       'EDAD', 'EDAD_AGRU', 'SITIO_OCUR', 'COND_CERT', 'DERECHOHAB']
df_respiratorio = df[columnas]

# Paso 2: Filtrar las filas por la condición de enfermedades respiratorias
# Códigos de causa de defunción que comienzan con 'J'
df_respiratorio = df_respiratorio[df_respiratorio['CAUSA_DEF'].str.startswith('J')]

# Muestra el nuevo DataFrame
df_respiratorio

Unnamed: 0,CAUSA_DEF,TIPO_DEFUN,DIA_OCURR,MES_OCURR,ANIO_OCUR,ENT_OCURR,MUN_OCURR,AREA_UR,SEXO,EDAD,EDAD_AGRU,SITIO_OCUR,COND_CERT,DERECHOHAB
0,J189,4,18,12,2022,01,001,1,2,4073,19,4,3,2
1,J80X,4,12,12,2022,01,001,1,2,4077,20,1,1,1
2,J440,4,17,12,2022,01,001,1,2,4069,18,1,3,1
26,J449,4,14,1,2023,01,001,1,1,4073,19,3,1,2
38,J64X,4,18,1,2023,01,001,1,1,4052,15,3,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
799805,J440,4,28,12,2023,32,010,2,1,4076,20,3,1,2
799813,J960,4,10,12,2023,32,051,1,1,4098,24,11,3,1
799823,J948,4,23,11,2023,32,025,2,1,4083,21,11,3,1
799829,J100,4,27,12,2023,32,010,1,1,4053,15,1,3,99


Después de seleccionar un subconjunto de datos, es crucial revisarlo para asegurar que la selección se hizo correctamente. Una primera revisión consiste en fijarse en el tamaño, el conjunto de datos original es de `799869 rows × 74 columns`, mientras que el conjunto seleccionado es de `66821 rows × 15 columns`. 

Esto nos sirve para verificar que las selecciones de filas y columnas se realizaron; sin embargo, es necesario revisar el **contenido** para validar la calidad de los datos. Para facilitar este análisis inicial, utilizaremos una vez más la biblioteca **`ydata-profiling`** para generar un nuevo perfil de datos, pero esta vez solo del subconjunto que hemos creado. 

A continuación, generaremos un nuevo reporte de perfil de datos para el DataFrame de defunciones por causas respiratorias que creamos. Al revisar el perfil de datos, tendrás una visión completa y detallada del subconjunto de datos con el que trabajarás, lo cual permite verificar si la selección fue exitosa, si se respetó el filtrado y determinar la calidad de los datos restantes.

In [31]:
from ydata_profiling import ProfileReport
profile = ProfileReport(df_respiratorio,
                        title="Reporte de Perfil de Datos de Defunciones por Causas Respiratorias",
                        minimal=True)
profile.to_file("profiles/EDR2023_profile_respiratorias_seleccion.html")

  from .autonotebook import tqdm as notebook_tqdm


Summarize dataset:  53%|▌| 10/19 [00:00<00:01,  7.48it/s, Describe variable: DER
100%|█████████████████████████████████████████| 14/14 [00:00<00:00, 2739.71it/s][A
Summarize dataset: 100%|█████████████| 20/20 [00:00<00:00, 40.39it/s, Completed]
Generate report structure: 100%|██████████████████| 1/1 [00:01<00:00,  1.98s/it]
Render HTML: 100%|████████████████████████████████| 1/1 [00:00<00:00,  4.81it/s]
Export report to file: 100%|█████████████████████| 1/1 [00:00<00:00, 344.95it/s]


El reporte de perfil de datos y el conocimiento externo han revelado varios problemas que necesitamos resolver. Este tipo de hallazgos es el motivo principal de la etapa de exploración.

- **Inconsistencias en el año de ocurrencia**: La columna `ANIO_OCUR` no solo incluye el año 2023, sino que también contiene valores atípicos como `1961` y `9999`, que probablemente representan defunciones ocurridas en años anteriores, pero registradas en 2023 y valores no especificados, respectivamente.
- **Necesidad de catálogos**: Columnas como `EDAD`, `CAUSA_DEF` y `SEXO` utilizan códigos numéricos o alfanuméricos que son difíciles de interpretar sin los catálogos del INEGI.
- **Tipo de datos incorrectos**: Algunas columnas, como `DIA_OCURR` o `MES_OCURR`, son leídas como numéricas cuando deberían ser parte de un tipo de dato `datetime`.
- **Información incompleta sobre causas de muerte**: El conocimiento externo de la codificación CIE indica que algunas muertes respiratorias, como la tuberculosis, no están incluidas en el capítulo `J`. Esto significa que nuestro filtro inicial fue incompleto.

![Perfil de ANIO_OCUR](./extra/EDR2023_seleccion_año.png)

Estos hallazgos nos permiten diseñar una estrategia de limpieza para transformar los datos brutos en un formato confiable y listo para el análisis, la cual realizaremos en el siguiente notebook.

## 3.g Resumen

En esta lección hemos aprendido varios conceptos:

* Elementos de un dataframe: `.index`, `.columns`, `.values`, `.shape`, `.dtypes`.
* Seleccionar las primeras (`.head()`) y últimas (`.tail()`) filas.
* Seleccionar columnas: `df[ columnas ]`.
* Seleccionar por llaves: `df.loc[filas, columnas]`.
* Seleccionar por posición: `df.iloc[filas, columnas]`.
* Ordenar `.sort_values()` y eliminar `.drop()`.
* Evaluar si los valores de una columna cumplen una condición con: `==`, `!=`, `.isna()`, `.notna()`, `.isin()`.
* Mostrar las filas que cumplen una condición: `df[ df[col]==True ]`.
* Combinar múltiples condiciones con: `&`, `|` y `~`.
* Contar ocurrencias con: `.unique()`, `.nunique()` y `.value_counts().
* Restablecer el indice y volver el indice original en columnas con `.reset_index()`.