# Análisis y visualización de datos abiertos con python

2. __Exploración de datos__
    1. [Obtención de datos](#obtencion)


El objetivo de este tutorial es llevar a cabo una exploración básica de un conjunto de datos utilizando la biblioteca de Python. Además de la biblioteca pandas, también se introducirán algunas técnicas básicas de exploración de datos de datos para ayudar a comprender mejor los datos y destacar patrones y tendencias interesantes.

Este tutorial es para aquellos que están interesados en el análisis de datos y la visualización y quieren aprender cómo usar Python y pandas para realizar esta tarea. No se requiere experiencia previa en programación o análisis de datos, pero es útil tener algún conocimiento básico de Excel y Python.

En este tutorial usaremos el [Módulo de Fosas Comunes (MFC)](https://comisionacionaldebusqueda.gob.mx/modulo-de-fosas-comunes/) en su actualización del 24 de noviembre 2022. 

## Estructura de un proyecto de datos

Para organizar la información y nuestro espació de trabajo haremos una carpeta individual para el curso (por ejemplo, en mi computadora esta se llama _CursoPandas2023_). Dentro de esta carpeta organizaremos todos nuestros archivos en subcarpetas. De tal forma que la carpeta __CursoPandas2023__ contendrá las siguientes subcarpetas:

Organizar los archivos es importante para mantener el orden del proyecto, garantizar la repetibilidad y la seguridad de los datos utilizados. 

Un análisis de datos consta de varias etapas, las cuales pueden variar según el objetivo del proyecto. Todos los proyectos de datos contienen al menos las siguientes etapas:
1. **Obtención**. En esta etapa compilamos las tablas y datos que usaremos. Esto puede ser un excel de pacientes, una base de datos del internet o los resultados de un secuenciador. En este caso consiste en obtener el archivo de MFC generado por la CNB.
2. **Exploración** (EDA por sus siglas en ingles). En esta etapa nos familiarizamos con el conjunto de datos como viene de origen. Esto implica averiguar cual es el formato del o los archivos, cuantas hojas o tablas tiene, que campos, etc.
3. **Limpieza**: En esta etapa prepararemos los datos para trabajar con ellos. La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, corruptos, con formato incorrecto, duplicados o incompletos dentro de un conjunto de datos.
4. **Análisis**. En esta etapa se extraera información y conocimiento de los datos. Esta etapa puede incluir múltiples análisis y dividirse en múltiples subetapas.
Adicionalmente en casi todas las etapas se realiza la **visualización** de los datos, la cual permite representar los datos de manera gráfica de tal forma que sea más facíl de entender.

Estas etapas están encadenadas. Es dificil saber que errores de debén de corregir en un conjunto de datos si no hemos realizado una exploración inicial.  Idealmente, cada etapa debé de estar claramente separada tanto en los folders como en los archivos. Un análisis posterior no debé cambiar los archivos de la etapa anterior, ya que esto puede llevar a la propagación de errores. Se recomienda generar una carpeta con los insumos de cada etapa y otra carpeta con la salida. Además, es buena práctica generar un notebook que pueda realizar todos los pasos del proceso y regenerar los archivos. Esto es util en caso de que sea necesario modificar y repetir el proceso o haya una perdida de datos y se deba regenerar el análisis.

Para este proyecto iniciaremos generando las siguientes carpetas:
* __data_raw__ carpeta donde pondremos los archivos de datos originales como el excel descargado.
* __profiles__ carpeta con las exploraciones semi-automáticas de los datos.
* __data_clean__ carpeta donde colocaremos los archivos de datos que vayamos limpiando y generando.
* __extras__ carpeta con las imagenes y otros archivos de referencia que queramos guardar.

Cabe destacar que muchas veces estas etapas son iterativas, es posible que el análisis de datos revelé problemas que deban de ser corregidos con una limpieza edicional. En ese caso se pueden agregar etapas adicionales o modificar una etapa anterior y correr de nuevo todos los procesos.

Nota: Es buena práctica usar nombres significativos, de tal forma que solo con ver los nombres de las carpetas y archivos se tenga una idea general del tema del proyecto. Es buena idea que el entorno de anaconda y la carpeta general del proyecto tengan el mismo nombre.


### Ejercicio 1
1. Crea una carpeta para el proyecto (por ejemplo CursoPandas2023).
2. Crea las carpetas mencionadas anteriormente. 



<a id='obtencion'></a>

## 2.1. Obtención de datos

### Descargar datos abiertos


Utilizaremos el [Módulo de Fosas Comunes](https://comisionacionaldebusqueda.gob.mx/modulo-de-fosas-comunes/) creado por la Comisión Nacional de Búsqueda de Personas. La Comisión Nacional de Búsqueda de Personas creó en 2020 el Módulo de Fosas Comunes, una base de datos que recopila y homologa información sobre cuerpos y restos inhumados en fosas comunes. El MFC se utiliza para comparar regularmente con el Registro Nacional de Personas Desaparecidas y No Localizadas para detectar posibles coincidencias. Los posibles positivos son evaluados en CNB para eliminar falsos positivos, y aquellos que persisten se convierten en indicios que se investigan en coordinación con las autoridades locales. El MFC está en constante integración y actualización, pero su exactitud depende de la información disponible en los panteones. La CNB no asume responsabilidad por la exactitud de la información en el MFC, sino que la responsabilidad recae en las administraciones de los panteones. Sin embargo, debido a la escasez de recursos, las comisiones de búsqueda brindan apoyo técnico a los panteones para extraer y homologar sus datos.

Al final de la página web hay un botón que nos permite descargar el conjunto de datos.
![Página web del MFC](./images/MFC_descargar.png)

Al acceder al archivo, podemos ver que tiene varias hojas:
* Nota jurídica y metodológica: brinda información sobre los aspectos legales y metodológicos relacionados con un tema
* Diccionario: describe el conjunto de datos, esta sección es de suma importancia para entender los datos con los que estamos trabajando.
* MFC: la tabla con la información del Módulo de Fosas Comunes

### Ejercicio 2

Lee la página web, nota jurídica y metodológica y el diccionario de datos.
En base a esto:
1. ¿Qué información esperas encontrar en el conjunto de datos?
2. ¿Cuáles son sus limitaciones?


### ¿Qué es un dato?

Algunas definiciones:

* Variable: una medida o un atributo. Pueden ser fecha, lugar, altura, peso, sexo, etc.
* Valor: la medida o atributo real. 10 de mayo, México, 152 cm, 80 kg, hembra, etc.
* Observación: Todos los valores miden en la misma unidad. Cada persona.
* Dato: representación simbólica de un atributo o variable cuantitativa o cualitativa.

Existen varios tipos de datos:
* Númericos: valores contables discretos o continuos
* Binarios: verdadero o falso
* Categoricos: número limitado de categorias
* Texto
* Fecha
* Coordenadas

Los datos no siempre están completos, es decir, a veces desconocemos el valor de un dato. Esto se puede representar de varias formas. En el caso de pandas se usa _NaN_ para representar los datos faltantes o desconocidos.

Las tablas que proporciona el gobierno se consideran conjuntos de [datos ordenados](http://vita.had.co.nz/papers/tidy-data.pdf), esto quiere decir que:
* Cada variable forma una columna y contiene valores
* Cada observación forma una fila
* Cada tipo de unidad de observación forma una tabla

### Ejercicio 2

Identifica cada una de las definiciones, tipos de datos y características anteriormente descritas en la tabla del MFC.

### Estructura del proyecto

Para organizar la información y nuestro espació de trabajo haremos una carpeta individual para el curso (por ejemplo, en mi computadora esta se llama _CursoPandas2023_). Dentro de esta carpeta organizaremos todos nuestros archivos en subcarpetas. De tal forma que la carpeta __CursoPandas2023__ contendrá las siguientes subcarpetas:
* __data_raw__ carpeta donde pondremos los archivos de datos originales como el excel descargado
* __data_clean__ carpeta donde colocaremos los archivos de datos que vayamos limpiando y generando
* __extras__ carpeta con las imagenes y otros archivos de referencia que queramos guardar
* __profiles__ carpeta con las descripciones automáticas de las tablas de datos

### Ejercicio 3
1. Crea una carpeta para el proyecto
2. Crea las carpetas mencionadas anteriormente
3. Colocalo el MFC en la carpeta adecuada. 

### Cargar los datos en python

Ahora que los datos ya estan en la computadora podemos abrirlos usando python para empezar a trabajar con ellos.

Necesitamos un jupyter notebook en la carpeta de trabajo y que los archivos esten en la carpeta _data-raw_. A continuación cargaremos la biblioteca de pandas para trabajar con la tabla de datos y cargaremos los archivos.

En primer lugar nos ubicaremos en la carpeta donde esta nuestro código y archivos. Esto lo podemos hacer con el navegador de archivos en la parte derecha de jupyter o con código.

In [None]:
from os import chdir, getcwd
chdir(getcwd())

Despues vamos a abrir la tabla con los datos. 

Para lograr esto en primer lugar es necesario importar la biblioteca de pandas usando _import_. Como estaremos usando constantemente esta bibliteca la importaremos con la abreviatura _pd_. 

Despues usaremos el comando _pd.read_excel()_. De esta forma podemos abrir un .csv como si fuera un dataframe de pandas.

Para abrir un archivo de excel puedes usar el comando: _pd.read_excel(filename)_.

**NOTA:** Puede ser necesario instalar paquetes adicionales para leer un archivo de formato Excel.


In [None]:
import pandas as pd

df = pd.read_excel('data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx')

Ahora podemos acceder en la tabla.

In [None]:
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,,Nota jurídica y metodológica sobre el Módulo d...
1,,
2,,La Comisión Nacional de Búsqueda de Personas (...


Automáticamente read_excel carga la primera hoja del archivo. Sin embargo, nosotros estamos interesados en la tercera hoja, la cuál contiene los datos. Para resolver esto revisaremos la documentación de la función.

Busca en google ´pandas read_excel´ y busca el link a la documentación de la función.
![Documentación de read_excel](./images/Pandas_documentation.png)

Revisando la página web descubrimos que hay una opción que permite configurar la hoja que se lee:
´´´
sheet_namestr, int, list, or None, default 0

    Strings are used for sheet names. Integers are used in zero-indexed sheet positions (chart sheets do not count as a sheet position). Lists of strings/integers are used to request multiple sheets. Specify None to get all worksheets.
´´´

Otra opción es buscar directamente nuestra pregunta ´como seleccionar la hoja de un excel con pandas´

Modifiquemos el código para leer la hoja que nos interesa.

In [4]:
df = pd.read_excel('data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx', sheet_name="MFC")
df

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30 00:00:00,2018-03-04 00:00:00,,Restos cremados,Masculino,55,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23 00:00:00,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-12 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-13 00:00:00,,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-14 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-18 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21014,XXII-P1780,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2021-11-20 00:00:00,S/D,,Cadáver,Masculino,,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21015,XXII-P1781,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2021-12-15 00:00:00,S/D,,Cadáver,Masculino,,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21016,XXII-P1782,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2022-07-13 00:00:00,S/D,,Cadáver,Masculino,50-55,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21017,XXII-P1783,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2022-09-16 00:00:00,S/D,,Cadáver,Masculino,45,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,


Esto nos muestra la tabla, pero ya que esta es muy grande solo nos muestra las primeras y últimas filas, representando las faltantes con _..._ .

Esta tabla es demasiado larga, por lo que solo trabajaremos con las primeras mil filas en este tutorial.


### Ejercicio 4

Lee la documentación de la función read_excel y carga solo las primeras mil filas de la tabla.

In [5]:
df = pd.read_excel('data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx', 
                   sheet_name="MFC", nrows=1000)
df

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30,2018-03-04 00:00:00,NaT,Restos cremados,Masculino,55,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23 00:00:00.000,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-12 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-13 00:00:00,NaT,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-14 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XX-P996,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,42,Conocido,Flores,Rosette,Sergio,Sergio Flores Rosette,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:19:52.451,
996,XX-P997,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-27 00:00:00,NaT,Cadáver,Masculino,64,Conocido,Juárez,Chávez,Juan Carlos,Juan Carlos Juárez Chávez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:22:53.304,
997,XX-P998,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-08-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:30:12.169,
998,XX-P999,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-05-22 00:00:00,NaT,Cadáver,Femenino,1,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:32:30.839,


<a id='exploracion'></a>

## 2.2 Exploración básica

Lo primero que debemos hacer es familiarizarnos con los datos. Esto se conoce como Análisis exploratorio de los datos. 

Existe una serie de herramientas que se especializa en eso, una de las cuales es [ydata-profiling](https://ydata-profiling.ydata.ai/docs/master/index.html).

In [7]:
from ydata_profiling import ProfileReport

out_file = "profiles/MFC_profile.html"
prof = ProfileReport(df) 

Podemos ver el profile como un widget interactivo dentro del notebook.

In [8]:
prof.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

También podemos guardarlo como un archivo html.

In [None]:
prof.to_file(output_file=out_file)