# Análisis y visualización de datos abiertos con Python

En este tutorial, te guiaremos en una exploración profunda de un conjunto de datos utilizando la potente biblioteca de Python, Pandas. Además de Pandas, también aprenderás algunas técnicas avanzadas de análisis de datos para ayudarte a comprender de manera más efectiva los datos y destacar patrones y tendencias interesantes.

Este tutorial está diseñado para aquellos interesados en el análisis de datos y la visualización, y que desean aprender cómo utilizar Python y Pandas para realizar esta tarea de manera efectiva. Aunque no se requiere experiencia previa en programación o análisis de datos, se recomienda tener un conocimiento básico de Excel y Python para aprovechar al máximo el tutorial.

En este tutorial, trabajaremos con el conjunto de datos actualizado del [Módulo de Fosas Comunes (MFC)](https://comisionacionaldebusqueda.gob.mx/modulo-de-fosas-comunes/) de la Comisión Nacional de Búsqueda, con fecha de actualización del 24 de noviembre de 2022.


## 2.1 Estructura de un proyecto de datos

Para organizar la información y nuestro espació de trabajo haremos una carpeta individual para el curso (por ejemplo, en mi computadora esta se llama _CursoPandas2023_). Dentro de esta carpeta organizaremos todos nuestros archivos en subcarpetas. De tal forma que la carpeta __CursoPandas2023__ contendrá las siguientes subcarpetas:

Es importante documentar cada una de las etapas y los procesos realizados en ellas. Esto incluye describir el propósito de cada paso, los métodos utilizados, las decisiones tomadas y los resultados obtenidos. La documentación puede ser en forma de notas en el código, en un archivo de texto o en un cuaderno Jupyter. La documentación es fundamental para garantizar la repetibilidad del proceso y para que otros miembros del equipo o cualquier persona interesada pueda entender y replicar el análisis.

Es importante también tener en cuenta los aspectos éticos al trabajar con datos, como la privacidad y seguridad de los datos, la protección de la propiedad intelectual y la responsabilidad legal. Por lo tanto, es necesario tomar medidas para proteger los datos sensibles y garantizar su privacidad, como encriptar archivos y restringir el acceso solo a personas autorizadas.

En resumen, una estructura organizada y documentada es fundamental para garantizar la eficiencia, repetibilidad y confiabilidad en el análisis de datos. La documentación y la organización de archivos permiten una mayor transparencia en el proceso de análisis y facilita la revisión y el seguimiento de los resultados.

Un análisis de datos se compone de varios pasos, que pueden variar dependiendo del objetivo del proyecto. Sin embargo, todos los proyectos de datos incluyen por lo menos los siguientes pasos:
* **Obtención**: En este paso, recopilamos y reunimos los datos que vamos a utilizar. Esto puede ser una hoja de cálculo de pacientes, una base de datos en línea o los resultados de un secuenciador. En este caso, se trata de obtener el archivo de MFC generado por la CNB.
* **Exploración** (EDA por sus siglas en inglés): En este paso, nos familiarizamos con el conjunto de datos tal y como viene originalmente. Esto implica descubrir su formato, el número de hojas o tablas que tiene, los campos, etc.
* **Limpieza**: En este paso, preparamos los datos para su análisis. La limpieza de datos es el proceso de corregir o eliminar los datos incorrectos, corruptos, con formato incorrecto, duplicados o incompletos que existen dentro de un conjunto de datos.
* **Análisis**: En este paso, extraemos información y conocimiento de los datos. Esta etapa puede incluir múltiples análisis y subetapas.

Además, en casi todas las etapas se lleva a cabo la **visualización** de los datos, lo cual permite representar los datos de forma gráfica de manera que sea más fácil de comprender.

El análisis de datos consiste en una serie de etapas que pueden variar dependiendo del objetivo del proyecto. Sin embargo, en general, todos los proyectos incluyen al menos las siguientes etapas: obtención, exploración, limpieza y análisis. Durante todas estas etapas, es común realizar visualizaciones para representar los datos de manera gráfica y comprensible.

Es importante destacar que estas etapas están estrechamente relacionadas y es difícil realizar la limpieza de datos antes de familiarizarse con el conjunto de datos en la etapa de exploración. Por ello, es recomendable separar claramente cada etapa en diferentes carpetas y archivos para evitar la propagación de errores y facilitar la revisión del proceso en el futuro. Además, es útil generar un notebook que pueda llevar a cabo todos los pasos del proceso y permita regenerar los archivos en caso de necesidad.

Para este proyecto iniciaremos generando las siguientes carpetas:
* __data_raw__ carpeta donde pondremos los archivos de datos originales como el excel descargado.
* __profiles__ carpeta con las exploraciones semi-automáticas de los datos.
* __data_clean__ carpeta donde colocaremos los archivos de datos que vayamos limpiando y generando.
* __extras__ carpeta con las imagenes y otros archivos de referencia que queramos guardar.

Es importante documentar cada etapa y las decisiones que se tomaron durante el proceso de análisis de datos. Esto incluye la motivación detrás de la limpieza de los datos y cualquier supuesto o hipótesis que se haya formulado. Esta documentación es útil tanto para el equipo que está trabajando en el proyecto como para futuros revisores o usuarios que deseen comprender el proceso detrás del análisis.

Es importante también utilizar versiones controladas de los archivos de datos y el código, como Git, para asegurarse de que se puedan rastrear los cambios y mantener un registro de los cambios que se hayan realizado.

En resumen, organizar y documentar el proceso de análisis de datos es esencial para garantizar la reproducibilidad y la transparencia del análisis, y para asegurar que los resultados sean confiables y de calidad.


<a id='obtencion'></a>

## 2.2 Obtención del conjunto de datos

Utilizaremos el [Módulo de Fosas Comunes](https://comisionacionaldebusqueda.gob.mx/modulo-de-fosas-comunes/) creado por la Comisión Nacional de Búsqueda de Personas. La Comisión Nacional de Búsqueda de Personas creó en 2020 el Módulo de Fosas Comunes, una base de datos que recopila y homologa información sobre cuerpos y restos inhumados en fosas comunes. El MFC se utiliza para comparar regularmente con el Registro Nacional de Personas Desaparecidas y No Localizadas para detectar posibles coincidencias. Los posibles positivos son evaluados en CNB para eliminar falsos positivos, y aquellos que persisten se convierten en indicios que se investigan en coordinación con las autoridades locales. El MFC está en constante integración y actualización, pero su exactitud depende de la información disponible en los panteones. La CNB no asume responsabilidad por la exactitud de la información en el MFC, sino que la responsabilidad recae en las administraciones de los panteones. Sin embargo, debido a la escasez de recursos, las comisiones de búsqueda brindan apoyo técnico a los panteones para extraer y homologar sus datos.

Al final de la página web hay un botón que nos permite descargar el conjunto de datos.
![Página web del MFC](./images/MFC_descargar.png)

Al acceder al archivo, podemos ver que tiene varias hojas:
* Nota jurídica y metodológica: brinda información sobre los aspectos legales y metodológicos relacionados con un tema
* Diccionario: describe el conjunto de datos, esta sección es de suma importancia para entender los datos con los que estamos trabajando.
* MFC: la tabla con la información del Módulo de Fosas Comunes
![Archivo del MFC](./images/MFC_hoja1.png)


### Ejercicio 1
1. Crea una carpeta para el proyecto (por ejemplo CursoPandas2023).
2. Crea las carpetas mencionadas anteriormente. 
3. Descarga el archivo y colócalo en la carpeta correcta
4. Resuelve las siguientes preguntas:
    * ¿Qué formato tiene?
    * ¿Cuantás hojas o tablas contiene?
    * ¿Qué información esperas encontrar en el conjunto de datos?
    * ¿Qué información esta contenida en cada hoja o tabla?
    * ¿Cuáles son sus limitaciones?


## 2.2 Cargar los datos en python

Ahora que los datos ya estan en la computadora podemos abrirlos usando python para empezar a trabajar con ellos.
Necesitamos un jupyter notebook en la carpeta de trabajo y que los archivos esten en la carpeta _data-raw_. En primer lugar verificaremos la carpeta donde esta nuestro código y archivos. Esto lo podemos hacer con el navegador de archivos del sistema operativo o de jupyter.

A continuación cargaremos la biblioteca de pandas para trabajar con la tabla de datos y cargaremos los archivos.  Para esto es importante conocer la terminación del archivo.
Para lograr esto es necesario importar la biblioteca de pandas usando _import_. Como estaremos usando constantemente esta bibliteca la importaremos con la abreviatura _pd_. 

Despues usaremos el comando _pd.read_excel()_. De esta forma podemos abrir un excel como si fuera un dataframe de pandas.

Para abrir un archivo de _csv_ puedes usar el comando: _pd.read_csv(filename)_. Dependiendo del formato del archivo el comando puede cambiar.

**NOTA:** Si vez el siguiente error o similar es necesario instalar paquetes adicionales para leer un archivo de formato Excel.

![Error de biblioteca faltante](./images/pandas_openpyxl_error.png)

Ahora podemos acceder en la tabla.

In [1]:
import pandas as pd

file_mfc = 'data_raw/Modulo-de-Fosas-Comunes_actualizacion24nov2022_VD.xlsx'
df = pd.read_excel(file_mfc)
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,,Nota jurídica y metodológica sobre el Módulo d...
1,,
2,,La Comisión Nacional de Búsqueda de Personas (...


Automáticamente `read_excel` carga la primera hoja del archivo. Sin embargo, nosotros estamos interesados en la tercera hoja, la cuál contiene la tabla con la información a analizar. Para resolver esto revisaremos la documentación de la función.

Busca en google ´pandas read_excel´ y busca el link a la documentación de la función.
![Documentación de read_excel](./images/Pandas_documentation.png)
Otra opción es buscar directamente nuestra pregunta ´como seleccionar la hoja de un excel con pandas´

Revisando la página web descubrimos que hay una opción que permite configurar la hoja que se lee:
´´´
sheet_name str, int, list, or None, default 0

    Strings are used for sheet names. Integers are used in zero-indexed sheet positions (chart sheets do not count as a sheet position). Lists of strings/integers are used to request multiple sheets. Specify None to get all worksheets.
´´´

Esto significa que por default la función pd.read_excel lee la primera hoja (´sheet_name = 0´), pero podemos escribir explicitamente que hoja queremos leer para modificar el comportamiento.

Modifiquemos el código para leer la hoja que nos interesa agregando el parámetro.

In [2]:
df = pd.read_excel(file_mfc, sheet_name="MFC")
df

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30 00:00:00,2018-03-04 00:00:00,,Restos cremados,Masculino,55,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23 00:00:00,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-12 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-13 00:00:00,,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-14 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26 00:00:00,2018-12-18 00:00:00,,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21014,XXII-P1780,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2021-11-20 00:00:00,S/D,,Cadáver,Masculino,,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21015,XXII-P1781,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2021-12-15 00:00:00,S/D,,Cadáver,Masculino,,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21016,XXII-P1782,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2022-07-13 00:00:00,S/D,,Cadáver,Masculino,50-55,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,
21017,XXII-P1783,Chiapas,San Cristóbal de las Casas,Panteón Municipal,Inhumación,2022-09-16 00:00:00,S/D,,Cadáver,Masculino,45,Desconocido,,,,,PROCURADURÍA GENERAL DE JUSTICIA DEL ESTADO,Sí,2022-11-03 00:00:00,


Esto nos muestra la tabla, pero ya que esta es muy grande solo nos muestra las primeras y últimas filas, representando las faltantes con _..._ .

En la esquina inferior izquierda se puede ver el número de filas y columnas. Esta tabla tiene `21019 rows × 20 columns`.

También podemos ver el nombre de las columnas.

In [3]:
df.columns

Index(['ID', 'Estado_origen', 'Municipio_origen', 'Panteón_origen',
       'Estatus_FC', 'Fecha_inhumación', 'Fecha_defunción', 'Fecha_exhumación',
       'Restos_tipo', 'Sexo', 'Edad', 'Conocido_Desconocido',
       'Primer apellido', 'Segundo Apellido', 'Nombre(s)', 'Nombre completo',
       'Institución_origen', 'Rdoc', 'Marca_temporal', 'Datos alternativos'],
      dtype='object')

Esta tabla es demasiado larga para trabajar en este ejempli, por lo que solo trabajaremos con las primeras mil filas.


### Ejercicio 2

Lee la documentación de la función `pd.read_excel` y modifica el comando para cargar solo las primeras mil filas de la tabla.

In [4]:
df = pd.read_excel(file_mfc, sheet_name="MFC", nrows=1000)
df

Unnamed: 0,ID,Estado_origen,Municipio_origen,Panteón_origen,Estatus_FC,Fecha_inhumación,Fecha_defunción,Fecha_exhumación,Restos_tipo,Sexo,Edad,Conocido_Desconocido,Primer apellido,Segundo Apellido,Nombre(s),Nombre completo,Institución_origen,Rdoc,Marca_temporal,Datos alternativos
0,XX-P001,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-30,2018-03-04 00:00:00,NaT,Restos cremados,Masculino,55,Desconocido,,,,,UNIVERSIDAD WESTHILL - FACULTAD DE MEDICINA,Sí,2020-03-23 00:00:00.000,
1,XX-P002,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-12 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
2,XX-P003,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-13 00:00:00,NaT,Cadáver,Masculino,,Conocido,Cruz,Lucero,Alberto,Alberto Cruz Lucero,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
3,XX-P004,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-14 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
4,XX-P005,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2019-01-26,2018-12-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-03-23 00:00:00.000,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,XX-P996,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,S/D,NaT,Cadáver,Masculino,42,Conocido,Flores,Rosette,Sergio,Sergio Flores Rosette,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:19:52.451,
996,XX-P997,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2017-10-27 00:00:00,NaT,Cadáver,Masculino,64,Conocido,Juárez,Chávez,Juan Carlos,Juan Carlos Juárez Chávez,UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO - FACU...,Sí,2020-04-06 21:22:53.304,
997,XX-P998,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-08-18 00:00:00,NaT,Cadáver,Masculino,,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:30:12.169,
998,XX-P999,Ciudad de México,Miguel Hidalgo,Panteón Civil de Dolores,Inhumación,2018-09-01,2018-05-22 00:00:00,NaT,Cadáver,Femenino,1,Desconocido,,,,,INSTITUTO DE CIENCIAS FORENSES - TRIBUNAL SUPE...,Sí,2020-04-06 21:32:30.839,


## 2.3 Conjuntos de datos ordenados

Para el anális de datos debemos de familiarizarnos con varias definiciones.

Una **variable** es una medida o un atributo que puede ser asignado a un objeto o individuo. Por ejemplo, la edad, el peso, la altura, el género, la fecha de nacimiento, etc. son variables que pueden ser asignadas a una persona. Una variable puede ser cuantitativa (en la que los valores pueden ser medidos en una escala numérica) o cualitativa (en la que los valores son categóricos, es decir, no pueden ser medidos en una escala numérica). En ambos casos, la variable se utiliza para describir algo y para analizar datos.

Un **valor** es una medida o atributo específico asociado a una variable. Por ejemplo, si una variable es la fecha de nacimiento, un valor podría ser 10 de mayo. Si la variable es el peso, un valor podría ser 80 kg. Los valores son los valores concretos o específicos asociados con una variable en un momento dado.

Una **observación** es una serie de medida o registro de una variable o atributo en un momento o en una unidad específica. Por ejemplo, la observación de la altura y peso de una persona en un momento específico. En un estudio o experimento, las observaciones se recopilan y se utilizan para extraer información y conclusión sobre la relación entre variables o para describir una población o un fenómeno.

Un **dato** es una unidad de información, ya sea numérica o categórica, que se recolecta para describir o medir un fenómeno o una característica de un objeto o sujeto. Por ejemplo, la edad, el género, la estatura, el peso, la fecha de nacimiento, entre otros, son datos que se pueden recopilar sobre una persona. Los datos se utilizan para analizar patrones y tendencias, tomar decisiones basadas en información y generar conocimientos nuevos a partir de la información existente.

Existen varios **tipos de datos**:
* Númericos: valores contables discretos o continuos
* Binarios: verdadero o falso
* Categoricos: número limitado de categorias
* Texto
* Fecha
* Coordenadas

Los datos no siempre están completos, es decir, a veces desconocemos el valor de un dato. Esto se puede representar de varias formas. En el caso de pandas se usa _NaN_ para representar los datos faltantes o desconocidos.

Los principios de los conjuntos de datos ordenados (Tidy Data) fueron dados por Hadley Wickham. Recomendamos leer el [artículo original](http://vita.had.co.nz/papers/tidy-data.pdf), que traducimos parcialmente.

Los principios de los **datos ordenados** proporcionan una forma estándar de organizar los valores de datos dentro de un conjunto de datos. Un estándar hace que la limpieza inicial de datos sea más fácil, ya que no es necesario empezar desde cero y reinventar la rueda cada vez. El estándar de datos ordenados ha sido diseñado para facilitar la exploración inicial y el análisis de los datos, y para simplificar el desarrollo de herramientas de análisis de datos que funcionen bien juntas.

Al igual que las familias, los conjuntos de datos ordenados son todos similares, pero cada conjunto de datos desordenado es desordenado de su propia manera. Los conjuntos de datos ordenados proporcionan una forma estandarizada de vincular la estructura de un conjunto de datos (su disposición física) con su semántica (su significado). En esta sección, proporcionaré algunos términos estándar para describir la estructura y la semántica de un conjunto de datos, y luego utilizaré esas definiciones para definir los datos ordenados.

La mayoría de los conjuntos de datos estadísticos son tablas rectangulares compuestas por filas y columnas. Las columnas están casi siempre etiquetadas y las filas a veces están etiquetadas. Nuestro vocabulario de filas y columnas simplemente no es lo suficientemente rico como para describir por qué las dos tablas representan los mismos datos. Además de la apariencia, necesitamos una forma de describir la semántica subyacente o el significado de los valores mostrados en la tabla.

Un conjunto de datos es una colección de valores, generalmente números (si son cuantitativos) o cadenas (si son cualitativas). Los valores están organizados de dos maneras. Cada valor pertenece a una variable y una observación. Una variable contiene todos los valores que miden el mismo atributo subyacente (como la altura, la temperatura, la duración) a través de las unidades. Una observación contiene todos los valores medidos en la misma unidad (como una persona, un día o una carrera) a través de los atributos.

Los datos ordenados son una forma estándar de asignar el significado de un conjunto de datos a su estructura. Un conjunto de datos es
desordenado o ordenado dependiendo de cómo las filas, columnas y tablas se combinan con las observaciones,
variables y tipos. En datos ordenados:
1. Cada variable forma una columna.
2. Cada observación forma una fila.
3. Cada tipo de unidad de observación forma una tabla.


### Ejercicio 3

Identifica cada una de las definiciones, tipos de datos y características anteriormente descritas en la tabla del MFC.

<a id='exploracion'></a>

## 2.4 Exploración básica

Ya que se han obtenido y abierto los archivos de datos  debemos  familiarizarnos con los datos. Esto se conoce como Análisis Exploratorio de los Datos o EDA por sus siglas en ingles. 

Existe una serie de herramientas que se especializa en eso, una de las cuales es [ydata-profiling](https://ydata-profiling.ydata.ai/docs/master/index.html).

Este tipo de herramienta infiere los tipos de datos, encuentra problemas de datos faltantes y realiza estadística básica.

El reporte puede ser guardado cómo archivo html para ser visto en el navegador web o cómo widget interactivo. En este caso lo guardaremos como html para facilitar su posterior consulta sin depender de anaconda.

In [5]:
from ydata_profiling import ProfileReport

file_profile = "profiles/MFC_profile_short.html"
prof = ProfileReport(df) 
prof.to_file(output_file=file_profile)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

El reporte incluye cinco secciones:

**Overview**. 
Da una idea general del conjunto de datos, por ejemplo variables, observaciones, datos faltantes, tipos de datos, etc. Incluye alertas de posibles errores de datos y cuanto tardo el profile.
![Profile overview](./images/MFC_profile_overview.png)

**Variables** Muestra un resumen de las características de cada variable o columna, incluyendo el tipo de dato, distribución, etc.
![Profile variables](./images/MFC_profile_variables.png)

**Correlations**
Muestra las correlaciones entre variables. Es recomendable no hacer este análisis para conjuntos de datos grandes.
![Profile correlations](./images/MFC_profile_correlations.png)

**Missing values**
Muestra los datos faltantes. Es útil para determinar la calidad de los datos.
![Profile missing](./images/MFC_profile_missing.png)

**Sample**
Muestra un ejemplo de los datos.
![Profile sample](./images/MFC_profile_sample.png)



Estas herramientas son múy utiles para determinar que información contiene el conjunto de datos, cómo se comportan las variables y que pasos de limpieza y análisis se necesitan.

Por ejemplo, podemos ver que las variables `Fecha_defunción`, `Edad` y`Datos alternativos` estan en gris ya que no pudieron ser procesadas. En el caso de `Fecha_defunción` y`Datos alternativos` esto se debé a que no hay datos en el subconjunto seleccionado.

Sin embargo, en el caso de `Edad` es necesario revisar más cuidadosamente lo sucedido. Pare ver la columna `Edad` sin valores faltantes usaremos los siguientes comandos.

In [6]:
df['Edad'].dropna()

0              55
21     19 semanas
22     12 semanas
23             31
24             18
          ...    
993            65
994            31
995            42
996            64
998             1
Name: Edad, Length: 584, dtype: object

Podemos ver que la edad incluye tanto números (55) como textos (19 semanas), por lo que yprofiler es incapaz de determinar el tipo de dato. Esto requiere una limpieza especializada. Cómo parte del primer análisis sustituiremos por ´nan´ todos los datos que no sean números. Más adelante haremos una limpieza mas completa


In [7]:
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')
df['Edad'].dropna()

0      55.0
23     31.0
24     18.0
25     39.0
26     35.0
       ... 
993    65.0
994    31.0
995    42.0
996    64.0
998     1.0
Name: Edad, Length: 540, dtype: float64

Podemos ver que los datos con 'semana' han desaparecido. Realicemos una ves más el profile.

In [8]:
prof = ProfileReport(df) 
prof.to_file(output_file=file_profile)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Ahora podemos ver la `Edad` incluyendo medidas estadísticas.

![Profile edad](./images/MFC_profile_edad.png)


Es posible comparar dos conjuntos de datos.

En primer lugar separaremos los datos de registros Masculinos y Femeninos. Después realizaremos los profiles por separado y los contrastaremos con la función `compare`.

In [18]:
from ydata_profiling import compare

df_masculino = df[df['Sexo']=='Masculino'].drop('Fecha_exhumación', axis=1)
prof_masculino = ProfileReport( df_masculino, title='Masculino' )

df_femenino = df[df['Sexo']=='Femenino'].drop('Fecha_exhumación', axis=1)
prof_femenino  = ProfileReport( df_femenino, title='Femenino' )

file_compare = "profiles/MFC_profile_compare.html"

prof_comparison = compare([prof_masculino, prof_femenino])
prof_comparison.to_file(file_compare)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Además, es posible realizar múltiples mejoras y ajustes al reporte.

* **Título** Agregar un título
* **Metadata** Agregar información como descripción, autor, etc al reporte
* **Variables** Agregar el diccionario de datos para describir las variables
* **Correlations** Llevar a cabo solo algunas correlaciones o ninguna. En el caso de grandes conjuntos de datos se recomienda no realizar correlaciones.
* **Sensitive** Oculta los datos desagregados para evitar filtrar información de individuos.

In [33]:
#Este código toma el diccionario de datos y obtiene el nombre de variable y descripción
dic_datos = pd.read_excel(file_mfc, sheet_name="Diccionario", header=3)
dic_datos = dic_datos[['Variable','Descripción operativa']].dropna()
dic_datos = dict(zip(dic_datos['Variable'], dic_datos['Descripción operativa']))

#Este código genera el reporte
prof_special = df.profile_report(
    title="Módulo de fosas comunes",  #Título
    dataset={ #metadatos
        "description": "Primeros mil registros del Modulo de Fosas Comunes",
        "author": "Comisión Nacional de Búsqueda",
        "url": "https://comisionacionaldebusqueda.gob.mx/modulo-de-fosas-comunes/",
    },
    variables={  "descriptions": dic_datos }, #descripcion de las variables
    correlations=None, #Quitar correlaciones
    sensitive=True, #Ocultar información desagregada
)

file_special = "profiles/MFC_profile_special.html"
prof_special.to_file(output_file=file_special)

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

### Ejercicio 4
Realiza el primer profile de tu conjunto de datos. No es necesario hacerle ninguna modificación especial.

Gracias por su atención!