# Análisis y visualización de datos con python
# 3. Descarga y exploración de datos

    - a) Estructura de un proyecto de datos
    - b) Obtención del conjunto de datos
    - c) Cargar los datos en Python
    - d) Conjuntos de datos ordenados
    - e) Exploración básica con profiles
    - f) Opciones avanzadas de profiling
    
---

En este tutorial, te guiaremos en una exploración profunda de un conjunto de datos utilizando la potente biblioteca de Python, Pandas. Además de Pandas, también aprenderás algunas técnicas avanzadas de análisis de datos para ayudarte a comprender de manera más efectiva los datos y destacar patrones y tendencias interesantes.

En este tutorial, trabajaremos con el conjunto de datos [Bitácoras Históricas del Servicio Médico Forense del Distrito Federal (SEMEFO-DF)](https://datamx.io/dataset/ingresos-del-semefo-df-1965-1982-inai), que ha sido sistematizada por la Comisión Nacional de Búsqueda (CNB). Este conjunto de datos se obtuvo a través de una solicitud de acceso a la información disponible en el Portal de Transparencia del Instituto Nacional de acceso a la Información (INAI) en noviembre de 2023 y existe una copia en el portal ciudadano datamx de Codeando México.

Existen múltiples fuentes de datos públicos, gubernamentales y científicos. Casi todas las instancias gubernamentales y estatales en México tienen una sección de datos abiertos, ya que están sujetos a las leyes de transparencia. También es posible solicitarles directamente información.  

* **Datos Abiertos del Gobierno de México** ([datos.gob.mx](https://datos.gob.mx/)) – Portal central de datos abiertos del gobierno federal, con información sobre salud, economía, seguridad, etc.
* **INEGI** ([www.inegi.org.mx](https://www.inegi.org.mx/)) – Datos de censos, encuestas, estadísticas económicas y geográficas de México.
* **CONACYT - Repositorio Nacional** ([repositorio.conacyt.mx](https://www.conacyt.mx/repositorio/)) – Publicaciones y datos de investigación científica en México.
* **Banco Mundial** ([data.worldbank.org](https://data.worldbank.org/)) – Datos económicos y sociales globales.  
* **Naciones Unidas - UNData** ([data.un.org](http://data.un.org/)) – Conjunto de bases de datos de distintas agencias de la ONU.  
* **OCDE (OECD Data)** ([data.oecd.org](https://data.oecd.org/)) – Estadísticas económicas, de educación y bienestar.  
* **CEPAL (Comisión Económica para América Latina y el Caribe)** ([cepal.org/es/datos-y-estadisticas](https://www.cepal.org/es/datos-y-estadisticas)) – Datos sobre desarrollo en América Latina.  
* **NASA Earth Data** ([earthdata.nasa.gov](https://earthdata.nasa.gov/)) – Datos satelitales y medioambientales.  
* **GBIF (Global Biodiversity Information Facility)** ([www.gbif.org](https://www.gbif.org/)) – Datos de biodiversidad global.  
* **OpenAIRE** ([www.openaire.eu](https://www.openaire.eu/)) – Publicaciones y datos de investigación abiertos en Europa y el mundo.  
* **European Data Portal** ([data.europa.eu](https://data.europa.eu/)) – Datos abiertos de la Unión Europea.  
* **NOAA (National Oceanic and Atmospheric Administration)** ([www.ncdc.noaa.gov](https://www.ncdc.noaa.gov/)) – Datos climáticos y meteorológicos.  

## 3.a Estructura de un proyecto de datos

Para organizar la información y nuestro espació de trabajo haremos una carpeta individual para el curso (por ejemplo, en mi computadora esta se llama _CursoPandas2025_). Dentro de esta carpeta organizaremos todos nuestros archivos en subcarpetas.

Es importante documentar cada una de las etapas y los procesos realizados en ellas. Esto incluye describir el propósito de cada paso, los métodos utilizados, las decisiones tomadas y los resultados obtenidos. La documentación puede ser en forma de notas en el código, en un archivo de texto o en un cuaderno Jupyter. La documentación es fundamental para garantizar la repetibilidad del proceso y para que otros miembros del equipo o cualquier persona interesada pueda entender y replicar el análisis.

Es importante también tener en cuenta los aspectos éticos al trabajar con datos, como la privacidad y seguridad de los datos, la protección de la propiedad intelectual y la responsabilidad legal. Por lo tanto, es necesario tomar medidas para proteger los datos sensibles y garantizar su privacidad, como encriptar archivos y restringir el acceso solo a personas autorizadas.

En resumen, una estructura organizada y documentada es fundamental para garantizar la eficiencia, repetibilidad y confiabilidad en el análisis de datos. La documentación y la organización de archivos permiten una mayor transparencia en el proceso de análisis y facilita la revisión y el seguimiento de los resultados.

Un análisis de datos se compone de varios pasos, que pueden variar dependiendo del objetivo del proyecto. Sin embargo, todos los proyectos de datos incluyen por lo menos los siguientes pasos:
* **Obtención**: En este paso, recopilamos y reunimos los datos que vamos a utilizar. Esto puede ser una hoja de cálculo de pacientes, una base de datos en línea o los resultados de un secuenciador. En este caso, se trata de obtener el archivo de HBO generado por la CNB.
* **Exploración** (EDA por sus siglas en inglés): En este paso, nos familiarizamos con el conjunto de datos tal y como viene originalmente. Esto implica descubrir su formato, el número de hojas o tablas que tiene, los campos, etc.
* **Limpieza**: En este paso, preparamos los datos para su análisis. La limpieza de datos es el proceso de corregir o eliminar los datos incorrectos, corruptos, con formato incorrecto, duplicados o incompletos que existen dentro de un conjunto de datos.
* **Análisis**: En este paso, extraemos información y conocimiento de los datos. Esta etapa puede incluir múltiples análisis y subetapas.

Además, en casi todas las etapas se lleva a cabo la **visualización** de los datos, lo cual permite representar los datos de forma gráfica de manera que sea más fácil de comprender.

Es importante destacar que estas etapas están estrechamente relacionadas, por ejemplo, es difícil realizar la limpieza de datos antes de familiarizarse con el conjunto de datos en la etapa de exploración. Por ello, es recomendable separar claramente cada etapa en diferentes carpetas y archivos para evitar la propagación de errores y facilitar la revisión del proceso en el futuro. Además, es útil generar un notebook que pueda llevar a cabo todos los pasos del proceso y permita regenerar los archivos en caso de necesidad.

Para este proyecto iniciaremos generando las siguientes subcarpetas:
* __data_raw__ carpeta donde pondremos los archivos de datos originales como el Excel descargado.
* __profiles__ carpeta con las exploraciones semi-automáticas de los datos.
* __data_clean__ carpeta donde colocaremos los archivos de datos que vayamos limpiando y generando.
* __extras__ carpeta con las imágenes y otros archivos de referencia que queramos guardar.

Es importante documentar cada etapa y las decisiones que se tomaron durante el proceso de análisis de datos. Esto incluye la motivación detrás de la limpieza de los datos y cualquier supuesto o hipótesis que se haya formulado. Esta documentación es útil tanto para el equipo que está trabajando en el proyecto como para futuros revisores o usuarios que deseen comprender el proceso detrás del análisis.
Utilizar versiones controladas de los archivos de datos y el código, como Git, es útil para asegurarse de que se puedan rastrear los cambios y mantener un registro de los cambios que se hayan realizado.

En resumen, organizar y documentar el proceso de análisis de datos es esencial para garantizar la reproducibilidad y la transparencia del análisis, y para asegurar que los resultados sean confiables y de calidad.


## 3.b Obtención del conjunto de datos

Utilizaremos las [Bitácoras Históricas del Servicio Médico Forense del Distrito Federal (SEMEFO-DF)](https://datamx.io/dataset/ingresos-del-semefo-df-1965-1982-inai), que ha sido sistematizada por la Comisión Nacional de Búsqueda (CNB). Este conjunto de datos se obtuvo a través de una solicitud de acceso a la información disponible en el Portal de Transparencia del Instituto Nacional de acceso a la Información (INAI) en noviembre de 2023 y existe una copia en el portal ciudadano _datamx_ de Codeando México.

El **SEMEFO-DF (Servicio Médico Forense Distrito Federal)** ahora [INCIFO-CdMx](https://www.incifocdmx.gob.mx/) es una institución oficial encargada de realizar autopsias y estudios forenses para esclarecer las causas de muerte, principalmente en casos de muertes violentas, sospechosas o relacionadas con hechos delictivos. Las **Bitácoras Onomásticas (BO)** son registros administrativos históricos utilizados por el SEMEFO para documentar el ingreso de cadáveres o restos humanos a sus instalaciones. Estas bitácoras contienen información detallada sobre cada ingreso, como el nombre de la persona fallecida, su edad, sexo, fecha de ingreso, institución de procedencia y diagnóstico preliminar de causa de muerte. En muchos casos, estos registros incluyen datos clave para identificar patrones históricos de mortalidad, enfermedades comunes y factores de riesgo, lo que las convierte en una fuente valiosa para estudios demográficos, epidemiológicos y de salud pública.

Podemos acceder a esta información con el [Plataforma de Transparencia](https://www.plataformadetransparencia.org.mx/Inicio), [datamx](https://datamx.io/dataset/ingresos-del-semefo-df-1965-1982-inai) o la copia que está en el [GitHub del curso](https://github.com/mar-esther23/CursoPandas2025/blob/main/data_raw/CNB_DOB_BPGS_Respuesta_Solicitud%20332163723000249.xlsx).

Al descargar obtendremos un archivo llamado `CNB_DOB_BPGS_Respuesta_Solicitud 332163723000249.xlsx`. Lo primero que se debe de hacer es:
* Revisar que el archivo abra y contenga los datos esperados
* Moverlo a la carpeta de **data_raw**


Al acceder al archivo, podemos ver que tiene varias hojas:
* Solicitud_folio_332163723000249: brinda información del conjunto de datos y aclaraciones útiles
* Diccionario: describe el conjunto de datos, esta sección es de suma importancia para entender los datos con los que estamos trabajando.
* HBO: la tabla con la información del Histórico de las Bitácoras Onomásticas (HBO)

### Ejercicio 1
1. Crea una carpeta para el proyecto (por ejemplo CursoPandas2025).
2. Crea las carpetas mencionadas anteriormente:
    * data_raw
    * data_clean
    * extras
    * profiles
4. Descarga el archivo del HBO y colócalo en la carpeta correcta
5. Resuelve las siguientes preguntas:
    * ¿Qué formato de archivo tiene?
    * ¿Cuantás hojas o tablas contiene?
    * ¿Qué información esperas encontrar en el conjunto de datos?
    * ¿Qué información está contenida en cada hoja o tabla?
    * ¿Cuáles son sus limitaciones?

## 3.c Cargar los datos en Python

Ahora que los datos ya están en la computadora, podemos abrirlos usando Python para empezar a trabajar con ellos.
Necesitamos un Júpiter Notebook en la carpeta de trabajo y que los archivos estén en la carpeta **data_raw**. En primer lugar, verificaremos la carpeta donde está nuestro código y archivos. Esto lo podemos hacer con el navegador de archivos del sistema operativo o de Jupyter.

A continuación cargaremos la biblioteca de `pandas` para trabajar con la tabla de datos y cargaremos los archivos.  Para esto es importante conocer la terminación del archivo.
Para lograr esto es necesario importar la biblioteca de pandas usando `import`. Como estaremos usando constantemente esta biblioteca la importaremos con la abreviatura `pd`. 

Después usaremos el comando `pd.read_excel()`. De esta forma podemos abrir un Excel como si fuera un DataFrame de pandas. Para abrir un archivo de `.csv` puedes usar el comando: `pd.read_csv(filename)`. Dependiendo del formato del archivo el comando puede cambiar.


### Abrir el archivo en Colab

Para abrir el archivo en Colab es necesario que el Notebook tenga acceso a nuestro Drive de Google.

En este caso lo recomendado es hacer una carpeta dentro de Google Drive con la misma estructura que se ha sugerido. Después se deben de colocar los notebooks en la carpeta **CursoPandas2025** el archivo con los datos en la subcarpeta **data_raw**. Por defecto, Colab guarda los notebooks en una carpeta llamada **Colab Notebooks** en la raíz del drive, pero es recomendado moverlos a la carpeta del proyecto. 

Una vez que los archivos estén correctamente ubicados en el Drive puedes abrir el archivo con el código que se muestra abajo. Será necesario que le des permiso de acceso a tu Drive.


### Errores al abrir un archivo de Excel

Si vez el siguiente error o similar es necesario instalar paquetes adicionales para leer un archivo de formato Excel llamada `openpyxl`. 

<div>
<img src="./extras/pandas_openpyxl_error.png" width="400"/>
</div>

Ve el tutorial [Instalación e inicio con Anaconda](./CP1-Instalacion.md) con instrucciones al respecto.  También puedes instalar la biblioteca desde Jupyter con el comando:

` !pip install pandas openpyxl `


### Problemas de codificación

Un problema común al trabajar con archivos en español es que los caracteres especiales como los acentos no se muestren correctamente. Esto es por que hay varios formatos para representar un carácter de un lenguaje natural, por ejemplo una letra o emoji, en un símbolo electrónico.

En Python muchas veces se utiliza `UTF-8`, sin embargo es común encontrar textos en otros formatos cómo `latin1`. Esto se puede detectar por que se despliega un error `UnicodeDecodeError` o se muestran caracteres extraños:

<div>
<img src="./extras/pandas_encode_errorA.png" width="300"/>
<img src="./extras/pandas_encode_errorB.png" width="100"/>
</div>

La mayor parte del tiempo, la solución es, dentro de la función de lectura del archivo, utilizar el parámetro `encoding`.

`df = pd.read_csv(filename, encoding='latin1')`

<div>
<img src="./extras/pandas_encode_good.png" width="100"/>
</div>

In [1]:
# !pip install pandas openpyxl

import pandas as pd

filename = 'data_raw/CNB_DOB_BPGS_Respuesta_Solicitud 332163723000249.xlsx'
df = pd.read_excel( filename )
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,,Respuesta a solicitud de información pública c...
1,,
2,,
3,,En la solicitud de información pública con fol...


Automáticamente `read_excel` carga la primera hoja del archivo. Sin embargo, nosotros estamos interesados en la tercera hoja, la cuál contiene la tabla con la información a analizar. Para resolver esto revisaremos la documentación de la función.

<div>
<img src="./extras/pandas_documentation.png" width="500"/>
</div>

Busca en google "pandas read_excel" y busca el link a la documentación de la función. Otra opción es buscar directamente nuestra pregunta "cómo seleccionar la hoja de un excel con pandas".

Revisando la página web descubrimos que hay una opción que permite configurar la hoja que se lee:

```
sheet_name str, int, list, or None, default 0

Strings are used for sheet names. Integers are used in zero-indexed sheet positions (chart sheets do not count as a sheet position). Lists of strings/integers are used to request multiple sheets. Specify None to get all worksheets.
```

Esto significa que por default la función `pd.read_excel()` lee la primera hoja `sheet_name = 0`, pero podemos escribir explicitamente que hoja queremos leer para modificar el comportamiento.

In [2]:
df = pd.read_excel(filename, sheet_name="HBO")
df

Unnamed: 0,ID,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
0,BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,...,S-D,sin datos,Femenino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
1,BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,...,S-D,sin datos,Femenino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
2,BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,...,S-D,sin datos,Masculino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
3,BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,...,S-D,sin datos,Masculino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
4,BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,...,S-D,sin datos,Femenino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
96839,BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido
96840,BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido
96841,BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido
96842,BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido


Esto nos muestra la tabla, pero ya que esta es muy grande solo nos muestra las primeras y últimas filas, representando las faltantes con `...` .

En la esquina inferior izquierda se puede ver el número de filas y columnas. Esta tabla tiene 96844 rows × 26 columns.

También podemos ver el nombre de las columnas.


In [3]:
df.columns

Index(['ID', 'Numero_progresivo_transcrito', 'Nombre_completo_transcrito',
       'Primer_apellido', 'Segundo_apellido', 'Nombres_propios',
       'Fecha_transcrito', 'Fecha_estandar', 'Expediente_SEMEFO_transcrito',
       'Procedencia_transcrito', 'Procedencia_estandar',
       'Procedencia_direccion', 'Procedencia_alcaldia',
       'Numero_acta_transcrito', 'Procedencia_acta', 'Diagnostico_transcrito',
       'Diagnostico_estandar', 'Diagnostico_extendido', 'Sexo',
       'Edad_transcrito', 'Tipo_restos', 'Bitacora_ingresos', 'Pagina_PDF',
       'Foja_transcrito', 'Observaciones', 'Conocido_desconocido'],
      dtype='object')

In [4]:
# !pip install pandas openpyxl

import pandas as pd

filename = 'data_raw/CNB_DOB_BPGS_Respuesta_Solicitud 332163723000249.xlsx'
df = pd.read_excel( filename )
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,,Respuesta a solicitud de información pública c...
1,,
2,,
3,,En la solicitud de información pública con fol...


Automáticamente `read_excel` carga la primera hoja del archivo. Sin embargo, nosotros estamos interesados en la tercera hoja, la cuál contiene la tabla con la información a analizar. Para resolver esto revisaremos la documentación de la función.

Busca en google `pandas read_excel` y busca el link a la documentación de la función. Otra opción es buscar directamente nuestra pregunta "como seleccionar la hoja de un excel con pandas".
![Documentación de read_excel](./extras/pandas_documentation.png)

Revisando la página web descubrimos que hay una opción que permite configurar la hoja que se lee:

```
sheet_name str, int, list, or None, default 0

Strings are used for sheet names. Integers are used in zero-indexed sheet positions (chart sheets do not count as a sheet position). Lists of strings/integers are used to request multiple sheets. Specify None to get all worksheets.  
```

Esto significa que por default la función `pd.read_excel()` lee la primera hoja `sheet_name = 0`, pero podemos escribir explicitamente que hoja queremos leer para modificar el comportamiento.

Modifiquemos el código para leer la hoja que nos interesa agregando el parámetro.

In [5]:
df = pd.read_excel(filename, sheet_name="HBO")
df

Unnamed: 0,ID,Numero_progresivo_transcrito,Nombre_completo_transcrito,Primer_apellido,Segundo_apellido,Nombres_propios,Fecha_transcrito,Fecha_estandar,Expediente_SEMEFO_transcrito,Procedencia_transcrito,...,Diagnostico_estandar,Diagnostico_extendido,Sexo,Edad_transcrito,Tipo_restos,Bitacora_ingresos,Pagina_PDF,Foja_transcrito,Observaciones,Conocido_desconocido
0,BO_1968_00001,S-D,acosta ortega teresa,acosta,ortega,teresa,1968-01-03 00:00:00,1968-01-03,37,S-D,...,S-D,sin datos,Femenino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
1,BO_1968_00002,S-D,avila de cuestas catalina,avila,de cuestas,catalina,1968-01-05 00:00:00,1968-01-05,58,S-D,...,S-D,sin datos,Femenino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
2,BO_1968_00003,S-D,arzate paredes juan,arzate,paredes,juan,1968-01-07 00:00:00,1968-01-07,83,S-D,...,S-D,sin datos,Masculino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
3,BO_1968_00004,S-D,alvarez martinez isaac,alvarez,martinez,isaac,1968-01-07 00:00:00,1968-01-07,86,S-D,...,S-D,sin datos,Masculino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
4,BO_1968_00005,S-D,arellano viuda de campos ma.,arellano,viuda de campos,ma.,1968-01-07 00:00:00,1968-01-07,88,S-D,...,S-D,sin datos,Femenino,S-D,Cadáver,semefo_df_bo_1968,2,1,,conocido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
96839,BO_1982_07489,S-D,placenta,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3079,15a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido
96840,BO_1982_07490,S-D,5 dedos del pie derecho de desconocido,s-d,s-d,s-d,1982-06-05 00:00:00,1982-06-05,3060,32a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido
96841,BO_1982_07491,S-D,dedo de desconocido,s-d,s-d,s-d,1982-11-19 00:00:00,1982-11-19,6389,32a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido
96842,BO_1982_07492,S-D,4 dedos de desconocido,s-d,s-d,s-d,1982-11-28 00:00:00,1982-11-28,6528,27a,...,S-D,sin datos,S-D,S-D,Miembros,semefo_df_bo_1982,251,156,,desconocido


Esto nos muestra la tabla, pero ya que esta es muy grande solo nos muestra las primeras y últimas filas, representando las faltantes con `...` .

En la esquina inferior izquierda se puede ver el número de filas y columnas. Esta tabla tiene `96844 rows × 26 columns`.

También podemos ver el nombre de las columnas.

In [6]:
df.columns

Index(['ID', 'Numero_progresivo_transcrito', 'Nombre_completo_transcrito',
       'Primer_apellido', 'Segundo_apellido', 'Nombres_propios',
       'Fecha_transcrito', 'Fecha_estandar', 'Expediente_SEMEFO_transcrito',
       'Procedencia_transcrito', 'Procedencia_estandar',
       'Procedencia_direccion', 'Procedencia_alcaldia',
       'Numero_acta_transcrito', 'Procedencia_acta', 'Diagnostico_transcrito',
       'Diagnostico_estandar', 'Diagnostico_extendido', 'Sexo',
       'Edad_transcrito', 'Tipo_restos', 'Bitacora_ingresos', 'Pagina_PDF',
       'Foja_transcrito', 'Observaciones', 'Conocido_desconocido'],
      dtype='object')

## 3.d Conjuntos de datos ordenados

Para el anális de datos debemos de familiarizarnos con varias definiciones.

Una **variable** es una medida o un atributo que puede ser asignado a un objeto o individuo. Por ejemplo, la edad, el peso, la altura, el género, la fecha de nacimiento, etc. son variables que pueden ser asignadas a una persona. Una variable puede ser cuantitativa (en la que los valores pueden ser medidos en una escala numérica) o cualitativa (en la que los valores son categóricos, es decir, no pueden ser medidos en una escala numérica). En ambos casos, la variable se utiliza para describir algo y para analizar datos.

Un **valor** es una medida o atributo específico asociado a una variable. Por ejemplo, si una variable es la fecha de nacimiento, un valor podría ser 10 de mayo. Si la variable es el peso, un valor podría ser 80 kg. Los valores son los valores concretos o específicos asociados con una variable en un momento dado.

Una **observación** es una serie de medida o registro de una variable o atributo en un momento o en una unidad específica. Por ejemplo, la observación de la altura y peso de una persona en un momento específico. En un estudio o experimento, las observaciones se recopilan y se utilizan para extraer información y conclusión sobre la relación entre variables o para describir una población o un fenómeno.

Un **dato** es una unidad de información, ya sea numérica o categórica, que se recolecta para describir o medir un fenómeno o una característica de un objeto o sujeto. Por ejemplo, la edad, el género, la estatura, el peso, la fecha de nacimiento, entre otros, son datos que se pueden recopilar sobre una persona. Los datos se utilizan para analizar patrones y tendencias, tomar decisiones basadas en información y generar conocimientos nuevos a partir de la información existente.

Existen varios **tipos de datos**:
* Númericos: valores contables discretos o continuos
* Binarios: verdadero o falso
* Categoricos: número limitado de categorias
* Texto
* Fecha
* Coordenadas

Los datos no siempre están completos, es decir, a veces desconocemos el valor de un dato. Esto se puede representar de varias formas. En el caso de pandas se usa _NaN_ para representar los datos faltantes o desconocidos.

Los principios de los conjuntos de datos ordenados (Tidy Data) fueron dados por Hadley Wickham. Recomendamos leer el [artículo original](http://vita.had.co.nz/papers/tidy-data.pdf), que traducimos parcialmente.

Los principios de los **datos ordenados** proporcionan una forma estándar de organizar los valores de datos dentro de un conjunto de datos. Un estándar hace que la limpieza inicial de datos sea más fácil, ya que no es necesario empezar desde cero y reinventar la rueda cada vez. El estándar de datos ordenados ha sido diseñado para facilitar la exploración inicial y el análisis de los datos, y para simplificar el desarrollo de herramientas de análisis de datos que funcionen bien juntas.

Al igual que las familias, los conjuntos de datos ordenados son todos similares, pero cada conjunto de datos desordenado es desordenado de su propia manera. Los conjuntos de datos ordenados proporcionan una forma estandarizada de vincular la estructura de un conjunto de datos (su disposición física) con su semántica (su significado). En esta sección, proporcionaré algunos términos estándar para describir la estructura y la semántica de un conjunto de datos, y luego utilizaré esas definiciones para definir los datos ordenados.

La mayoría de los conjuntos de datos estadísticos son tablas rectangulares compuestas por filas y columnas. Las columnas están casi siempre etiquetadas y las filas a veces están etiquetadas. Nuestro vocabulario de filas y columnas simplemente no es lo suficientemente rico como para describir por qué las dos tablas representan los mismos datos. Además de la apariencia, necesitamos una forma de describir la semántica subyacente o el significado de los valores mostrados en la tabla.

Un conjunto de datos es una colección de valores, generalmente números (si son cuantitativos) o cadenas (si son cualitativas). Los valores están organizados de dos maneras. Cada valor pertenece a una variable y una observación. Una variable contiene todos los valores que miden el mismo atributo subyacente (como la altura, la temperatura, la duración) a través de las unidades. Una observación contiene todos los valores medidos en la misma unidad (como una persona, un día o una carrera) a través de los atributos.

Los datos ordenados son una forma estándar de asignar el significado de un conjunto de datos a su estructura. Un conjunto de datos es
desordenado u ordenado dependiendo de cómo las filas, columnas y tablas se combinan con las observaciones,
variables y tipos. En datos ordenados:
1. Cada variable forma una columna.
2. Cada observación forma una fila.
3. Cada tipo de unidad de observación forma una tabla.


### Ejercicio 2

Identifica cada una de las definiciones, tipos de datos y características anteriormente descritas en la tabla del HBO.

## 3.e Exploración básica con profiles

Ya que se han obtenido y abierto los archivos de datos  debemos  familiarizarnos con los datos. Esto se conoce como Análisis Exploratorio de los Datos o EDA por sus siglas en ingles. 

Existe una serie de herramientas que se especializa en eso, una de las cuales es [ydata-profiling](https://ydata-profiling.ydata.ai/docs/master/index.html).

Este tipo de herramienta infiere los tipos de datos, encuentra problemas de datos faltantes y realiza estadística básica.

El reporte puede ser guardado cómo archivo html para ser visto en el navegador web o cómo widget interactivo. En este caso lo guardaremos como html para facilitar su posterior consulta sin depender de anaconda.

In [7]:
# !pip install ydata_profiling

from ydata_profiling import ProfileReport

file_profile = "profiles/HBO_profile_short.html"
prof = ProfileReport(df) 
prof.to_file(output_file=file_profile)

  from .autonotebook import tqdm as notebook_tqdm
Summarize dataset: 100%|█████████████| 37/37 [00:06<00:00,  5.52it/s, Completed]
Generate report structure: 100%|██████████████████| 1/1 [00:04<00:00,  4.22s/it]
Render HTML: 100%|████████████████████████████████| 1/1 [00:00<00:00,  2.36it/s]
Export report to file: 100%|█████████████████████| 1/1 [00:00<00:00, 139.92it/s]


El reporte incluye cinco secciones:

**Overview**. 
Da una idea general del conjunto de datos, por ejemplo variables, observaciones, datos faltantes, tipos de datos, etc. Incluye alertas de posibles errores de datos y cuanto tardo el profile.
<div>
<img src="./extras/HBO_profile_overview.png" width="500"/>
</div>

**Variables** Muestra un resumen de las características de cada variable o columna, incluyendo el tipo de dato, distribución, etc.
<div>
<img src="./extras/HBO_profile_variables.png" width="500"/>
</div>

**Interactions & Correlations**
Muestra las interacciones y correlaciones entre variables. Es recomendable no hacer este análisis para conjuntos de datos grandes.

**Missing values**
Muestra los datos faltantes. Es útil para determinar la calidad de los datos.
<div>
<img src="./extras/HBO_profile_missing.png" width="500"/>
</div>

**Sample**
Muestra un ejemplo de los datos.

Estas herramientas son útiles para determinar rapidamente que información contiene el conjunto de datos, cómo se comportan las variables y que pasos de limpieza y análisis se necesitan.

Por ejemplo, podemos ver que las variables estan en gris ya que no pudieron ser procesadas. En algunos casos esto se debé a que no hay datos en la columna. 
Sin embargo, en otros casos el perfilador de datos puede tener problemas al determinar el tipo de dato de la columna, lo cuál le impide hace los análisis correspondientes.
Una solución rápida, pero no siempre ideal, es cargar todo el conjunto de datos cómo texto usando la opción `dtype='str'`.

`df = pd.read_csv(filename, dtype='str')`

Sin embargo, esta opción no nos permite entender correctamente los datos de otros tipos, muchas veces es mejor revisar los errores y hacer una limpieza de datos. 
Revisemos el caso de `Edad_transcrito` para determinar cuál es el problema. Podemos ver una columna específica del dataframe poniendo el nombre entre corchetes.

In [8]:
df['Edad_transcrito']

0        S-D
1        S-D
2        S-D
3        S-D
4        S-D
        ... 
96839    S-D
96840    S-D
96841    S-D
96842    S-D
96843    S-D
Name: Edad_transcrito, Length: 96844, dtype: object

En este caso hay muchos datos faltantes marcados como 'S-D', lo cuál dificulta entender el problema. 

Para ver la columna `Edad` sin valores faltantes usaremos dos funciones:
* `replace` para cambiar el texto 'S-D' por una celda vacia con el valor `None`
* `dropna()` para quitar todas las celdas vacias resultantes

Pandas nos permite encadenar mútiples funciones.

In [9]:
df['Edad_transcrito'].replace({'S-D':None}).dropna()

4719         S-D
16347     6 dias
26472    16 días
27520    30 dias
29285    4 meses
          ...   
74081         23
74083         17
74092         22
74093         65
74098         24
Name: Edad_transcrito, Length: 40183, dtype: object

Podemos ver que la edad incluye tanto números (24) como textos (6 diass), por lo que el perfilador de datos es incapaz de determinar el tipo de dato. Esto requiere una limpieza especializada. 

Cómo parte del primer intento de limpieza sustituiremos por `nan` todos los datos que no sean números usando la función `to_numeric`. Más adelante haremos una limpieza mas completa


In [10]:
df['Edad_transcrito'] = pd.to_numeric(df['Edad_transcrito'], errors='coerce')
df['Edad_transcrito'].dropna()

32837    63.0
32838    17.0
32839    69.0
32840    40.0
32841    40.0
         ... 
74081    23.0
74083    17.0
74092    22.0
74093    65.0
74098    24.0
Name: Edad_transcrito, Length: 37288, dtype: float64

Podemos ver que los datos con 'días' han desaparecido. 

Si realizamos de nuevo el perfil de datos podemos ver la variable `Edad_transcrito` como tipo numerico incluyendo medidas estadísticas.

<div>
<img src="./extras/HBO_profile_edad.png" width="500"/>
</div>

## 3.f Opciones avanzadas de profiling

Una distinción importante es que es importante distinguir data profiling de profiling a secas. Un profile de datos es una descripción general de los datos, muchas veces semi-automática. Mientras tanto, un profile de código es una técnica que analiza el rendimiento de un programa, por ejemplo el tiempo que tarda en correr o la memoria que ocupa.

La biblioteca de `ydata_profiling` incluye varias opciones avazadas, algunas de las cuales mostraremos. No daremos una explicacion completa, pero puedes ver los detalles en la [documentación](https://ydata-profiling.ydata.ai/docs/master/index.html).


Una opción útil es comparar dos conjuntos de datos.
Por ejemplo,  separaremos los datos de registros Masculinos y Femeninos. Después realizaremos los profiles por separado y los contrastaremos con la función `compare`.
Un error común es que los tipos de datos de los dos subconjuntos no coincidan, en cuyo caso es necesario quitar la columna o hacer una limpieza de datos.

In [11]:
from ydata_profiling import compare

df = df.drop(['Procedencia_transcrito','Observaciones'], axis=1) #Esta linea es para evitar un error generado por el tipo de datos.

df_masculino = df[df['Sexo']=='Masculino']
prof_masculino = ProfileReport( df_masculino, title='Masculino' )

df_femenino = df[df['Sexo']=='Femenino']
prof_femenino  = ProfileReport( df_femenino, title='Femenino' )

file_compare = "profiles/HBO_profile_compare.html"
prof_comparison = compare([prof_masculino, prof_femenino])
prof_comparison.to_file(file_compare)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  errors=errors,
Summarize dataset: 100%|█████████████| 38/38 [00:06<00:00,  5.49it/s, Completed]
Summarize dataset: 100%|█████████████| 38/38 [00:01<00:00, 19.20it/s, Completed]
Generate report structure: 100%|██████████████████| 1/1 [00:07<00:00,  7.26s/it]
Render HTML: 100%|████████████████████████████████| 1/1 [00:00<00:00,  1.47it/s]
Export report to file: 100%|██████████████████████| 1/1 [00:00<00:00, 31.09it/s]


Además, es posible realizar múltiples mejoras y ajustes al reporte.

* **title** Agregar un título
* **metadata** Agregar información como descripción, autor, etc al reporte
* **variables** Agregar el diccionario de datos para describir las variables
* **minimal** Llevar a cabo solo algunas correlaciones o ninguna. En el caso de grandes conjuntos de datos se recomienda no realizar correlaciones.
* **sensitive** Oculta los datos desagregados para evitar filtrar información de datos individuales, cómo pueden ser datos personales.

In [12]:
#Este código toma el diccionario de datos y obtiene el nombre de variable y descripción
dic_datos = pd.read_excel(filename, sheet_name="Diccionario de datos", header=1)
dic_datos = dic_datos[['Variable','Descripción operativa']].dropna()
dic_datos = dict(zip(dic_datos['Variable'], dic_datos['Descripción operativa']))

#Este código genera el reporte
prof_special = df.profile_report(
    title="Módulo de fosas comunes",  #Título
    dataset={ #metadatos
        "description": "Primeros mil registros del Modulo de Fosas Comunes",
        "author": "Comisión Nacional de Búsqueda",
        "url": "https://comisionacionaldebusqueda.gob.mx/modulo-de-fosas-comunes/",
    },
    variables={  "descriptions": dic_datos }, #descripcion de las variables
    minimal=True, #Profile minimo para conjuntos de datos grandes
    sensitive=True, #Ocultar información desagregada
)

file_special = "profiles/HBO_profile_special.html"
prof_special.to_file(output_file=file_special)

Summarize dataset: 100%|█████████████| 30/30 [00:02<00:00, 10.82it/s, Completed]
Generate report structure: 100%|██████████████████| 1/1 [00:00<00:00,  1.58it/s]
Render HTML: 100%|████████████████████████████████| 1/1 [00:00<00:00,  6.54it/s]
Export report to file: 100%|█████████████████████| 1/1 [00:00<00:00, 899.87it/s]


### Ejercicio 3
Realiza el primer profile de tu conjunto de datos. No es necesario hacerle ninguna modificación especial al archivo.

**Gracias!**