Skip to content

HRDAG/verdata

Repository files navigation

Click here for instructions in English.

DOI R-CMD-check Codecov test coverage

verdata

verdata es un paquete de R que está pensado como una herramienta para el uso y análisis de los datos de conflicto armado en Colombia. Estos datos derivan del proyecto conjunto JEP-CEV-HRDAG, los cuales, a través del paquete, pueden ser analizados utilizando tres conjuntos de funciones: En primer lugar, las personas interesadas pueden utilizar verdata para verificar que están utilizando los datos originalmente publicados, es decir, permite autenticar tanto los archivos como su contenido. Segundo, pueden usar verdata para replicar los principales resultados del proyecto conjunto JEP-CEV-HRDAG. Finalmente, para el tercer conjunto, pueden utilizar verdata para diseñar sus propios análisis estadísticos de patrones de violencia que abordan los dos tipos de datos faltantes presentes en el proyecto (campos faltantes y registros faltantes).

Se pueden descargar los datos sobre las cuatro violaciones a los derechos humanos que se trabajaron en el proyecto: desaparición, homicidio, secuestro y reclutamiento de niños, niñas y adolescentes, los cuales se encuentran en el sitio web del Departamento Administrativo Nacional de Estadística (DANE). Estos datos corresponden a 100 réplicas para cada violación, los cuales fueron producto del proceso de imputación estadística múltiple de campos faltantes (ver sección 4 del informe metodológico del proyecto). Además, el repositorio verdata-examples contiene ejemplos que ilustran cómo usar correctamente estos datos (réplicas) a través del paquete previamente mencionado.

Instalación

Se puede instalar la versión la versión en desarrollo de verdata desde GitHub así:

if (!require("devtools")) {install.packages("devtools")}
devtools::install_github("HRDAG/verdata")

verdata requiere algunos paquetes como dependencia. Para esto es recomendable la instalación del GNU Scientific Library. Es posible que necesite instalar esta librería en su computadora por separado antes de instalar verdata.

Diccionario de datos

verdata presenta dos data frames que contienen información relacionada con el diccionario de datos de las réplicas. En diccionario_replicas encontrará la definición de cada una de las variables que se encuentran allí y, en diccionario_vars_adicional, encontrará nuevas variables que fueron usadas en algunos análisis estadísticos durante la construcción del informe final de la CEV.

Uso

Para el uso de este paquete es necesario haber descargado previamente los datos de alguno de los sitios en los que se encuentran publicados. Este paquete ofrece al público 8 funciones para el tratamiento de los datos, divididas así:

Verificación y lectura de datos en R:

  • La función confirm_files permite autenticar que los archivos descargados correspondan exactamente a los archivos originalmente publicados. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet o csv).

  • Además, la función read_replicates permite autenticar el contenido de los archivos, así como importar el número deseado de réplicas a R. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet o csv).

Transformación de datos:

  • Para sus análisis en violaciones a derechos humanos, la Comisión de la Verdad especificó diferentes períodos y condiciones. En caso de querer replicar los resultados del Informe Final de la CEV, es necesario aplicar estos mismos filtros a los datos. El uso de la función filter_standard_cev es opcional y permite filtrar los datos del mismo modo que la CEV lo hizo, dependiendo de la violación a derechos humanos a analizar.

Datos observados:

  • La función summary_observed ofrece un conteo del número observado de víctimas -totales o agrupadas por diferentes variables- antes de la imputación estadística de campos faltantes. El número que se obtiene es la media entre las diferentes réplicas.

Datos imputados:

  • La función combine_replicates usa la aproximación normal usando las reglas de total expectativa y varianza para combinar las réplicas, lo que permite obtener un intervalo de la imputación. Ver sección 18.2 de Bayesian Data Analysis para más información.

Datos estimados:

  • La función estimates_exist permite validar si la estimación de los estratos de interés ya existen, y se encuentran en los archivos de estimaciones precalculadas publicados, que deben haber sido previamente descargados del sitio de la Comisión. Esta función requiere los datos estratificados y el directorio en el que se encuentran las estimaciones precalculadas y devolverá un valor lógico que indica si la estimación existe o no, y la ruta en la que se encuentra, en caso de que exista. En caso de que usted quiera replicar los resultados de la Comisión de la Verdad, los objetos de datos estratificacion (en español) y stratification (en inglés) especifican qué estratificaciones se usaron para cada estimación presente en el informe metodológico del proyecto.

  • La función mse permite hacer estimaciones del subregistro, usando el modelo de LCMCR (ver sección 6 del informe metodológico del proyecto). Para usar esta función es necesario haber definido variables de estratificación, es decir, agrupación, para hacer la estimación y haber hecho la estratificación (ver ejemplo y sección 8.4.2 del informe metodológico del proyecto). Además, considerando que la estimación requiere de tiempo y recursos computacionales, en caso de querer hacer uso de las estimaciones ya calculadas por el equipo, es necesario haberlas descargado del sitio de la Comisión a su máquina local. Esta función requiere como insumo los datos ya estratificados y el directorio en el que se encuentran las estimaciones publicadas -en caso de querer hacer uso de estas-. Tenga presente que al proveer un directorio la función asume las mismas especificaciones para el modelo usadas en el proyecto. Si usted quiere usar otras especificaciones, no debe suministrar un directorio a las estimaciones.

  • Por último, la función combine_estimates permite combinar los resultados de la estimación, lo que, una vez más, dará como resultado un intervalo (que incluye la media). Usa la aproximación normal usando las reglas de total expectativa y varianza. Ver sección 18.2 de Bayesian Data Analysis para más información.

Agradecimientos

Agradecemos a Micaela Morales por su atenta prueba beta.

Contribuir al paquete

Contribuciones y sugerencias siempre son bienvenidas. Si tiene un problema, pregunta o duda sobre verdata puede abrir un issue en GitHub. Si quiere contribuir nueva funcionalidad puede abrir un pull request. La integración continua está configurada para ejecutar las pruebas automáticamente cuando abre un pull request. Si desea ejecutar las pruebas localmente antes de abrir un pull request, puede hacerlo con testthat::test_local().

Cómo citar el paquete

Se puede citar el paquete como:

Gargiulo et al., (2024). verdata: An R package for analyzing data from the Truth Commission in Colombia. Journal of Open Source Software, 9(93), 5844, https://doi.org/10.21105/joss.05844.

Entrada de BibTex:

@article{Gargiulo2024,
    doi = {10.21105/joss.05844},
    url = {https://doi.org/10.21105/joss.05844},
    year = {2024},
    publisher = {The Open Journal},
    volume = {9},
    number = {93},
    pages = {5844},
    author = {Maria Gargiulo and María Juliana Durán and Paula Andrea Amado and Patrick Ball},
    title = {verdata: An R package for analyzing data from the Truth Commission in Colombia},
    journal = {Journal of Open Source Software}
} 

About

Una herramienta para el uso y análisis de los datos de Conflicto armado en Colombia resultantes del proyecto conjunto JEP-CEV-HRDAG.

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published