Skip to content

Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033

License

Notifications You must be signed in to change notification settings

esaidh266/Hate-Speech-Library-in-Spanish

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 

Repository files navigation

Hate-Speech-Library-in-Spanish

Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033.

The database shows 7,210 more repeated simple and compound slogans, and from the semantic point of view tend to be hated in digital news media in Spain. The preparation of this final document required the following phases:

  1. LABELING OF EXPRESSIONS AND EXTRACTION OF SLOGMS. In the first phase, a total of 1,100,742 messages associated with digital news media in Spain were collected during January, of which a total of 776,356 messages were excluded because they were duplicated or repeated, leaving a total of 324,395 messages in which 4.06% of these were associated with expressions that tended to hate. From the total number of messages identified, stop-words were removed. Anomalous data (that did not belong to a known language or were diminutive) were identified and manually reviewed to identify simple and compound slogans that tended towards hatred.
  2. IDENTIFICATION OF DUPLICATES: In the first phase, two lists were made, the first of simple lemmas and the second of compound lemmas. The first step was to filter these two lists to identify repeated lemmas, obtaining these two libraries where each lemma appears only once.
  3. DDBB INTEGRATION: Next, in the third phase, we proceeded to join both libraries to build a final library that integrated all the lemmas, both simple and compound. Finally, final filtering was done to ensure the lemmas were not repeated.

Authors:

  • Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres.

Supported by:

  • POSSIBLE S.L.

For more information:

Said-Hung, E., Römer Pieretti, M., Montero-Diaz, . J., De Lucas Vicente, A., & Torres, J. M. (2023). Hate Speech Library in Spanish / Librería de odio en Español. https://doi.org/10.6084/m9.figshare.22383643.v2


Librería de expresiones de odio detectado en medios informativos digitales en España, resultado del proyecto "Hatemedia" (proyecto PID2020-114584GB-I00), financiado por MCIN/ AEI /10.13039/501100011033.

Las base de dato muestra 7.210 lemas simples y compuestos más repetidos y que desde el punto de vista semántico tienden al odio en medios informativos digitales en España. La elaboración de este documento final, requirió las siguientes fases:

  1. ETIQUETADO DE EXPRESIONES Y EXTRACCIÓN DE LEMAS. En la primera fase, se recolectaron durante el mes de enero un total de 1.100.742 mensajes asociados a medios informativos digitales en España, de los cuales se excluyeron un total de 776.356 mensajes por estar duplicados o repetidos; quedando un total de 324.395 mensajes en el que un 4,06% de estos estaban asociados con expresiones que tendían al odio. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste) y se revisaron manualmente para identificar tanto los lemas simples como compuestos que tendían al odio.
  2. IDENTIFICACIÓN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez.
  3. INTEGRACIÓN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas.

Autores:

  • Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres.

Apoyado por:

  • POSIBLE S.L.

Para más información:

Para usar este documento se agradece citarlo de la siguiente forma:

Said-Hung, E., Römer Pieretti, M., Montero-Diaz, J., De Lucas Vicente, A., & Torres, J. M. (2023). Hate Speech Library in Spanish / Librería de odio en Español. figshare. https://doi.org/10.6084/m9.figshare.22383643.v2

About

Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published