# Environment

> pip install python-dotenv openai

In [1]:
import os

# LIMIT
LIMIT = 10000

FOLDER_PATH  = "C:/Users/Dd/OneDrive/Documents/_github/domestic-violence-research/data"

os.chdir(FOLDER_PATH)
documents = []
  
# iterate through all files
for file in os.listdir(): 
    # Check whether file is in text format or not 
    if file.endswith(".txt"):
        size = os.path.getsize(os.path.join(file))
        if size < LIMIT:
            file_path = f"{FOLDER_PATH}/{file}"
            with open(file_path, 'r', encoding = "utf-8") as f:
                documents.append(f.read())
print("Number of documents processed: " + str(len(documents)))

Number of documents processed: 127


In [4]:
import os
from dotenv import load_dotenv
from openai import OpenAI

# Make sure you have your OpenAI key set up as the OPENAI_API_KEY environment variable, or set it manually

# Set the OpenAI API key env variable manually
# os.environ["OPENAI_API_KEY"] = "<your_api_key>"

load_dotenv()
api_key = os.getenv("API_KEY")
client = OpenAI(api_key=api_key)

In [6]:
system_prompt = """
You are an agent specialized in finding entities in research papers.  
The user will give you an abstract.  
Your task is to identify entities from the abstract.

You must return a JSON output containing a list of values for every type of entity found.

If you cannot find an entity type, return an empty array for this entity.  
If you found one entity of this type, return an array with one value.  
If you found 2 entities of this type, return an array with 2 values.  
Et cetera.  

Only use lower cases letters when defining entities values, and remove adjectives and specificities from values to try and have the simplest words or groups of words.
"""

In [7]:
def extract_entities(text, model="gpt-3.5-turbo"):
   completion = client.chat.completions.create(
        model=model,
        temperature=0,
       response_format= {
           "type": "json_object"
       },
        messages=[
        {
            "role": "system",
            "content": system_prompt
        },
        {
            "role": "user",
            "content": text
        }
        ]
    )

   return completion.choices[0].message.content

In [10]:
docs = ['          Background:                    Violence against children constitutes a significant public health problem globally.    ', '          Aim:                    To document and compare media reports of violence against children before and during COVID-19, and measures taken by countries to address such violence.    ', '          Methods:                    This comparative review covered news reports of violence against children from 1 January to 30 June of 2019 and 2020 in the WHO Eastern Mediterranean Region countries. A total of 823 articles published in Arabic and English, covering incidents, initiatives, opinions and views on all types of violence among children under 18 years of age were sourced using search engines and platforms and reviewed. News on incidents was analysed quantitatively while news on initiatives and opinions was analysed qualitatively.    ', '          Results:                    Some 40.3% of the news reports was on incidents, followed by interviews or opinions (31.5%) and initiatives (28.2%). There were 1129 reports of violence against children from 1 January to 30 June of 2019 and 1880 for the same period in 2020. Reports of physical violence increased from 34% in 2019 to 40% in 2020, while reports of sexual violence decreased from 45% in 2019 to 37% in 2020. Views and opinion reports showed 0.4-1.1% alignment with the 7 INSPIRE strategies.    ', '          Conclusion:                    The COVID-19 pandemic affected the incidence and reporting of violence against children across the region. It is essential to provide accurate and sensitive media coverage for incidences of violence against children so that survivors and at-risk children can receive adequate support and ensure that communities can tackle it appropriately.    ', '            الإبلاغ الإعلامي عن العنف بحق الأطفال في إقليم شرق المتوسط خلال الأيام الأولى لجائحة كوفيد-19.    ', '            ماجد العيسى، هالة صقر، رانيا عبد الحميد، حسان صالحين، أحمد حافظ، سميرة الخطيب، سارة الراشد، محمد العمير، نورا الحويش.    ', '          الخلفية:                    يعد العنف ضد الأطفال مشكلة صحية عامة كبرى على الصعيد العالمي.    ', '          الهدف:                    هدفت هذه الدراسة الى توثيق ومقارنة التقارير الإعلامية عن العنف ضد الأطفال قبل جائحة كوفيد-19 وفي أثنائها، وكذلك التدابير التي اتخذتها البلدان للتصدي لهذا العنف.    ', '          طرق البحث:                    تناول هذا الاستعراض المقارن التقارير الإخبارية عن العنف ضد الأطفال في الفترة من 1 كانون الثاني/ يناير إلى 30 حزيران/ يونيو 2019 و2020 في بلدان إقليم منظمة الصحة العالمية لشرق المتوسط. باستخدام محركات البحث والمنصات، جرى جمع واستعراض ما مجموعه 823 مقالًًا، باللغتين العربية والإنجليزية، وهذه المقالات تتناول الحوادث والمبادرات والآراء والاستعراضات بشأن جميع أنواع العنف بين الأطفال دون سن 18 عامًا. وحُللت الأخبار المتصلة بالحوادث تحليلا كَمِّيًّا، في حين حُلِّلت الأخبار المتصلة بالمبادرات والآراء تحليلًًا نوعيًّا.    ', '          النتائج:                    ركزت قرابة ٪40.3 من التقارير الإخبارية على الحوادث، وتليها المقابلات أو الآراء (٪31.5) والمبادرات (٪28.2). وكان يوجد 1129 بلاغًًا عن العنف ضد الأطفال في الفترة من 1 يناير / كانون الثاني إلى 30 يونيو / حزيران 2019، و1880 بلاغًًا عن الفترة نفسها من عام 2020. وارتفعت نسبة الإبلاغ عن العنف البدني من ٪34 في عام 2019 إلى ٪40 في عام 2020، في حين انخفضت نسبة الإبلاغ عن العنف الجنسي في الفترة من 1 يناير / كانون الثاني إلى 30 يونيو / حزيران من ٪45 في عام 2019 إلى ٪37 في عام 2020. وأظهرت تقارير الآراء والرأي مواءمة بنسبة ٪1.1–0.4 مع 7 استراتيجيات INSPIRE.    ', '          الاستنتاجات:                    أثَّرت جائحة كوفيد-19 على معدل حدوث العنف ضد الأطفال والإبلاغ عنه في جميع أنحاء الإقليم. ومن الضروري توفير تغطية إعلامية دقيقة وحساسة لحالات العنف ضد الأطفال، لكي يتمكن الناجون والأطفال المعرضون للخطر من الحصول على الدعم الكافي، ومن ثَم تتمكن المجتمعات المحلية من التصدي للعنف ضد الأطفال على النحو المناسب.    ', "            Couverture médiatique de la violence à l'encontre des enfants dans la Région de la Méditerranée orientale au cours des premiers jours de la pandémie de COVID-19.    ", "          Contexte:                    La violence contre les enfants constitue un problème de santé publique important à l'échelle mondiale.    ", "          Objectifs:                    Documenter et comparer les informations diffusées par les médias sur la violence à l'égard des enfants avant et pendant la pandémie de COVID-19, ainsi que les mesures prises par les pays pour lutter contre ce phénomène.    ", "          Méthodes:                    Le présent examen comparatif a porté sur les actualités diffusées sur la violence à l'encontre des enfants entre le 1er janvier et le 30 juin pour les années 2019 et 2020 dans les pays de la Région de la Méditerranée orientale de l'OMS. Un total de 823 articles publiés en arabe et en anglais, couvrant des incidents, des initiatives, des opinions et des avis sur toutes les formes de violence contre les enfants de moins de 18 ans, ont été recensés à l'aide de moteurs de recherche et de plateformes, puis ont été examinés. Les actualités portant sur des incidents ont fait l'objet d'une analyse quantitative, tandis que celles concernant des initiatives et des opinions ont été analysées sur le plan qualitatif.    ", "          Résultats:                    Près de 40,3 % des actualités portaient sur des incidents, suivis par des entretiens ou des opinions (31,5 %) et des initiatives (28,2 %). Entre le 1er janvier et le 30 juin 2019, 1129 cas de violence à l'encontre des enfants ont été notifiés et 1880 pour la même période en 2020. Les signalements de violences physiques ont augmenté, passant de 34 % en 2019 à 40 % en 2020, tandis que pour les violences sexuelles, ils ont diminué entre le 1er janvier et le 30 juin, passant de 45 % en 2019 à 37 % en 2020. Les opinions et les avis présentés ont révélé une concordance de 0,4 à 1,1 % avec les sept stratégies INSPIRE pour mettre fin à la violence à l'égard des enfants.    ", "          Conclusion:                    La pandémie de COVID-19 a eu un impact sur l'incidence et le signalement de la violence à l'encontre des enfants dans toute la Région. Il est essentiel d'assurer une couverture médiatique précise et sensible de ces cas, afin que les survivant(e)s et les enfants à risque puissent bénéficier d'un soutien adéquat et que les communautés puissent s'attaquer au problème de manière appropriée.    ", '          Keywords:                    COVID-19; Eastern Mediterranean; media report; physical violence; sexual violence; social media; violence against children.    ']

for doc in docs:
    print(extract_entities(doc))

{
  "action": ["violence"],
  "target": ["children"],
  "location": ["globally"],
  "problem": ["public health"]
}
{
  "action": ["document", "compare"],
  "subject": ["media reports", "violence against children", "countries"],
  "event": ["covid-19"],
  "measure": ["address"]
}
{
  "methods": ["comparative review", "news reports", "violence against children", "WHO Eastern Mediterranean Region countries", "articles", "Arabic", "English", "incidents", "initiatives", "opinions", "types of violence", "children under 18 years of age", "search engines", "platforms", "quantitatively", "qualitatively"]
}
{
  "actions": [],
  "events": [
    "violence against children"
  ],
  "organizations": [],
  "locations": [],
  "dates": [
    "1 january",
    "30 june",
    "2019",
    "2020"
  ],
  "percentages": [
    "40.3%",
    "31.5%",
    "28.2%",
    "34%",
    "40%",
    "45%",
    "37%",
    "0.4-1.1%"
  ],
  "strategies": [
    "7 inspire"
  ]
}
{
  "action": ["provide", "receive", "tackle"],
