# 1. Install, Imports, Settings

In [1]:
#!pip install nltk
#!pip install rake_nltk
#!python -m spacy download es_core_news_md

In [2]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
import spacy
from spacy.lang.es.examples import sentences 
nlp = spacy.load("es_core_news_md")
from collections import Counter

import re
from IPython.display import Markdown, display
import string, math
import nltk
#nltk.download('punkt')
from rake_nltk import Rake
from nltk.util import ngrams

In [3]:
plt.rcParams["figure.figsize"] = [10, 6]
%config InlineBackend.figure_format = 'retina'

punct = string.punctuation +'”“'

# 2. Loading data

In [4]:
df = pd.read_csv("data/alertas.csv", sep="|")

print("Total Number of documents:", len(df))
print("Number of documents with no accesible text (password protected):", len(df[df['Text'].isnull()]))
print("Number of documents with accesible text:",  len(df[df['Text'].notnull()]))

Total Number of documents: 1753
Number of documents with no accesible text (password protected): 5
Number of documents with accesible text: 1748


In [5]:
df.head()

Unnamed: 0,Filename,Text,Subtype,Type,Year,Path,Departamento
0,"AT N° 003-18 NAR-Cumbitara, Maguí Payán, Polic...","Defensoria del Pueblo COLOMB IA Bogotá D.C., 5...",Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 003-18 NAR-...,Nariño
1,AT N° 004-18 NAR-Tumaco.pdf,Defensoría del Pueblo CO LO Mll.t. Carrera 9 #...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 004-18 NAR-...,Nariño
2,AT N° 005-18 COR-Tierralta.pdf,Carrera 9 # 16 -21 Bogotá D.C. PBX: (57) (1) 3...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 005-18 COR-...,Córdoba
3,AT N° 006-18 ARA-Saravena.pdf,Defensoría del Pueblo Carrera 9 # 16-21 Bogotá...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 006-18 ARA-...,Arauca
4,"AT N° 007-18 MET-Puerto Lleras, Puerto Rico y ...",San Vicente Bajo l' Margen Izquierda del río G...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 007-18 MET-...,Meta


# 3 Cleaning Text

In [6]:
def clean_text(text):
    return text

# 4. Extracting NNA Sentences

In [7]:
children_keywords = ["NNAJ", "niños", "niñas", "adolescentes", "jóvenes", "NNA"]
agressions = ['homicidio', 'masacres', 'desplazamiento', 'desaparición forzada',] 
uso_recl = ['reclutamiento', 'expendio de droga', 'sicariato', "cobro de 'vacunas'", "vigilancia", 
            "acciones ejemplarizates", "utilización ilícita", "uso ilícito", "drogas ilícitas", "prácticas sexuales"]

# 4.1. Example of sentences that include use of NNAJ in the first 20 docs

In [None]:
text = ' '.join(df[df["Text"].notnull()]['Text'][:10])
keyword = " NNAJ "
    
document = nlp(text)
for sentence in document.sents:
    sentence = sentence.text
  
    if keyword.lower() in sentence.lower():
            
            #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
            sentence = re.sub('\n', ' ', sentence)
            sentence = re.sub(f"{keyword}", f"**{keyword}**", sentence, flags=re.IGNORECASE)
            
            display(Markdown(sentence))

# 4.2 Extracting NNA sentences

In [43]:
def find_sentences_with_keyword(keywords, document):
    sents = []
    
    #Iterate through all the sentences in the document and pull out the text of each sentence
    for sentence in document.sents:
        sentence = sentence.text
        
        for keyword in keywords: 
            if keyword.lower() in sentence.lower():
            
                #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
                sentence = re.sub('\n', ' ', sentence)
                sentence = re.sub(f"{keyword}", f"**{keyword}**", sentence, flags=re.IGNORECASE)
                sents.append(sentence)
                break           
    return sents

def extract_NNAJ_sentences(text):
    if text != text:
        return []
    document = nlp(text)
    return find_sentences_with_keyword(keywords=children_keywords, document=document)

In [45]:
#df['NNAJ'] = df['Text'].apply(extract_NNAJ_sentences)

# 5. Saving partial text in csv

In [46]:
#df.to_csv("data/alertas_NNA_sentences.csv", sep="|", index=False)

# 6. Extract information around NNAJ

In [47]:
df = pd.read_csv("data/alertas_NNA_sentences.csv", sep="|")

In [48]:
df.columns

Index(['Filename', 'Text', 'Subtype', 'Type', 'Year', 'Path', 'Departamento',
       'NNAJ'],
      dtype='object')

In [16]:
#source: https://www.analyticsvidhya.com/blog/2022/03/keyword-extraction-methods-from-documents-in-nlp/
#https://towardsdatascience.com/keyword-extraction-process-in-python-with-natural-language-processing-nlp-d769a9069d5c

In [56]:
rake_nltk_var = Rake(language='spanish')

def extract_NNAJ_keywords(text):
    sentences = text.strip("']['").split("', '")
   
    if len(sentences) == 0:
        return []
    
    keywords_extracted = []
    for sent in sentences:
        #remove punctuation
        s = sent.translate(str.maketrans('', '', string.punctuation + '”“·'))
        s = s.replace(" s ", " ")
        rake_nltk_var.extract_keywords_from_text(s)
        keywords_extracted += rake_nltk_var.get_ranked_phrases()
    return keywords_extracted

In [57]:
df['NNAJ_keywords'] = df['NNAJ'].apply(extract_NNAJ_keywords)

In [58]:
df.head()

Unnamed: 0,Filename,Text,Subtype,Type,Year,Path,Departamento,NNAJ,NNAJ_keywords
0,"AT N° 003-18 NAR-Cumbitara, Maguí Payán, Polic...","Defensoria del Pueblo COLOMB IA Bogotá D.C., 5...",Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 003-18 NAR-...,Nariño,['Por lo anterior; desde el Sistema de Alertas...,[amenazas asesinatos selectivos desplazamiento...
1,AT N° 004-18 NAR-Tumaco.pdf,Defensoría del Pueblo CO LO Mll.t. Carrera 9 #...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 004-18 NAR-...,Nariño,"['Los territorios dejados por las FARC - EP, f...","[armas antiguos integrantes desmovilizados, gr..."
2,AT N° 005-18 COR-Tierralta.pdf,Carrera 9 # 16 -21 Bogotá D.C. PBX: (57) (1) 3...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 005-18 COR-...,Córdoba,"['En ese sentido, la población civil se encuen...",[carrera 9 16 21 bogotá dc pbx 57 1 3147300 lí...
3,AT N° 006-18 ARA-Saravena.pdf,Defensoría del Pueblo Carrera 9 # 16-21 Bogotá...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 006-18 ARA-...,Arauca,['También se advierte· el riesgo de secuestros...,"[ocasionan daños considerables, utilización il..."
4,"AT N° 007-18 MET-Puerto Lleras, Puerto Rico y ...",San Vicente Bajo l' Margen Izquierda del río G...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 007-18 MET-...,Meta,['Integrantes del Nuev o Partido FAR( **niños*...,[jóv enes campesinos pobres docentes habita nt...


In [62]:
dict_imp_words = ['fiestas', 'amenazas', 'asesinatos selectivos', 'desplazamientos individuales',  'reclutamientos forzados', 
                 'desplazamientos masivos', 'restricciones movilidad', 'desaparición forzada',
                  'confinamientos', 'combates', 'ataques indiscriminados']

In [63]:
for s in df.loc[0]['NNAJ'].strip("']['").split("', '"):
    print(s)
    print('')
    
extract_NNAJ_keywords(df.loc[0]['NNAJ'])

Por lo anterior; desde el Sistema de Alertas Tempranas, advertimos ante la inminencia de violacion masivas a los derechos humanos e infracciones al DIH como amenazas, asesinatos selectivos, desplazamientos individuales, reclutamientos forzados y utilización ilícita de **niños**, niñas y adolescentes, desplazamientos masivos, restricciones a la movilidad, desaparición forzada, confinamientos, combates con interposición de la población civil, ataques indiscriminados, entre otras.

RECOMENDACIONES A la Secretaria Técnica de la CIPRAT, inicié el seguimiento del impacto de las medidas adoptadas y a la continuidad del riesgo, y en coordinación con la Gobernación de Nariño y las alcaldías municipales de Policarpa, Cumbitara, Magüí Payán y Roberto Payán convoque a la instancia territorial o instancias territoriales con este mismo propósito, teniendo en cuenta el enfoque territorial, diferencial étnico y de género establecidos en el decreto 2<1,24 a 017, con el fin de promover y adoptar medidas

['amenazas asesinatos selectivos desplazamientos individuales reclutamientos forzados',
 'movilidad desaparición forzada confinamientos combates',
 'adolescentes desplazamientos masivos restricciones',
 'población civil ataques indiscriminados',
 'alertas tempranas advertimos',
 'violacion masivas',
 'utilización ilícita',
 'niños niñas',
 'derechos humanos',
 'sistema',
 'interposición',
 'inminencia',
 'infracciones',
 'dih',
 'anterior',
 'policarpa cumbitara magüí payán',
 'enfoque territorial diferencial étnico',
 'roberto payán convoque',
 'niños niñas adolescentes',
 'líderes sociale ujetos',
 'población civil especialmente',
 'adoptar medidas efectivas',
 'especial protección constitucional',
 'instancia territorial',
 'medidas adoptadas',
 'j0ve población',
 'sit11 cién',
 'secretaria técnica',
 'nuevas stuacion',
 'mismo propósito',
 'instancias territoriales',
 'género establecidos',
 'grupos poblacionales',
 'desplazamiento forzado',
 'decreto 2124',
 'ciprat inicié',
 'alc

# 6.1 Clean List of Keywords

In [None]:
red_flags = []

In [181]:
def remove_flags(entities):
     return [e for e in entities if e not in red_flags]

def lemmatizer(entities):
    if len(entities) == 0:
        return []
    new = []
    for sent in entities:
        doc = nlp(sent.lower())
        new.append(' '.join([token.lemma_ for token in doc]))
    return new

def fix_terms(entities):
    new = []
    for i in range(0, len(entities)):
        new.append(entities[i].lower().replace('niños', 'nnaj').replace('niñas', 'nnaj')
                   .replace('niño', 'nnaj').replace('niña', 'nnaj')
                   .replace('adolescentes', 'nnaj').replace('adolescente', 'nnaj')
                   .replace('jóvenes', 'nnaj').replace('jovenes', 'NNAJ').replace('joven', 'nnaj')
                   .replace("utilización", "uso").replace('utilizacion', 'uso'))
        # fix ELN
        #if entities[i].startswith("ELN "):
         #          new[len(new) - 1] =  "Ejército de Liberación Nacional"
                
    return new

def clean_list_keywords(df):
    keywords = df.NNAJ_keywords.sum()
    if type(keywords) == str:
        keywords = keywords.strip("']['").split("', '")
    
    #lemmatize 
    keywords = lemmatizer(keywords)
    
    #fix some terms
    keywords = fix_terms(keywords)     
    
    #remove duplicates in same term
    keywords = [" ".join(dict.fromkeys(k.split())) for k in keywords]
                
    #remove red flags
    keywords = remove_flags(keywords)
    
    #remove blank spaces
    keywords = [k.strip() for k in keywords]
    print(keywords)
    return keywords
    
def most_mentioned_keywords(keywords):           
    data = { 
             'keywords': list(Counter(keywords).keys()), 
             'frequency': list(Counter(keywords).values())
           }

    counterdf = pd.DataFrame(data)
    counterdf = counterdf.groupby('keywords').agg({'frequency' : 'sum'}).sort_values('frequency', ascending = False)
    return counterdf

In [182]:
dfa = most_mentioned_keywords(clean_list_keywords(df))

KeyboardInterrupt: 

In [None]:
len(dfa[dfa.frequency > 100])

In [None]:
len(dfa)

In [None]:
len(dfa[dfa.frequency > 100])

In [None]:
dfa

# 6. Export HTML

In [165]:
!jupyter nbconvert --to html 7_NNA.ipynb

[NbConvertApp] Converting notebook 7_NNA.ipynb to html
[NbConvertApp] Writing 651592 bytes to 7_NNA.html
