# 1. Install, Imports, Settings

In [1]:
#!pip install nltk
#!pip install rake_nltk
#!python -m spacy download es_core_news_md

In [2]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
import spacy
from spacy.lang.es.examples import sentences 
nlp = spacy.load("es_core_news_md")
from collections import Counter

import re
from IPython.display import Markdown, display
import string, math
import nltk
#nltk.download('punkt')
from rake_nltk import Rake
from nltk.util import ngrams

In [3]:
plt.rcParams["figure.figsize"] = [10, 6]
%config InlineBackend.figure_format = 'retina'

punct = string.punctuation +'”“'

# 2. Loading data

In [4]:
df = pd.read_csv("data/alertas.csv", sep="|")

print("Total Number of documents:", len(df))
print("Number of documents with no accesible text (password protected):", len(df[df['Text'].isnull()]))
print("Number of documents with accesible text:",  len(df[df['Text'].notnull()]))

Total Number of documents: 1753
Number of documents with no accesible text (password protected): 5
Number of documents with accesible text: 1748


In [5]:
df.head()

Unnamed: 0,Filename,Text,Subtype,Type,Year,Path,Departamento
0,"AT N° 003-18 NAR-Cumbitara, Maguí Payán, Polic...","Defensoria del Pueblo COLOMB IA Bogotá D.C., 5...",Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 003-18 NAR-...,Nariño
1,AT N° 004-18 NAR-Tumaco.pdf,Defensoría del Pueblo CO LO Mll.t. Carrera 9 #...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 004-18 NAR-...,Nariño
2,AT N° 005-18 COR-Tierralta.pdf,Carrera 9 # 16 -21 Bogotá D.C. PBX: (57) (1) 3...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 005-18 COR-...,Córdoba
3,AT N° 006-18 ARA-Saravena.pdf,Defensoría del Pueblo Carrera 9 # 16-21 Bogotá...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 006-18 ARA-...,Arauca
4,"AT N° 007-18 MET-Puerto Lleras, Puerto Rico y ...",San Vicente Bajo l' Margen Izquierda del río G...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 007-18 MET-...,Meta


# 3 Extracting Recommendations

In [91]:
rep = {"RECOMENDACIONES" : ["RECOMENDACIONE S", "RECOMENDACION ES", "RECOMENDACIO NES",
                            "RECOMENDACI ONES", "RECOMENDAC IONES", "RECOMENDA CIONES",
                            "RECOMEND ACIONES", "RECOMEN DACIONES", "RECOME NDACIONES",
                            "RECOM ENDACIONES", "RECO MENDACIONES", "REC OMENDACIONES",
                            "RE COMENDACIONES", "R ECOMENDACIONES",], 
        
       "recomendaciones":[ "recomendacione s", "recomendacion es", "recomendacio nes",
                            "recomendaci ones", "recomendac iones", "recomenda ciones",
                            "recomend aciones", "recomen daciones", "recome ndaciones",
                            "recom endaciones", "reco mendaciones", "rec omendaciones",
                            "re comendaciones", "r ecomendaciones",],
 
       "Recomendaciones":[  "Recomendacione s", "Recomendacion es", "Recomendacio nes",
                            "Recomendaci ones", "Recomendac iones", "Recomenda ciones",
                            "Recomend aciones", "Recomen daciones", "Recome ndaciones",
                            "Recom endaciones", "Reco mendaciones", "Rec omendaciones",
                            "Re comendaciones", "R ecomendaciones",],
        }


def replace_recomendaciones(text):
    text_res = text
    if text == text:
        for key in rep.keys():
            for value in rep[key]:
                if value in text:
                    text_res = text.replace(value, key)
    return text_res

df['Text'] = df['Text'].apply(replace_recomendaciones)

In [125]:
dff = df[df["Text"].notnull()]
i = 0
keywords = ["RECOMENDACIONES", "Recomendaciones", 
            "Al Gobernador de Bolívar, al Alcalde de Morales y a la Fuerza Pública",
            "En atención a lo anterior se recomienda:", 
            "el Sistema de Alertas Tempranas de la Defensoría del Pueblo formula las siguientes recomendaciones a las autoridades competentes:", 
            "las siguientes recomendaciones", 
            "las medidas que se enumeran a continuación", 
            "se recomienda lo siguiente", 
            "en particular se recomienda", 
            "1. A", 
            "adoptar las medidas que a continuación se enuncian", 
            "1- A", 
            "1) A", 
            "En dicha providencia, la Corte Suprema de Justicia ordenó:", 
            "Se recomienda:",
            "Comedidamente le solicito", 
            "1.AlaPolicía", 
            "Acontinuación sepresentan lasconclusiones ylasobservaciones alasacciones institucionales desarrolladas porlasautoridades delnivel nacional"
            
]

for k, t in dff.iterrows():
    c = i
    text = t['Text']
    for key in keywords:
        if key in text:
            #text[text.find(keyword):]
            i = i+1
            break
    if c == i and t['Subtype'] != "Notas" and t['Subtype'] != "Informe de Seguimiento":
        if ('recomendaciones' in text):
            print(t['Filename'])
            print(t['Text'])
            break
print('Number of documents with recommendations', i)
print('Number of documents without recommendations', len(dff) - i)

Number of documents with recommendations 1413
Number of documents without recommendations 335


In [132]:
def split_recommendations(text, section):
    if text == text:
        for k in keywords:
            if k in text:
                return text[text.find(k):] if section else text[:text.find(k)]
    return text

df['Text_Original'] =  df['Text']
df['Recomendations'] = df['Text'].apply(split_recommendations, section=True)
df['Text'] = df['Text'].apply(split_recommendations, section=False)

# 4. Extracting NNA Sentences

In [133]:
children_keywords = ["NNAJ", "niños", "niñas", "adolescentes", "jóvenes", "NNA"]
agressions = ['homicidio', 'masacres', 'desplazamiento', 'desaparición forzada',] 
uso_recl = ['reclutamiento', 'expendio de droga', 'sicariato', "cobro de 'vacunas'", "vigilancia", 
            "acciones ejemplarizates", "utilización ilícita", "uso ilícito", "drogas ilícitas", "prácticas sexuales"]

# 4.1. Example of sentences that include use of NNAJ in the first 20 docs

In [134]:
text = ' '.join(df[df["Text"].notnull()]['Text'][20:50])
keyword = " NNAJ "
nlp.max_length = 2000000
document = nlp(text)
for sentence in document.sents:
    sentence = sentence.text
  
    if keyword.lower() in sentence.lower():
            
            #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
            sentence = re.sub('\n', ' ', sentence)
            sentence = re.sub(f"{keyword}", f"**{keyword}**", sentence, flags=re.IGNORECASE)
            
            display(Markdown(sentence))

La presencia de las AGC se realiza con hombre s quienes, vestidos de civil y portando radios de comunicación, celulares y/o armas de corto alcance, se ubican y transitan por lugares estratégicos de los caminos que interconectan las veredas del corregimiento; intimidan a la población para que no visib ilice el reclutamiento y la utilización de** NNAJ **a quienes principalmente les asignan labores de informantes o lo que comúnmente se denomina como “puntos” o personas que controlan visualmente el ingreso y la salida de personas o entidades a los territorio s del corregimiento; interfieren ilegalmente en el desarrollo de reuniones comunitarias para controlar lo que dice la población y contener las denuncias sobre sus actuaciones.

Carrera 9 # 16 -21 Bogotá D.C. PBX: (57) (1) 3147300 Línea Nacional: 01 8000 914814 www.defensoria.gov.co Plantilla Vigente desde: 27/06/2017 Para habitantes del corregimiento, el reclutamiento y utilización de** NNAJ **continúa siendo una de las vulneraciones de derechos más frecuente debido a la escasez y la falta de oportunidades de empleo, en limitaciones para la generación de ingresos - en particular las que se realizan mediante actividades agrícolas y labores campesinas que impliquen la necesidad de contar con vías de acceso las cuales son casi inexistentes en la ruralidad del corregimiento -, la falta de alternativas para la ocupación del tiempo libre y el poco acceso a la educación superior para la población.

# 4.2 Extracting NNA sentences

In [135]:
def find_sentences_with_keyword(keywords, document):
    sents = []
    
    #Iterate through all the sentences in the document and pull out the text of each sentence
    for sentence in document.sents:
        sentence = sentence.text
        
        for keyword in keywords: 
            if keyword.lower() in sentence.lower():
            
                #Use the regex library to replace linebreaks and to make the keyword bolded, again ignoring capitalization
                sentence = re.sub('\n', ' ', sentence)
                sentence = re.sub(f"{keyword}", f"**{keyword}**", sentence, flags=re.IGNORECASE)
                sents.append(sentence)
                break           
    return sents

def extract_NNAJ_sentences(text):
    if text != text:
        return []
    document = nlp(text)
    return find_sentences_with_keyword(keywords=children_keywords, document=document)

In [136]:
df['NNAJ'] = df['Text'].apply(extract_NNAJ_sentences)

# 5. Saving partial text in csv

In [138]:
df['Recommendations'] = df['Recomendations']
df = df[['Filename', 'Text', 'Subtype', 'Type', 'Year', 'Path', 'Departamento',
       'Text_Original', 'Recommendations', 'NNAJ']]

In [139]:
df.columns

Index(['Filename', 'Text', 'Subtype', 'Type', 'Year', 'Path', 'Departamento',
       'Text_Original', 'Recommendations', 'NNAJ'],
      dtype='object')

In [140]:
df.to_csv("data/alertas_NNA_sentences.csv", sep="|", index=False)

# 6. Export HTML

In [152]:
!jupyter nbconvert --to html 7_NNA.ipynb

[NbConvertApp] Converting notebook 7_NNA.ipynb to html
[NbConvertApp] Writing 653495 bytes to 7_NNA.html
