# 1. Install, Imports, Settings

In [10]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
import spacy
from spacy.lang.es.examples import sentences 
#!python -m spacy download es_core_news_md
nlp = spacy.load("es_core_news_md")

In [7]:
plt.rcParams["figure.figsize"] = [10, 6]
%config InlineBackend.figure_format = 'retina'

# 2. Loading data

In [8]:
df = pd.read_csv("data/alertas.csv", sep="|")

print("Total Number of documents:", len(df))
print("Number of documents with no accesible text (password protected):", len(df[df['Text'].isnull()]))
print("Number of documents with accesible text:",  len(df[df['Text'].notnull()]))

Total Number of documents: 1753
Number of documents with no accesible text (password protected): 5
Number of documents with accesible text: 1748


In [9]:
df.head()

Unnamed: 0,Filename,Text,Subtype,Type,Year,Path,Departamento
0,"AT N° 003-18 NAR-Cumbitara, Maguí Payán, Polic...",Defensoria \ndel Pueblo \nCOLOMB IA \n \nBog...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 003-18 NAR-...,Nariño
1,AT N° 004-18 NAR-Tumaco.pdf,Defensoría \ndel Pueblo \nCO LO Mllt \nCarre...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 004-18 NAR-...,Nariño
2,AT N° 005-18 COR-Tierralta.pdf,Carrera 9 16 21 Bogotá DC \nPBX 57 1 3147300...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 005-18 COR-...,Córdoba
3,AT N° 006-18 ARA-Saravena.pdf,Defensoría \ndel Pueblo \nCarrera 9 1621 Bo...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 006-18 ARA-...,Arauca
4,"AT N° 007-18 MET-Puerto Lleras, Puerto Rico y ...",San Vicente Bajo \nl \nMargen \nIzquierda ...,Alerta Temprana,Advertencia,2018,data\Advertencia_PDF\AT 2018\AT N° 007-18 MET-...,Meta


# 3. Extracting Actores del Conflicto

In [18]:
act_dictionary = {
"GAO": "grupo armado organizado"
"GAI": "grupo armado ilegal"
"GAO-r", "grupo armado organizado - residual"
"ELN", "Ejército de Liberación Nacional"
"AGC"," Autodefensas Gaitanistas de Colombia"
"FARC", "Fuerzas Armadas Revolucionarias" 
 "FARC - EP" :"Fuerzas Armadas Revolucionarias Ejército del Pueblo", 
    "EP": "Ejército del Pueblo"
"NNAJ": ["niños", "niñas", "adolescentes", "jóvenes"],
"NNA",
"Carteles", 
"Jalisco Nueva Generación",
"GDO", "Grupo delincuencial organizado"
"Bacrim", "bandas criminales"
"AUC", "Autodefensas Gaitanistas de Colombia"
"Grupos posdesmovilización AUC"
"Clan del Golfo"
"Aguilas Negras"
"EPL"
}

SyntaxError: invalid syntax (2059266642.py, line 2)

In [15]:
def extract_actors(text):
    entities  = []
    doc = nlp(text)
    for token in doc:
        print(token.text, token.pos_, token.dep_)    
    return entities
 
txt = df.loc[0]["Text"].lower()
txt = txt.replace("\n", " ")
txt
#df["Actors"] = df["Text"].apply(extract_actors)

'defensoria   del pueblo   colomb ia    bogotá dc  5 de enero de 2018       doctor   guillermo  rivera  flórez   ministro  del interior   secretaría técnica de la comisión lntersectorial  para la  respuesta rápida a las alertas  tempranas ciprat  carrera 8 no 12 b  31  ciudad       referencia alerta  temprana de  inminencia n º 001 f81 debiclo a la situación  de riesgo  que enfrenta la población  campesina y afrodescendiente d a guenca  del río patía  municipio  de policarpa cumbitara  magüí  payán y roberto  ray el  clepartamento de nariño     respetado señor  ministro  del interior     de manera  atenta  y en concordancia con  lo disruesto en el decreto 2124  de 2017 me permito  remitir  la alerta  temprana de la refere  cia  elfülo  a la inminencia de riesgo de violaciones  a los derechos humanos y de infracci0nes   jh en la que se encuentran los  habitantes de  la  cuenca del río patía municipios  de po ic fpa cumbitara  magüí  payán y roberto  payán  en el  departamento de nariño 

In [16]:
extract_actors(txt)

defensoria ADJ ROOT
   SPACE dep
del ADP case
pueblo NOUN nmod
   SPACE dep
colomb PROPN amod
ia PROPN appos
    SPACE dep
bogotá PROPN amod
dc PROPN appos
  SPACE dep
5 NUM appos
de ADP case
enero NOUN compound
de ADP case
2018 NUM compound
       SPACE dep
doctor NOUN amod
   SPACE dep
guillermo PROPN appos
  SPACE dep
rivera ADJ amod
  SPACE dep
flórez NOUN obj
   SPACE dep
ministro NOUN obj
  SPACE dep
del ADP case
interior NOUN nmod
   SPACE dep
secretaría NOUN appos
técnica ADJ flat
de ADP case
la DET det
comisión NOUN nmod
lntersectorial ADJ amod
  SPACE dep
para ADP case
la DET det
  SPACE dep
respuesta NOUN nmod
rápida ADJ amod
a ADP case
las DET det
alertas NOUN nmod
  SPACE dep
tempranas ADJ amod
ciprat NOUN obj
  SPACE dep
carrera NOUN nmod
8 NUM appos
no ADV advmod
12 NUM nummod
b NOUN nmod
  SPACE dep
31 NUM nummod
  SPACE dep
ciudad NOUN obj
       SPACE dep
referencia NOUN obj
alerta VERB ROOT
  SPACE dep
temprana ADJ advmod
de ADP case
  SPACE dep
inminencia ADJ nmod
n

se PRON expl:pv
en ADP case
ent PROPN obl
  SPACE dep
en ADP case
situación NOUN obl
de ADP case
riesgo NOUN nmod
aproximadamente ADV advmod
7000 NUM nummod
  SPACE dep
personas NOUN nsubj
pertenecientes ADJ amod
a ADP case
la DET det
asoia NOUN nmod
ión NOUN nmod
e CCONJ cc
juntas ADJ conj
asojuntas ADJ advcl
veredas NOUN obj
  SPACE dep
lngualpí PROPN nsubj
josé PROPN flat
  SPACE dep
lópez PROPN flat
puibicito PROPN flat
tortuga PROPN flat
miguel PROPN flat
  SPACE dep
ortugb PROPN flat
magaly PROPN flat
el DET det
  SPACE dep
zorro NOUN flat
bajo ADP case
el DET det
  SPACE dep
zorro NOUN flat
alto PROPN flat
doradillo NOUN appos
y CCONJ cc
san PROPN conj
  SPACE dep
juan PROPN flat
de ADP case
dios PROPN flat
consejo PROPN flat
  SPACE dep
comunitario ADJ flat
manos NOUN flat
amigas ADJ amod
veredas ADJ amod
canaibú ADJ amod
punta NOUN obl
de ADP case
barco NOUN nmod
san PROPN appos
  SPACE dep
luis PROPN flat
trueno PROPN flat
el DET det
aguacate NOUN nsubj
et PROPN flat
carmelo 

la DET det
ribera NOUN nmod
del ADP case
río NOUN nmod
pt PROPN amod
  SPACE dep
viene VERB advcl
presentado ADJ obj
acciones NOUN obj
  SPACE dep
armadas ADJ amod
que PRON nsubj
han AUX aux
dejado VERB acl
como SCONJ advmod
consecuencia NOUN obj
a ADP case
  SPACE dep
aza PROPN obj
  SPACE dep
asesinatos NOUN obj
selectivos ADJ amod
y CCONJ cc
de ADP case
  SPACE dep
configuración NOUN conj
múltiple ADJ amod
desplazamientos NOUN obj
  SPACE dep
individu ADJ obj
éle NUM obl
  SPACE dep
flesplazamientos NOUN obj
  SPACE dep
masivos ADJ amod
restricciones NOUN obj
  SPACE dep
a ADP case
la DET det
movilidad NOUN nmod
desaparición NOUN amod
forzada ADJ amod
confinami ADJ obj
ritos NOUN obj
  SPACE dep
y CCONJ cc
enfrentamientos NOUN conj
en ADP case
medio NOUN fixed
de ADP fixed
la DET det
  SPACE dep
población NOUN nmod
civil ADJ amod
  SPACE dep
que PRON nsubj
han AUX aux
afectado VERB acl
la DET det
vida NOUN obj
e CCONJ cc
int PROPN conj
gridad NOUN flat
e CCONJ cc
la DET det
població

a ADP case
través NOUN fixed
  SPACE dep
de ADP fixed
prácticas NOUN nmod
  SPACE dep
violencias NOUN nmod
  SPACE dep
ejemplarizantes ADJ nsubj
     SPACE dep
los DET det
grupos NOUN nsubj
armados ADJ amod
  SPACE dep
ilegales ADJ amod
pretenden VERB advcl
posicionarse VERB xcomp
  SPACE dep
de ADP case
forma NOUN obl
  SPACE dep
violenta ADJ amod
en ADP case
el DET det
territorio NOUN obl
  SPACE dep
para ADP mark
lo PRON det
  SPACE dep
cual PRON nsubj
doblegan VERB advcl
a ADP case
la DET det
población NOUN obj
civil ADJ amod
que PRON nsubj
queda VERB acl
en ADP case
medio NOUN fixed
de ADP fixed
la DET det
acción NOUN obl
armada ADJ amod
convocan VERB advcl
a ADP case
  SPACE dep
reuniones NOUN obj
  SPACE dep
a ADP case
la DET det
comunidad NOUN nmod
y CCONJ cc
declaran VERB conj
abiertamente ADV advmod
la DET det
confrontación NOUN obj
con ADP case
otras DET det
agrupaciones NOUN nmod
   SPACE dep
el DET det
02 NUM appos
de ADP case
diciembre NOUN compound
de ADP case
2017 NUM c

  SPACE dep
exacerbación NOUN obj
de ADP case
la DET det
viole PROPN nmod
aia PROPN amod
a ADP case
te PRON iobj
la DET det
posible ADJ amod
injerencia NOUN nmod
de ADP case
los DET det
grupos NOUN nmod
  SPACE dep
armados ADJ amod
ilegales ADJ amod
   SPACE dep
las DET det
decisiones NOUN nsubj
  SPACE dep
adoptadas ADJ amod
  SPACE dep
cleben VERB advcl
  SPACE dep
estar AUX aux
  SPACE dep
en ADP case
concordancia NOUN obl
con ADP case
los DET det
planes NOUN nmod
  SPACE dep
de ADP case
prevención NOUN nmod
y CCONJ cc
  SPACE dep
contingencia NOUN conj
del ADP case
unie1pio NOUN nmod
     SPACE dep
4 NUM nummod
a ADP case
la DET det
unidad NOUN nmod
nacional ADJ amod
  SPACE dep
de ADP case
protección NOUN nmod
adoptar VERB xcomp
  SPACE dep
las DET det
medidas NOUN obj
  SPACE dep
de ADP case
protección NOUN nmod
en ADP case
el DET det
marco NOUN obl
de ADP case
  SPACE dep
los DET det
decretos NOUN nmod
49 NUM appos
2 NUM appos
de ADP case
2011 NUM nmod
y CCONJ cc
1066 NUM conj
d

cumbitara VERB advmod
  SPACE dep
magüí ADJ amod
  SPACE dep
payán ADJ amod
y CCONJ cc
roberto PROPN conj
ra PROPN flat
an PROPN flat
rocuraduría PROPN flat
regional ADJ amod
  SPACE dep
de ADP case
nariño NOUN nmod
y CCONJ cc
la DET det
procuraduría NOUN conj
provincial ADJ amod
de ADP case
tumaco NOUN nmod
la DET det
r NOUN dep
  SPACE dep
h2ac1ón NOUN dep
de ADP case
capacitaciones NOUN nmod
y CCONJ cc
  SPACE dep
talleres NOUN conj
  SPACE dep
dirigidos ADJ amod
a ADP case
personerías NOUN obj
  SPACE dep
municipales ADJ amod
  SPACE dep
y CCONJ cc
enlaces NOUN conj
  SPACE dep
de ADP case
vcti PROPN nmod
as PROPN obj
para ADP mark
instalar VERB advcl
  SPACE dep
capacidades NOUN obj
  SPACE dep
para ADP case
el DET det
conocimiento NOUN nmod
y CCONJ cc
aplicación NOUN conj
de ADP case
la DET det
ruta NOUN nmod
de ADP case
a ADP case
enctó VERB nmod
n NOUN nsubj
a ADP case
población NOUN nmod
víctima NOUN appos
de ADP case
  SPACE dep
desplazamiento NOUN nmod
forzado ADJ amod
hacie

[]

# 7. Export HTML

In [140]:
!jupyter nbconvert --to html 5_Actores_del_Conflicto.ipynb

[NbConvertApp] Converting notebook 4_Distribution_of_documents_Departamentos.ipynb to html
[NbConvertApp] Writing 1281710 bytes to 4_Distribution_of_documents_Departamentos.html
