# United Nations Parallel Corpora Analysis using SpaCy and Camel
### Kinan Al-Mouk / kim47@pitt.edu / April 3rd 2022

## Table of Contents 
[`Imports`](#Importing-Tools)

[`Uploading and Analyzing Data`](##Uploading-and-Analyzing-Data-using-Spacy)
    
   - [`English`](#English)
   - [`Spanish`](#Spanish)
   - [`French`](#French)
   - [`Russian`](#Russian)
   - [`Chinese`](#Chinese)
   - [`Arabic`](#Arabic)


# Importing Tools

In [61]:
import spacy

I am using [SpaCy](https://spacy.io/) for NLP of **English, Spanish, French, Russian**, and **Mandarin Chinese** in order to ensure that the tokenization for each langauge remains accurate since NLTK is mostly and primarily used for English language NLP.

However there is no [SpaCy](https://spacy.io/) module that can allow me to process the **Arabic** files. At the moment I am still looking into other resources.

In [62]:
# Still Importing NLTK just incase
import nltk 
import pickle
from time import time
import numpy as np 
import pandas as pd 

# Uploading and Analyzing Data using Spacy

## English

In [74]:
# Loading in English Files
start = time()
f = open('data/sixway/english.100k', 'r') # Reading in English File
english = f.read()
print("Data loaded in:", (time()-start), "seconds.")
f.close()

# Creating Smaller Slice to Analyze using SpaCy
english_samp = english100[:1000]

Data loaded in: 0.17308807373046875 seconds.


In [80]:
nlp = spacy.load('en_core_web_sm')
doc = nlp(english_samp)
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

RESOLUTION 918 (1994)
Adopted by the Security Council at its 3377th meeting, on 17 May 1994
The Security Council,
Reaffirming all its previous resolutions on the situation in Rwanda, in particular its resolution 872 (1993) of 5 October 1993 by which it established the United Nations Assistance Mission for Rwanda (UNAMIR), its resolution 909 (1994) of 5 April 1994 which extended the mandate of UNAMIR until 29 July 1994, and its resolution 912 (1994) of 21 April 1994 by which it adjusted the mandate of UNAMIR,
Recalling the statements made by the President of the Council on 7 April 1994 (S/PRST/1994/16) and 30 April 1994 (S/PRST/1994/21),
Having considered the report of the Secretary-General dated 13 May 1994 (S/1994/565),
Reaffirming its resolution 868 (1993) of 29 September 1993 on the security of United Nations operations,
Strongly condemning the ongoing violence in Rwanda and particularly condemning the very numerous killings of civilians which have taken place in Rwanda and the impu

## Spanish

In [65]:
# Loading in Spanish Files
start = time()
f = open('data/sixway/spanish.100k', 'r') # Reading in Spanish File
spanish100 = f.read()
print("Data loaded in:", (time()-start), "seconds.")
f.close()

# Creating Smaller Slice to Analyze using SpaCy
spanish_samp = spanish100[:1000]

Data loaded in: 0.23191118240356445 seconds.


In [66]:
nlp = spacy.load('es_core_news_sm')
doc = nlp(spanish_samp)
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

RESOLUCIÓN 918 (1994)
Aprobada por el Consejo de Seguridad en su 3377ª sesión, celebrada el 17 de mayo de 1994
El Consejo de Seguridad,
Reafirmando todas sus resoluciones anteriores relativas a la situación en Rwanda, en particular su resolución 872 (1993), de 5 de octubre de 1993, por la que estableció la Misión de Asistencia de las Naciones Unidas a Rwanda (UNAMIR), su resolución 909 (1994), de 5 de abril de 1994, por la que prorrogó el mandato de la UNAMIR hasta el 29 de julio de 1994, y su resolución 912 (1994), de 21 de abril de 1994, por la que modificó el mandato de la UNAMIR,
Recordando las declaraciones formuladas por el Presidente del Consejo el 7 de abril de 1994 (S/PRST/1994/16) y el 30 de abril de 1994 (S/PRST/1994/21),
Habiendo examinado el informe del Secretario General de fecha 13 de mayo de 1994 (S/1994/565),
Reafirmando su resolución 868 (1993), de 29 de septiembre de 1993, relativa a la seguridad de las operaciones de las Naciones Unidas,
Condenando enérgicamente la 

## French

In [67]:
# Loading in French Files
start = time()
f = open('data/sixway/french.100k', 'r') # Reading in French File
french100 = f.read()
print("Data loaded in:", (time()-start), "seconds.")
f.close()

# Creating Smaller Slice to Analyze using SpaCy
french_samp = french100[:1000]

Data loaded in: 0.18862700462341309 seconds.


In [68]:
nlp = spacy.load('fr_core_news_sm')
doc = nlp(french_samp)
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

RESOLUTION 918 (1994)
Adoptée par le Conseil de sécurité à sa 3377e séance, le 17 mai 1994
Le Conseil de sécurité,
Réaffirmant toutes ses résolutions précédentes sur la situation au Rwanda, en particulier sa résolution 872 (1993) du 5 octobre 1993 portant création de la Mission des Nations Unies pour l'assistance au Rwanda (MINUAR), sa résolution 909 (1994) du 5 avril 1994, par laquelle il a prorogé le mandat de la MINUAR jusqu'au 29 juillet 1994 et sa résolution 912 (1994) du 21 avril 1994 par laquelle il a modifié le mandat de la MINUAR,
Rappelant les déclarations faites par le Président du Conseil le 7 avril 1994 (S/PRST/1994/16) et le 30 avril 1994 (S/PRST/1994/21),
Ayant examiné le rapport du Secrétaire général en date du 13 mai 1994 (S/1994/565),
Réaffirmant sa résolution 868 (1993) du 29 septembre 1993 sur la sécurité des opérations des Nations Unies,
Condamnant vigoureusement les violences en cours au Rwanda et réprouvant en particulier les très nombreux massacres de civils qui

## Russian

In [69]:
# Loading in Russian Files
start = time()
f = open('data/sixway/russian.100k', 'r') # Reading in Russian File
russian100 = f.read()
print("Data loaded in:", (time()-start), "seconds.")
f.close()

# Creating Smaller Slice to Analyze using SpaCy
russian_samp = russian100[:1000]

Data loaded in: 0.18409109115600586 seconds.


In [70]:
nlp = spacy.load('ru_core_news_sm')
doc = nlp(russian_samp)
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

РЕЗОЛЮЦИЯ 918 (1994),
принятая Советом Безопасности на его 3377-м заседании 17 мая 1994 года
Совет Безопасности,
подтверждая все свои предыдущие резолюции о ситуации в Руанде, в частности свою резолюцию 872 (1993) от 5 октября 1993 года, в соответствии с которой он учредил Миссию Организации Объединенных Наций по оказанию помощи Руанде (МООНПР), свою резолюцию 909 (1994) от 5 апреля 1994 года, в которой он продлил мандат МООНПР до 29 июля 1994 года, и свою резолюцию 912 (1994) от 21 апреля 1994 года, в соответствии с которой он изменил мандат МООНПР,
ссылаясь на заявления Председателя, сделанные им от имени Совета Безопасности 7 апреля 1994 года (S/PRST/1994/16) и 30 апреля 1994 года (S/PRST/1994/21),
рассмотрев доклад Генерального секретаря от 13 мая 1994 года (S/1994/565),
подтверждая свою резолюцию 868 (1993) от 29 сентября 1993 года о безопасности операций Организации Объединенных Наций,
решительно осуждая продолжающееся насилие в Руанде и особенно осуждая многочисленные убийства г

## Chinese

In [71]:
# Loading in Mandarin Files
start = time()
f = open('data/sixway/mandarin.100k', 'r') # Reading in Mandarin File
mandarin100 = f.read()
print("Data loaded in:", (time()-start), "seconds.")
f.close()

# Creating Smaller Slice to Analyze using SpaCy
mandarin_samp = mandarin100[:1000]

Data loaded in: 0.09326887130737305 seconds.


In [72]:
nlp = spacy.load('zh_core_web_sm')
doc = nlp(mandarin_samp)
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

第918(1994)号决议
1994年5月17日安全理事会第3377次会议通过
安全理事会，
重申其以往关于卢旺达局势的所有决议，特别是成立联合国卢旺达援助团(联卢援助团)的1993年10月5日第872(1993)号决议，延长联卢援助团任务期限至1994年7月29日的1994年4月5日第909(1994)号决议，以及调整联卢援助团的任务规定的1994年4月21日第912(1994)号决议，
回顾安理会主席以安理会名义在1994年4月7日发表的声明(S/PRST/ 1994/16)和在1994年4月30日发表的声明(S/PRST/1994/21)，
审议了1994年5月13日秘书长的报告(S/1994/565)，
重申其1993年9月29日关于联合国行动安全的第868(1993)号决议，
强烈谴责卢旺达境内目前发生的暴乱，特别是谴责在卢旺达境内发生大量残杀平民，以及武装个人在国内一直横行并继续横行而不受惩罚的情况，
强调《阿鲁沙和平协定》对和平解决卢旺达境内冲突的重要性，以及所有各方必须再次承诺充分执行这项协定，
赞扬非洲统一组织及其机关和坦桑尼亚调解人努力提供外交、政治和人道主义支助，以期执行安理会的有关决议，
对不断传来的卢旺达境内发生有计划、普遍、公然违反国际人道主义法行为和其他侵犯生命和财产权利的报告，再次表示震惊，
在这方面回顾屠杀一个种族集团的成员以图将该集团整个或部分消灭，构成根据国际法应受惩罚的罪行，
促请所有各方立即停止，特别是通过大众媒体，进行任何煽动暴乱或种族仇恨的行为，
又回顾安理会曾请秘书长收集有关造成卢旺达和布隆迪两位总统死难悲惨事件的罪责的资料；
进一步回顾安理会曾请秘书长建议如何调查冲突期间严重违反国际人道主义法行为的报告，
强调迫切需要采取协调的国际行动，以减轻卢旺达人民的苦难，并协助恢复卢旺达境内的和平，在这方面，欣见联合国与非统组织以及该区域各国、特别是阿鲁沙和平进程的调解人合作，
希望在这方面扩大联卢援助团的人道主义任务，并强调重视各方对成功全面实施这一任务的支持与合作，
重申承诺维护卢旺达的统一和领土完整，
认识到卢旺达人民负有民族和解与本国重建的根本责任，
深感不安的是冲突造成人民巨大的苦难，并忧虑卢旺达局势的延续对区域内的和平与安全构成威胁，
A 1. 要求冲突各方立即停止敌对行为，同意停火，并终止席卷卢旺达的盲目暴乱和杀

席卷 VERB ccomp
卢旺达 PROPN dobj
的 PART case
盲目 ADJ amod
暴乱 NOUN dobj
和 CCONJ cc
杀 VERB conj


## Arabic

In [73]:
# Loading in Arabic Files
start = time()
f = open('data/sixway/arabic.100k', 'r') # Reading in Arabic File
arabic100 = f.read()
print("Data loaded in:", (time()-start), "seconds.")
f.close()

# Creating Smaller Slice to Analyze using SpaCy
arabic_samp = arabic100[:1000]

Data loaded in: 0.1610276699066162 seconds.
