# IBM Model 1 with Expectation Maximization

## Author: Anmol Sharma

**Open the files**

In [1]:
eng_set = open('../data/hansards.en', 'rb')
fr_set = open('../data/hansards.fr', 'rb')

**Perform Preprocessing**

1. **Split the data into two different sets, and split each sentence into words**
2. **Add a NONE character inside every english sentence**

In [2]:
src_sent = []
dest_sent = []

for line_en, line_fr in zip(eng_set, fr_set):
    # split each sentence into a list of words for easy processing
    src_sent.append(line_fr.split())
    dest_sent.append([None] + line_en.split())

We can see the words contain many "\xc3\xa9es"... which are basically the unicode codes for special accented symbols in french. Nothing to worry. 

Also, the punctuation marks are left as it is as "words" which map directly to the punctuation in the destination language. 

In [3]:
src_sent[5:10]

[['souvenons',
  '-',
  'nous',
  ',',
  'monsieur',
  'le',
  'Orateur',
  ',',
  'que',
  'ce',
  'sont',
  'ces',
  'secteurs',
  'de',
  'notre',
  'soci\xc3\xa9t\xc3\xa9',
  'qui',
  'servent',
  'de',
  '\xc3\xa9pine',
  'dorsale',
  '\xc3\xa0',
  'notre',
  '\xc3\xa9conomie',
  '.'],
 ['bravo', '!'],
 ['bravo', '!'],
 ['monsieur',
  'le',
  'Orateur',
  ',',
  'ma',
  'question',
  'se',
  'adresse',
  '\xc3\xa0',
  'le',
  'ministre',
  'charg\xc3\xa9',
  'de',
  'les',
  'transports',
  '.'],
 ['tous',
  'deux',
  'poss\xc3\xa8dent',
  'de',
  'nombreuses',
  'ann\xc3\xa9es',
  'de',
  'exp\xc3\xa9rience',
  'dans',
  'la',
  'fabrication',
  'et',
  'la',
  'distribution',
  'de',
  'les',
  'produits',
  'forestiers',
  '.']]

In [4]:
dest_sent[5:10]

[[None,
  'let',
  'us',
  'remember',
  ',',
  'Mr.',
  'Speaker',
  ',',
  'that',
  'these',
  'segments',
  'of',
  'our',
  'society',
  'form',
  'the',
  'backbone',
  'of',
  'our',
  'economy',
  '.'],
 [None, 'hear', ',', 'hear', '!'],
 [None, 'hear', ',', 'hear', '!'],
 [None,
  'Mr.',
  'Speaker',
  ',',
  'my',
  'question',
  'is',
  'directed',
  'to',
  'the',
  'Minister',
  'of',
  'Transport',
  '.'],
 [None,
  'both',
  'have',
  'many',
  'years',
  'experience',
  'in',
  'the',
  'manufacture',
  'and',
  'distribution',
  'of',
  'forest',
  'products',
  '.']]

## **We need to find the probability $t_k(f_i|e_j)$ where $f_i$ = french word (source language) and $e_j$ = english word (destination language)**

Find all the unique words in french data

In [5]:
import itertools

In [6]:
import numpy as np

In [7]:
for i in itertools.chain.from_iterable(src_sent):
    print(i)

2
.
2
.
oh
,
oh
!
oh
,
oh
!
oh
,
oh
!
souvenons
-
nous
,
monsieur
le
Orateur
,
que
ce
sont
ces
secteurs
de
notre
société
qui
servent
de
épine
dorsale
à
notre
économie
.
bravo
!
bravo
!
monsieur
le
Orateur
,
ma
question
se
adresse
à
le
ministre
chargé
de
les
transports
.
tous
deux
possèdent
de
nombreuses
années
de
expérience
dans
la
fabrication
et
la
distribution
de
les
produits
forestiers
.
1
.
je
voudrais
aussi
parler
de
le
droit
de
le
fournisseur
de
choisir
ses
clients
à
son
gré
.
je
en
ai
assez
de
voir
que
les
ministres
semblent
éprouver
certains
complexes
à
le
égard
de
la
négociation
collective
.
je
voudrais
commenter
un
autre
point
particulier
,
monsieur
le
Orateur
,
avant
de
me
taire
.
a
le
ordre
.
3
.
il
ne
y
a
pas
de
meilleure
autorité
en
la
matière
que
le
député
de
Don
Valley
,
non
pas
moi
exclusivement
.
ce
est
tout
à
fait
compréhensible
.
en
outre
,
elle
pourrait
constituer
une
sérieuse
menace
pour
la
Confédération
et
le
unité
nationale
.
pour
cette
raison
,
nous
ne
avons
pa

de
ce
genre
fonctionnent
déjà
et
nous
prévoyons
en
lancer
de
autres
.
nous
devons
nous
demander
comment
il
se
fait
que
cette
abondance
de
idées
et
de
activité
ne
ait
pas
résolu
le
problème
de
le
développement
.
je
voudrais
terminer
sur
une
note
positive
,
monsieur
le
Orateur
.
je
voudrais
que
il
soit
bien
clair
,
monsieur
le
Orateur
,
que
le
gouvernement
fédéral
ne
fixe
pas
les
prix
de
détail
.
la
séance
est
ouverte
à
2
heures
.
je
rappelle
,
monsieur
le
président
,
que
le
ministre
parlait
,
pour
les
lignes
de
transmission
de
électricité
,
de
les
mêmes
pouvoirs
qui
existent
déjà
.
ce
est
vraiment
un
objectif
souhaitable
que
nous
visons
tous
.
madame
le
Président
,
je
voudrais
poser
une
question
supplémentaire
à
le
ministre
de
les
Transports
.
prenons
maintenant
Petro
-
Canada
.
cela
va
apporter
de
les
économies
énormes
.
malheureusement
,
personne
ne
semble
savoir
quels
seront
à
le
juste
ces
effets
.
nous
avons
permis
à
un
sous
-
gouvernement
de
arracher
de
les
pouvoirs
à
la
Chambre
de

se
doit
de
respecter
les
recommandations
de
le
Commissaire
à
les
langues
officielles
.
ensuite
,
ils
réduiront
le
nombre
de
les
emplois
car
les
entreprises
que
ils
auront
achetées
feront
double
emploi
avec
de
autres
que
ils
ont
déjà
.
ce
est
à
la
deuxième
étape
de
réexamen
que
la
Cour
suprême
a
établi
que
une
audience
est
obligatoire
.
en
ce
qui
concerne
les
avocats
spécialisés
en
immigration
,
le
barreau
se
charge
de
les
pénaliser
.
le
autre
solution
consiste
à
investir
sous
forme
de
prêts
.
veut
-
il
attendre
que
le
économie
de
ces
régions
agricoles
soit
complètement
à
terre
avant
de
réagir
à
le
problème
de
les
pluies
acides
?
il
me
semble
que
cela
ne
est
pas
compliqué
à
comprendre
.
nous
ne
devons
pas
oublier
toutefois
que
la
majorité
de
les
producteurs
de
boeuf
et
de
porc
ont
carrément
rejeté
tout
mécanisme
de
régularisation
de
les
mises
en
marché
.
si
je
avais
été
à
la
place
de
Bryce
,
je
aurais
partagé
le
assiette
à
le
beurre
avec
les
autres
.
en
un
mot
,
nous
considérons
que
le


base
,
les
Snow
Birds
,
le
équipe
de
acrobatie
aérienne
de
le
Canada
.
notre
caucus
a
entendu
le
autre
jour
le
Conseil
économique
de
les
provinces
de
le
Atlantique
.
faut
pas
nous
prendre
pour
de
les
poires
!
il
se
agit
de
un
problème
important
.
je
ai
le
intention
de
parler
surtout
aujourd'
hui
de
les
nombreuses
améliorations
apportées
à
les
programmes
de
pensions
de
tous
les
Canadiens
.
on
estimait
également
que
il
fallait
compenser
le
érosion
de
la
valeur
de
les
biens
due
à
le
inflation
.
il
démontre
une
attitude
réaliste
,
également
parce
que
il
agit
avec
douceur
et
intelligence
.
le
gouvernement
ne
se
y
intéresse
pas
et
il
ne
se
en
soucie
pas
.
ils
ont
voté
pour
un
changement
dans
la
gestion
de
les
affaires
de
le
pays
.
monsieur
le
Président
,
un
rappel
à
le
Règlement
.
les
faits
sont
clairs
et
nets
.
aussi
la
motion
de
le
député
de
Beaches
nous
permet
de
faire
en
cette
Chambre
ce
que
tout
le
monde
fait
présentement
à
travers
le
pays
.
de
plus
,
ils
ont
une
bibliothèque
spécialisé

ressentir
dans
la
collectivité
.
hansard
RÉVISÉ
*
NUMÉRO
1
le
lundi
22
septembre
1997
PREMIÈRE
SESSION
-
36E
LÉGISLATURE
ouverture
de
le
Parlement
le
greffier
de
la
Chambre
ÉLECTION
DU
PRÉSIDENT
le
président
de
élection
(M.
Caccia
)
suspension
de
la
séance
le
président
de
élection
(M.
Caccia
)
reprise
de
la
séance
le
président
de
élection
(M.
Caccia
)
suspension
de
la
séance
reprise
de
la
séance
suspension
de
la
séance
reprise
de
la
séance
le
président
de
élection
(M.
Caccia
)
suspension
de
la
séance
reprise
de
la
séance
le
président
de
élection
(M.
Caccia
)
m
.
John
Nunziata
ouverture
DE
LA
SESSION
(
version
officielle
)
hansard
RÉVISÉ
*
NUMÉRO
1
chambres
DES
COMMUNES
le
lundi
22
septembre
1997
PREMIÈRE
SESSION
-
36E
LÉGISLATURE
la
trente
-
cinquième
législature
ayant
été
prorogée
et
les
Chambres
dissoutes
par
proclamation
le
dimanche
27
avril
1997
,
puis
les
brefs
ayant
été
émis
et
rapportés
,
les
nouvelles
Chambres
ont
été
convoquées
pour
le
expédition
de
les
affaires
le
lundi
22
se

que
elle
a
bien
voulu
me
faire
en
me
choisissant
comme
Président
.
je
tiens
à
vous
remercier
de
la
confiance
que
vous
venez
de
me
témoigner
.
je
suis
à
la
fois
très
reconnaissant
et
profondément
touché
.
il
se
en
trouve
pour
dire
que
il
y
aura
beaucoup
de
action
à
la
Chambre
à
le
cours
de
cette
36e
législature
.
je
ne
ai
jamais
connu
de
législature
où
il
ne
y
avait
pas
beaucoup
de
action
.
pourquoi
ne
y
aurait
-
il
pas
beaucoup
de
action
?
vous
êtes
ici
en
tant
que
les
porte
-
parole
élus
de
les
Canadiens
de
tout
le
pays
.
vous
allez
défendre
comme
il
se
doit
de
les
opinions
bien
arrêtées
.
ce
est
ici
,
sur
le
parquet
de
la
Chambre
de
les
communes
,
que
nous
aurons
la
chance
de
nous
exprimer
.
la
dernière
fois
que
vous
me
avez
fait
le
honneur
de
me
élire
comme
Président
,
je
ai
dit
que
nous
étions
les
gladiateurs
politiques
de
le
Canada
,
et
ce
est
vrai
.
nos
armes
sont
nos
paroles
,
nos
idées
,
nos
convictions
.
voilà
pourquoi
il
y
a
de
le
action
.
mais
nous
pouvons
faire
notre
travai

ces
dernières
années
,
les
Canadiens
ont
fait
beaucoup
de
efforts
et
de
sacrifices
pour
surmonter
un
grand
nombre
de
difficultés
auxquelles
notre
pays
a
fait
face
.
nous
y
sommes
parvenus
,
et
nous
avons
commencé
à
jeter
de
les
bases
solides
sur
lesquelles
se
fondera
notre
réussite
à
le
cours
de
le
nouveau
millénaire
.
cette
36e
législature
se
ouvre
à
le
moment
où
nous
avons
mis
de
le
ordre
dans
les
finances
publiques
et
où
le
économie
se
engage
dans
un
cycle
de
croissance
vigoureuse
.
certes
,
le
chômage
est
encore
trop
élevé
,
mais
de
les
centaines
de
milliers
de
emplois
nouveaux
sont
créés
par
le
secteur
privé
,
le
taux
de
inflation
est
très
bas
et
les
taux
de
intérêt
ne
ont
jamais
été
aussi
faibles
depuis
plus
de
trente
ans
.
un
nombre
croissant
de
sociétés
canadiennes
vendent
aujourd'
hui
plus
de
biens
et
de
services
dans
le
monde
entier
que
jamais
auparavant
.
stimuler
la
création
de
emplois
et
la
croissance
économique
a
toujours
été
un
objectif
primordial
de
le
gouvernement
de
l

de
les
Autochtones
,
afin
de
permettre
à
tous
les
enfants
autochtones
de
partir
de
le
bon
pied
dans
la
vie
.
il
mesurera
la
maturité
scolaire
de
nos
enfants
et
fera
de
les
rapports
périodiques
qui
permettront
de
évaluer
les
progrès
accomplis
pour
leur
donner
les
meilleures
chances
de
départ
dans
la
vie
.
investir
dans
le
domaine
de
la
santé
et
de
les
soins
de
qualité
pourtant
,
les
Canadiens
sont
de
plus
en
plus
inquiets
face
à
la
situation
actuelle
et
à
le
avenir
de
leur
régime
de
soins
de
santé
.
ils
se
demandent
se
ils
continueront
à
avoir
accès
à
les
meilleurs
soins
possible
lorsque
ils
en
auront
besoin
.
cette
inquiétude
a
de
les
causes
multiples
,
notamment
la
rapidité
et
le
ampleur
de
la
restructuration
entreprise
depuis
quelques
années
.
le
gouvernement
de
le
Canada
reconnaît
que
cette
restructuration
a
été
difficile
pour
les
Canadiens
.
Il
a
donc
décidé
de
accroître
son
aide
financière
à
les
provinces
par
rapport
à
les
niveaux
budgétés
.
il
déposera
un
projet
de
loi
portant
à


élargir
les
possibilités
de
les
Canadiens
de
les
communautés
rurales
.
il
adaptera
ses
programmes
afin
de
refléter
les
réalités
socio
-
économiques
de
les
milieux
ruraux
de
le
Canada
.
il
redoublera
de
efforts
afin
que
les
communautés
rurales
et
toutes
les
régions
de
le
Canada
profitent
de
les
avantages
de
le
économie
mondiale
fondée
sur
le
savoir
.
les
gouvernements
ont
un
rôle
capital
à
jouer
pour
appuyer
la
science
,
la
technologie
et
la
création
de
le
savoir
.
la
dotation
par
le
gouvernement
de
le
Canada
de
la
Fondation
canadienne
pour
le
innovation
,
en
partenariat
avec
le
secteur
privé
,
les
provinces
et
les
universités
,
contribue
à
la
mise
sur
pied
de
un
système
national
de
innovation
de
pointe
.
tous
les
gouvernements
doivent
accroître
leur
aide
à
la
recherche
effectuée
dans
les
universités
.
le
appui
à
le
savoir
va
au
-
delà
de
le
aide
à
la
recherche
universitaire
.
en
soutenant
davantage
les
arts
,
on
permet
à
la
culture
canadienne
de
atteindre
de
les
publics
à
le
pays
et
à


b
)
le
Comité
de
le
agriculture
et
de
le
agroalimentaire
(
seize
membres
)
;
c
)
le
Comité
de
le
patrimoine
canadien
(
seize
membres
)
;
d
)
le
Comité
de
la
citoyenneté
et
de
le
immigration
(
seize
membres
)
;
e
)
le
Comité
de
le
environnement
et
de
le
dévelop
-
pement
durable
(
seize
membres
)
;
f
)
le
Comité
de
les
finances
(
seize
membres
)
;
g
)
le
Comité
de
les
pêches
et
de
les
océans
(
seize
membres
)
;
h
)
le
Comité
de
les
affaires
étrangères
et
de
le
commerce
international
(
seize
membres
)
;
i
)
le
Comité
de
la
santé
(
seize
membres
)
;
j
)
le
Comité
de
le
développement
de
les
ressources
humaines
et
de
la
condition
de
les
personnes
handicapées
(
seize
membres
)
;
k
)
le
Comité
de
le
industrie
(
seize
membres
)
;
l
)
le
Comité
de
la
justice
et
de
les
droits
de
la
personne
(
seize
membres
)
;
m
)
le
Comité
de
la
défense
nationale
et
de
les
anciens
combattants
(
seize
membres
)
;
n
)
le
Comité
de
les
ressources
naturelles
et
de
les
opérations
gouvernementales
(
seize
membres
)
;


de
le
Canada
,
je
suis
bien
placée
pour
connaître
la
solidité
de
les
entreprises
appartenant
à
de
les
femmes
.
lors
de
la
récente
réunion
à
Ottawa
de
le
Réseau
de
les
femmes
chefs
de
entreprise
de
les
pays
membres
de
le
APEC
,
il
a
été
mentionné
que
le
Canada
compte
700
000
entreprises
qui
appartiennent
à
de
les
femmes
et
qui
emploient
1,7
million
de
personnes
,
soit
plus
que
le
effectif
de
les
employés
de
les
100
plus
grandes
sociétés
canadiennes
selon
la
revue
Canadian
Business
.
de
plus
,
ces
entreprises
créent
de
les
emplois
à
un
rythme
qui
est
quatre
fois
supérieur
à
la
moyenne
nationale
.
on
devrait
encourager
les
missions
commerciales
à
le
sein
de
le
secteur
privé
.
par
le
entremise
de
groupements
tels
que
Les
femmes
chefs
de
entreprises
mondiales
,
il
est
possible
à
de
simples
citoyens
de
agir
comme
porte
-
parole
pour
faire
connaître
de
les
produits
et
de
les
services
canadiens
à
de
autres
pays
.
>
À
le
mois
de
août
,
je
ai
animé
de
les
groupes
de
discussion
sur
la
création
de

:
nous
,
sujets
très
dévoués
et
fidèles
de
Sa
Majesté
,
la
Chambre
de
les
communes
de
le
Canada
assemblée
en
Parlement
,
prions
respectueusement
Votre
Excellence
de
agréer
nos
humbles
remerciements
pour
le
gracieux
discours
que
Elle
a
adressé
à
les
deux
Chambres
de
le
Parlement
.
de
les
voix
:
bravo
!
m
.
Claude
Drouin
(
Beauce
,
Lib
.
)
:
monsieur
le
Président
,
je
tiens
à
présenter
mes
hommages
à
Son
Excellence
le
Gouverneur
général
,
M.
Roméo
LeBlanc
,
et
le
remercier
de
avoir
prononcé
le
discours
de
le
Trône
devant
les
deux
Chambres
.
je
aimerais
également
,
monsieur
le
Président
,
vous
féliciter
pour
votre
réélection
à
la
Présidence
.
nous
sommes
convaincus
,
et
vous
nous
le
avez
prouvé
,
que
vous
avez
toutes
les
qualités
requises
pour
mener
à
bien
cette
importante
tâche
qui
est
de
diriger
les
travaux
de
la
Chambre
.
je
voudrais
également
remercier
le
premier
ministre
qui
me
a
fait
le
honneur
de
me
choisir
comme
motionnaire
de
la
motion
de
Adresse
en
réponse
à
le
discours
de
le
Tr

KeyboardInterrupt: 

In [8]:
# convert the source list into a chain of iterables, and then convert it to a set to only retain unique elements.
# further convert to list for easy processing
fr_vocab = list(set(itertools.chain.from_iterable(src_sent)))
en_vocab = list(set(itertools.chain.from_iterable(dest_sent)))

In [9]:
fr_vocab[0:5]

['1,800', 'engendr\xc3\xa9e', 'encouragerais', 'accueille', 'accueilli']

In [10]:
en_vocab[0:5]

['1,800', 'woods', 'hanging', 'trawling', 'originality']

## Initialize the conditional probability $t_k(f_i|e_j)$ with uniform probabilities

We need to initialize the probability for each of the word in french corresponding to each of the word in english. We will use a dictionary with keys of the form $(f_i, e_j)$ to represent $t_k(f_i|e_j)$.

Hence dict[$(f_i, e_j)$] = $t_k(f_i|e_j)$

In [20]:
len(fr_vocab)

33718

In [21]:
len(en_vocab)

25849

In [12]:
t_k = {}
uni_prob = 1.0 / np.shape(fr_vocab)[0]

for _fr_wrd in fr_vocab:
    for _en_wrd in en_vocab:
        t_k[(_fr_wrd, _en_wrd)] = uni_prob

KeyboardInterrupt: 

In [14]:
\

280571172992510140037611932413038677189525L

AttributeError: 'module' object has no attribute 'lru_cache'