El objetivo de este cuaderno es probar el alcance de las métricas de *indice metafórico* e *índice metonímico*. Estos están definidos de la siguiente manera:





# Cálculo del índice metafórico
\begin{equation}
mensaje = \{ w_1, w_2, w_3, \dots , w_j \} \\
\end{equation}

\begin{equation}
vector\ semantico(w) = \{s_1, s_2, s_3, \dots, s_j \} \\
\end{equation}

\begin{equation}
uso(w) = \frac{freq(w)}{\mu(freq(corpora\ ref))}
\end{equation}

\begin{equation}
indice\ metaforico(mensaje) =  \Sigma_i^j \frac{uso(w_i)}{\mu( vector\ semantico(w_i))}
\end{equation}

# Cálculo del índice metonímico

\begin{equation}
N = \{n_1, n_2, n_3, \dots , n_j\}
\end{equation}

\begin{equation}
met(n) = \frac{letras\ iguales}{ set(letras(n_i1) + letras(n_i2)}
\end{equation}

\begin{equation}
indice\ metonimia = \Sigma_i^j met(n_i)
\end{equation}



# Ejecución
## Formando el vector semántico

Primero tomemos un texto de ejemplo. En este caso, utilizaré un poema de Blake:
    

In [4]:
import nltk
blake = nltk.corpus.gutenberg.words('blake-poems.txt')

In [18]:
poema1 = blake[22:176]

In [19]:
from nltk.corpus import wordnet as wn

In [20]:
from nltk.corpus import stopwords 

In [21]:
stop_words = set(stopwords.words('english')) 

In [26]:
def vector_semantico(mensaje):
    vector = {}
    for w  in list(vocab):
        vector[w] = []
        for s in wn.synsets(w):
            #lemmas en cada synset
            vector[w].extend(s.lemma_names())
            # vector por palabra, "aridad" 1
            vector[w]  = list(set(vector[w]))

    return vector


def vector_uso(vec_s):
    vector_uso = {}
    for w, sinonimos in vec_s.items():
        vector_uso[w] = {}
        for sin in sinonimos:
            try:
                vector_uso[w][sin] = tabla_comparativa[sin]
            except:
                vector_uso[w][sin] =  0
                
    return vector_uso



from importlib import reload  # Not needed in Python 2
import logging
reload(logging)
logging.basicConfig(format='%(message)s', level=logging.DEBUG, datefmt='%I:%M:%S')
log = logging.getLogger("info")

def freq_w(w, corpora_base):
    frecuencias = FreqDist(corpora_base) 
    return frecuencias[w]

from statistics import mean

def freq_sinonimos(vector_uso):
    frecuencias = []
    for palabra, frecuencia in vector_uso.items():
        
        frecuencias.append(frecuencia)
     
    return mean(frecuencias)


def freq_sinonimos_base(vector_uso, freq_corpus_base):
    frecuencias = []
    for palabra, frecuencia in vector_uso.items():
        log.info("buscando '"+ palabra + "' en tabla de frecuencua de corpus base")
        try:
            frecuencias.append(freq_corpus_base[palabra])
            log.info("se encontró frecuencia")
        except:
            # si no encuentra w en c_base, freq es 0
            frecuencias.append(0)
            log.info("no se encontró frecuencia")
    return mean(frecuencias)


def media_de_frecuencias(tabla_de_frecuencias):
    frecuencias = []
    for palabra, frecuencia in tabla_de_frecuencias.items():
        frecuencias.append(frecuencia)
        
    return mean(frecuencias)

def uso(w, freq_w, corpora_ref):
    pass
   
    
    


\begin{equation}
vector\ semantico(w) = \{s_1, s_2, s_3, \dots, s_j \} \\
\end{equation}



In [81]:
corpus_base = nltk.corpus.brown.words("cj22")

In [87]:
vec_s = vector_semantico(corpus_base)

TypeError: 'dict' object is not callable

# Cargando un corpora de referenca

In [5]:
nltk.corpus.brown.fileids()

['ca01',
 'ca02',
 'ca03',
 'ca04',
 'ca05',
 'ca06',
 'ca07',
 'ca08',
 'ca09',
 'ca10',
 'ca11',
 'ca12',
 'ca13',
 'ca14',
 'ca15',
 'ca16',
 'ca17',
 'ca18',
 'ca19',
 'ca20',
 'ca21',
 'ca22',
 'ca23',
 'ca24',
 'ca25',
 'ca26',
 'ca27',
 'ca28',
 'ca29',
 'ca30',
 'ca31',
 'ca32',
 'ca33',
 'ca34',
 'ca35',
 'ca36',
 'ca37',
 'ca38',
 'ca39',
 'ca40',
 'ca41',
 'ca42',
 'ca43',
 'ca44',
 'cb01',
 'cb02',
 'cb03',
 'cb04',
 'cb05',
 'cb06',
 'cb07',
 'cb08',
 'cb09',
 'cb10',
 'cb11',
 'cb12',
 'cb13',
 'cb14',
 'cb15',
 'cb16',
 'cb17',
 'cb18',
 'cb19',
 'cb20',
 'cb21',
 'cb22',
 'cb23',
 'cb24',
 'cb25',
 'cb26',
 'cb27',
 'cc01',
 'cc02',
 'cc03',
 'cc04',
 'cc05',
 'cc06',
 'cc07',
 'cc08',
 'cc09',
 'cc10',
 'cc11',
 'cc12',
 'cc13',
 'cc14',
 'cc15',
 'cc16',
 'cc17',
 'cd01',
 'cd02',
 'cd03',
 'cd04',
 'cd05',
 'cd06',
 'cd07',
 'cd08',
 'cd09',
 'cd10',
 'cd11',
 'cd12',
 'cd13',
 'cd14',
 'cd15',
 'cd16',
 'cd17',
 'ce01',
 'ce02',
 'ce03',
 'ce04',
 'ce05',
 'ce06',
 

In [6]:
corpus_referencia = nltk.corpus.brown.words("cj23")

In [7]:
corpus_referencia

['2', ':', ':', 'Some', 'of', 'the', 'major', ...]

In [87]:
for w in corpus_refencia: print(w)

2
:
:
Some
of
the
major
functions
of
religion
The
place
of
religion
in
the
simple
,
preliterate
societies
is
quite
definite
;
;
as
a
complex
it
fits
into
the
whole
social
organization
and
functions
dominantly
in
every
part
of
it
.
In
societies
like
ours
,
however
,
its
place
is
less
clear
and
more
complex
.
With
the
diversity
of
religious
viewpoints
,
there
are
differences
of
opinion
as
to
the
essential
features
of
religion
;
;
and
there
are
different
opinions
as
to
the
essential
functions
of
religion
.
Nevertheless
,
for
most
of
the
population
of
heterogeneous
advanced
societies
,
though
less
for
the
less
religious
portion
,
religion
does
perform
certain
modal
individual
and
social
functions
.
Although
the
inner
functions
of
religion
are
not
of
direct
significance
in
social
organization
,
they
have
important
indirect
consequences
.
If
the
inner
functions
of
religion
are
performed
,
the
individual
is
a
composed
,
ordered
,
motivated
,
and
emotionally
secure
associate
;
;
he
is
not
grea

such
a
value
system
prevails
,
it
always
unifies
all
who
possess
it
;
;
it
enables
members
of
the
society
to
operate
as
a
system
.
The
beliefs
of
a
religion
also
reflecting
the
values
are
expressed
in
creeds
,
dogmas
,
and
doctrines
,
and
form
what
Durkheim
calls
a
credo
.
As
he
points
out
,
a
religious
group
cannot
exist
without
a
collective
credo
,
and
the
more
extensive
the
credo
,
the
more
unified
and
strong
is
the
group
.
The
credo
unifies
and
socializes
men
by
attaching
them
completely
to
an
identical
body
of
doctrine
;
;
the
more
extensive
and
firm
the
body
of
doctrine
,
the
firmer
the
group
.
The
religious
symbolism
,
and
especially
the
closely
related
rites
and
worship
forms
,
constitute
a
powerful
bond
for
the
members
of
the
particular
faith
.
The
religion
,
in
fact
,
is
an
expression
of
the
unity
of
the
group
,
small
or
large
.
The
common
codes
,
for
religious
action
as
such
and
in
their
ethical
aspects
for
everyday
moral
behavior
,
bind
the
devotees
together
.
These
are
way

In [1]:
from nltk.book import FreqDist

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


In [85]:
freq_ref = FreqDist(corpus_referencia)

In [86]:
freq_base = FreqDist(corpus_base)

In [11]:
tabla_comparativa

FreqDist({',': 177, 'the': 118, 'and': 99, 'of': 94, '.': 89, 'in': 47, 'a': 44, ';': 38, 'is': 37, 'to': 34, ...})

In [36]:
def vector_uso(vec_s):
    vector_uso = {}
    for w, sinonimos in vec_s.items():
        vector_uso[w] = {}
        for sin in sinonimos:
            try:
                vector_uso[w][sin] = tabla_comparativa[sin]
            except:
                vector_uso[w][sin] =  0
                
    return vector_uso



from importlib import reload  # Not needed in Python 2
import logging
reload(logging)
logging.basicConfig(format='%(message)s', level=logging.DEBUG, datefmt='%I:%M:%S')
log = logging.getLogger("info")

def freq_w(w, corpora_base):
    frecuencias = FreqDist(corpora_base) 
    return frecuencias[w]

from statistics import mean

def freq_sinonimos(vector_uso):
    frecuencias = []
    for palabra, frecuencia in vector_uso.items():
        
        frecuencias.append(frecuencia)
     
    return mean(frecuencias)


def freq_sinonimos_base(vector_uso, freq_corpus_base):
    frecuencias = []
    for palabra, frecuencia in vector_uso.items():
        log.info("buscando '"+ palabra + "' en tabla de frecuencua de corpus base")
        try:
            frecuencias.append(freq_corpus_base[palabra])
            log.info("se encontró frecuencia")
        except:
            # si no encuentra w en c_base, freq es 0
            frecuencias.append(0)
            log.info("no se encontró frecuencia")
    return mean(frecuencias)


def media_de_frecuencias(tabla_de_frecuencias):
    frecuencias = []
    for palabra, frecuencia in tabla_de_frecuencias.items():
        frecuencias.append(frecuencia)
        
    return mean(frecuencias)

def uso(w, freq_w, corpora_ref):
    pass
   
    
    
            

In [37]:
vector_uso = vector_uso(vec_s) 

In [38]:
vector_uso

{'thee': {},
 'made': {'made': 0,
  'realize': 0,
  'pee': 0,
  'take': 0,
  'wee': 0,
  'score': 0,
  'pull_in': 0,
  'make_up': 0,
  'ca-ca': 0,
  'construct': 0,
  'piddle': 0,
  'spend_a_penny': 0,
  'shit': 0,
  'clear': 1,
  'defecate': 0,
  'take_a_leak': 0,
  'wee-wee': 0,
  'throw': 0,
  'form': 1,
  'stimulate': 0,
  'have': 11,
  'do': 1,
  'make_believe': 0,
  'give': 1,
  'fix': 0,
  'lay_down': 0,
  'build': 0,
  'make': 0,
  'hold': 0,
  'pass_water': 0,
  'stool': 0,
  'nominate': 0,
  'pee-pee': 0,
  'get': 0,
  'arrive_at': 0,
  'cook': 0,
  'take_in': 0,
  'micturate': 0,
  'work': 0,
  'prepare': 0,
  'create': 0,
  'crap': 0,
  'bring_in': 0,
  'ready': 0,
  'realise': 0,
  'get_to': 0,
  'gain': 0,
  'cause': 1,
  'pretend': 0,
  'puddle': 0,
  'piss': 0,
  'produce': 0,
  'relieve_oneself': 0,
  'hit': 0,
  'take_a_crap': 0,
  'attain': 0,
  'progress_to': 0,
  'urinate': 0,
  'draw': 0,
  'constitute': 1,
  'earn': 0,
  'make_water': 0,
  'establish': 0,
  'sedu

In [79]:

from importlib import reload  # Not needed in Python 2
import logging
reload(logging)
logging.basicConfig(format='%(message)s', level=logging.DEBUG, datefmt='%I:%M:%S')
log = logging.getLogger("info")

def freq_w(w, corpora_base):
    frecuencias = FreqDist(corpora_base) 
    return frecuencias[w]

from statistics import mean

def freq_sinonimos(vector_uso):
    frecuencias = []
    for palabra, frecuencia in vector_uso.items():
        
        frecuencias.append(frecuencia)
     
    return mean(frecuencias)


def freq_sinonimos_base(vector_uso, freq_corpus_base):
    frecuencias = []
    for palabra, frecuencia in vector_uso.items():
        log.info("buscando '"+ palabra + "' en tabla de frecuencua de corpus base")
        try:
            frecuencias.append(freq_corpus_base[palabra])
            log.info("se encontró frecuencia")
        except:
            # si no encuentra w en c_base, freq es 0
            frecuencias.append(0)
            log.info("no se encontró frecuencia")
    return mean(frecuencias)


def media_de_frecuencias(tabla_de_frecuencias):
    frecuencias = []
    for palabra, frecuencia in tabla_de_frecuencias.items():
        frecuencias.append(frecuencia)
        
    return mean(frecuencias)

def uso(w, freq_w, corpora_ref):
    pass
   
    
    

In [32]:
freq_w("may", poema1_filtrado)

2

In [33]:
freq_w("may", corpus_referencia)

0

In [53]:
freq_sinonimos("made",vector_uso["made"] )

0.25

In [80]:
freq_sinonimos_base(vector_uso["made"], poema1_filtrado)

buscando 'made' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'realize' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'pee' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'take' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'wee' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'score' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'pull_in' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'make_up' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'ca-ca' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'construct' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'piddle' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'spend_a_penny' en tabla de frecuencua de corpus base
no se encontró frecuencia
buscando 'shit'

0

In [67]:
media_de_frecuencias(tabla_comparativa)

2.9176029962546814

In [76]:
freq_w("may", poema1_filtrado)/ media_de_frecuencias(tabla_comparativa)

0.6854942233632864

In [78]:
freq_sinonimos( vector_uso["may"])

0