# Term Frecuency x Inverse Document Frecuency (TF IDF)


In [1]:
import io
import re
from functools import reduce
from collections import Counter
from numpy import log
from pandas import DataFrame

In [2]:
with io.open('stop-words-spanish.txt', mode='r', encoding='utf-8') as f:
    stopwords = f.read().splitlines()
stopwords

['a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

In [3]:
with io.open('Data/AMLO_28042013.txt', mode='r', encoding='utf-8') as f:
    boletin = f.read().splitlines()
boletin

['Andrés Manuel López Obrador denunció que ex gobernadores del estado de México –desde Carlos Hank hasta Enrique Peña— acumularon, en los últimos 30 años, alrededor de 2 mil millones de dólares en bienes y riquezas y son quienes asaltaron la Presidencia de la República como Enrique Peña, Emilio Chuayffet, Arturo Montiel y César Camacho.',
 'Durante la asamblea de toma de protesta del comité municipal de MORENA, en Metepec y al conceder una entrevista, López Obrador manifestó su indignación, porque la entidad mexiquense es el estado con más corrupción en todo el país, pero al mismo tiempo es el primero lugar de pobreza, porque hay 7 millones de pobres y 2.5 millones de extrema pobreza.',
 'Informó que en la administración de Enrique Peña se endeudó al estado de México y a sus 125 municipios, y ahora las alcaldías están sin dinero, se les autorizó la adquisición de más deuda, todo esto porque se comprometieron las participaciones federales.',
 '“Es un estado de contrastes, de mucha corru

### Obtener palabras

Obtenemos las palabras en minúsculas


In [4]:
documentos = [re.findall('[a-zA-zñáéíóúüÁÉÍÓÚÜÑ]+', parrafo.lower()) for (index, parrafo) in enumerate(boletin)]
documentos

[['andrés',
  'manuel',
  'lópez',
  'obrador',
  'denunció',
  'que',
  'ex',
  'gobernadores',
  'del',
  'estado',
  'de',
  'méxico',
  'desde',
  'carlos',
  'hank',
  'hasta',
  'enrique',
  'peña',
  'acumularon',
  'en',
  'los',
  'últimos',
  'años',
  'alrededor',
  'de',
  'mil',
  'millones',
  'de',
  'dólares',
  'en',
  'bienes',
  'y',
  'riquezas',
  'y',
  'son',
  'quienes',
  'asaltaron',
  'la',
  'presidencia',
  'de',
  'la',
  'república',
  'como',
  'enrique',
  'peña',
  'emilio',
  'chuayffet',
  'arturo',
  'montiel',
  'y',
  'césar',
  'camacho'],
 ['durante',
  'la',
  'asamblea',
  'de',
  'toma',
  'de',
  'protesta',
  'del',
  'comité',
  'municipal',
  'de',
  'morena',
  'en',
  'metepec',
  'y',
  'al',
  'conceder',
  'una',
  'entrevista',
  'lópez',
  'obrador',
  'manifestó',
  'su',
  'indignación',
  'porque',
  'la',
  'entidad',
  'mexiquense',
  'es',
  'el',
  'estado',
  'con',
  'más',
  'corrupción',
  'en',
  'todo',
  'el',
  'país

In [5]:
documentos = [[palabra for palabra in documento if not (palabra in stopwords)] for documento in documentos]
total_palabras = len(documentos)
documentos

[['andrés',
  'manuel',
  'lópez',
  'obrador',
  'denunció',
  'ex',
  'gobernadores',
  'méxico',
  'carlos',
  'hank',
  'enrique',
  'peña',
  'acumularon',
  'últimos',
  'años',
  'alrededor',
  'mil',
  'millones',
  'dólares',
  'bienes',
  'riquezas',
  'asaltaron',
  'presidencia',
  'república',
  'enrique',
  'peña',
  'emilio',
  'chuayffet',
  'arturo',
  'montiel',
  'césar',
  'camacho'],
 ['asamblea',
  'toma',
  'protesta',
  'comité',
  'municipal',
  'morena',
  'metepec',
  'conceder',
  'entrevista',
  'lópez',
  'obrador',
  'manifestó',
  'indignación',
  'entidad',
  'mexiquense',
  'corrupción',
  'país',
  'mismo',
  'tiempo',
  'primero',
  'lugar',
  'pobreza',
  'millones',
  'pobres',
  'millones',
  'extrema',
  'pobreza'],
 ['informó',
  'administración',
  'enrique',
  'peña',
  'endeudó',
  'méxico',
  'municipios',
  'ahora',
  'alcaldías',
  'dinero',
  'autorizó',
  'adquisición',
  'deuda',
  'comprometieron',
  'participaciones',
  'federales'],


Contar las palabras por documento y el total de palabras

In [6]:
cuenta_por_documento = [Counter(parrafo) for parrafo in documentos]
cuenta_total_palabras = reduce((lambda x, y: x + y), cuenta_por_documento)
palabras = [palabra for (palabra, cuenta) in cuenta_total_palabras.items()]
cuenta_por_documento

[Counter({'andrés': 1,
          'manuel': 1,
          'lópez': 1,
          'obrador': 1,
          'denunció': 1,
          'ex': 1,
          'gobernadores': 1,
          'méxico': 1,
          'carlos': 1,
          'hank': 1,
          'enrique': 2,
          'peña': 2,
          'acumularon': 1,
          'últimos': 1,
          'años': 1,
          'alrededor': 1,
          'mil': 1,
          'millones': 1,
          'dólares': 1,
          'bienes': 1,
          'riquezas': 1,
          'asaltaron': 1,
          'presidencia': 1,
          'república': 1,
          'emilio': 1,
          'chuayffet': 1,
          'arturo': 1,
          'montiel': 1,
          'césar': 1,
          'camacho': 1}),
 Counter({'asamblea': 1,
          'toma': 1,
          'protesta': 1,
          'comité': 1,
          'municipal': 1,
          'morena': 1,
          'metepec': 1,
          'conceder': 1,
          'entrevista': 1,
          'lópez': 1,
          'obrador': 1,
          'manifest

Definimos función para suavizar la cuenta de palabras.

In [7]:
def bm25(contador, k=25):
    return {
        key: ((cuenta + 1)*k)/(cuenta+k) for (key, cuenta) in contador.items()
    }

Calculamos tf para cada uno de los documentos 

In [8]:
tfs = [bm25(c_doc) for c_doc in cuenta_por_documento]
tfs

[{'andrés': 1.9230769230769231,
  'manuel': 1.9230769230769231,
  'lópez': 1.9230769230769231,
  'obrador': 1.9230769230769231,
  'denunció': 1.9230769230769231,
  'ex': 1.9230769230769231,
  'gobernadores': 1.9230769230769231,
  'méxico': 1.9230769230769231,
  'carlos': 1.9230769230769231,
  'hank': 1.9230769230769231,
  'enrique': 2.7777777777777777,
  'peña': 2.7777777777777777,
  'acumularon': 1.9230769230769231,
  'últimos': 1.9230769230769231,
  'años': 1.9230769230769231,
  'alrededor': 1.9230769230769231,
  'mil': 1.9230769230769231,
  'millones': 1.9230769230769231,
  'dólares': 1.9230769230769231,
  'bienes': 1.9230769230769231,
  'riquezas': 1.9230769230769231,
  'asaltaron': 1.9230769230769231,
  'presidencia': 1.9230769230769231,
  'república': 1.9230769230769231,
  'emilio': 1.9230769230769231,
  'chuayffet': 1.9230769230769231,
  'arturo': 1.9230769230769231,
  'montiel': 1.9230769230769231,
  'césar': 1.9230769230769231,
  'camacho': 1.9230769230769231},
 {'asamblea': 1

Definimos la función IDF

$$$$

In [9]:
def idf(palabra, documentos):
    return log(
        len(documentos) / 
        (1+reduce(lambda cuenta, documento : cuenta + (1 if (palabra in documento) else 0), documentos, 0))
    )
# documento for documento in documentos if (palabra in documento)
# ]))

Calculamos el idf de todas las palabras

In [10]:
idfs = {
    palabra: idf(palabra, documentos) for palabra in palabras
}
idfs

{'andrés': 1.791759469228055,
 'manuel': 1.791759469228055,
 'lópez': 0.780158557549575,
 'obrador': 0.780158557549575,
 'denunció': 2.4849066497880004,
 'ex': 2.4849066497880004,
 'gobernadores': 2.4849066497880004,
 'méxico': 1.2321436812926323,
 'carlos': 2.4849066497880004,
 'hank': 2.4849066497880004,
 'enrique': 1.5686159179138452,
 'peña': 1.2321436812926323,
 'acumularon': 2.4849066497880004,
 'últimos': 2.4849066497880004,
 'años': 1.791759469228055,
 'alrededor': 2.4849066497880004,
 'mil': 1.791759469228055,
 'millones': 2.0794415416798357,
 'dólares': 2.4849066497880004,
 'bienes': 2.4849066497880004,
 'riquezas': 2.4849066497880004,
 'asaltaron': 2.4849066497880004,
 'presidencia': 2.0794415416798357,
 'república': 2.0794415416798357,
 'emilio': 2.4849066497880004,
 'chuayffet': 2.0794415416798357,
 'arturo': 2.4849066497880004,
 'montiel': 1.791759469228055,
 'césar': 2.4849066497880004,
 'camacho': 2.0794415416798357,
 'asamblea': 1.791759469228055,
 'toma': 2.0794415416

Calculamos tfxIDF

In [11]:
tfidfs = [
    {
        palabra: idfs[palabra]*tf
        for (palabra, tf) in tf_n.items()
    }
    for tf_n in tfs
]
tfidfs

[{'andrés': 3.445691286977029,
  'manuel': 3.445691286977029,
  'lópez': 1.5003049183645674,
  'obrador': 1.5003049183645674,
  'denunció': 4.778666634207693,
  'ex': 4.778666634207693,
  'gobernadores': 4.778666634207693,
  'méxico': 2.3695070794089084,
  'carlos': 4.778666634207693,
  'hank': 4.778666634207693,
  'enrique': 4.35726643864957,
  'peña': 3.4226213369239784,
  'acumularon': 4.778666634207693,
  'últimos': 4.778666634207693,
  'años': 3.445691286977029,
  'alrededor': 4.778666634207693,
  'mil': 3.445691286977029,
  'millones': 3.998926041691992,
  'dólares': 4.778666634207693,
  'bienes': 4.778666634207693,
  'riquezas': 4.778666634207693,
  'asaltaron': 4.778666634207693,
  'presidencia': 3.998926041691992,
  'república': 3.998926041691992,
  'emilio': 4.778666634207693,
  'chuayffet': 3.998926041691992,
  'arturo': 4.778666634207693,
  'montiel': 3.445691286977029,
  'césar': 4.778666634207693,
  'camacho': 3.998926041691992},
 {'asamblea': 3.445691286977029,
  'toma':

In [12]:
def obtener_keywords(num_keywords=5):
    keywords = []
    for tfidf_n in tfidfs:
        keywords_n = sorted(tfidf_n.items() ,  key=lambda x: x[1], reverse=True)[:num_keywords]
#         print([keyword[0] for keyword in keywords_n])
        keywords.append([keyword[0] for keyword in keywords_n])
    return keywords

In [13]:
keywords = obtener_keywords(6)
keywords

[['denunció', 'ex', 'gobernadores', 'carlos', 'hank', 'acumularon'],
 ['millones', 'pobreza', 'conceder', 'indignación', 'entidad', 'mexiquense'],
 ['administración',
  'endeudó',
  'alcaldías',
  'dinero',
  'autorizó',
  'adquisición'],
 ['mucha', 'contrastes', 'abandono', 'modelo', 'seguir', 'premia'],
 ['esperanza', 'igual', 'nayarit', 'yucatán', 'tabasco', 'conocen'],
 ['colonias', 'exhibir', 'observan', 'opulencia', 'gente', 'pobre'],
 ['riqueza', 'mala', 'noche', 'mañana', 'acumulan', 'grandes'],
 ['justicia', 'paz', 'recordó', 'habló', 'interpretó', 'cómo'],
 ['exhorta', 'estudiantes', 'planteen', 'propuesta', 'autónomo', 'liberarán'],
 ['acción', 'observen', 'alumnos', 'quieren', 'dialogar', 'además'],
 ['sencillo', 'empecinan', 'partes', 'apuestan', 'llegar', 'ningún'],
 ['magisterial', 'revisar', 'llamada', 'reforma', 'educativa', 'mejorar'],
 ['asegurar', 'ven', 'expresó', 'importa', 'quién', 'pan'],
 ['económica',
  'mientras',
  'siga',
  'inalterable',
  'antipopular',
 

### Palabras clave por párrafo

In [14]:
keywords_dict = {'Párrafo {0}'.format(n+1):kw_n for (n, kw_n) in enumerate(keywords)}
df = DataFrame(keywords_dict).transpose()
df

Unnamed: 0,0,1,2,3,4,5
Párrafo 1,denunció,ex,gobernadores,carlos,hank,acumularon
Párrafo 2,millones,pobreza,conceder,indignación,entidad,mexiquense
Párrafo 3,administración,endeudó,alcaldías,dinero,autorizó,adquisición
Párrafo 4,mucha,contrastes,abandono,modelo,seguir,premia
Párrafo 5,esperanza,igual,nayarit,yucatán,tabasco,conocen
Párrafo 6,colonias,exhibir,observan,opulencia,gente,pobre
Párrafo 7,riqueza,mala,noche,mañana,acumulan,grandes
Párrafo 8,justicia,paz,recordó,habló,interpretó,cómo
Párrafo 9,exhorta,estudiantes,planteen,propuesta,autónomo,liberarán
Párrafo 10,acción,observen,alumnos,quieren,dialogar,además


### Palabras más usadas

In [27]:
DataFrame(sorted(cuenta_total_palabras.items(),  key=lambda x: x[1], reverse=True)[:15], columns=['Palabra', 'Cuenta'])

Unnamed: 0,Palabra,Cuenta
0,lópez,10
1,obrador,10
2,si,9
3,peña,7
4,méxico,6
5,país,6
6,violencia,6
7,enrique,5
8,metepec,5
9,social,5
