# Inspeccionando colecciones de textos

Ejemplos de uso de la librería NLTK para investigar una coleccion de textos

In [1]:
from  nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


NLTK proporciona una clase Text para explorar el contenido de los textos. SE trata como una lista de palabra

In [2]:
text1?

In [3]:
text1[11] # Palabra en la posicion 11 

u'Supplied'

In [4]:
text1.index('Supplied') # Dada una palabra encontrar la primera posición en la que aparece

11

## Explorar el contexto de uso de una palabra (KWIC - Keyword in context) 

Permite conocer el uso que se hace de una palabra dentro de un documento. 

In [5]:
text1.concordance('monstrous')

Displaying 11 of 11 matches:
ong the former , one was of a most monstrous size . ... This came towards us , 
ON OF THE PSALMS . " Touching that monstrous bulk of the whale or ork we have r
ll over with a heathenish array of monstrous clubs and spears . Some were thick
d as you gazed , and wondered what monstrous cannibal and savage could ever hav
that has survived the flood ; most monstrous and most mountainous ! That Himmal
they might scout at Moby Dick as a monstrous fable , or still worse and more de
th of Radney .'" CHAPTER 55 Of the Monstrous Pictures of Whales . I shall ere l
ing Scenes . In connexion with the monstrous pictures of whales , I am strongly
ere to enter upon those still more monstrous stories of them which are to be fo
ght have been rummaged out of this monstrous cabinet there is no telling . But 
of Whale - Bones ; for Whales of a monstrous size are oftentimes cast up dead u

## Similitud por distribucion (Distributional similarity)

Podemos identificar palabras similares porque comparten contextos parecidos con otras palabras.

In [6]:
text1.similar('monstrous')

imperial subtly impalpable pitiable curious abundant perilous
trustworthy untoward singular lamentable few determined maddens
horrible tyrannical lazy mystifying christian exasperate

In [7]:
text2.similar('monstrous')

very exceedingly so heartily a great good amazingly as sweet
remarkably extremely vast

Podemos incluso consultar cuáles son algunos de los contextos que comparten dos o más palabras. 

In [8]:
text1.common_contexts(['monstrous','horrible'])

most_and

In [9]:
text2.common_contexts(['monstrous','very'])

a_pretty is_pretty a_lucky am_glad be_glad

## Estadísticas de un texto

In [10]:
len(text4) # Longitud de un texto

145735

In [11]:
sorted(set(text4))[0:10] # Conjunto de palabras (tokens) en un texto ordenanas por orden alfabético

[u'!', u'"', u'";', u'"?', u'$', u"'", u'(', u')', u'),', u',']

In [12]:
sorted(set(text4))[100:110] # Primero se ordenan los simbolos de puntuacion

[u'AS',
 u'Abandonment',
 u'Abhorring',
 u'About',
 u'Above',
 u'Abraham',
 u'Abroad',
 u'Accept',
 u'Across',
 u'Act']

In [13]:
len(set(text4)) # Número de palabras únicos (types) en un texto 

9754

In [14]:
len(set([token.lower() for token in text4])) # Normalizamos tokens - mayusculas 

9070

In [15]:
len(set([token.lower() for token in text4 if token.isalpha()])) # Eliminamos los signos de puntuación

8968

In [16]:
from __future__ import division 
len(text4)/ len(set(text4)) # Media de veces que se usa cada palabra - aproximación un poco burda

14.941049825712529

In [17]:
text4.count('America') # Numero de veces que aparece una palabra - "Frecuencia"

192

In [18]:
fdist = FreqDist(text4) # Distribución de los terminos únicos (types) - Distribución de frecuencias
fdist.tabulate(20)

 the   of    ,  and    .   to   in    a  our that   be   is   we  for   by   it which have  not   as 
9281 6970 6840 4991 4676 4311 2527 2134 1905 1688 1460 1403 1141 1075 1036 1011 1002  994  916  888 

In [19]:
fdist['America'] # "Frecuencia" de una palabra - tf (term frequency) en IR

192

In [20]:
fdist.freq('America') # Frecuencia relativa de una palabra - tf/N

0.0013174597728754247

In [21]:
fdist.plot(50, cumulative = True) # Distribución acumulada de las 50 palabras más frecuentes. 
# Se trata de casi el 50% de los tokens del texto. Zipf law, stopwords

In [22]:
fdist.hapaxes()[0:10] # Hapax Legomena - palabras que aprecen mencionadas solo una vez - frecuencia = 1

[u'writings',
 u'Does',
 u'hanging',
 u'granting',
 u'refunding',
 u'impoverishment',
 u'sinking',
 u'shielding',
 u'pages',
 u'appropriation']

In [23]:
sorted([w for w in set(text4) if len(w) > 5 and fdist[w] > 5])[0:10] # Terminos con más de 5 letras y una frecuencia superior a 5

[u'Administration',
 u'Almighty',
 u'America',
 u'American',
 u'Americans',
 u'Atlantic',
 u'Because',
 u'Before',
 u'Beyond',
 u'British']

In [24]:
text4.dispersion_plot(['citizens', 'democracy','freedom','duties','America']) # Distribucion de las palabras a lo largo de un texto

In [25]:
lendist = FreqDist([len(w) for w in text4]) # Frecuencia de las longitudes de las palabras
lendist.tabulate()

   3    2    4    1    5    6    7    8    9   10   11   12   13   14   15   16   17 
28426 27111 18158 16269 12885 10604 9827 7168 5591 4690 2442 1411  615  399   79   50   10 

In [26]:
lendist.freq(3)

0.19505266408206676

## Terminos multipalabra (Collocations) y Bigramas (Bigrams)

In [27]:
b = bigrams(text1) # Secuencias de 2 palabras tal y como aparecen en el texto
list(b)[0:20]

[(u'[', u'Moby'),
 (u'Moby', u'Dick'),
 (u'Dick', u'by'),
 (u'by', u'Herman'),
 (u'Herman', u'Melville'),
 (u'Melville', u'1851'),
 (u'1851', u']'),
 (u']', u'ETYMOLOGY'),
 (u'ETYMOLOGY', u'.'),
 (u'.', u'('),
 (u'(', u'Supplied'),
 (u'Supplied', u'by'),
 (u'by', u'a'),
 (u'a', u'Late'),
 (u'Late', u'Consumptive'),
 (u'Consumptive', u'Usher'),
 (u'Usher', u'to'),
 (u'to', u'a'),
 (u'a', u'Grammar'),
 (u'Grammar', u'School')]

In [28]:
text4.collocations() # Collocation - secuencia de palabras que aparecen juntas con una frecuencia superior a lo habitual

United States; fellow citizens; four years; years ago; Federal
Government; General Government; American people; Vice President; Old
World; Almighty God; Fellow citizens; Chief Magistrate; Chief Justice;
God bless; every citizen; Indian tribes; public debt; one another;
foreign nations; political parties

In [29]:
text4.collocations?

# Operaciones con cadenas (Python)

In [30]:
[w for w in set(text4) if w.endswith('able')][0:10] # Palabras que acaban en sufijo

[u'Honorable',
 u'preferable',
 u'admirable',
 u'colorable',
 u'memorable',
 u'respectable',
 u'understandable',
 u'amicable',
 u'navigable',
 u'unfavorable']

In [31]:
[w for w in set(text4) if 'lg' in w]

[u'pilgrimage',
 u'promulgation',
 u'indulge',
 u'Indulging',
 u'amalgamated',
 u'indulgence',
 u'indulged']

In [32]:
[w for w in set(text4) if w.istitle()][0:10]

[u'Does',
 u'Until',
 u'Western',
 u'Less',
 u'Xthough',
 u'Honorable',
 u'Church',
 u'Opportunism',
 u'Isles',
 u'Compared']