# Introducción a NLP con NLTK - Parte 2

## WordNet

In [1]:
from nltk.corpus import wordnet as wn

In [2]:
wn.synsets('motorcar')

[Synset('car.n.01')]

Esto significa que la palabra 'motorcar' tiene un sólo significado posible. La entidad car.n.01 es llamada un **synset** ("synonym set") que es una colección de palabras (o "lemmas") que son sinónimos

In [3]:
wn.synset('car.n.01').lemma_names()

['car', 'auto', 'automobile', 'machine', 'motorcar']

Cada synset viene con su definición y algunas frases de ejemplo

In [4]:
wn.synset('car.n.01').definition()

'a motor vehicle with four wheels; usually propelled by an internal combustion engine'

In [5]:
wn.synset('car.n.01').examples()

['he needs a car to get to work']

Los pares synset y palabras se llaman lemmas. Podemos (1) obtener todos los lemmas para un synset dado, (2) buscar un lemma en particular, (3) obtener el synset correspondiente a un lema, y (4) obtener el nombre de un lema:

In [6]:
wn.synset('car.n.01').lemmas()

[Lemma('car.n.01.car'),
 Lemma('car.n.01.auto'),
 Lemma('car.n.01.automobile'),
 Lemma('car.n.01.machine'),
 Lemma('car.n.01.motorcar')]

In [7]:
wn.lemma('car.n.01.automobile')

Lemma('car.n.01.automobile')

In [8]:
wn.lemma('car.n.01.automobile').synset()

Synset('car.n.01')

In [9]:
wn.lemma('car.n.01.automobile').name()

'automobile'

A diferencia de la palabra 'motorcar' que no es ambigua y tiene un solo synset, la palabra 'car' es ambigua y tiene 5 synsets

In [10]:
wn.synsets('car')

[Synset('car.n.01'),
 Synset('car.n.02'),
 Synset('car.n.03'),
 Synset('car.n.04'),
 Synset('cable_car.n.01')]

In [11]:
for synset in wn.synsets('car'):
     print(synset.lemma_names())

['car', 'auto', 'automobile', 'machine', 'motorcar']
['car', 'railcar', 'railway_car', 'railroad_car']
['car', 'gondola']
['car', 'elevator_car']
['cable_car', 'car']


### La jerarquía de WordNet

Los synsets de WordNet corresponden a conceptos abstractos y no siempre tienen que corresponder a palabras en inglés. Estos conceptos están ligados por una jerarquía. Algunos de estos conceptos son muy generales tales como *Entity, State, Event* a los que se les llama 'unique beginners' o 'root synsets'

<img src="wordnet.png" height=300 width=300>

WordNet hace fácil navegar entre conceptos. Por ejemplo, podemos ver conceptos más específicos que motorcar, cuyo nivel inmediato inferior son llamados 'hyponyms"

In [13]:
motorcar = wn.synset('car.n.01')
types_of_motorcar = motorcar.hyponyms()

In [14]:
types_of_motorcar

[Synset('ambulance.n.01'),
 Synset('beach_wagon.n.01'),
 Synset('bus.n.04'),
 Synset('cab.n.03'),
 Synset('compact.n.03'),
 Synset('convertible.n.01'),
 Synset('coupe.n.01'),
 Synset('cruiser.n.01'),
 Synset('electric.n.01'),
 Synset('gas_guzzler.n.01'),
 Synset('hardtop.n.01'),
 Synset('hatchback.n.01'),
 Synset('horseless_carriage.n.01'),
 Synset('hot_rod.n.01'),
 Synset('jeep.n.01'),
 Synset('limousine.n.01'),
 Synset('loaner.n.02'),
 Synset('minicar.n.01'),
 Synset('minivan.n.01'),
 Synset('model_t.n.01'),
 Synset('pace_car.n.01'),
 Synset('racer.n.02'),
 Synset('roadster.n.01'),
 Synset('sedan.n.01'),
 Synset('sport_utility.n.01'),
 Synset('sports_car.n.01'),
 Synset('stanley_steamer.n.01'),
 Synset('stock_car.n.01'),
 Synset('subcompact.n.01'),
 Synset('touring_car.n.01'),
 Synset('used-car.n.01')]

In [15]:
sorted(lemma.name() for synset in types_of_motorcar for lemma in synset.lemmas())

['Model_T',
 'S.U.V.',
 'SUV',
 'Stanley_Steamer',
 'ambulance',
 'beach_waggon',
 'beach_wagon',
 'bus',
 'cab',
 'compact',
 'compact_car',
 'convertible',
 'coupe',
 'cruiser',
 'electric',
 'electric_automobile',
 'electric_car',
 'estate_car',
 'gas_guzzler',
 'hack',
 'hardtop',
 'hatchback',
 'heap',
 'horseless_carriage',
 'hot-rod',
 'hot_rod',
 'jalopy',
 'jeep',
 'landrover',
 'limo',
 'limousine',
 'loaner',
 'minicar',
 'minivan',
 'pace_car',
 'patrol_car',
 'phaeton',
 'police_car',
 'police_cruiser',
 'prowl_car',
 'race_car',
 'racer',
 'racing_car',
 'roadster',
 'runabout',
 'saloon',
 'secondhand_car',
 'sedan',
 'sport_car',
 'sport_utility',
 'sport_utility_vehicle',
 'sports_car',
 'squad_car',
 'station_waggon',
 'station_wagon',
 'stock_car',
 'subcompact',
 'subcompact_car',
 'taxi',
 'taxicab',
 'tourer',
 'touring_car',
 'two-seater',
 'used-car',
 'waggon',
 'wagon']

Aquí estamos haciendo un list comprehension un poco más complejo donde nos adentramos a cada lemma perteciente a un synset

También podemos navegar hacia arriba la jerarquía hacia los 'hypernyms' 

In [16]:
motorcar.hypernyms()

[Synset('motor_vehicle.n.01')]

In [19]:
paths = motorcar.hypernym_paths()
len(paths)

2

Vemos que hay dos paths posibles entre entity y car dado que 'wheeled vehicle' puede clasificarse como 'vehicle' o como 'container'

In [20]:
[synset.name() for synset in paths[0]]

['entity.n.01',
 'physical_entity.n.01',
 'object.n.01',
 'whole.n.02',
 'artifact.n.01',
 'instrumentality.n.03',
 'container.n.01',
 'wheeled_vehicle.n.01',
 'self-propelled_vehicle.n.01',
 'motor_vehicle.n.01',
 'car.n.01']

In [21]:
[synset.name() for synset in paths[1]]

['entity.n.01',
 'physical_entity.n.01',
 'object.n.01',
 'whole.n.02',
 'artifact.n.01',
 'instrumentality.n.03',
 'conveyance.n.03',
 'vehicle.n.01',
 'wheeled_vehicle.n.01',
 'self-propelled_vehicle.n.01',
 'motor_vehicle.n.01',
 'car.n.01']

Podemos obtener los hypernyms más generales de la siguiente forma

In [22]:
motorcar.root_hypernyms()

[Synset('entity.n.01')]

#### Ejercicio 1: Encuentra 

#### Escoge y obtén una una definición 

#### Obtén los lemmas, hiponyms e hypernyms de dicha definición

### Otras lexical relations

Hypernyms e Hyponyms son relaciones léxicas (lexical relations) porque relacionan un synset con otro.

Otra manera de navegar la red de WordNet es desde un item a sus componentes (meronyms) y de las cosas que están contenidas (holonyms). 

Por ejemplo, las partes de un árbol (tree) son el tronco, copa, etc (trunk, crown) que son los part_meronyms(); la substancia del árbol incluye el duramen y la albura (heartwood and sapwood) que son los substance_meronyms(). 

Una colección de árboles (trees) forma un bosque (forest) que es el member_holonyms()

In [35]:
wn.synset('tree.n.01').part_meronyms()

[Synset('burl.n.02'),
 Synset('crown.n.07'),
 Synset('limb.n.02'),
 Synset('stump.n.01'),
 Synset('trunk.n.01')]

In [36]:
wn.synset('tree.n.01').substance_meronyms()

[Synset('heartwood.n.01'), Synset('sapwood.n.01')]

In [37]:
wn.synset('tree.n.01').member_holonyms()

[Synset('forest.n.01')]

También existen relaciones entre verbos denominadas entailments. Por ejemplo, caminar (walking) implica dar pasos (stepping)

In [38]:
wn.synset('walk.v.01').entailments()

[Synset('step.v.01')]

In [39]:
wn.synset('eat.v.01').entailments()

[Synset('chew.v.01'), Synset('swallow.v.01')]

In [40]:
wn.synset('tease.v.03').entailments()

[Synset('arouse.v.07'), Synset('disappoint.v.01')]

Un ejemplo de una relación entre lemmas en la antonimia (antonymy)

In [41]:
wn.lemma('supply.n.02.supply').antonyms() #Sabe economía <3

[Lemma('demand.n.02.demand')]

In [42]:
wn.lemma('rush.v.01.rush').antonyms()

[Lemma('linger.v.04.linger')]

In [43]:
wn.lemma('horizontal.a.01.horizontal').antonyms()

[Lemma('inclined.a.02.inclined'), Lemma('vertical.a.01.vertical')]

In [44]:
wn.lemma('staccato.r.01.staccato').antonyms()

[Lemma('legato.r.01.legato')]

La WordNet es una red que establece relaciones complejas entre las palabras. Una de las observaciones más útiles sobre esta red es que si dos synsets comparten un hypernym de bajo nivel, entonces seguramente estarán bastante relacionados

In [45]:
right = wn.synset('right_whale.n.01')
orca = wn.synset('orca.n.01')
minke = wn.synset('minke_whale.n.01')
tortoise = wn.synset('tortoise.n.01')
novel = wn.synset('novel.n.01')

In [46]:
right.lowest_common_hypernyms(minke)

[Synset('baleen_whale.n.01')]

In [47]:
right.lowest_common_hypernyms(orca)

[Synset('whale.n.02')]

In [48]:
right.lowest_common_hypernyms(tortoise)

[Synset('vertebrate.n.01')]

In [49]:
right.lowest_common_hypernyms(novel)

[Synset('entity.n.01')]

Nosotros sabemos que ballena es un término más específico que entidad. ¿Cómo hacemos para cuantificar este hecho? Una opción es ver lo profundo de cada synset

In [50]:
wn.synset('baleen_whale.n.01').min_depth()

14

In [51]:
wn.synset('whale.n.02').min_depth()

13

In [52]:
wn.synset('vertebrate.n.01').min_depth()

8

In [53]:
wn.synset('entity.n.01').min_depth()

0

Otra opción es una medida del camino más corto entre los dos synsets en la jerarquía. En este caso nuestra medida se encuentra entre 0 y 1 y toma el valor de -1 en caso de que no se encuentre relación alguna. La relación es más cercana a 1 mientras más similar sea y a 0 si no es similar.

In [54]:
right.path_similarity(minke)

0.25

In [55]:
right.path_similarity(orca)

0.16666666666666666

In [56]:
right.path_similarity(tortoise)

0.07692307692307693

In [57]:
right.path_similarity(novel)

0.043478260869565216

## Procesando Raw Text

### Desde una página web

In [74]:
import nltk, re, pprint
from nltk import word_tokenize
from urllib import request

In [94]:
url = "http://www.gutenberg.org/files/2554/2554-0.txt"
response = request.urlopen(url)
response

<http.client.HTTPResponse at 0x110992470>

In [95]:
response.code

200

In [96]:
raw = response.read().decode('utf8')

In [78]:
len(raw)

1176965

In [79]:
raw[:75]

'\ufeffThe Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r'

El archivo contiene muchos caracteres de whitespace y del enconding en los que no estamos interesados. Nos gustaría cambiarlos a una lista con palabras y puntuación para poder analizarlas. A este paso se le llama **tokenización**

In [80]:
tokens = word_tokenize(raw)
type(tokens)

list

In [81]:
len(tokens)

244759

In [83]:
tokens[1:10]

['Project',
 'Gutenberg',
 'EBook',
 'of',
 'Crime',
 'and',
 'Punishment',
 ',',
 'by']

Vemos que el libro contiene headings y otros metadatos en el footer en los que no estamos interesados de momento. También convertiremos este texto raw a texto de nltk

In [84]:
text = nltk.Text(tokens)
type(text)

nltk.text.Text

In [85]:
text[1024:1062]

['walked',
 'slowly',
 ',',
 'as',
 'though',
 'in',
 'hesitation',
 ',',
 'towards',
 'K.',
 'bridge',
 '.',
 'He',
 'had',
 'successfully',
 'avoided',
 'meeting',
 'his',
 'landlady',
 'on',
 'the',
 'staircase',
 '.',
 'His',
 'garret',
 'was',
 'under',
 'the',
 'roof',
 'of',
 'a',
 'high',
 ',',
 'five-storied',
 'house',
 'and',
 'was',
 'more']

In [86]:
text.collocations()

Katerina Ivanovna; Pyotr Petrovitch; Pulcheria Alexandrovna; Avdotya
Romanovna; Rodion Romanovitch; Marfa Petrovna; Sofya Semyonovna;
Project Gutenberg-tm; old woman; Porfiry Petrovitch; great deal;
Amalia Ivanovna; don’t know; Nikodim Fomitch; young man; Andrey
Semyonovitch; Hay Market; Dmitri Prokofitch; Ilya Petrovitch; Katerina
Ivanovna’s


In [97]:
raw.find("PART I")

5336

In [91]:
raw.rfind("End of Project") #Reverse Find

1157810

In [98]:
raw = raw[5336:1157810]

In [99]:
raw.find("PART I")

0

Haciendo un resumen de lo que hemos visto en estos dos notebooks, el flujo de un texto es como sigue:

<img src="nlp-flujo.png">

¿Muy simple no? 

NO es cierto, las cosas en la vida real no son tan simples, pero también por eso este trabajo requiere creatividad

#### Importa el libro A Tale of Two Cities de Charles Dickens y realiza un análisis de texto sencillo con lo visto en clase

In [100]:
url = "http://www.gutenberg.org/files/98/98-0.txt"