# Etiquetado POS

El POS (part of speech) tagging o etiquetado morfológico es el proceso mediante el cual se clasifican las partes de un texto de acuerdo a su clasificación léxica.

Cada palabra recibirá una clasificación léxica a partir de una colección de etiquetas codificadas de acuerdo a su significado en el idioma correspondiente. Para poder realizar un etiquetado POS el texto debe estar previamente tokenizado.

NLKT ofrece una función llamada pos_tag. Esta función clasifica las palabras en ingés según un sistema de codificación pre-definido. Este etiquetador en particular está basado en machine learning y ha sido entrenado a partir de miles de ejemplos de oraciones pre-etiquetadas de manera manual. De esta manera puede estimar la clasificación léxica más probable de un término lo cuál no significa que esté libre de errores.

Es posible obtener una lista completa de los códigos de etiquetado para NLTK

In [1]:
import nltk
# nltk.download('averaged_perceptron_tagger')
# nltk.download('punkt')
# nltk.download('wordcloud')
# nltk.download('stopwords')
# nltk.download('tagsets')

Es posible obtener la descripción cada una categoría específica.

In [23]:
nltk.help.upenn_tagset("NNS")
tokenized_text = ["texas"]
text_pos = nltk.pos_tag(tokenized_text)
print(text_pos)

NNS: noun, common, plural
    undergraduates scotches bric-a-brac products bodyguards facets coasts
    divestitures storehouses designs clubs fragrances averages
    subjectivists apprehensions muses factory-jobs ...
[('texas', 'NN')]


Ya que este etiquetador puede no ser suficiente bueno en algunos casos es posible mejorar la eficiencia del etiquetado sumando etiquetadores POS creados manualmente.

## Etiquetado

In [3]:
example = "The Palace of Westminster serves as the meeting place for both the House of Commons and the House of Lords, the two houses of the Parliament of the United Kingdom. Informally known as the Houses of Parliament after its occupants, the Palace lies on the north bank of the River Thames in the City of Westminster, in central London, England."
# Tokenizar texto
tokenized_text = nltk.word_tokenize(example)
print(tokenized_text)
# Etiquetar texto con pos_tag
text_pos = nltk.pos_tag(tokenized_text)
print(text_pos)

['The', 'Palace', 'of', 'Westminster', 'serves', 'as', 'the', 'meeting', 'place', 'for', 'both', 'the', 'House', 'of', 'Commons', 'and', 'the', 'House', 'of', 'Lords', ',', 'the', 'two', 'houses', 'of', 'the', 'Parliament', 'of', 'the', 'United', 'Kingdom', '.', 'Informally', 'known', 'as', 'the', 'Houses', 'of', 'Parliament', 'after', 'its', 'occupants', ',', 'the', 'Palace', 'lies', 'on', 'the', 'north', 'bank', 'of', 'the', 'River', 'Thames', 'in', 'the', 'City', 'of', 'Westminster', ',', 'in', 'central', 'London', ',', 'England', '.']
[('The', 'DT'), ('Palace', 'NNP'), ('of', 'IN'), ('Westminster', 'NNP'), ('serves', 'NNS'), ('as', 'IN'), ('the', 'DT'), ('meeting', 'NN'), ('place', 'NN'), ('for', 'IN'), ('both', 'CC'), ('the', 'DT'), ('House', 'NNP'), ('of', 'IN'), ('Commons', 'NNPS'), ('and', 'CC'), ('the', 'DT'), ('House', 'NNP'), ('of', 'IN'), ('Lords', 'NNPS'), (',', ','), ('the', 'DT'), ('two', 'CD'), ('houses', 'NNS'), ('of', 'IN'), ('the', 'DT'), ('Parliament', 'NNP'), ('of'

# POS en español

Si queremos hacer un etiquetado morfológico en otro idioma entonces es necesario encontrar un etiquetador ya entrenado para ese idioma o entrenar uno nosotros mismos. También es necesario saber cuales son las clasificaciones de palabras existentes para dicho idioma.

En el siguiente <a href="https://colab.research.google.com/github/vitojph/kschool-nlp-18/blob/master/notebooks/pos-tagger-es.ipynb">enlace se muestra un ejemplo práctico de etiquetado POS en español.

In [4]:
import requests
import os
from dotenv import load_dotenv
import pandas as pd
import string
from nltk.tokenize import TweetTokenizer
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import nltk
url = "https://api.twitter.com/2/tweets/search/recent"
# Cargar valores del archivo .env en las variables de entorno
load_dotenv()
# Cargar valor del token a variable
bearer_token = os.environ.get("BEARER_TOKEN")

ModuleNotFoundError: No module named 'wordcloud'

# Ejercicio

- Obtener de la API una lista de Tweets que no sean retweet y que contengan el hashtag #GRAMMYs en inglés.
- Realizar la tokenización
- Realizar un etiquetado POS con la función pos_tag de NLTK
- Obtener la lista y frecuencia de los sustantivos en singular y plural

# Ejercicio N°1

In [None]:
params = {
    'query': '#GRAMMYs  lang:en -is:retweet',
    'tweet.fields':'created_at',
    'max_results':100
}
headers = {
    "Authorization": f"Bearer {bearer_token}",
    "User-Agent":"v2FullArchiveSearchPython"
}
response = requests.get(url, headers=headers, params=params)
print(response)
# Generar excepción si la respuesta no es exitosa
if response.status_code != 200:
    raise Exception(response.status_code, response.text)
print(response.json())

In [None]:
df = pd.json_normalize(response.json()['data'])
df

In [None]:
# Tokenizar

tt = TweetTokenizer()

tokenized_text = df['text'].apply(tt.tokenize)
df["tokenized_text"] = tokenized_text
df

In [None]:
# Aplicamos POS

data = []
# Crear lista de palabras
for x in tokenized_text:
    for word in x:
        data.append(word)

# Etiquetar texto con pos_tag
data_pos = nltk.pos_tag(data)
print(data_pos)
data_noun = []
for k,v in data_pos:
    if v in ["NN","NNS"]:
        data_noun.append(k)
print(data_noun)

In [None]:
# Obtener solo: NN - NNS

from nltk.probability import FreqDist

# Obtener frecuencia de cada término
fdist = FreqDist(data_noun)
# Convertir a dataframe
df_fdist = pd.DataFrame.from_dict(fdist, orient='index')
df_fdist.columns = ['Frequency']
df_fdist.index.name = 'Term'
df_fdist.sort_values(by=['Frequency'], inplace=True, ascending=False)
#pd.set_option('display.max_rows', None)

df_fdist


- Obtener la lista y frecuencia de los nombres propios en singular y plural


# Ejercicio N°2

In [None]:
# Aplicamos POS

data = []
# Crear lista de palabras
for x in tokenized_text:
    for word in x:
        data.append(word)

# Etiquetar texto con pos_tag
data_pos = nltk.pos_tag(data)
print(data_pos)
data_names = []
for k,v in data_pos:
    if v in ["NNP","NNPS"]:
        data_names.append(k)
print(data_names)

In [None]:
# Obtener solo: NN - NNS

from nltk.probability import FreqDist

# Obtener frecuencia de cada término
fdist = FreqDist(data_names)
# Convertir a dataframe
df_fdist = pd.DataFrame.from_dict(fdist, orient='index')
df_fdist.columns = ['Frequency']
df_fdist.index.name = 'Term'
df_fdist.sort_values(by=['Frequency'], inplace=True, ascending=False)
#pd.set_option('display.max_rows', None)

df_fdist

- Obtener la lista y frecuencia de los verbos en todos los tiempos verbales

# Ejercicio N°3

In [None]:
# Aplicamos POS

data = []
# Crear lista de palabras
for x in tokenized_text:
    for word in x:
        data.append(word)

# Etiquetar texto con pos_tag
data_pos = nltk.pos_tag(data)
print(data_pos)
data_verbs = []
for k,v in data_pos:
    if v in ["VBZ", "VBP", "VBN", "VBG", "VBD", "VB"]:
        data_verbs.append(k)
print(data_verbs)

In [None]:
from nltk.probability import FreqDist

# Obtener frecuencia de cada término
fdist = FreqDist(data_verbs)
# Convertir a dataframe
df_fdist = pd.DataFrame.from_dict(fdist, orient='index')
df_fdist.columns = ['Frequency']
df_fdist.index.name = 'Term'
df_fdist.sort_values(by=['Frequency'], inplace=True, ascending=False)
#pd.set_option('display.max_rows', None)

df_fdist

- Obtener la lista y frecuencia de todos los adjetivos

# Ejercicio N°3

In [None]:
# Aplicamos POS

data = []
# Crear lista de palabras
for x in tokenized_text:
    for word in x:
        data.append(word)

# Etiquetar texto con pos_tag
data_pos = nltk.pos_tag(data)
print(data_pos)
data_adjective = []
for k,v in data_pos:
    if v in ["JJ", "JJR", "JJS"]: # "JJ", "JJR", "JJS"
        data_adjective.append(k)
print(data_adjective)

In [None]:
from nltk.probability import FreqDist

# Obtener frecuencia de cada término
fdist = FreqDist(data_adjective)
# Convertir a dataframe
df_fdist = pd.DataFrame.from_dict(fdist, orient='index')
df_fdist.columns = ['Frequency']
df_fdist.index.name = 'Term'
df_fdist.sort_values(by=['Frequency'], inplace=True, ascending=False)
#pd.set_option('display.max_rows', None)

df_fdist