# PySpark Part of Speech (POS) analysis
Text taken from [Reuters](https://www.reuters.com/business/finance/banks-beware-outsiders-are-cracking-code-finance-2021-09-17/).

In [1]:
#Importamos la libreria nltk para poder hacer uso de pyspark e importamos el objeto SparkContext
import nltk
from pyspark import SparkContext

In [2]:
#Descargamos los paquetes de la libreria nltk para el analisis del texto
nltk.download("punkt")
nltk.download("averaged_perceptron_tagger")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\harol\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\harol\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [3]:
#Especificamos el punto de entrada para trabajar con RDD de manera local
sc = SparkContext(appName = "pyspark-pos-analysis")

In [4]:
#Cargamos el archivo de texto que utilizaremos especificando la ruta en la que se encuentra
rdd_reuters = sc.textFile("./data/reuters.txt")

In [5]:
#Conteo de las líneas que tiene el archivo reuters.txt
rdd_reuters.count()

87

In [6]:
#La variable filename tendrá la ruta del archivo reuters.txt, después otra variable llamada file abrirá el archivo 
#para leer el contenido que está dentro del archivo. Y por último cerrarlo.
filename = './data/reuters.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
# La variable words hará la separación de todas las palabras, sin contar los espacios en blanco. Por último imprime todas las palabras.
words = nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)
print(words)



In [7]:
#Separación de palabras con la ayuda de la función pos_tag que hace la separación de Strings dependiendo su Part of Speach
nltk.pos_tag(words)

[('Banks', 'NNS'),
 ('beware', 'NN'),
 (',', ','),
 ('Amazon', 'NNP'),
 ('and', 'CC'),
 ('Walmart', 'NNP'),
 ('are', 'VBP'),
 ('cracking', 'VBG'),
 ('the', 'DT'),
 ('code', 'NN'),
 ('for', 'IN'),
 ('finance', 'NN'),
 ('LONDON', 'NNP'),
 (',', ','),
 ('Sept', 'NNP'),
 ('17', 'CD'),
 ('(', '('),
 ('Reuters', 'NNPS'),
 (')', ')'),
 ('-', ':'),
 ('Anyone', 'NN'),
 ('can', 'MD'),
 ('be', 'VB'),
 ('a', 'DT'),
 ('banker', 'NN'),
 ('these', 'DT'),
 ('days', 'NNS'),
 (',', ','),
 ('you', 'PRP'),
 ('just', 'RB'),
 ('need', 'VB'),
 ('the', 'DT'),
 ('right', 'JJ'),
 ('code', 'NN'),
 ('.', '.'),
 ('Global', 'NNP'),
 ('brands', 'VBZ'),
 ('from', 'IN'),
 ('Mercedes', 'NNP'),
 ('and', 'CC'),
 ('Amazon', 'NNP'),
 ('(', '('),
 ('AMZN.O', 'NNP'),
 (')', ')'),
 ('to', 'TO'),
 ('IKEA', 'NNP'),
 ('and', 'CC'),
 ('Walmart', 'NNP'),
 ('(', '('),
 ('WMT.N', 'NNP'),
 (')', ')'),
 ('are', 'VBP'),
 ('cutting', 'VBG'),
 ('out', 'RP'),
 ('the', 'DT'),
 ('traditional', 'JJ'),
 ('financial', 'JJ'),
 ('middleman', 'NN

In [8]:
#De la libreria collections se importa Counter que ayuda hacer recuentos rápidos y convenientes. La variable tags guardará
#todo el diccionario de palabras separadas en POS. Por último la variable counts hace un conteo de todas las palabras que
#hay en el archivo almacenado en la variable words.
from collections import Counter
tags = nltk.pos_tag(words)
counts = Counter( tag for word,  tag in tags)
print(counts)

Counter({'NN': 166, 'IN': 143, 'NNP': 132, 'NNS': 123, 'JJ': 87, 'DT': 81, ',': 69, 'VB': 61, '.': 53, 'RB': 51, 'CC': 45, 'PRP': 42, 'TO': 42, 'VBP': 41, 'VBZ': 39, 'CD': 35, 'VBD': 35, 'VBG': 28, 'VBN': 25, 'MD': 19, '(': 18, ')': 18, "''": 16, '``': 14, 'PRP$': 13, '$': 13, 'POS': 10, ':': 8, 'WRB': 8, 'WDT': 8, 'RP': 7, 'JJR': 4, 'JJS': 3, 'RBR': 2, 'NNPS': 1, 'PDT': 1, 'WP': 1, 'RBS': 1, 'EX': 1})


In [9]:
#Se importa el archivo .txt a un .csv para verificar que el conteo de cada POS sea el correcto.
import csv
nms = nltk.pos_tag(words)
with open('./data/reuters2.csv', 'w') as f:
    writer = csv.writer(f)
    for row in nms:
        writer.writerow(row)

In [10]:
#Se detiene la ejecución del RDD
sc.stop()