# Conceptos Básicos

Temas a tratar:

* División del texto en oraciones
* Etiquetado del discurso
* Stemming
* Combinación de palabras similares: lemmatización
* Eliminación de "Stopwords"

**Requerimientos Técnicos**

pip install nltk

pip install spacy

El modelo que se necesita para spaCy es: 
python -m spacy download en_core_web_sm

## Dividiendo el texto en oraciones

In [1]:
# Importamos el paquete:
import nltk

In [2]:
# Lectura del texto
filename = "quebec.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
text

'Por su idioma, su cultura y sus instituciones, forma una «nación dentro de Canadá». A diferencia de las demás\nprovincias canadienses, Quebec tiene como única lengua oficial el francés, y es la única región mayoritariamente\nfrancófona de América del Norte, aunque eso no significa que el idioma inglés esté vetado en la provincia pero si\nrestringido a la ciudad cosmopolita de Montreal, donde aun así el francés es la lengua mayormente hablada. El idioma \nfrancés goza de protección legal e incluso la provincia cuenta con inspectores lingüísticos que revisan y controlan\nsu uso. El celo de los quebequeses (en francés: Québécois) por su lengua y su estatus de minoría lingüística en América\ndel Norte, que sufrieron periodos de represión y asimilación británica a lo largo de su historia, motiva esta protección\nlingüística.'

In [3]:
# Reemplazando los saltos de línea con espacios:
text = text.replace("\n", " ")
text

'Por su idioma, su cultura y sus instituciones, forma una «nación dentro de Canadá». A diferencia de las demás provincias canadienses, Quebec tiene como única lengua oficial el francés, y es la única región mayoritariamente francófona de América del Norte, aunque eso no significa que el idioma inglés esté vetado en la provincia pero si restringido a la ciudad cosmopolita de Montreal, donde aun así el francés es la lengua mayormente hablada. El idioma  francés goza de protección legal e incluso la provincia cuenta con inspectores lingüísticos que revisan y controlan su uso. El celo de los quebequeses (en francés: Québécois) por su lengua y su estatus de minoría lingüística en América del Norte, que sufrieron periodos de represión y asimilación británica a lo largo de su historia, motiva esta protección lingüística.'

In [5]:
# Inicialización un tokenizer NLTK
nltk.download('punkt')
tokenizer = nltk.data.load("tokenizers/punkt/spanish.pickle")
tokenizer

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\cdani\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


<nltk.tokenize.punkt.PunktSentenceTokenizer at 0x2065b9162e8>

In [6]:
# Dividir el texto en oraciones:
sentences = tokenizer.tokenize(text)
sentences

['Por su idioma, su cultura y sus instituciones, forma una «nación dentro de Canadá».',
 'A diferencia de las demás provincias canadienses, Quebec tiene como única lengua oficial el francés, y es la única región mayoritariamente francófona de América del Norte, aunque eso no significa que el idioma inglés esté vetado en la provincia pero si restringido a la ciudad cosmopolita de Montreal, donde aun así el francés es la lengua mayormente hablada.',
 'El idioma  francés goza de protección legal e incluso la provincia cuenta con inspectores lingüísticos que revisan y controlan su uso.',
 'El celo de los quebequeses (en francés: Québécois) por su lengua y su estatus de minoría lingüística en América del Norte, que sufrieron periodos de represión y asimilación británica a lo largo de su historia, motiva esta protección lingüística.']

**Existe otra opción utilizando el paquete de spacy**

## Dividiendo las oraciones en paralabras - tokenización

In [7]:
# Dividimos el texto en palabras
words = nltk.tokenize.word_tokenize(text)
words

['Por',
 'su',
 'idioma',
 ',',
 'su',
 'cultura',
 'y',
 'sus',
 'instituciones',
 ',',
 'forma',
 'una',
 '«',
 'nación',
 'dentro',
 'de',
 'Canadá',
 '»',
 '.',
 'A',
 'diferencia',
 'de',
 'las',
 'demás',
 'provincias',
 'canadienses',
 ',',
 'Quebec',
 'tiene',
 'como',
 'única',
 'lengua',
 'oficial',
 'el',
 'francés',
 ',',
 'y',
 'es',
 'la',
 'única',
 'región',
 'mayoritariamente',
 'francófona',
 'de',
 'América',
 'del',
 'Norte',
 ',',
 'aunque',
 'eso',
 'no',
 'significa',
 'que',
 'el',
 'idioma',
 'inglés',
 'esté',
 'vetado',
 'en',
 'la',
 'provincia',
 'pero',
 'si',
 'restringido',
 'a',
 'la',
 'ciudad',
 'cosmopolita',
 'de',
 'Montreal',
 ',',
 'donde',
 'aun',
 'así',
 'el',
 'francés',
 'es',
 'la',
 'lengua',
 'mayormente',
 'hablada',
 '.',
 'El',
 'idioma',
 'francés',
 'goza',
 'de',
 'protección',
 'legal',
 'e',
 'incluso',
 'la',
 'provincia',
 'cuenta',
 'con',
 'inspectores',
 'lingüísticos',
 'que',
 'revisan',
 'y',
 'controlan',
 'su',
 'uso',
 

**Hay más**

NLTK tiene un tokenizer especial para tweets y textos cortos similares. Tiene las opciones de eliminar los controladores de usuario de Twitter y acortar los caracteres repetidos hasta un máximo de tres en una fila.

In [8]:
# creamos la variable tweet
tweet = "@EmpireStateBldg Central Park Tower is reaaaally hiiiigh"

In [9]:
'''
Divida el texto en palabras. Establezca los parámetros para preservar
el caso, reducir la longitud y quitar las @
'''

words = nltk.tokenize.casual.casual_tokenize(tweet,
                                     preserve_case=True,
                                     reduce_len=True, 
                                     strip_handles=True)
words

['Central', 'Park', 'Tower', 'is', 'reaaally', 'hiiigh']

## Partes del etiquetado del discurso

En muchos casos, el procesamiento de PNL depende de determinar las partes del habla de las palabras en el texto. Por ejemplo, en la clasificación de oraciones, a veces usamos las partes del habla de las palabras como una característica que se introduce en el clasificador.

In [None]:
!pip install -U spacy

In [13]:
# Importamos el paquete
import spacy

In [14]:
# lectura del texto:
filename = "quebec.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [15]:
# Reemplazar los saltos de línea con espacios
text = text.replace("\n", " ")

Antes usar el motor, se debe usar el CMD.exe Prompt <br>

python -m spacy download es_core_news_sm

In [16]:
# Iniciando el motor spaCy para español:
nlp = spacy.load("es_core_news_sm")
nlp

<spacy.lang.es.Spanish at 0x2065e32efd0>

In [17]:
# Utilice el motor spaCy para procesar el texto:
doc = nlp(text)
doc

Por su idioma, su cultura y sus instituciones, forma una «nación dentro de Canadá». A diferencia de las demás provincias canadienses, Quebec tiene como única lengua oficial el francés, y es la única región mayoritariamente francófona de América del Norte, aunque eso no significa que el idioma inglés esté vetado en la provincia pero si restringido a la ciudad cosmopolita de Montreal, donde aun así el francés es la lengua mayormente hablada. El idioma  francés goza de protección legal e incluso la provincia cuenta con inspectores lingüísticos que revisan y controlan su uso. El celo de los quebequeses (en francés: Québécois) por su lengua y su estatus de minoría lingüística en América del Norte, que sufrieron periodos de represión y asimilación británica a lo largo de su historia, motiva esta protección lingüística.

In [18]:
# Obtenga la lista de tuplas con palabras y partes de etiquetas de voz:
words = [token.text for token in doc]
pos = [token.pos_ for token in doc]
word_pos_tuples = list(zip(words, pos))

In [19]:
word_pos_tuples 

[('Por', 'ADP'),
 ('su', 'DET'),
 ('idioma', 'NOUN'),
 (',', 'PUNCT'),
 ('su', 'DET'),
 ('cultura', 'NOUN'),
 ('y', 'CCONJ'),
 ('sus', 'DET'),
 ('instituciones', 'NOUN'),
 (',', 'PUNCT'),
 ('forma', 'VERB'),
 ('una', 'DET'),
 ('«', 'ADJ'),
 ('nación', 'NOUN'),
 ('dentro', 'ADV'),
 ('de', 'ADP'),
 ('Canadá', 'PROPN'),
 ('»', 'PUNCT'),
 ('.', 'PUNCT'),
 ('A', 'ADP'),
 ('diferencia', 'NOUN'),
 ('de', 'ADP'),
 ('las', 'DET'),
 ('demás', 'DET'),
 ('provincias', 'NOUN'),
 ('canadienses', 'ADJ'),
 (',', 'PUNCT'),
 ('Quebec', 'PROPN'),
 ('tiene', 'VERB'),
 ('como', 'SCONJ'),
 ('única', 'ADJ'),
 ('lengua', 'NOUN'),
 ('oficial', 'ADJ'),
 ('el', 'DET'),
 ('francés', 'NOUN'),
 (',', 'PUNCT'),
 ('y', 'CCONJ'),
 ('es', 'AUX'),
 ('la', 'DET'),
 ('única', 'ADJ'),
 ('región', 'NOUN'),
 ('mayoritariamente', 'ADV'),
 ('francófona', 'ADJ'),
 ('de', 'ADP'),
 ('América', 'PROPN'),
 ('del', 'ADP'),
 ('Norte', 'PROPN'),
 (',', 'PUNCT'),
 ('aunque', 'SCONJ'),
 ('eso', 'PRON'),
 ('no', 'ADV'),
 ('significa', 'V

**Existe una opción alterna usando nltk**

## Stemming 

En algunas tareas de la PNL, necesitamos palabras raíz, o eliminar los sufijos

In [20]:
# Importamos el NLTK Snowball Stemmer:
from nltk.stem.snowball import SnowballStemmer

In [21]:
# Iniciamos stemmer con inglés:
stemmer = SnowballStemmer('english')

In [22]:
# Inicializamos una lista con palabras para stem:
words = ['leaf', 'leaves', 'booking', 'writing',
         'completed', 'stemming', 'skies']

In [23]:
# Extraemos las raíces
stemmed_words = [stemmer.stem(word) for word in words]
stemmed_words

['leaf', 'leav', 'book', 'write', 'complet', 'stem', 'sky']

**Hay más**

In [21]:
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [24]:
stemmer = SnowballStemmer("spanish")
spanish_words = ['bailando', 'casita', 'grandote']
stemmed_words = [stemmer.stem(word) for word in spanish_words]
stemmed_words

['bail', 'casit', 'grandot']

## Combinación de palabras similares - lemmatización

Una técnica similar al stemming es la lemmatización. La diferencia es que la lemmatización nos proporciona una palabra real, es decir, su forma canónica.

In [25]:
# Importamos el NLTK WordNet lemmatizer:
from nltk.stem import WordNetLemmatizer

In [26]:
# Iniciamos el lemmatizer:
lemmatizer = WordNetLemmatizer()

In [27]:
# Inicializar una lista con palabras para lemmatizar:
words = ['duck', 'geese', 'cats', 'books']

In [29]:
# Lemmatizar las palabas:
nltk.download('wordnet')
lemmatized_words = [lemmatizer.lemmatize(word) for word in words]
lemmatized_words 

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\cdani\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


['duck', 'goose', 'cat', 'book']

**Hay más**

La función lemmatize tiene un parámetro, **pos** (para partes del habla), que se establece como sustantivo por defecto. Si desea lemmatizar un verbo o un adjetivo, debe especificarlo explícitamente:

In [30]:
lemmatizer.lemmatize('loved', 'v')

'love'

In [31]:
lemmatizer.lemmatize('worse', 'a')

'bad'

Podemos combinar partes de etiquetado del habla y lemmatización:

In [32]:
# Importamos algunas funciones de ayuda

def tokenize_nltk(text):
    return nltk.tokenize.word_tokenize(text)

def pos_tag_nltk(text):
    words = tokenize_nltk(text)
    words_with_pos = nltk.pos_tag(words)
    return words_with_pos

def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

In [33]:
#Agregue un mapeo de diccionario de partes de etiquetas de voz NLTK a partes
#de etiquetas de voz aceptadas por lemmatizer y un conjunto separado de 
#etiquetas aceptadas por lemmatizer:
pos_mapping = {'JJ':'a', 'JJR':'a', 'JJS':'a', 'NN':'n',
               'NNS':'n', 'VBD':'v', 'VBG':'v',  
               'VBN':'v', 'VBP':'v', 'VBZ':'v'}
accepted_pos = {'a', 'v', 'n'}

In [34]:
# Definir la función lemmatize_long_text, que tomará un texto largo,
#etiquetarlo con partes del habla, y luego lemmatizar adjetivos, verbos
#y sustantivos:
def lemmatize_long_text(text):
    words = pos_tag_nltk(text)
    words = [(word_tuple[0], pos_mapping[word_tuple[1]] if \
      word_tuple[1] in pos_mapping.keys() else 
      word_tuple[1]) for word_tuple in words]
    words = [(lemmatizer.lemmatize(word_tuple[0]) if \
               word_tuple[1] in accepted_pos else \
               word_tuple[0],
             word_tuple[1]) for word_tuple in words]
    return words

In [36]:
#Lectura del texto pv
# Uso de la función lemmatize
nltk.download('averaged_perceptron_tagger')
pv = read_text_file("pv.txt")
lem_words = lemmatize_long_text(pv)
print(lem_words)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\cdani\AppData\Roaming\nltk_data...


[('A', 'DT'), ('photovoltaic', 'a'), ('array', 'n'), ('(', '('), ('PVA', 'NNP'), (')', ')'), ('simulation', 'n'), ('model', 'n'), ('to', 'TO'), ('be', 'VB'), ('used', 'v'), ('in', 'IN'), ('Matlab-Simulink', 'NNP'), ('GUI', 'NNP'), ('environment', 'n'), ('is', 'v'), ('developed', 'v'), ('and', 'CC'), ('presented', 'v'), ('in', 'IN'), ('this', 'DT'), ('paper', 'n'), ('.', '.'), ('The', 'DT'), ('model', 'n'), ('is', 'v'), ('developed', 'v'), ('using', 'v'), ('basic', 'a'), ('circuit', 'n'), ('equation', 'n'), ('of', 'IN'), ('the', 'DT'), ('photovoltaic', 'n'), ('(', '('), ('PV', 'NNP'), (')', ')'), ('solar', 'v'), ('cell', 'n'), ('including', 'v'), ('the', 'DT'), ('effect', 'n'), ('of', 'IN'), ('solar', 'a'), ('irradiation', 'n'), ('and', 'CC'), ('temperature', 'n'), ('change', 'n'), ('.', '.'), ('The', 'DT'), ('new', 'a'), ('model', 'n'), ('wa', 'v'), ('tested', 'v'), ('using', 'v'), ('a', 'DT'), ('directly', 'RB'), ('coupled', 'v'), ('dc', 'n'), ('load', 'n'), ('as', 'RB'), ('well', 'RB

[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


## Eliminando "Stopwords"

In [37]:
# Importamos los módulos
import csv
import nltk

In [38]:
# Iniciando la lista de "Stopwords"
csv_file="stopwords.csv"
with open(csv_file, 'r', encoding='utf-8') as fp:
    reader = csv.reader(fp, delimiter=',', quotechar='"')
    stopwords = [row[0] for row in reader]

In [40]:
# Alternativamente con nltk:
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('english')
stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\cdani\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [41]:
# Lectura del texto
# Lectura del texto
filename = "pv.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [42]:
# Cambio de saltos de línea por espacios:
text = text.replace("\n", " ")
text

'A photovoltaic array (PVA) simulation model to be used in Matlab-Simulink GUI environment is developed and presented in this paper. The model is developed using basic circuit equations of the photovoltaic (PV) solar cells including the effects of solar irradiation and temperature changes. The new model was tested using a directly coupled dc load as well as ac load via an inverter. Test and validation studies with proper load matching circuits are simulated and results are presented here.'

In [43]:
# Tokenizando el texto
words = nltk.tokenize.word_tokenize(text)
words

['A',
 'photovoltaic',
 'array',
 '(',
 'PVA',
 ')',
 'simulation',
 'model',
 'to',
 'be',
 'used',
 'in',
 'Matlab-Simulink',
 'GUI',
 'environment',
 'is',
 'developed',
 'and',
 'presented',
 'in',
 'this',
 'paper',
 '.',
 'The',
 'model',
 'is',
 'developed',
 'using',
 'basic',
 'circuit',
 'equations',
 'of',
 'the',
 'photovoltaic',
 '(',
 'PV',
 ')',
 'solar',
 'cells',
 'including',
 'the',
 'effects',
 'of',
 'solar',
 'irradiation',
 'and',
 'temperature',
 'changes',
 '.',
 'The',
 'new',
 'model',
 'was',
 'tested',
 'using',
 'a',
 'directly',
 'coupled',
 'dc',
 'load',
 'as',
 'well',
 'as',
 'ac',
 'load',
 'via',
 'an',
 'inverter',
 '.',
 'Test',
 'and',
 'validation',
 'studies',
 'with',
 'proper',
 'load',
 'matching',
 'circuits',
 'are',
 'simulated',
 'and',
 'results',
 'are',
 'presented',
 'here',
 '.']

In [44]:
# Eliminación de los stopwords:
words = [word for word in words if word.lower() not in stopwords]
words

['photovoltaic',
 'array',
 '(',
 'PVA',
 ')',
 'simulation',
 'model',
 'used',
 'Matlab-Simulink',
 'GUI',
 'environment',
 'developed',
 'presented',
 'paper',
 '.',
 'model',
 'developed',
 'using',
 'basic',
 'circuit',
 'equations',
 'photovoltaic',
 '(',
 'PV',
 ')',
 'solar',
 'cells',
 'including',
 'effects',
 'solar',
 'irradiation',
 'temperature',
 'changes',
 '.',
 'new',
 'model',
 'tested',
 'using',
 'directly',
 'coupled',
 'dc',
 'load',
 'well',
 'ac',
 'load',
 'via',
 'inverter',
 '.',
 'Test',
 'validation',
 'studies',
 'proper',
 'load',
 'matching',
 'circuits',
 'simulated',
 'results',
 'presented',
 '.']

El código filtra las palabras de parada del texto y deja las palabras en el texto sólo si no aparecen en la lista de parada.

**Hay más**

También podemos compilar una lista de palabras clave usando el texto con el que estamos trabajando y calculando las frecuencias de las palabras en él

In [45]:
# Importamos el módulo nltk y la clase FreqDist
import nltk
from nltk.probability import FreqDist

In [46]:
'''
Cree el objeto de distribución de frecuencia y utilícelo para crear 
una lista de tuplas donde el primer elemento es la palabra y el segundo
es el conteo de frecuencia:
'''
freq_dist = FreqDist(word.lower() for word in words)
words_with_frequencies = [(word, freq_dist[word]) for word in freq_dist.keys()]

In [47]:
freq_dist

FreqDist({'.': 4, 'model': 3, 'load': 3, 'photovoltaic': 2, '(': 2, ')': 2, 'developed': 2, 'presented': 2, 'using': 2, 'solar': 2, ...})

In [48]:
words_with_frequencies

[('photovoltaic', 2),
 ('array', 1),
 ('(', 2),
 ('pva', 1),
 (')', 2),
 ('simulation', 1),
 ('model', 3),
 ('used', 1),
 ('matlab-simulink', 1),
 ('gui', 1),
 ('environment', 1),
 ('developed', 2),
 ('presented', 2),
 ('paper', 1),
 ('.', 4),
 ('using', 2),
 ('basic', 1),
 ('circuit', 1),
 ('equations', 1),
 ('pv', 1),
 ('solar', 2),
 ('cells', 1),
 ('including', 1),
 ('effects', 1),
 ('irradiation', 1),
 ('temperature', 1),
 ('changes', 1),
 ('new', 1),
 ('tested', 1),
 ('directly', 1),
 ('coupled', 1),
 ('dc', 1),
 ('load', 3),
 ('well', 1),
 ('ac', 1),
 ('via', 1),
 ('inverter', 1),
 ('test', 1),
 ('validation', 1),
 ('studies', 1),
 ('proper', 1),
 ('matching', 1),
 ('circuits', 1),
 ('simulated', 1),
 ('results', 1)]

In [49]:
# Ordena la lista de tuplas por frecuencia:
sorted_words = sorted(words_with_frequencies, 
                      key=lambda tup: tup[1])

Ahora tenemos dos opciones: utilizar un corte de frecuencia para las palabras de parada o tomar la parte superior n% de las palabras ordenadas por frecuencia.

In [50]:
# Primera opción
stopwords = [tuple[0] for tuple in sorted_words if tuple[1] > 1]
stopwords

['photovoltaic',
 '(',
 ')',
 'developed',
 'presented',
 'using',
 'solar',
 'model',
 'load',
 '.']

In [51]:
# Segunda opción
# el 1% de las palabras más frecuentes
length_cutoff = int(0.1*len(sorted_words))
stopwords = [tuple[0] for tuple in sorted_words[-length_cutoff:]]
stopwords

['solar', 'model', 'load', '.']