<a href="https://colab.research.google.com/github/cristhiamdaniel/AprendizajeMaquina/blob/main/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Bases del PLN

In [1]:
pip install nltk



In [2]:
pip install spacy



In [3]:
!python -m spacy download en_core_web_sm

Collecting en_core_web_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.5/en_core_web_sm-2.2.5.tar.gz (12.0 MB)
[K     |████████████████████████████████| 12.0 MB 1.0 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')


## Diviendo el texto en oraciones.

Cuando trabajamos con texto, podemos trabajar con unidades de texto en diferentes escalas: podemos trabajar a nivel del propio documento, como un artículo de periódico, el párrafo, la oración o la palabra. Las oraciones son la unidad principal de procesamiento en muchas tareas de la PNL

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [5]:
# Lectura del texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [6]:
# Cambio de salto de línea por espacios:
text = text.replace("\n", " ")

In [7]:
# Inicializamos el tokenizador:
tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")

In [8]:
# División del texto en oraciones:
sentences = tokenizer.tokenize(text)
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.']

**También podemos usar una estrategia diferente para analizar el texto en oraciones, empleando otro paquete de PNL muy popular, spaCy.**

In [9]:
# importamos el paquete
import spacy
# inicializamos el motor de spaCy:
nlp = spacy.load("en_core_web_sm")
# dividimos el texto en oraciones:
doc = nlp(text)
sentences = [sentence.text for sentence in doc.sents]
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.  ']

**Ahora en español**

In [10]:
tokenizer = nltk.data.load("tokenizers/punkt/spanish.pickle")

In [11]:
def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

def preprocess_text(text):
    text = text.replace("\n", " ")
    return text

def divide_into_sentences_nltk(text):
    sentences = tokenizer.tokenize(text)
    return sentences

In [12]:
code_text = read_text_file("codigo.txt")
code_text = preprocess_text(code_text)
sentences = divide_into_sentences_nltk(code_text)
sentences

['Las ventajas de la programación van más allá del  entorno laboral.',
 'La enseñanza de esta disciplina  fomenta el pensamiento computacional.',
 'Este proceso  de razonamiento estructura la mente y ordena las ideas.',
 '“Te permite dividir un problema grande en problemas  más pequeños”, explica García.']

## Dividiendo las oraciones en palabras - tokenización

In [13]:
# dividir el texto en palabras.
words = nltk.tokenize.word_tokenize(code_text)
print("El texto tiene ", len(words), "palabras")
print()
print("Las palabras son: ")
print(words)

El texto tiene  50 palabras

Las palabras son: 
['Las', 'ventajas', 'de', 'la', 'programación', 'van', 'más', 'allá', 'del', 'entorno', 'laboral', '.', 'La', 'enseñanza', 'de', 'esta', 'disciplina', 'fomenta', 'el', 'pensamiento', 'computacional', '.', 'Este', 'proceso', 'de', 'razonamiento', 'estructura', 'la', 'mente', 'y', 'ordena', 'las', 'ideas', '.', '“', 'Te', 'permite', 'dividir', 'un', 'problema', 'grande', 'en', 'problemas', 'más', 'pequeños', '”', ',', 'explica', 'García', '.']


**Tweet**

In [14]:
tweet = "@Docker Docker facilita mucho el trabajo como desarrollador siiiiii"

Divida el texto en palabras. Establezca los parámetros para preservar el caso, reducir la longitud y quitar las @:

In [15]:
words = nltk.tokenize.casual.casual_tokenize(tweet,\
                                             preserve_case=True,\
                                             reduce_len=True, \
                                             strip_handles=True)

In [16]:
print(words)

['Docker', 'facilita', 'mucho', 'el', 'trabajo', 'como', 'desarrollador', 'siii']


**Importante a tener en cuenta**

El paquete NLTK solo tiene tokenización de palabras para inglés.
spaCy tiene modelos para varios otros idiomas:



In [18]:
!!python -m spacy download es_core_news_sm

['Collecting es_core_news_sm==2.2.5',
 '  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)',
 '\x1b[?25l',
 '\x1b[K     |                                | 10 kB 15.5 MB/s eta 0:00:02',
 '\x1b[K     |                                | 20 kB 22.9 MB/s eta 0:00:01',
 '\x1b[K     |                                | 30 kB 12.7 MB/s eta 0:00:02',
 '\x1b[K     |                                | 40 kB 9.9 MB/s eta 0:00:02',
 '\x1b[K     |                                | 51 kB 3.9 MB/s eta 0:00:05',
 '\x1b[K     |▏                               | 61 kB 4.4 MB/s eta 0:00:04',
 '\x1b[K     |▏                               | 71 kB 4.1 MB/s eta 0:00:04',
 '\x1b[K     |▏                               | 81 kB 4.6 MB/s eta 0:00:04',
 '\x1b[K     |▏                               | 92 kB 4.6 MB/s eta 0:00:04',
 '\x1b[K     |▏                               | 102 kB 4.1 MB/s eta 0:00:04',
 '\x1b[K     |▎                    

In [19]:
import es_core_news_sm
nlp = es_core_news_sm.load()
doc = nlp("Yo amo Python.")
words = [token.text for token in doc]
words

['Yo', 'amo', 'Python', '.']

## Partes de etiquetado del discurso

En muchos casos, el procesamiento de PNL depende de determinar las partes del habla de las palabras en el texto. Por ejemplo, en la clasificación de oraciones, a veces usamos las partes del habla de las palabras como una característica que se introduce en el clasificador. 

In [20]:
# Importamos el paquete
import spacy
import es_core_news_sm
# Cargamos el texto
filename = "codigo.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()
# Preprocesamiento del texto
text = text.replace("\n", " ")
# Iniciamos el motor Spacy
nlp = es_core_news_sm.load()
# Procesamos el texto
doc = nlp(text)
# Lista de tuplas con palabras y partes del etiquetado de voz
words = [token.text for token in doc]
pos = [token.pos_ for token in doc]
word_pos_tuples = list(zip(words, pos))
word_pos_tuples


[('Las', 'DET'),
 ('ventajas', 'NOUN'),
 ('de', 'ADP'),
 ('la', 'DET'),
 ('programación', 'NOUN'),
 ('van', 'VERB'),
 ('más', 'ADV'),
 ('allá', 'ADV'),
 ('del', 'ADP'),
 (' ', 'SPACE'),
 ('entorno', 'NOUN'),
 ('laboral', 'ADJ'),
 ('.', 'PUNCT'),
 ('La', 'DET'),
 ('enseñanza', 'NOUN'),
 ('de', 'ADP'),
 ('esta', 'DET'),
 ('disciplina', 'NOUN'),
 (' ', 'SPACE'),
 ('fomenta', 'VERB'),
 ('el', 'DET'),
 ('pensamiento', 'NOUN'),
 ('computacional', 'ADJ'),
 ('.', 'PUNCT'),
 ('Este', 'DET'),
 ('proceso', 'NOUN'),
 (' ', 'SPACE'),
 ('de', 'ADP'),
 ('razonamiento', 'NOUN'),
 ('estructura', 'VERB'),
 ('la', 'DET'),
 ('mente', 'NOUN'),
 ('y', 'CONJ'),
 ('ordena', 'VERB'),
 ('las', 'DET'),
 ('ideas', 'NOUN'),
 ('.', 'PUNCT'),
 (' ', 'SPACE'),
 ('“', 'PROPN'),
 ('Te', 'PRON'),
 ('permite', 'VERB'),
 ('dividir', 'VERB'),
 ('un', 'DET'),
 ('problema', 'NOUN'),
 ('grande', 'ADJ'),
 ('en', 'ADP'),
 ('problemas', 'NOUN'),
 (' ', 'SPACE'),
 ('más', 'ADV'),
 ('pequeños', 'ADJ'),
 ('”', 'PROPN'),
 (',', 'PUN

## Stemming de palabras

In [21]:
# Importamos Snowball Stemmer
from nltk.stem.snowball import SnowballStemmer

In [22]:
# Inicializamos el "stemmer" con inglés.
stemmer = SnowballStemmer('english')

In [23]:
# Creamos una lista con palabras para stem:
words = ['leaf', 'leaves', 'booking', 'writing',
 'completed', 'stemming', 'skies']

In [24]:
# Stem las palabas
stemmed_words = [stemmer.stem(word) for word in words]
stemmed_words

['leaf', 'leav', 'book', 'write', 'complet', 'stem', 'sky']

Probamos con español

In [25]:
stemmer = SnowballStemmer('spanish')
spanish_words = ['caminando', 'amigo', 'bueno']
stemmed_words = [stemmer.stem(word) for word in spanish_words]
stemmed_words

['camin', 'amig', 'buen']