<a href="https://colab.research.google.com/github/cristhiamdaniel/AprendizajeMaquina/blob/main/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Bases del PLN

In [1]:
pip install nltk



In [2]:
pip install spacy



In [3]:
!python -m spacy download en_core_web_sm

Collecting en_core_web_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.5/en_core_web_sm-2.2.5.tar.gz (12.0 MB)
[K     |████████████████████████████████| 12.0 MB 14.2 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')


## Diviendo el texto en oraciones.

Cuando trabajamos con texto, podemos trabajar con unidades de texto en diferentes escalas: podemos trabajar a nivel del propio documento, como un artículo de periódico, el párrafo, la oración o la palabra. Las oraciones son la unidad principal de procesamiento en muchas tareas de la PNL

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [14]:
# Lectura del texto
filename = "coding.txt"
file = open(filename, "r", encoding="utf-8")
text = file.read()

In [15]:
# Cambio de salto de línea por espacios:
text = text.replace("\n", " ")

In [16]:
# Inicializamos el tokenizador:
tokenizer = nltk.data.load("tokenizers/punkt/english.pickle")

In [17]:
# División del texto en oraciones:
sentences = tokenizer.tokenize(text)
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.']

**También podemos usar una estrategia diferente para analizar el texto en oraciones, empleando otro paquete de PNL muy popular, spaCy.**

In [18]:
# importamos el paquete
import spacy
# inicializamos el motor de spaCy:
nlp = spacy.load("en_core_web_sm")
# dividimos el texto en oraciones:
doc = nlp(text)
sentences = [sentence.text for sentence in doc.sents]
sentences

['Put simply, Coding is the a method of communicating with  a computer.',
 'It is using a language that a computer  understands to give a computer instructions in order  to perform specific functions.',
 'Coding allows us to create  things such as computer software, websites, apps and video games.  ']

**Ahora en español**

In [30]:
tokenizer = nltk.data.load("tokenizers/punkt/spanish.pickle")

In [33]:
def read_text_file(filename):
    file = open(filename, "r", encoding="utf-8") 
    return file.read()

def preprocess_text(text):
    text = text.replace("\n", " ")
    return text

def divide_into_sentences_nltk(text):
    sentences = tokenizer.tokenize(text)
    return sentences

In [36]:
code_text = read_text_file("codigo.txt")
code_text = preprocess_text(code_text)
sentences = divide_into_sentences_nltk(code_text)
sentences

['Las ventajas de la programación van más allá del  entorno laboral.',
 'La enseñanza de esta disciplina  fomenta el pensamiento computacional.',
 'Este proceso  de razonamiento estructura la mente y ordena las ideas.',
 '“Te permite dividir un problema grande en problemas  más pequeños”, explica García.']

## Dividiendo las oraciones en palabras - tokenización

In [45]:
# dividir el texto en palabras.
words = nltk.tokenize.word_tokenize(code_text)
print("El texto tiene ", len(words), "palabras")
print()
print("Las palabras son: ")
print(words)

El texto tiene  50 palabras

Las palabras son: 
['Las', 'ventajas', 'de', 'la', 'programación', 'van', 'más', 'allá', 'del', 'entorno', 'laboral', '.', 'La', 'enseñanza', 'de', 'esta', 'disciplina', 'fomenta', 'el', 'pensamiento', 'computacional', '.', 'Este', 'proceso', 'de', 'razonamiento', 'estructura', 'la', 'mente', 'y', 'ordena', 'las', 'ideas', '.', '“', 'Te', 'permite', 'dividir', 'un', 'problema', 'grande', 'en', 'problemas', 'más', 'pequeños', '”', ',', 'explica', 'García', '.']


**Tweet**

In [51]:
tweet = "@Docker Docker facilita mucho el trabajo como desarrollador siiiiii"

Divida el texto en palabras. Establezca los parámetros para preservar el caso, reducir la longitud y quitar las @:

In [52]:
words = nltk.tokenize.casual.casual_tokenize(tweet,\
                                             preserve_case=True,\
                                             reduce_len=True, \
                                             strip_handles=True)

In [53]:
print(words)

['Docker', 'facilita', 'mucho', 'el', 'trabajo', 'como', 'desarrollador', 'siii']


**Importante a tener en cuenta**

El paquete NLTK solo tiene tokenización de palabras para inglés.
spaCy tiene modelos para varios otros idiomas:

!python -m spacy download es_core_news_sm

In [56]:
import es_core_news_sm
nlp = es_core_news_sm.load()
doc = nlp("Yo amo Python.")
words = [token.text for token in doc]
words

['Yo', 'amo', 'Python', '.']