# Alumno: Jesus Eduardo Ceballos Contrereas
# Comandos NLTK
# 22/04/2024

## Tokenización de texto:
- word_tokenize(texto): Divide un texto en tokens (palabras o unidades significativas).

In [None]:
from nltk.tokenize import word_tokenize
texto = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(texto)
print(tokens)


## Segmentación de oraciones:
- sent_tokenize(texto): Divide un texto en oraciones.

In [None]:
from nltk.tokenize import sent_tokenize
texto = "NLTK es una biblioteca de Python. Es útil para procesamiento de lenguaje natural."
oraciones = sent_tokenize(texto)
print(oraciones)


## Tokenización de palabras:
- regexp_tokenize(texto, patrón): Divide un texto en tokens usando una expresión regular.
- WhitespaceTokenizer().tokenize(texto): Divide un texto en tokens usando espacios en blanco como separadores.
- TreebankWordTokenizer().tokenize(texto): Tokeniza un texto siguiendo las convenciones del Penn Treebank.

In [None]:
from nltk.tokenize import regexp_tokenize
texto = "NLTK es una biblioteca de Python."
tokens = regexp_tokenize(texto, pattern='\w+')
print(tokens)


## Stemming:
- PorterStemmer().stem(palabra): Reduce una palabra a su raíz (forma truncada).
- SnowballStemmer('idioma').stem(palabra): Similar al Porter Stemmer pero con soporte para varios idiomas.

In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
palabra = "running"
stem = stemmer.stem(palabra)
print(stem)


## Lematización:
- WordNetLemmatizer().lemmatize(palabra, pos='a'): Reduce una palabra a su forma base o lema.

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
word = "running"
lemma = lemmatizer.lemmatize(word, pos='v')
print(lemma)


## Eliminación de stopwords:
- stopwords.words('idioma'): Lista de stopwords para un idioma específico.
- stopwords.words('idioma'): Elimina palabras comunes que no aportan mucho significado al análisis.

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

texto = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
stop_words = set(stopwords.words('spanish'))
tokens = word_tokenize(texto)
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)


## Análisis de sentimientos:
- SentimentIntensityAnalyzer().polarity_scores(texto): Determina la polaridad (positiva/negativa) de un texto.

In [None]:
from nltk.sentiment import SentimentIntensityAnalyzer
analyzer = SentimentIntensityAnalyzer()
text = "NLTK es increíblemente útil para el análisis de texto."
sentiment = analyzer.polarity_scores(text)
print(sentiment)


# POS tagging (Etiquetado gramatical):
- pos_tag(tokens): Etiqueta las partes del discurso de las palabras en un texto.

In [None]:
from nltk import pos_tag, word_tokenize
text = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(text)
pos_tags = pos_tag(tokens)
print(pos_tags)


## Chunking:
- RegexpParser(patrones).parse(etiquetas_pos): Agrupa tokens en fragmentos gramaticales más grandes.

In [None]:
from nltk.chunk import RegexpParser
from nltk import pos_tag, word_tokenize

text = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(text)
pos_tags = pos_tag(tokens)

grammar = r'NP: {<DT>?<JJ>*<NN>}'  # Define la gramática para NP (frase nominal)
chunk_parser = RegexpParser(grammar)
chunks = chunk_parser.parse(pos_tags)
print(chunks)


## Named Entity Recognition (NER):
- ne_chunk(etiquetas_pos): Identifica entidades nombradas en un texto.

In [None]:
from nltk import ne_chunk, pos_tag, word_tokenize
text = "Barack Obama was born in Hawaii."
tokens = word_tokenize(text)
pos_tags = pos_tag(tokens)
ner_chunks = ne_chunk(pos_tags)
print(ner_chunks)


## Palabras más frecuentes:
- FreqDist(tokens): Calcula la frecuencia de cada token en un texto.

In [None]:
from nltk import FreqDist, word_tokenize
text = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(text)
freq_dist = FreqDist(tokens)
print(freq_dist.most_common(5))


## Distribución de frecuencia de palabras:
- FreqDist(tokens): Calcula la frecuencia de cada token en un texto.

In [None]:
from nltk import FreqDist, word_tokenize
text = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(text)
freq_dist = FreqDist(tokens)
freq_dist.plot(30, cumulative=False)


## Collocations:
- BigramCollocationFinder.from_words(tokens): Encuentra colocaciones (pares de palabras frecuentes) en un texto.

In [None]:
from nltk.collocations import BigramCollocationFinder
from nltk.tokenize import word_tokenize

text = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(text)
finder = BigramCollocationFinder.from_words(tokens)
collocations = finder.nbest(lambda bigram, freq: freq, 5)
print(collocations)


## WordNet:
- synsets(palabra): Obtiene los synsets (conjuntos de sinónimos) para una palabra.
- synset('nombre.synset'): Obtiene información sobre un synset específico.
- synset('nombre.synset').definition(): Obtiene la definición de un synset.

In [None]:
from nltk.corpus import wordnet
synsets = wordnet.synsets("car")
for synset in synsets:
    print(synset.definition())


## Corpus:
- PlaintextCorpusReader(directorio, 'patrón'): Crea un objeto de corpus a partir de archivos de texto plano en un directorio.

In [None]:
from nltk.corpus import PlaintextCorpusReader
corpus_root = '/ruta/al/directorio'
corpus = PlaintextCorpusReader(corpus_root, '.*\.txt')
print(corpus.fileids())


## Procesamiento de archivos PDF:
- PlaintextCorpusReader(directorio, '.*\.pdf'): Extracción de texto de archivos PDF.

In [None]:
from nltk.corpus import PlaintextCorpusReader
corpus_root = '/ruta/al/directorio'
corpus = PlaintextCorpusReader(corpus_root, '.*\.pdf')
for file_id in corpus.fileids():
    text = corpus.raw(file_id)
    print(text)


## Procesamiento de archivos XML:
- XMLCorpusReader(directorio, 'patrón'): Procesamiento de archivos XML.

In [None]:
from nltk.corpus import XMLCorpusReader
corpus_root = '/ruta/al/directorio'
corpus = XMLCorpusReader(corpus_root, '.*\.xml')
print(corpus.fileids())


## Procesamiento de archivos CSV:
- CSVCorpusReader(archivo): Lectura de archivos CSV.

In [None]:
from nltk.corpus import CSVCorpusReader
corpus_root = '/ruta/al/archivo.csv'
corpus = CSVCorpusReader(corpus_root)
for row in corpus:
    print(row)


## Generación de n-gramas:
- ngrams(tokens, n): Genera n-gramas (secuencias de n palabras consecutivas) a partir de una lista de tokens.

In [None]:
from nltk.util import ngrams
from nltk.tokenize import word_tokenize

text = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(text)
bigrams = ngrams(tokens, 2)
for bigram in bigrams:
    print(bigram)


## Frequency Distribution Plot:
- FreqDist(tokens).plot(): Gráfico de la distribución de frecuencia de palabras.

In [None]:
from nltk import FreqDist, word_tokenize
import matplotlib.pyplot as plt

text = "NLTK es una biblioteca de Python para el procesamiento de lenguaje natural."
tokens = word_tokenize(text)
freq_dist = FreqDist(tokens)
freq_dist.plot(30, cumulative=False)
plt.show()

## Similaridad de palabras:
- path_similarity(synset1, synset2): Calcula la similaridad de caminos entre dos synsets.
- wup_similarity(synset1, synset2): Calcula la similaridad Wu-Palmer entre dos synsets.

In [None]:
from nltk.corpus import wordnet
word1 = wordnet.synset('car.n.01')
word2 = wordnet.synset('bike.n.01')
similarity = word1.path_similarity(word2)
print(similarity)


## Morphological Analysis:
- morphy(palabra, pos='n'): Realiza análisis morfológico en una palabra.

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
word = "running"
lemma = lemmatizer.lemmatize(word, pos='v')
print(lemma)


## Text Classification:
- NaiveBayesClassifier.train(datos_entrenamiento): Entrenamiento de un clasificador de texto usando el algoritmo Naive Bayes.

In [None]:
from nltk.classify import NaiveBayesClassifier
from nltk.tokenize import word_tokenize

def document_features(document):
    features = {}
    for word in word_tokenize(document):
        features[word] = True
    return features

training_data = [("NLTK is a Python library for natural language processing.", "positive"),
                 ("I found NLTK documentation very helpful.", "positive"),
                 ("The NLTK book is a great resource.", "positive"),
                 ("I am struggling with NLTK installation.", "negative"),
                 ("I can't understand NLTK's API.", "negative")]
featuresets = [(document_features(text), label) for (text, label) in training_data]
classifier = NaiveBayesClassifier.train(featuresets)
text_to_classify = "I am trying to learn NLTK."
print(classifier.classify(document_features(text_to_classify)))
