# Tokenizacion
* Es el proceso de dividir un texto en piezas más pequeñas llamadas tokens, que pueden ser palabras, oraciones o incluso caracteres, dependiendo del análisis que queramos hacer. Por ejemplo, si tienes una oración como "El perro corre rápido.", la tokenización por palabras la separaría en ["El", "perro", "corre", "rápido", "."], mientras que la tokenización por oraciones la dividiría en partes más grandes como ["El perro corre rápido."]. Es un paso básico en el procesamiento del lenguaje natural (NLP) porque permite que los algoritmos entiendan y trabajen con el texto en unidades más manejables.

In [1]:
# Recursos necesarios para tokenización

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Diego\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
texto = "¡Hola! ¿Cómo están estimados alumnos del Bootcamp de Ciencia de Datos & IA? Estamos aprendiendo tokenización."

# Tokenización por palabras
tokens_palabras = word_tokenize(texto)
print("Tokenización por palabras:", tokens_palabras)

# Tokenización por oraciones
tokens_oraciones = sent_tokenize(texto)
print("Tokenización por oraciones:", tokens_oraciones)


Tokenización por palabras: ['¡Hola', '!', '¿Cómo', 'están', 'estimados', 'alumnos', 'del', 'Bootcamp', 'de', 'Ciencia', 'de', 'Datos', '&', 'IA', '?', 'Estamos', 'aprendiendo', 'tokenización', '.']
Tokenización por oraciones: ['¡Hola!', '¿Cómo están estimados alumnos del Bootcamp de Ciencia de Datos & IA?', 'Estamos aprendiendo tokenización.']


In [3]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# Recursos necesarios para tokenización
nltk.download('punkt')

texto = "¡Hola! ¿Cómo están estimados alumnos del Bootcamp de Ciencia de Datos & IA? Estamos aprendiendo tokenización."

# Tokenización por palabras
tokens_palabras = word_tokenize(texto)
print("Tokenización por palabras:", tokens_palabras)

# Tokenización por oraciones
tokens_oraciones = sent_tokenize(texto)
print("Tokenización por oraciones:", tokens_oraciones)

Tokenización por palabras: ['¡Hola', '!', '¿Cómo', 'están', 'estimados', 'alumnos', 'del', 'Bootcamp', 'de', 'Ciencia', 'de', 'Datos', '&', 'IA', '?', 'Estamos', 'aprendiendo', 'tokenización', '.']
Tokenización por oraciones: ['¡Hola!', '¿Cómo están estimados alumnos del Bootcamp de Ciencia de Datos & IA?', 'Estamos aprendiendo tokenización.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Diego\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [4]:
with open("d5.txt", "r", encoding="ISO-8859-1") as file:  # Cambia codificacion sea necesario
    texto = file.read()

# Tokenización por palabras
tokens_palabras = word_tokenize(texto)
print("Tokenización por palabras:", tokens_palabras[:20])



Tokenización por palabras: ['Noel', 'De', 'La', 'Torre', ',', 'de', 'sólo', '13', 'años', ',', 'busca', 'convertirse', 'en', 'un', 'referente', 'nacional', 'en', 'la', 'especialidad', '.']


In [5]:
# Tokenización por oraciones
tokens_oraciones = sent_tokenize(texto)
print("Tokenización por oraciones:", tokens_oraciones[:5])


Tokenización por oraciones: ['Noel De La Torre, de sólo 13 años, busca convertirse en un referente nacional en la especialidad.', 'Culminó en la quinta posición del evento en la categoría Pro Junior.', 'Pudo haber sido un mejor día, pero los imprevistos afectaron el paso a la semifinal del Héroes de Mayo Pro 2019 en la categoría Pro junior a Noel De La Torre.', 'El oriundo de Maitencillo, considerado como un verdadero astro del surf en el ambiente nacional, rompió su tabla en medio de los 20 minutos de competencia del heat que daba el paso a las semifinales del torneo.', 'Fatal suerte, porque los expertos auguraban al menos una final para el \x93Niño Maravilla\x94 del surf chileno.']


# Stopwords
* 
Las stopwords son palabras muy comunes en un idioma, como "el", "la", "de", "y", "en", que aparecen con mucha frecuencia pero no aportan mucho significado al análisis de un texto. Por ejemplo, si estás analizando opiniones o reseñas, estas palabras suelen ser eliminadas para enfocarte en las palabras realmente importantes, como "excelente", "malo", "rápido" o "lento". En resumen, las stopwords nos ayudan a limpiar el texto y a simplificar el análisis, quitando las palabras que no son relevantes para el objetivo del estudio.

In [6]:
# Cargar stopwords desde un archivo
with open("stopwords-es.txt", "r", encoding="utf-8") as file:
    stopwords = set(file.read().splitlines()) 

# Ejemplo de texto
tokens = ["El", "producto", "es", "muy", "bueno", "y", "llegó", "rápido"]

# Filtrar tokens eliminando las stopwords
tokens_sin_stopwords = [word for word in tokens if word.lower() not in stopwords]

print("Tokens sin stopwords:", tokens_sin_stopwords)


Tokens sin stopwords: ['producto', 'rápido']


In [7]:
# Aplicamos stopwords al archivo de texto d5
# Cargar stopwords desde un archivo
with open("stopwords-es.txt", "r", encoding="utf-8") as file:
    stopwords = set(file.read().splitlines())  # Crear un conjunto de stopwords

# Leer el contenido del archivo d5.txt
with open("d5.txt", "r", encoding="ISO-8859-1") as file:  
    texto = file.read()

# Tokenizar el texto
tokens = word_tokenize(texto)

# Filtrar las stopwords
tokens_sin_stopwords = [word for word in tokens if word.lower() not in stopwords]

# Unir las palabras filtradas en un texto limpio
texto_limpio = " ".join(tokens_sin_stopwords)

print("Tokens sin stopwords:", tokens_sin_stopwords[:20])  # Mostrar los primeros 20 tokens sin stopwords
print("\nTexto limpio:\n", texto_limpio[:200])  # Mostrar los primeros 200 caracteres del texto limpio


Tokens sin stopwords: ['Noel', 'Torre', ',', '13', 'años', ',', 'busca', 'convertirse', 'referente', 'nacional', 'especialidad', '.', 'Culminó', 'quinta', 'posición', 'evento', 'categoría', 'Pro', 'Junior', '.']

Texto limpio:
 Noel Torre , 13 años , busca convertirse referente nacional especialidad . Culminó quinta posición evento categoría Pro Junior . , imprevistos afectaron paso semifinal Héroes Mayo Pro 2019 categoría P


# Lematizacion
* Es el proceso de transformar las palabras en su forma base o "lema", considerando su significado y contexto. Por ejemplo, "corriendo", "corrió" y "corren" se lematizan como "correr". Es útil para reducir la complejidad del texto y trabajar con formas únicas de palabras.

In [8]:
# Importar libreria necesaria
import spacy
# Cargar el modelo en español
nlp = spacy.load("es_core_news_sm")

In [9]:
# Texto de ejemplo
texto = "Los estudiantes están corriendo y aprendiendo mucho durante las clases."

# Procesar el texto con SpaCy
doc = nlp(texto)

# Extraer tokens originales y lemas
tokens_originales = [token.text for token in doc]
tokens_lema = [token.lemma_ for token in doc]

# Mostrar resultados en el formato deseado
print("Tokens originales:", tokens_originales)
print("Tokens lematizados:", tokens_lema)


Tokens originales: ['Los', 'estudiantes', 'están', 'corriendo', 'y', 'aprendiendo', 'mucho', 'durante', 'las', 'clases', '.']
Tokens lematizados: ['el', 'estudiante', 'estar', 'correr', 'y', 'aprender', 'mucho', 'durante', 'el', 'clase', '.']


In [10]:
# Leer el archivo d5.txt
with open("d5.txt", "r", encoding="ISO-8859-1") as file:
    texto_d5 = file.read()

# Procesar el texto con SpaCy
doc = nlp(texto_d5)

# Extraer tokens originales y lemas
tokens_originales = [token.text for token in doc]
tokens_lema = [token.lemma_ for token in doc]

# Mostrar resultados
print("Tokens originales:", tokens_originales[:20])  # Muestra los primeros 20 tokens
print("Tokens lematizados:", tokens_lema[:20])  # Muestra los primeros 20 lemas


Tokens originales: ['Noel', 'De', 'La', 'Torre', ',', 'de', 'sólo', '13', 'años', ',', 'busca', 'convertirse', 'en', 'un', 'referente', 'nacional', 'en', 'la', 'especialidad', '.']
Tokens lematizados: ['Noel', 'De', 'el', 'Torre', ',', 'de', 'sólo', '13', 'año', ',', 'buscar', 'convertir él', 'en', 'uno', 'referente', 'nacional', 'en', 'el', 'especialidad', '.']


# POS
* El análisis POS (Part-of-Speech) es una forma de identificar el rol gramatical de cada palabra en un texto. Esto significa que clasifica las palabras según su función, como sustantivos, verbos, adjetivos, o adverbios. Por ejemplo, en la frase "El perro corre rápido", el análisis POS nos diría que "perro" es un sustantivo, "corre" es un verbo, y "rápido" es un adverbio. Este proceso es importante porque ayuda a los programas de lenguaje natural a entender mejor el significado de las palabras según el contexto en el que se usan.
![image.png](attachment:image.png)

In [11]:
import spacy

# Cargar el modelo en español
nlp = spacy.load("es_core_news_sm")

In [12]:
# Texto de ejemplo
texto = "María compró una bicicleta nueva ayer y planea ir al parque esta tarde."

# Procesar el texto con SpaCy
doc = nlp(texto)

# Extraer tokens y etiquetas POS
tokens_pos = [(token.text, token.pos_) for token in doc]

# Mostrar los tokens y sus etiquetas POS
print("Tokens y etiquetas POS:")
for token, pos in tokens_pos:
    print(f"{token} - {pos}")


Tokens y etiquetas POS:
María - PROPN
compró - VERB
una - DET
bicicleta - NOUN
nueva - ADJ
ayer - ADV
y - CCONJ
planea - VERB
ir - VERB
al - ADP
parque - NOUN
esta - DET
tarde - NOUN
. - PUNCT


In [13]:
# Leer el archivo d5.txt
with open("d5.txt", "r", encoding="ISO-8859-1") as file:
    texto_d5 = file.read()

# Procesar el texto con SpaCy
doc = nlp(texto_d5)

# Extraer tokens y sus etiquetas POS
tokens_pos = [(token.text, token.pos_) for token in doc]

# Mostrar resultados parciales
print("Tokens y etiquetas POS:")
for token, pos in tokens_pos[:20]:  # Mostrar solo los primeros 20 tokens
    print(f"{token} - {pos}")


Tokens y etiquetas POS:
Noel - PROPN
De - ADP
La - DET
Torre - PROPN
, - PUNCT
de - ADP
sólo - ADV
13 - NUM
años - NOUN
, - PUNCT
busca - VERB
convertirse - VERB
en - ADP
un - DET
referente - NOUN
nacional - ADJ
en - ADP
la - DET
especialidad - NOUN
. - PUNCT


# Chunking
* El chunking es una técnica que agrupa palabras en frases más grandes según su función gramatical en una oración. Por ejemplo, las palabras que forman un sustantivo junto con sus adjetivos y determinantes se agrupan en una frase nominal (como "el perro grande"), mientras que un verbo con sus complementos se agrupa en una frase verbal (como "corre rápidamente"). También podemos identificar frases preposicionales, adjetivales o adverbiales. El objetivo del chunking es analizar cómo las palabras trabajan juntas en estructuras gramaticales más amplias para comprender mejor el significado del texto.
![image.png](attachment:image.png)

In [14]:
import nltk
from nltk import pos_tag, word_tokenize
from nltk.chunk import RegexpParser

# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Diego\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Diego\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [15]:
# Texto de ejemplo
texto = "María compró una bicicleta nueva ayer."

# Tokenizar y etiquetar POS
tokens = word_tokenize(texto)
pos_tags = pos_tag(tokens)

# Definir la gramática para chunking (frases nominales)
gramatica = "NP: {<DT>?<JJ>*<NN>+}"

# Crear el analizador de chunking
chunk_parser = RegexpParser(gramatica)

# Aplicar chunking
chunk_tree = chunk_parser.parse(pos_tags)

# Mostrar los resultados
print("Chunking:")
print(chunk_tree)

Chunking:
(S
  María/NNP
  (NP compró/NN)
  (NP una/JJ bicicleta/NN nueva/NN ayer/NN)
  ./.)


In [16]:
# Leer el archivo d5.txt
with open("d5.txt", "r", encoding="ISO-8859-1") as file:
    texto_d5 = file.read()

# Tokenizar y etiquetar POS
tokens_d5 = word_tokenize(texto_d5)
pos_tags_d5 = pos_tag(tokens_d5)

# Definir gramática para chunking
gramatica = "NP: {<DT>?<JJ>*<NN>+}"

# Crear el analizador de chunking
chunk_parser_d5 = RegexpParser(gramatica)

# Aplicar chunking
chunk_tree_d5 = chunk_parser_d5.parse(pos_tags_d5)

# Mostrar resultados parciales
print("Primeros chunks:")
for subtree in chunk_tree_d5.subtrees(filter=lambda t: t.label() == 'NP'):
    print(subtree)

Primeros chunks:
(NP años/NN)
(NP busca/JJ convertirse/NN)
(NP sido/JJ un/JJ mejor/NN día/NN)
(NP pero/NN los/NN)
(NP imprevistos/JJ afectaron/NN el/NN)
(NP a/DT la/JJ semifinal/JJ del/NN)
(NP en/NN)
(NP considerado/NN como/NN)
(NP un/JJ verdadero/NN astro/NN)
(NP surf/NN)
(NP rompió/JJ su/NN tabla/NN)
(NP medio/NN)
(NP minutos/NN)
(NP heat/NN que/NN daba/NN el/NN)
(NP torneo/NN)
(NP suerte/NN)
(NP porque/JJ los/NN)
(NP expertos/JJ auguraban/NN al/NN)
(NP una/JJ final/JJ para/NN el/NN)
(NP surf/NN chileno/NN)
(NP cuando/NN)
(NP corrió/NN el/NN)
(NP nacional/JJ cuando/NN competía/NN)
(NP contra/JJ la/NN)
(NP armada/JJ brasileña/NN)
(NP a/DT la/NN semi/NN)
(NP y/NN)
(NP puntos/NN)
(NP lo/JJ que/NN auguraba/NN)
(NP un/JJ mejor/NN destino/NN)
(NP el/NN heat/NN)
(NP a/DT una/JJ ola/NN quebró/NN su/NN tabla/NN)
(NP tuvo/NN que/NN)
(NP a/DT la/NN orilla/NN para/NN poder/NN cambiarla/NN)
(NP pérdida/NN)
(NP hizo/NN)
(NP no/DT tener/NN)
(NP margen/NN para/NN recuperar/NN terreno/NN)
(NP a/DT su

# NER
* El NER (Named Entity Recognition), o Reconocimiento de Entidades Nombradas, es una técnica del procesamiento del lenguaje natural que identifica palabras o frases en un texto que corresponden a entidades importantes, como nombres de personas, lugares, organizaciones, fechas, cantidades, entre otras
![image.png](attachment:image.png)

In [17]:
import spacy

# Cargar el modelo en español
nlp = spacy.load("es_core_news_sm")


In [18]:
# Texto de ejemplo
texto = "María trabaja en Google y vive en Santiago desde 2015."

# Procesar el texto con SpaCy
doc = nlp(texto)

# Mostrar las entidades identificadas
print("Entidades reconocidas (NER):")
for ent in doc.ents:
    print(f"Texto: {ent.text}, Tipo: {ent.label_}")

# Opcional: Visualizar las entidades en el texto (requiere Jupyter o entorno compatible)
from spacy import displacy
displacy.render(doc, style="ent")

Entidades reconocidas (NER):
Texto: María, Tipo: MISC
Texto: Google, Tipo: ORG
Texto: Santiago, Tipo: LOC


In [19]:
import es_core_news_sm
from spacy import displacy

def ExtraerEntidades(texto):
   doc = nlp(texto) 
   entities = [NE for NE in doc.ents]
   return(entities)

def FiltrarEntidades(Entidades, tipo_entidad):
   entidades = list()
   for Ent in Entidades:
     if (Ent.label_ == tipo_entidad):
       entidades.append(Ent.text)
   return(entidades)

nlp = es_core_news_sm.load()
texto = open('d5.txt', 'r',encoding="latin1").read()

entidades= ExtraerEntidades(texto)
entidadesTipo = FiltrarEntidades(entidades,'PER')

doc = nlp(texto)
displacy.render(doc, style='ent', jupyter=True)

# Reto semanal

In [20]:
# Importamos las librerías necesarias
import pandas as pd
from nltk.tokenize import word_tokenize
import string


# Leer el dataset
# Reemplaza por la ubicación del conjunto de datos en tu Google Drive
df = pd.read_csv('sample.csv')

# Mostrar las primeras filas del dataset para tener una idea de su estructura
df.head()

Unnamed: 0,tweet_id,author_id,inbound,created_at,text,response_tweet_id,in_response_to_tweet_id
0,119237,105834,True,Wed Oct 11 06:55:44 +0000 2017,@AppleSupport causing the reply to be disregar...,119236.0,
1,119238,ChaseSupport,False,Wed Oct 11 13:25:49 +0000 2017,@105835 Your business means a lot to us. Pleas...,,119239.0
2,119239,105835,True,Wed Oct 11 13:00:09 +0000 2017,@76328 I really hope you all change but I'm su...,119238.0,
3,119240,VirginTrains,False,Tue Oct 10 15:16:08 +0000 2017,@105836 LiveChat is online at the moment - htt...,119241.0,119242.0
4,119241,105836,True,Tue Oct 10 15:17:21 +0000 2017,@VirginTrains see attached error message. I've...,119243.0,119240.0


In [21]:
df['text'] = df['text'].str.lower()
print("Texto en minúsculas:")
print(df['text'].head())

Texto en minúsculas:
0    @applesupport causing the reply to be disregar...
1    @105835 your business means a lot to us. pleas...
2    @76328 i really hope you all change but i'm su...
3    @105836 livechat is online at the moment - htt...
4    @virgintrains see attached error message. i've...
Name: text, dtype: object


In [22]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

# Tokenizar el texto
df['tokens'] = df['text'].apply(word_tokenize)
print("Texto tokenizado:")
print(df[['text', 'tokens']].head())

Texto tokenizado:
                                                text  \
0  @applesupport causing the reply to be disregar...   
1  @105835 your business means a lot to us. pleas...   
2  @76328 i really hope you all change but i'm su...   
3  @105836 livechat is online at the moment - htt...   
4  @virgintrains see attached error message. i've...   

                                              tokens  
0  [@, applesupport, causing, the, reply, to, be,...  
1  [@, 105835, your, business, means, a, lot, to,...  
2  [@, 76328, i, really, hope, you, all, change, ...  
3  [@, 105836, livechat, is, online, at, the, mom...  
4  [@, virgintrains, see, attached, error, messag...  


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Diego\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [23]:
import string

# Eliminar signos de puntuación
df['tokens_clean'] = df['tokens'].apply(lambda x: [word for word in x if word.isalpha()])
print("Tokens sin signos de puntuación:")
print(df[['tokens', 'tokens_clean']].head())


Tokens sin signos de puntuación:
                                              tokens  \
0  [@, applesupport, causing, the, reply, to, be,...   
1  [@, 105835, your, business, means, a, lot, to,...   
2  [@, 76328, i, really, hope, you, all, change, ...   
3  [@, 105836, livechat, is, online, at, the, mom...   
4  [@, virgintrains, see, attached, error, messag...   

                                        tokens_clean  
0  [applesupport, causing, the, reply, to, be, di...  
1  [your, business, means, a, lot, to, us, please...  
2  [i, really, hope, you, all, change, but, i, su...  
3  [livechat, is, online, at, the, moment, https,...  
4  [virgintrains, see, attached, error, message, ...  


In [24]:
# !python -m spacy download en_core_web_sm

In [25]:
import spacy
nlp = spacy.load("en_core_web_sm") 


# Lematizar los tokens
def lematizar(tokens):
    doc = nlp(" ".join(tokens))
    return [token.lemma_ for token in doc]

df['lemmas'] = df['tokens_clean'].apply(lematizar)
print("Tokens lematizados:")
print(df[['tokens_clean', 'lemmas']].head())

Tokens lematizados:
                                        tokens_clean  \
0  [applesupport, causing, the, reply, to, be, di...   
1  [your, business, means, a, lot, to, us, please...   
2  [i, really, hope, you, all, change, but, i, su...   
3  [livechat, is, online, at, the, moment, https,...   
4  [virgintrains, see, attached, error, message, ...   

                                              lemmas  
0  [applesupport, cause, the, reply, to, be, disr...  
1  [your, business, mean, a, lot, to, we, please,...  
2  [I, really, hope, you, all, change, but, I, su...  
3  [livechat, be, online, at, the, moment, https,...  
4  [virgintrains, see, attach, error, message, I,...  
