# Python Text Analysis: Part 1 Solutions

In [None]:
import pandas as pd
import os
import re
import nltk
import spacy

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from string import punctuation

In [None]:
# Import pandas
import pandas as pd

# Use pandas to import Tweets
csv_path = '../data/airline_tweets.csv'
tweets = pd.read_csv(csv_path, sep=',')

## 🥊 Desafío 1: Preprocesamiento con múltiples pasos

Hasta ahora hemos aprendido algunas operaciones de preprocesamiento. ¡Combinémoslas en una función! Esta función te resultará útil si trabajas con datos de texto en inglés confusos y quieres preprocesarlos con una sola función.

Se han leído los datos de texto de ejemplo del desafío 1. Escribe una función para:
- Convertir el texto en minúsculas
- Eliminar los signos de puntuación
- Eliminar los espacios en blanco adicionales

¡Puedes reciclar el código que usamos anteriormente!

**Explicación del Código**
* Este código abre un archivo de texto, lee su contenido completo y lo imprime en pantalla.

In [20]:
import re
challenge1_path = '../data/example1.txt'

with open(challenge1_path, 'r') as file:
    challenge1 = file.read()
    
print(challenge1)



This is a text file that has some extra blankspace at the start and end. Blankspace is a catch-all term for spaces, tabs, newlines, and a bunch of other things that computers distinguish but to us all look like spaces, tabs and newlines.


The Python method called "strip" only catches blankspace at the start and end of a string. But it won't catch it in       the middle,		for example,

in this sentence.		Once again, regular expressions will

help		us    with this.





**Explicación del Código**
- Esta función borra todos los signos de puntuación del texto, dejando solo letras, números y espacios.

- **Explicación paso a paso**
    * from string import punctuation
        - Importa una constante llamada punctuation, que contiene todos los caracteres de puntuación comunes:
        - !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
    * Definición de la función remove_punct(text)
        - Entrada: una cadena de texto.
        - Proceso:
            - Recorre cada carácter del texto (for char in text).
            - Si ese carácter no está en la lista de punctuation, lo guarda en la lista no_punct.
        - Salida: devuelve un nuevo texto (text_no_punct) formado al unir (''.join) todos los caracteres sin puntuación.
    * Resultado: obtienes el texto original pero sin ningún signo de puntuación.

In [21]:
from string import punctuation

def remove_punct(text):
    '''Remove punctuation marks in input text'''
    
    # Select characters not in puncutaion
    no_punct = []
    for char in text:
        if char not in punctuation:
            no_punct.append(char)

    # Join the characters into a string
    text_no_punct = ''.join(no_punct)   
    
    return text_no_punct

**Explicación del Código**

Ese código implementa una función de limpieza de texto básica en NLP 🧹. Convierte el texto a minúsculas, elimina la puntuación y normaliza los espacios en blanco.
- Explicación:
    
    1 Expresión regular para espacios: blankspace_pattern = r'\s+'
    - \s = cualquier espacio en blanco (espacios, tabs, saltos de línea).
    - (+) = uno o más.
    + 👉 Este patrón detecta cualquier secuencia de espacios en blanco repetidos.
            
    2 Texto de reemplazo:
    - blankspace_repl = ' '
    - Significa que cada secuencia de espacios será reemplazada por un solo espacio.

    3 Función clean_text:
    - Paso 1: text.lower() - Convierte todo a minúsculas → uniformidad.
    - Paso 2: remove_punct(text) - Elimina signos de puntuación (usa la función que definiste antes).
    - Paso 3: 
        - re.sub(...): reemplaza secuencias de espacios (múltiples) por uno solo.
        - .strip(): quita espacios al inicio y al final.
    
    4 Devuelve el texto limpio ✅
    5 Ejecuta la limpieza sobre challenge1, que es el texto que leíste desde tu archivo example1.txt.

🧪 Ejemplo práctico
- Si challenge1 = "Hola!!! Mundo, Esto es una PRUEBA..."
    - print(clean_text(challenge1))
- Salida:
    - hola mundo esto es una prueba

In [23]:
# Write a pattern in regex
blankspace_pattern = r'\s+'

# Write a replacement for the pattern identfied
blankspace_repl = ' '

def clean_text(text):

    # Step 1: Lowercase the input text
    text = text.lower()

    # Step 2: Use remove_punct to remove puncutuation marks
    text = remove_punct(text)

    # Step 3: Remove extra whitespace characters
    text = re.sub(blankspace_pattern, blankspace_repl, text)
    text = text.strip()
    
    return text
    
clean_text(challenge1)

'this is a text file that has some extra blankspace at the start and end blankspace is a catchall term for spaces tabs newlines and a bunch of other things that computers distinguish but to us all look like spaces tabs and newlines the python method called strip only catches blankspace at the start and end of a string but it wont catch it in the middle for example in this sentence once again regular expressions will help us with this'

📌 # **Función clean_text**

* Función para:
    * Convertir el texto a minúsculas
    * Eliminar los signos de puntuación
    * Eliminar los espacios en blanco adicionales

In [19]:
import re

# patrones para limpiar
blankspace_pattern = r'\s+'
blankspace_repl = " "

def remove_punct(text):
    return re.sub(r'[^\w\s]', '', text)

def clean_text(text):
    # Step 1: lowercase
    text = text.lower()
    
    # Step 2: remove punctuation
    text = remove_punct(text)
    
    # Step 3: remove extra whitespace
    text = re.sub(blankspace_pattern, blankspace_repl, text)
    text = text.strip()
    
    return text

# Ejemplo de uso
challenge1 = "Hola!!!   Mundo,   esto es   una   PRUEBA..."
print(clean_text(challenge1))


hola mundo esto es una prueba


## 🥊 Desafío 2: Eliminar palabras vacías

Ya sabemos cómo funcionan `nltk` y `spaCy` como paquetes de PLN. También hemos demostrado cómo identificar palabras vacías con cada paquete.

Escribamos **dos** funciones para eliminar palabras vacías de nuestros datos de texto.

- Completar la función para eliminar palabras vacías usando `nltk`
- El código inicial requiere dos argumentos: la entrada de texto sin formato y una lista de palabras vacías predefinidas.
- Completar la función para eliminar palabras vacías usando `spaCy`
- El código inicial requiere un argumento: la entrada de texto sin formato.

Un recordatorio antes de empezar: ambas funciones toman texto sin formato como entrada; ¡eso es una señal para realizar primero la tokenización del texto sin formato!

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop = stopwords.words('english')

def remove_stopword_nltk(raw_text, stopword):
    
    # Step 1: Tokenization with nltk
    tokens = word_tokenize(raw_text)
    
    # Step 2: Filter out tokens in the stop word list
    text = [token for token in tokens if token not in stopword]
    
    return text

In [None]:
nlp = spacy.load('en_core_web_sm')

def remove_stopword_spacy(raw_text):

    # Step 1: Apply the nlp pipeline
    doc = nlp(raw_text)
    
    # Step 2: Filter out tokens in the stop word list
    text = [token.text for token in doc if token.is_stop is False]

    return text

In [None]:
text = tweets['text'][7]

In [None]:
remove_stopword_nltk(text, stop)

In [None]:
remove_stopword_spacy(text)

📌 Función con NLTK

Para ver la salida se debe ejecutar el programa FuncionNLTK.py

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import ToktokTokenizer
toktok = ToktokTokenizer()

# Descargar recursos si no los tienes aún
nltk.download('punkt')
nltk.download('stopwords')

def remove_stopwords_nltk(text, stop_words):
    """
    Elimina stopwords usando NLTK.
    - text: texto en bruto (string)
    - stop_words: conjunto/lista de stopwords predefinidas
    """
    # Tokenización
    tokens = toktok.tokenize(text.lower())
    
    # Filtrar palabras que no están en stopwords y son alfabéticas
        
    return [t for t in tokens if t.isalpha() and t not in stop_words]

# Ejemplo de uso
stop_words_es = set(stopwords.words('spanish'))
print(remove_stopwords_nltk("Hola, este es un ejemplo de texto para probar NLTK.", stop_words_es))


✅ Salida esperada:


In [46]:
['hola', 'ejemplo', 'texto', 'probar', 'nltk']

['hola', 'ejemplo', 'texto', 'probar', 'nltk']

📌 Función con spaCy

Para ver la salida se debe ejecutar el programa FuncionSpacy.py

In [None]:
import spacy

# Cargar modelo en español (instálalo con: python -m spacy download es_core_news_sm)
nlp = spacy.load("es_core_news_sm")

def remove_stopwords_spacy(text):
    """
    Elimina stopwords usando spaCy.
    - text: texto en bruto (string)
    """
    doc = nlp(text.lower())
    
    # Filtrar tokens que no sean stopwords y sean alfabéticos
    filtered = [token.text for token in doc if not token.is_stop and token.is_alpha]
    
    return filtered

# Ejemplo de uso
print(remove_stopwords_spacy("Hola, este es un ejemplo de texto para probar spaCy."))

✅ Salida esperada:



In [45]:
['hola', 'ejemplo', 'texto', 'probar', 'spacy']

['hola', 'ejemplo', 'texto', 'probar', 'spacy']

## 🥊 Desafío 3: Encuentra el límite de palabras

Ahora que sabemos que la tokenización BERT suele devolver subpalabras, ¡probemos con algunos ejemplos más!

¿Te parece claro el resultado? ¿Cuál crees que es el límite de palabras correcto para dividir las siguientes palabras en subpalabras?

También puedes leer más sobre las limitaciones del algoritmo WordPiece. Por ejemplo, [esta entrada de blog](https://medium.com/@rickbattle/weaknesses-of-wordpiece-tokenization-eb20e37fec99) explica en detalle por qué falla, y [esta](https://tinkerd.net/blog/machine-learning/bert-tokenization/#demo-bert-tokenizer) presenta el mecanismo subyacente del algoritmo.

In [None]:
# Load BERT tokenizer in
from transformers import BertTokenizer

# Initialize the tokenizer 
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

In [None]:
def get_tokens(string):
    '''Tokenzie the input string with BERT'''
    tokens = tokenizer.tokenize(string)
    return print(tokens)

In [None]:
# Abbreviations
get_tokens('dlab')

# OOV
get_tokens('covid')

# Prefix
get_tokens('huggable')

# Digits
get_tokens('378')

# YOUR EXAMPLE