In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/maferdata/poem_wordsworth.txt
/kaggle/input/maferdata/example1.txt
/kaggle/input/maferdata/airline_tweets.csv


# **EJERCICIO 2 - Python Text Analysis: Preprocessing 👩🏻‍💻📉📈**

**GRUPO 9:**
* Jonathan Diego Álvarez
* Juan Carlos Arias
* María Fernanda Pacheco
* Jairo Joel Siza

**Objetivos de aprendizaje**

1. Aprender los pasos más frecuentes para el preprocesamiento de datos de texto, así como las operaciones específicas para el preprocesamiento de datos de Twitter.
2. Conocer los paquetes de NLP más utilizados y sus capacidades.
3. Comprender los tokenizadores y cómo han cambiado desde la llegada de los Modelos de Lenguaje de Gran tamaño.

**Iconos utilizados en este Notebook**

🔔Pregunta: Una pregunta rápida para ayudar a entender qué está pasando.

🥊Desafío: Ejercicios interactivos. ¡Serán trabajados en el taller!

⚠️Advertencia: Aviso sobre cuestiones complicadas o errores comunes.

🎬Demo: Demostración de algo más avanzado: ¡Así sabrás para qué se puede usar Python! 

**Secciones**

1. Preprocesamiento

En esta serie de talleres seccionados en tres partes, aprenderemos los fundamentos para realizar Análisis de Texto en Python. Estas técnicas se enmarcan en el ámbito del Procesamiento del Lenguaje Natural o *Natural Language Processing* (NLP). El NLP es un campo que se ocupa de la identificación y extracción de patrones del lenguaje, principalmente en textos escritos.
A lo largo de la serie de talleres, interactuaremos con diversos paquetes para realizar análisis de texto: empezando desde métodos de cadenas simples hasta paquetes de NLP específicos, como nltk, spaCy, y los Modelos de Lenguaje de Gran tamaño o Large Language Models (LLM) más recientes (BERT).

Ahora, instalemos correctamente estos paquetes antes de profundizar en el material.

In [2]:
#Descomente las siguientes líneas para instalar paquetes/modelos
%pip install NLTK
%pip install transformers
%pip install spaCy
!python -m spacy download en_core_web_sm

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Collecting en-core-web-sm==3.7.1
  Using cached https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


# Preprocesamiento

En la Parte #1 de este taller conoceremos el primer paso del análisis de texto. Nuestro objetivo es convertir los datos de texto puros y desordenados (sin procesar) a un formato consistente. A este proceso a menudo se le denomina preprocesamiento, limpieza de texto o normalización de texto.

Te darás cuenta que al final del preprocesamiento nuestros datos todavía están en un formato que podemos leer y comprender.

En las Partes #2 y #3, comenzaremos nuestra incursión en la conversión de datos de texto en una *representación numérica* (un formato que las computadoras pueden manejar más fácilmente).

🔔Pregunta: Hagamos una pausa por un minuto para reflexionar sobre nuestras experiencias previas trabajando con datos de texto.
* ¿Cuál es el formato de los datos de texto con los que has interactuado (texto plano, CSV o XML)?
* ¿De dónde provienen (corpus estructurado, datos extraídos de la web, datos de encuestas)?
* ¿Están desordenados (es decir, los datos están formateados de manera consistente)?

# Procesos comunes

El preprocesamiento no es algo que podemos lograr con una sola línea de código. A menudo, empezamos familiarizándonos con los datos y, a lo largo del camino, obtenemos una comprensión más clara de la granularidad del preprocesamiento que queremos aplicar.

Normalmente, comenzamos aplicando un conjunto de procesos comúnmente usados para limpiar los datos. Estas operaciones no alteran sustancialmente la forma ni el significado de los datos; sirven como un procedimiento estandarizado para reorganizar los datos en un formato consistente.

Los siguientes procesos, por ejemplo, son comúnmente aplicados para preprocesar textos en inglés de diversos géneros. Estas operaciones se pueden realizar utilizando funciones integradas de Python como: métodos de cadena y expresiones regulares.

* Poner el texto en minúsculas
* Eliminar signos de puntuación
* Eliminar espacios en blanco adicionales
* Eliminar palabras vacías

Después del procesamiento inicial, podemos optar por realizar procesos específicos para la tarea, cuyos detalles a menudo dependen de la tarea posterior que queremos realizar y de la naturaleza de los datos textuales (es decir, sus características estilísticas y lingüísticas).

¡Antes de profundizar en estas operaciones, echemos un vistazo a nuestros datos!

# Importar los datos de texto

Los datos de texto con los que trabajaremos están en un archivo CSV. Estos datos contienen tweets sobre aerolíneas Estadounidenses, extraídos de febrero del 2015.

Leamos el archivo *airline_tweets.csv* dentro del dataframe con la biblioteca *pandas*.

In [3]:
# Importa pandas
import pandas as pd

#Ruta del archivo que contiene los datos
csv_path = '/kaggle/input/maferdata/airline_tweets.csv'

#Especifica el separador
tweets = pd.read_csv(csv_path, sep=',')

In [4]:
#Muestra las primeras cinco filas
tweets.head()

  has_large_values = (abs_vals > 1e6).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()


Unnamed: 0,tweet_id,airline_sentiment,airline_sentiment_confidence,negativereason,negativereason_confidence,airline,airline_sentiment_gold,name,negativereason_gold,retweet_count,text,tweet_coord,tweet_created,tweet_location,user_timezone
0,570306133677760513,neutral,1.0,,,Virgin America,,cairdin,,0,@VirginAmerica What @dhepburn said.,,2015-02-24 11:35:52 -0800,,Eastern Time (US & Canada)
1,570301130888122368,positive,0.3486,,0.0,Virgin America,,jnardino,,0,@VirginAmerica plus you've added commercials t...,,2015-02-24 11:15:59 -0800,,Pacific Time (US & Canada)
2,570301083672813571,neutral,0.6837,,,Virgin America,,yvonnalynn,,0,@VirginAmerica I didn't today... Must mean I n...,,2015-02-24 11:15:48 -0800,Lets Play,Central Time (US & Canada)
3,570301031407624196,negative,1.0,Bad Flight,0.7033,Virgin America,,jnardino,,0,@VirginAmerica it's really aggressive to blast...,,2015-02-24 11:15:36 -0800,,Pacific Time (US & Canada)
4,570300817074462722,negative,1.0,Can't Tell,1.0,Virgin America,,jnardino,,0,@VirginAmerica and it's a really big bad thing...,,2015-02-24 11:14:45 -0800,,Pacific Time (US & Canada)


El dataframe tiene una fila por tweet. El texto del tweet se muestra en la columna ***texto***.

* text (str): el texto del tweet.

Otros metadatos que nos interesan incluyen:

* airline_sentiment (str): el sentimiento del tweet etiquetado como "neutral", "positivo", o "negativo".
* airline (str): la aerolínea sobre la que se tuitea.
* retweet count (int): cuántas veces se retuiteó el tweet.

Echemos un vistazo a algunos de los tweets:

In [5]:
print(tweets['text'].iloc[0])
print(tweets['text'].iloc[1])
print(tweets['text'].iloc[2])

@VirginAmerica What @dhepburn said.
@VirginAmerica plus you've added commercials to the experience... tacky.
@VirginAmerica I didn't today... Must mean I need to take another trip!


🔔Pregunta: ¿Qué has notado? ¿Cuáles son las características estilísticas de los tweets?

# Lowercasing / Minúsculas

Si bien reconocemos que el uso de mayúsculas y minúsculas de una palabra es informativo, a menudo no trabajamos en contextos donde podamos utilizar adecuadamente esta información.

Con mayor frecuencia, el análisis posterior que realizamos no distingue entre mayúsculas y minúsculas. Por ejemplo, en el análisis de frecuencia, queremos tener en cuenta las diversas formas de una misma palabra. Poner los datos de texto en minúsculas ayuda en este proceso y simplifica nuestro análisis.

Podemos lograr fácilmente la conversión a minúsculas con el método de cadena ***.lower()***; consulta la documentación para obtener funciones más útiles.

Apliquémoslo al siguiente ejemplo:

In [6]:
#Imprime el primer ejemplo.
first_example = tweets['text'][108]
print(first_example)

@VirginAmerica I was scheduled for SFO 2 DAL flight 714 today. Changed to 24th due weather. Looks like flight still on?


In [7]:
#Comprueba si todos los caracteres están en minúsculas
print(first_example.islower())
print(f"{'=' * 50}")

#Convierte a minúsculas
print(first_example.lower())
print(f"{'=' * 50}")

#Convierte a mayúsculas
print(first_example.upper())

False
@virginamerica i was scheduled for sfo 2 dal flight 714 today. changed to 24th due weather. looks like flight still on?
@VIRGINAMERICA I WAS SCHEDULED FOR SFO 2 DAL FLIGHT 714 TODAY. CHANGED TO 24TH DUE WEATHER. LOOKS LIKE FLIGHT STILL ON?


# Eliminar caracteres de espacio en blanco adicionales #

A veces podemos encontrarnos con textos que contienen extraños espacios en blanco, como por ejemplo: espacios, tabulaciones y caracteres de nueva línea, lo cual es particularmente común cuando el texto se extrae de páginas web. Antes de profundizar en los detalles, presentemos brevemente las Expresiones Regulares **(regex)** y el paquete **re**.

Las expresiones regulares son una forma poderosa de buscar patrones de cadenas específicos en grandes corpus. Tienen una curva de aprendizaje infamemente pronunciada, pero pueden ser muy eficientes cuando los dominamos. Muchos paquetes de NLP dependen en gran medida de expresiones regulares. Los testers de expresiones regulares, como **regex101**, son herramientas útiles tanto para comprender como para crear expresiones regulares.

Nuestro objetivo en este taller no es profundizar en las expresiones regulares, ni siquiera verlas superficialmente; por el contrario, queremos exponértelos para que estés mejor preparado para realizar un análisis en profundidad en el futuro.

El siguiente ejemplo es un poema de William Wordsworth. Como muchos poemas, el texto puede contener saltos de línea adicionales (es decir, caracteres de nueva línea, **\n**) que queremos eliminar.

In [8]:
#Ruta del archivo que contiene el poema
text_path = '/kaggle/input/maferdata/poem_wordsworth.txt'

#Lee el poema en
with open(text_path, 'r') as file:
    text = file.read()
    file.close()

Como puedes ver, el formato del poema es como una cadena continua de texto con saltos de línea al final de cada línea, lo que dificulta su lectura.

In [9]:
text

"I wandered lonely as a cloud\n\n\nI wandered lonely as a cloud\nThat floats on high o'er vales and hills,\nWhen all at once I saw a crowd,\nA host, of golden daffodils;\nBeside the lake, beneath the trees,\nFluttering and dancing in the breeze.\n\nContinuous as the stars that shine\nAnd twinkle on the milky way,\nThey stretched in never-ending line\nAlong the margin of a bay:\nTen thousand saw I at a glance,\nTossing their heads in sprightly dance.\n\nThe waves beside them danced; but they\nOut-did the sparkling waves in glee:\nA poet could not but be gay,\nIn such a jocund company:\nI gazed—and gazed—but little thought\nWhat wealth the show to me had brought:\n\nFor oft, when on my couch I lie\nIn vacant or in pensive mood,\nThey flash upon that inward eye\nWhich is the bliss of solitude;\nAnd then my heart with pleasure fills,\nAnd dances with the daffodils."

Una función útil que podemos usar para mostrar el poema correctamente es ***.splitlines()***. Como su nombre lo indica, divide una secuencia larga de texto en una lista de líneas, siempre que haya un carácter de nueva línea.

In [10]:
#Divide la cadena única en una lista de líneas
text.splitlines()

['I wandered lonely as a cloud',
 '',
 '',
 'I wandered lonely as a cloud',
 "That floats on high o'er vales and hills,",
 'When all at once I saw a crowd,',
 'A host, of golden daffodils;',
 'Beside the lake, beneath the trees,',
 'Fluttering and dancing in the breeze.',
 '',
 'Continuous as the stars that shine',
 'And twinkle on the milky way,',
 'They stretched in never-ending line',
 'Along the margin of a bay:',
 'Ten thousand saw I at a glance,',
 'Tossing their heads in sprightly dance.',
 '',
 'The waves beside them danced; but they',
 'Out-did the sparkling waves in glee:',
 'A poet could not but be gay,',
 'In such a jocund company:',
 'I gazed—and gazed—but little thought',
 'What wealth the show to me had brought:',
 '',
 'For oft, when on my couch I lie',
 'In vacant or in pensive mood,',
 'They flash upon that inward eye',
 'Which is the bliss of solitude;',
 'And then my heart with pleasure fills,',
 'And dances with the daffodils.']

Volvamos a nuestros datos de tweets para ver un ejemplo.

In [11]:
#Imprime el segundo ejemplo
second_example = tweets['text'][5]
second_example

"@VirginAmerica seriously would pay $30 a flight for seats that didn't have this playing.\nit's really the only bad thing about flying VA"

En este caso, no queremos dividir el tweet en una lista de cadenas. Todavía esperamos una sola cadena de texto, pero nos gustaría eliminar completamente el salto de línea de la cadena.

El método de cadena ***.strip()*** realiza efectivamente el trabajo de quitar los espacios en ambos extremos del texto. Sin embargo, no funcionará en nuestro ejemplo, ya que el carácter de nueva línea está en medio de la cadena.


In [12]:
#.Strip() solo eliminó los espacios en blanco en ambos extremos
second_example.strip()

"@VirginAmerica seriously would pay $30 a flight for seats that didn't have this playing.\nit's really the only bad thing about flying VA"

Aquí es donde las expresiones regulares pueden ser realmente útiles.

In [13]:
import re

Ahora bien, con expresiones regulares, esencialmente las estamos utilizando para hacer coincidir un patrón que hemos identificado en los datos de texto, y queremos realizar algunas operaciones sobre la parte coincidente: extraerla, reemplazarla por algo más o eliminarla completamente. Por lo tanto, la forma en que funciona **regex** se puede desglosar en los siguientes pasos:

* Identificar y escribir el patrón en expresión regular Identificar y escribir el patrón en expresión regular  (r'PATTERN')
* Escribir el reemplazo para el patrón ('REPLACEMENT')
* Llamar a la función regex específica (por ejemplo: **re.sub()**)

En nuestro ejemplo, el patrón que buscamos es ***\s***, que es la expresión regular abreviada para cualquier espacio en blanco (incluídos ***\n*** y ***\t***). También añadimos un cuantificador **+** al final: ***\s+***. Esto significa que queremos capturar una o más ocurrencias del carácter espacio en blanco. 

In [14]:
#Escribe un patrón en expresiones regulares
blankspace_pattern = r'\s+'

El reemplazo de uno o más espacios en blanco es exactamente un solo espacio, que es el límite canónico de una palabra en inglés. Cualquier espacio adicional se reducirá a un solo espacio en blanco.

In [15]:
#Escribe un reemplazo para el patrón identificado.
blankspace_repl = ' '


Finalmente, combinamos todo usando la función ***re.sub()***, lo que significa que queremos sustituir un patrón por un reemplazo. La función acepta tres argumentos: el patrón, el reemplazo y la cadena a la que queremos aplicar la función.

In [16]:
#Reemplace los espacios en blanco con ' '
clean_text = re.sub(pattern = blankspace_pattern, 
                    repl = blankspace_repl, 
                    string = second_example)
print(clean_text)

@VirginAmerica seriously would pay $30 a flight for seats that didn't have this playing. it's really the only bad thing about flying VA


¡Ta-da! El carácter de nueva línea ya no está.

# Eliminar signos de puntuación #

A veces solo nos interesa analizar caracteres alfanuméricos (es decir, letras y números), en cuyo caso podríamos querer eliminar los signos de puntuación.

El módulo ***string*** contiene una lista de signos de puntuación predefinidos. ¡Vamos a imprimirlos!

In [17]:
#Carga una lista predefinida de signos de puntuación
from string import punctuation
print(punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


En la práctica, para eliminar estos caracteres de puntuación, podemos simplemente iterar sobre el texto y eliminar los caracteres que se encuentran en la lista, como se muestra a continuación en la función **remove_punct**.

In [18]:
def remove_punct(text):
    '''Eliminar signos de puntuación en el texto de entrada'''
    
    #Selecciona caracteres que no estén en puntuación
    no_punct = []
    for char in text:
        if char not in punctuation:
            no_punct.append(char)

    #Une los caracteres en una cadena
    text_no_punct = ''.join(no_punct)   
    
    return text_no_punct

Apliquemos la función al ejemplo siguiente.

In [19]:
#Imprime el tercer ejemplo
third_example = tweets['text'][20]
print(third_example)
print(f"{'=' * 50}")

# Aplica la función
remove_punct(third_example)

@VirginAmerica why are your first fares in May over three times more than other carriers when all seats are available to select???


'VirginAmerica why are your first fares in May over three times more than other carriers when all seats are available to select'

Vamos a intentarlo con otro tweet. ¿Qué has notado?

In [20]:
#Imprime otro tweet
print(tweets['text'][100])
print(f"{'=' * 50}")

#Aplica la función
remove_punct(tweets['text'][100])

@VirginAmerica trying to add my boy Prince to my ressie. SF this Thursday @VirginAmerica from LAX http://t.co/GsB2J3c4gM


'VirginAmerica trying to add my boy Prince to my ressie SF this Thursday VirginAmerica from LAX httptcoGsB2J3c4gM'

¿Qué tal el siguiente ejemplo?

In [21]:
#Imprime un texto con contracción
contraction_text = "We've got quite a bit of punctuation here, don't we?!? #Python @D-Lab."

#Aplica la función
remove_punct(contraction_text)

'Weve got quite a bit of punctuation here dont we Python DLab'

⚠️ Advertencia: En muchos casos, queremos eliminar los signos de puntuación después de la tokenización, lo cual discutiremos en breve. ¡Esto nos indica que el orden de preprocesamiento es un asunto de importancia!

# 🥊Desafío 1: Preprocesamiento con múltiples pasos #

Hasta ahora hemos aprendido algunas operaciones de preprocesamiento, ¡Vamos a juntarlas en una función! Esta función sería muy útil si trabajas con datos de texto en inglés desordenados y deseas preprocesarlos con una sola función.

Los datos de texto de ejemplo para el desafío 1 se muestran a continuación. Escriba una función para:

* Poner el texto en minúsculas
* Eliminar signos de puntuación
* Eliminar espacios en blanco adicionales

¡Siéntete libre de reciclar los códigos que hemos usado arriba!

In [22]:
challenge1_path = '/kaggle/input/maferdata/example1.txt'

with open(challenge1_path, 'r') as file:
    challenge1 = file.read()
    
print(challenge1)



This is a text file that has some extra blankspace at the start and end. Blankspace is a catch-all term for spaces, tabs, newlines, and a bunch of other things that computers distinguish but to us all look like spaces, tabs and newlines.


The Python method called "strip" only catches blankspace at the start and end of a string. But it won't catch it in       the middle,		for example,

in this sentence.		Once again, regular expressions will

help		us    with this.





In [23]:
def clean_text(text):

    # Paso 1: Lowercase / Minúsculas
    text= text.lower()
    
    # Paso 2: Utilice remove_punct para eliminar signos de puntuación
    text = remove_punct(text)

    # Paso 3: Eliminar caracteres de espacio en blanco adicionales
    text = re.sub(pattern = blankspace_pattern, 
                    repl = blankspace_repl, 
                    string = text)

    return text

In [24]:
# Descomente para aplicar la función anterior al texto del desafío 1
clean_text(challenge1)

' this is a text file that has some extra blankspace at the start and end blankspace is a catchall term for spaces tabs newlines and a bunch of other things that computers distinguish but to us all look like spaces tabs and newlines the python method called strip only catches blankspace at the start and end of a string but it wont catch it in the middle for example in this sentence once again regular expressions will help us with this '

# Procesos para tareas específicas #

Ahora que comprendemos las operaciones comunes de preprocesamiento, aún quedan algunas operaciones adicionales por considerar. Nuestros datos de texto podrían requerir una mayor normalización dependiendo del idioma, la fuente y el contenido de los datos.

Por ejemplo, si trabajamos con documentos financieros, podríamos querer estandarizar los símbolos monetarios convirtiéndolos en dígitos. En nuestros datos de tweets, hay numerosos hashtags y URLs. Estos se pueden reemplazar con marcadores de posición para simplificar el análisis posterior.

# 🎬 Demo: Eliminar Hashtags y URLs #

A pesar de que las URLs, hashtags y los números son informativos por sí mismos, muchas veces no nos importa necesariamente el significado exacto de cada uno de ellos.

Si bien podríamos eliminarlos completamente, a menudo es informativo saber que **existe** una URL o un hashtag. En la práctica, reemplazamos las URLs y los hashtags individuales por un "símbolo" que preserva el hecho de que estas estructuras existen en el texto. Es común usar las cadenas "URL" y "HASHTAG" para representarlas.

Dado que estos tipos de texto suelen seguir una estructura regular, son un caso adecuado para usar expresiones regulares. ¡Vamos a aplicar estos patrones a los datos de los tweets!

In [25]:
# Imprime el tweet de ejemplo
url_tweet = tweets['text'][13]
print(url_tweet)

@VirginAmerica @virginmedia I'm flying your #fabulous #Seductive skies again! U take all the #stress away from travel http://t.co/ahlXHhKiyn


In [26]:
# URL 
url_pattern = r'(http|ftp|https):\/\/([\w_-]+(?:(?:\.[\w_-]+)+))([\w.,@?^=%&:\/~+#-]*[\w@?^=%&\/~+#-])'
url_repl = ' URL '
re.sub(url_pattern, url_repl, url_tweet)

"@VirginAmerica @virginmedia I'm flying your #fabulous #Seductive skies again! U take all the #stress away from travel  URL "

In [27]:
# Hashtag
hashtag_pattern = r'(?:^|\s)[＃#]{1}(\w+)'
hashtag_repl = ' HASHTAG '
re.sub(hashtag_pattern, hashtag_repl, url_tweet)

"@VirginAmerica @virginmedia I'm flying your HASHTAG  HASHTAG  skies again! U take all the HASHTAG  away from travel http://t.co/ahlXHhKiyn"