# PYTHON Text Analysis: Preprocesamiento
### Objetivos de aprendizaje

Aprender los pasos habituales para el preprocesamiento de datos de texto, así como las operaciones específicas para el preprocesamiento de datos de Twitter.
Conocer los paquetes de PNL más utilizados y lo que son capaces de hacer.
Comprender los tokenizadores y cómo han cambiado desde la aparición de los modelos de lenguaje de gran tamaño.

### Secciones
En estos tres talleres, aprenderemos a contruir los componentes básicos para realizar análisis de texto en Python. Estas técnicas pertenecen al ámbito del Procesamiento del Lenguaje Natural (NLP). NLP es un campo que se ocupa de identificar y extraer patrones del lenguaje, principalmente en textos escritos. A lo largo de la serie de talleres, interactuaremos con diversos paquetes para realizar análisis de texto: desde simples métodos de cadenas para paquetes específicos NLP, como *nltk*, *spaCy* y los más recientes sobre Grandes Modelos de Lenguaje (*BERT*).

Ahora, vamos a tener instalados correctamente estos paquetes ante de introducirnos en la materia.

In [28]:
#Instalar los siguientes paquetes/modelos
%pip install NLTK
%pip install transformers
%pip install spaCy
!python -m spacy download en_core_web_sm

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/urllib3/connection.py", line 198, in _new_conn
    sock = connection.create_connection(
  File "/usr/local/lib/python3.10/dist-packages/urllib3/util/connection.py", line 60, in create_connection
    for res in socket.getaddrinfo(host, port, family, socket.SOCK_STREAM):
  File "/usr/lib/python3.10/socket.py", line 955, in getaddrinfo
    for res in _socket.getaddrinfo(host, port, family, type, proto, flags):
socket.gaierror: [Errno -3] Temporary failure in name resolution

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/urllib3/connectionpool.py", line 787, in urlopen
    response = self._make_request(
  Fil

## Preprocesamiento
En esta primera parte, abordaremos el primer paso para el análisis de texto. Nuestro objetivo es convertir los datos de texto en bruto y desordenados en un formato coherente. Este proceso suele denominarse **preprocesamiento, limpieza o normalización de texto.**
Notaras que al final del preprocesamiento, nuestra data aun está en un formato que leer y entender. En la perte 2 y 3, comenzaremos nuestra incursión en la conversión de los datos de texto en una representación numérica, un formato que puede ser más facilmente manejable por los computadores.

**Pregunta:** Vamos a pausar por un minuto para reflexionar sobre tus experiencias previas trabajando con datos de texto.

* ¿Cuál es el formato de los datos de texto con los que ha interactuado (texto sin formato, CSV o XML)?
* ¿De dónde proceden (corpus estructurado, extraídos de la web, datos de encuestas)?
* ¿Están desordenados (es decir, tienen un formato coherente)?

## Procesos Comunes
El preprocesamiento no es algo que podamos lograr con una sola línea de código. A menudo empezamos familiarizándonos con los datos y, sobre en el camino, vamos comprendiendo mejor la granularidad del preprocesamiento que queremos aplicar.
Normalmente, empezamos aplicando un conjunto de procesos de uso común para limpiar los datos. Estas operaciones no alteran sustancialmente la forma o el significado de los datos, sino que sirven como procedimiento normalizado para remodelar los datos en un formato coherente.
El siguiente proceso, por ejemplo, aplicamos habitualmente para procesar textos en ingles de varios generos. Esta operaciones pueden ser realizadas usando funciones en Python, como: métodos **String** y expreciones regulares.
* Poner el texto en minúsculas.
* Eliminar los signos de puntuación.
* Eliminar los espacios en blanco.
* Eliminar las palabras vacías.

Después de iniciar el tratamiento, podemos optar por realizar procesos específicos para cada tarea, cuyos detalles suelen depender de la tarea posterior que queramos realizar y de la naturaleza de los datos textuales (es decir, de sus características estilísticas y lingüísticas).

Antes de iniciar estas operaciones, vamos a revisar nuestros datos.

## Importar los datos de texto
Los datos de texto con los que estaremos trabajando son un archivo CSV. Contiene Tweets sobre aerolíneas estadounidenses, desechados desde febrero del 2015.

Vamos a leer el archivo *airline_tweets.csv* en dataframe con *pandas*.

In [29]:
# Importamos la librería pandas
import pandas as pd

# Ruta de acceso a los datos
csv_path = '/kaggle/input/data-tweets/airline_tweets.csv'

# Especificamos el separador
tweets = pd.read_csv(csv_path, sep=',')

In [30]:
# Mostrar las primero 5 filas
tweets.head()

  has_large_values = (abs_vals > 1e6).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()


Unnamed: 0,tweet_id,airline_sentiment,airline_sentiment_confidence,negativereason,negativereason_confidence,airline,airline_sentiment_gold,name,negativereason_gold,retweet_count,text,tweet_coord,tweet_created,tweet_location,user_timezone
0,570306133677760513,neutral,1.0,,,Virgin America,,cairdin,,0,@VirginAmerica What @dhepburn said.,,2015-02-24 11:35:52 -0800,,Eastern Time (US & Canada)
1,570301130888122368,positive,0.3486,,0.0,Virgin America,,jnardino,,0,@VirginAmerica plus you've added commercials t...,,2015-02-24 11:15:59 -0800,,Pacific Time (US & Canada)
2,570301083672813571,neutral,0.6837,,,Virgin America,,yvonnalynn,,0,@VirginAmerica I didn't today... Must mean I n...,,2015-02-24 11:15:48 -0800,Lets Play,Central Time (US & Canada)
3,570301031407624196,negative,1.0,Bad Flight,0.7033,Virgin America,,jnardino,,0,@VirginAmerica it's really aggressive to blast...,,2015-02-24 11:15:36 -0800,,Pacific Time (US & Canada)
4,570300817074462722,negative,1.0,Can't Tell,1.0,Virgin America,,jnardino,,0,@VirginAmerica and it's a really big bad thing...,,2015-02-24 11:14:45 -0800,,Pacific Time (US & Canada)


El dataframe tiene una fila por tweet. El texto del tweet se muestra en la columna de texto.
* *text* (*str*): el texto del tweet.
Otro metadata que nos interesa incluir:
* *airline_sentiment* (*str*): el sentimiento del tweet, etiquetado como neutral, positivo o negativo.
* *airline* (*str*): la aerolínea de que se menciona en el tweet.
* *retweet count* (*int*): Cuantas veces de retuiteó el tweet.

Veamos algunos de los tweets:

In [4]:
print(tweets['text'].iloc[0])
print(tweets['text'].iloc[1])
print(tweets['text'].iloc[2])

@VirginAmerica What @dhepburn said.
@VirginAmerica plus you've added commercials to the experience... tacky.
@VirginAmerica I didn't today... Must mean I need to take another trip!


## Minúsculas
Reconozcamos que la etiqueta de una palabra es informativa, a menudo no trabajamos en contextos en los que podamos utilizar adecuadamente esta información.

Con mayor frecuencia, el análisis posterior que realizamos no distingue entre mayúsculas y minúsculas. Por ejemplo, en el análisis de frecuencias, queremos tener en cuenta varias formas de la misma palabra. El uso de minúsculas en los datos de texto ayuda en este proceso y simplifica nuestro análisis.

Podemos fácilmente redducir las minúsculas con el método de cadena *.lower()*;  consulte la documentación para ver más funciones útiles.

Vamos a aplicarlo al siguiente ejemplo:


In [5]:
# Print al primer ejemplo
first_example = tweets['text'][108]
print(first_example)

@VirginAmerica I was scheduled for SFO 2 DAL flight 714 today. Changed to 24th due weather. Looks like flight still on?


In [6]:
# Verifica si todos los caracteres entán en minúsculas
print(first_example.islower())
print(f"{'=' * 50}")

# Convierte a minúsculas
print(first_example.lower())
print(f"{'=' * 50}")

# Convierte a mayúsculas
print(first_example.upper())

False
@virginamerica i was scheduled for sfo 2 dal flight 714 today. changed to 24th due weather. looks like flight still on?
@VIRGINAMERICA I WAS SCHEDULED FOR SFO 2 DAL FLIGHT 714 TODAY. CHANGED TO 24TH DUE WEATHER. LOOKS LIKE FLIGHT STILL ON?


## Eliminar espacios en blanco
A veces podemos encontrarnos con textos con espacios en blanco extraños, como espacios, tabuladores y caracteres de nueva línea, algo especialmente habitual cuando el texto procede de páginas web. Antes de entrar en detalles, vamos a presentar brevemente las expresiones regulares (regex) y el paquete *re*.

Las expresiones regulares son un potente método de búsqueda de patrones de cadenas específicos en grandes volúmenes. Tienen una curva de aprendizaje infamemente empinada, pero pueden ser muy eficientes cuando nos hacemos con ellas. Muchos paquetes de NLP se basan en gran medida en regex. Los comprobadores de expresiones regulares, como regex101, son herramientas útiles para comprender y crear expresiones regulares.

Nuestro objetivo en este taller no es proporcionar una inmersión profunda (o incluso superficial) en regex; en su lugar, queremos exponerte a ellos para que estés mejor preparado para hacer inmersiones profundas en el futuro.

El siguiente ejemplo es un poema de William Wordsworth. Como muchos poemas, el texto puede contener saltos de línea adicionales (es decir, caracteres de nueva línea, \n) que queremos eliminar.


In [7]:
# Ruta de acceso a los datos
text_path = '/kaggle/input/data-tweets/poem_wordsworth.txt'

# Lectura del poema 
with open(text_path, 'r') as file:
    text = file.read()
    file.close()

Como puedes ver, el poema está formateado como una cadena continua de texto con saltos de línea al final de cada línea, lo que dificulta su lectura.

In [8]:
text

"I wandered lonely as a cloud\n\n\nI wandered lonely as a cloud\nThat floats on high o'er vales and hills,\nWhen all at once I saw a crowd,\nA host, of golden daffodils;\nBeside the lake, beneath the trees,\nFluttering and dancing in the breeze.\n\nContinuous as the stars that shine\nAnd twinkle on the milky way,\nThey stretched in never-ending line\nAlong the margin of a bay:\nTen thousand saw I at a glance,\nTossing their heads in sprightly dance.\n\nThe waves beside them danced; but they\nOut-did the sparkling waves in glee:\nA poet could not but be gay,\nIn such a jocund company:\nI gazed—and gazed—but little thought\nWhat wealth the show to me had brought:\n\nFor oft, when on my couch I lie\nIn vacant or in pensive mood,\nThey flash upon that inward eye\nWhich is the bliss of solitude;\nAnd then my heart with pleasure fills,\nAnd dances with the daffodils."

Una función útil que podemos utilizar para mostrar el poema correctamente es *splitline().* Como su nombre sugiere, divide una secuencia de texto larga en una lista de líneas siempre que haya un carácter de nueva línea.

In [9]:
# Divide la cadena de texto en líneas
text.splitlines()

['I wandered lonely as a cloud',
 '',
 '',
 'I wandered lonely as a cloud',
 "That floats on high o'er vales and hills,",
 'When all at once I saw a crowd,',
 'A host, of golden daffodils;',
 'Beside the lake, beneath the trees,',
 'Fluttering and dancing in the breeze.',
 '',
 'Continuous as the stars that shine',
 'And twinkle on the milky way,',
 'They stretched in never-ending line',
 'Along the margin of a bay:',
 'Ten thousand saw I at a glance,',
 'Tossing their heads in sprightly dance.',
 '',
 'The waves beside them danced; but they',
 'Out-did the sparkling waves in glee:',
 'A poet could not but be gay,',
 'In such a jocund company:',
 'I gazed—and gazed—but little thought',
 'What wealth the show to me had brought:',
 '',
 'For oft, when on my couch I lie',
 'In vacant or in pensive mood,',
 'They flash upon that inward eye',
 'Which is the bliss of solitude;',
 'And then my heart with pleasure fills,',
 'And dances with the daffodils.']

Volvamos a los datos de nuestros tweets a modo de ejemplo.

In [10]:
# Print al segundo ejemplo
second_example = tweets['text'][5]
second_example

"@VirginAmerica seriously would pay $30 a flight for seats that didn't have this playing.\nit's really the only bad thing about flying VA"

En este caso, en realidad no queremos dividir el tweet en una lista de cadenas. Seguimos esperando una única cadena de texto, pero nos gustaría eliminar por completo el salto de línea de la cadena.

El método string *.strip()* elimina eficazmente los espacios en ambos extremos del texto. Sin embargo, no funcionará en nuestro ejemplo, ya que el carácter de nueva línea está en medio de la cadena.

In [11]:
# Strip sólo ha eliminado el espacio en blanco en ambos extremos
second_example.strip()

"@VirginAmerica seriously would pay $30 a flight for seats that didn't have this playing.\nit's really the only bad thing about flying VA"

Aquí es donde regex podría ser realmente útil.

In [12]:
import re

Ahora, con regex, esencialmente lo estamos llamando para que coincida con un patrón que hemos identificado en los datos de texto, y queremos hacer algunas operaciones a la parte coincidente-extraerla, sustituirla por otra cosa, o eliminarla por completo. Por lo tanto, el funcionamiento de regex podría descomponerse en los siguientes pasos:

* Identificar y escribir el patrón en regex (r'PATTERN')
* Escribir el reemplazo del patrón ('REPLACEMENT')
* Llamar a la función regex específica (por ejemplo, re.sub())

En nuestro ejemplo, el patrón que buscamos es \s, que es la abreviatura regex de cualquier carácter de espacio en blanco (\n y \t incluidos). También añadimos un cuantificador + al final: \s+. Significa que queremos capturar una o más apariciones del carácter de espacio en blanco.

In [14]:
# Escribir un patrón en regex
blankspace_pattern = r'\s+'

El sustituto de uno o más caracteres de espacio en blanco es exactamente un único espacio en blanco, que es el límite canónico de la palabra en inglés. Cualquier espacio en blanco adicional se reducirá a un único espacio en blanco.

In [15]:
# Escribimos un reemplazo para el patrón identificado
blankspace_repl = ' '

Por último, vamos a juntarlo todo utilizando la función re.sub(), que significa que queremos sustituir un patrón por un reemplazo. La función recibe tres argumentos: el patrón, el reemplazo y la cadena a la que queremos aplicar la función.

In [16]:
# Reemplazamos los espacios en blanco con ' '
clean_text = re.sub(pattern = blankspace_pattern, 
                    repl = blankspace_repl, 
                    string = second_example)
print(clean_text)

@VirginAmerica seriously would pay $30 a flight for seats that didn't have this playing. it's really the only bad thing about flying VA


¡Ta-da!El carácter de nueva línea ya no está ahí.

## Eliminar signos de puntuación
A veces sólo nos interesa analizar los caracteres alfanuméricos (es decir, las letras y los números), en cuyo caso es posible que queramos eliminar los signos de puntuación.
El módulo string contiene una lista de signos de puntuación predefinidos. Vamos a imprimirlos.

In [17]:
# Cargamos una lista predefinida de signos de puntuación
from string import punctuation
print(punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


En la práctica, para eliminar estos caracteres de puntuación, podemos simplemente iterar sobre el texto y eliminar los caracteres encontrados en la lista, como se muestra a continuación en la función remove_punct.

In [18]:
def remove_punct(text):
    '''Remove punctuation marks in input text'''
    
    # Selecionar caracteres no puntuables
    no_punct = []
    for char in text:
        if char not in punctuation:
            no_punct.append(char)

    # Unir los caracteres en una cadena
    text_no_punct = ''.join(no_punct)   
    
    return text_no_punct

Vamos aplicar la función al ejemplo siguiente.

In [19]:
# Print al tercer ejemplo
third_example = tweets['text'][20]
print(third_example)
print(f"{'=' * 50}")

# Aplicar la función
remove_punct(third_example)

@VirginAmerica why are your first fares in May over three times more than other carriers when all seats are available to select???


'VirginAmerica why are your first fares in May over three times more than other carriers when all seats are available to select'

Vamos a tratar con otro tweet. ¿Qué has notado?

In [20]:
# Print otro tweet
print(tweets['text'][100])
print(f"{'=' * 50}")

# Aplicamos la función
remove_punct(tweets['text'][100])

@VirginAmerica trying to add my boy Prince to my ressie. SF this Thursday @VirginAmerica from LAX http://t.co/GsB2J3c4gM


'VirginAmerica trying to add my boy Prince to my ressie SF this Thursday VirginAmerica from LAX httptcoGsB2J3c4gM'

¿Qué pasa con el siguiente ejemplo?

In [21]:
# Print a un texto con contracturas
contraction_text = "We've got quite a bit of punctuation here, don't we?!? #Python @D-Lab."

# Aplicamos la función
remove_punct(contraction_text)

'Weve got quite a bit of punctuation here dont we Python DLab'

**Warning:** En muchos casos, queremos eliminar los signos de puntuación después de la tokenización, de lo que hablaremos dentro de un minuto. Esto nos indica que el orden de preprocesamiento es una cuestión importante.

## Reto 1: Preprocesamiento con múltiples pasos
Hasta ahora hemos aprendido algunas operaciones de preprocesamiento, ¡vamos a juntarlas en una función! Esta función será muy útil si trabajas con datos de texto en inglés y quieres preprocesarlos con una sola función.

A continuación se muestran los datos de texto de ejemplo para el reto 1. Escriba una función para:

* Escribir el texto en minúsculas
* Elimine los signos de puntuación
* Elimine los espacios en blanco
* Siéntase libre de reciclar los códigos que hemos utilizado más arriba.

In [22]:
challenge1_path = '/kaggle/input/data-tweets/example1.txt'

with open(challenge1_path, 'r') as file:
    challenge1 = file.read()
    
print(challenge1)



This is a text file that has some extra blankspace at the start and end. Blankspace is a catch-all term for spaces, tabs, newlines, and a bunch of other things that computers distinguish but to us all look like spaces, tabs and newlines.


The Python method called "strip" only catches blankspace at the start and end of a string. But it won't catch it in       the middle,		for example,

in this sentence.		Once again, regular expressions will

help		us    with this.





In [23]:
def clean_text(text):

    # Step 1: Minúsculas
    text = text.lower()

    # Step 2: Usamos remove_punct para remover signos de puntuación
    text = remove_punct(text)

    # Step 3: Remove extra whitespace characters
    text =  re.sub( blankspace_pattern, blankspace_repl,text)
    text = text.strip()

    return text

In [24]:
# Uncomment to apply the above function to challenge 1 text 
clean_text(challenge1)

'this is a text file that has some extra blankspace at the start and end blankspace is a catchall term for spaces tabs newlines and a bunch of other things that computers distinguish but to us all look like spaces tabs and newlines the python method called strip only catches blankspace at the start and end of a string but it wont catch it in the middle for example in this sentence once again regular expressions will help us with this'

## Procesos para tareas específicas
Ahora que ya conocemos las operaciones habituales de preprocesamiento, aún hay que tener en cuenta algunas operaciones adicionales. Nuestros datos de texto pueden requerir una normalización adicional en función del idioma, la fuente y el contenido de los datos.

Por ejemplo, si trabajamos con documentos financieros, es posible que queramos normalizar los símbolos monetarios convirtiéndolos en dígitos. En nuestros datos de tuits, hay numerosos hashtags y URLs. Estos pueden sustituirse por marcadores de posición para simplificar el análisis posterior.


## Demostración: Eliminar Hashtags y URLs
Aunque las URL, los hashtags y los números son informativos por derecho propio, a menudo no nos importa necesariamente el significado exacto de cada uno de ellos.

Aunque podríamos eliminarlas por completo, a menudo es informativo saber que existe una URL o un hashtag. En la práctica, sustituimos las URL y los hashtags individuales por un «símbolo» que conserva el hecho de que estas estructuras existen en el texto. Lo normal es utilizar simplemente las cadenas "URL" y "HASHTAG".

Como estos tipos de texto suelen seguir una estructura regular, son un caso adecuado para utilizar expresiones regulares. Apliquemos estos patrones a los datos de los tweets.

In [25]:
# Print al ejemplo de tweet 
url_tweet = tweets['text'][13]
print(url_tweet)

@VirginAmerica @virginmedia I'm flying your #fabulous #Seductive skies again! U take all the #stress away from travel http://t.co/ahlXHhKiyn


In [26]:
# URL 
url_pattern = r'(http|ftp|https):\/\/([\w_-]+(?:(?:\.[\w_-]+)+))([\w.,@?^=%&:\/~+#-]*[\w@?^=%&\/~+#-])'
url_repl = ' URL '
re.sub(url_pattern, url_repl, url_tweet)

"@VirginAmerica @virginmedia I'm flying your #fabulous #Seductive skies again! U take all the #stress away from travel  URL "

In [27]:
# Hashtag
hashtag_pattern = r'(?:^|\s)[＃#]{1}(\w+)'
hashtag_repl = ' HASHTAG '
re.sub(hashtag_pattern, hashtag_repl, url_tweet)

"@VirginAmerica @virginmedia I'm flying your HASHTAG  HASHTAG  skies again! U take all the HASHTAG  away from travel http://t.co/ahlXHhKiyn"