# Sesión 1. Análisis textual en Python

En esta sesión se pretende trabajar con algunos de los conceptos básicos de Python para el procesamiento de texto.


##Apartado 1.0

Descargamos primero el dataset "datasetEspañol.csv" con el que vamos a trabajar.

In [1]:
!wget http://dis.um.es/~valencia/recursosTGINE/datasetEspañol.csv

--2023-10-05 16:18:37--  http://dis.um.es/~valencia/recursosTGINE/datasetEspa%C3%B1ol.csv
Resolving dis.um.es (dis.um.es)... 155.54.239.5
Connecting to dis.um.es (dis.um.es)|155.54.239.5|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1953117 (1.9M) [text/csv]
Saving to: ‘datasetEspañol.csv’


2023-10-05 16:18:38 (1.64 MB/s) - ‘datasetEspañol.csv’ saved [1953117/1953117]



## Apartado 1.1
Para ello cargaremos primero el dataset en CSV proporcionado "datasetEspañol.csv" usando la librería **pandas**

Mostraremos también las primeras líneas del CSV cargado

In [29]:
import pandas as pd
import csv

data = pd.read_csv('datasetEspañol.csv',encoding="UTF-8")


## Apartado 1.2

Seleccionamos únicamente las 200 primeras filas y las columnas 'twitter_id', 'twitter_created_at', 'tweet', 'user' y 'label' y guardamos de nuevo el CSV en el fichero "datasetEspañolReducido.csv".

A partir de ahora trabajaremos con este dataset reducido.

In [30]:
data2 = data[0:200][['tweet', 'user' , 'label']]
data2.tail()
data2.to_csv("datasetEspañolreducido.csv",encoding="UTF-8",index = False, quoting= csv.QUOTE_ALL)

## Apartado 1.3

Ahora trabajaremos detectando de manera sencilla algunas expresiones regulares usando la librería **re**.

Para ello seleccionaremos los **hashtags** y **menciones** de los tuits.

Una expresión regular para detectar los hashtags podría ser la siguiente:
\#[A-Za-záéíóúÁÉÍÓÚÜüÑñ0-9\_\-]+

Además, crearemos una nueva columna 'tweet_clean' que no contenga los hashtags ni menciones.

- Usaremos la función "apply" y "lambda" de Pandas.
- Para detectar si la expresión regular existe en un determinado String usaremos la función re.sub()

In [31]:
import re

# Definimos las expresiones regulares para hashtags y menciones
hashtags_regex = "#[A-Za-záéíóúÁÉÍÓÚÜüÑñ0-9_-]+"
mentions_regex = "@[A-Za-záéíóúÁÉÍÓÚÜüÑñ0-9_-]+"

data2['tweet_clean'] = data2['tweet'].apply(lambda x: re.sub(hashtags_regex,'',x))
data2['tweet_clean'] = data2['tweet_clean'].apply(lambda x: re.sub(mentions_regex,'',x))
data2.head()

Unnamed: 0,tweet,user,label,tweet_clean
0,Hoy merendola deliciosa! Latte Macchiato Caram...,Lorenhia,positive,Hoy merendola deliciosa! Latte Macchiato Caram...
1,"Muchos ánimos a todos los compañeros, profesio...",VacunaJesusRuiz,positive,"Muchos ánimos a todos los compañeros, profesio..."
2,Hay TANTAS cosas que se pueden hacer en casa: ...,jbautyoficial,positive,Hay TANTAS cosas que se pueden hacer en casa: ...
3,#GabineteDeCrisisUtil #16 Escucha música! la q...,ton1pons,positive,"Escucha música! la que te gusta, pero tambié..."
4,Increible el festival de musica gratuito que h...,Alexiat84,positive,Increible el festival de musica gratuito que h...


## Apartado 1.4

Una vez detectadas las expresiones regulares, procederemos a crear dos nuevas columnas con los **hashtags** y **menciones** respectivamente.

- Podemos usar la función re.findall()

In [32]:
data2['hashtags'] = data2['tweet'].apply(lambda x: re.findall(hashtags_regex,x))
data2['mentions'] = data2['tweet'].apply(lambda x: re.findall(mentions_regex,x))
data2.tail()

Unnamed: 0,tweet,user,label,tweet_clean,hashtags,mentions
195,Bueno...pues ya está!... Ya tengo ordenados lo...,Tuitero_David,positive,Bueno...pues ya está!... Ya tengo ordenados lo...,[#YoMeQuedoEnCasa],[]
196,Han cerrado el corte ingles y ya no tengo que ...,AinhoaDelPilar,positive,Han cerrado el corte ingles y ya no tengo que ...,"[#YoMeQuedoEnCasa, #cuarentena]",[]
197,Juventud de España!!! Quedaos en casa. #YoMeQu...,XulesRun,positive,Juventud de España!!! Quedaos en casa. . . .,"[#YoMeQuedoEnCasa, #coranavirus, #coronavirusE...",[@spiriman]
198,Saludos desde @CADENA100 aquí también estamos ...,NavarroAlmudena,positive,Saludos desde aquí también estamos cumpliendo...,"[#SeviciosMíminos, #OnAir, #teletrabajo, #YoMe...",[@CADENA100]
199,HOMENAJE A TODOS LOS SANITARIOS ??A LAS DIEZ H...,Anakin73630326,positive,HOMENAJE A TODOS LOS SANITARIOS ??A LAS DIEZ H...,[#YoMeQuedoEnCasa],[]


## Apartado 1.5

Sobre esa nueva columna 'tweet_clean' quitaremos los símbolos de puntuación haciendo uso de la librería **string**

Podemos usar la siguiente función

```
#defining the function to remove punctuation
import string

spanish_punctuation = string.punctuation+'¿'+'¡'
def remove_punctuation(text):
    punctuationfree="".join([i for i in text if i not in spanish_punctuation])
    return punctuationfree

```


In [41]:
import string

spanish_punctuation = string.punctuation+'¿'+'¡'
def remove_punctuation(text):
  punctuationfree="".join([i for i in text if i not in spanish_punctuation])
  return punctuationfree

data2['tweet_clean'] = data2['tweet_clean'].apply(lambda x: remove_punctuation(x.strip()))
data2.head()

Unnamed: 0,tweet,user,label,tweet_clean,hashtags,mentions,tokens,tweet_clean_stemmed_tokens
0,Hoy merendola deliciosa! Latte Macchiato Caram...,Lorenhia,positive,hoy merendola deliciosa latte macchiato carame...,"[#yomequedoencasa, #todovaasalirbien, #undiame...",[],"[hoy, merendola, deliciosa, latte, macchiato, ...","[hoy, merendol, delici, latt, macchiat, carame..."
1,"Muchos ánimos a todos los compañeros, profesio...",VacunaJesusRuiz,positive,muchos ánimos a todos los compañeros profesion...,"[#CoronavirusESP, #YoMeQuedoEnCasa, #vacunas]",[],"[ánimos, compañeros, profesionales, sanitarios...","[anim, compañer, profesional, sanitari, hoy, t..."
2,Hay TANTAS cosas que se pueden hacer en casa: ...,jbautyoficial,positive,hay tantas cosas que se pueden hacer en casa v...,"[#YoMeQuedoEnCasa, #quedateEnTuCasa]",[],"[tantas, cosas, pueden, hacer, casa, ver, cine...","[tant, cos, pued, hac, cas, ver, cin, seri, le..."
3,#GabineteDeCrisisUtil #16 Escucha música! la q...,ton1pons,positive,escucha música la que te gusta pero también la...,"[#GabineteDeCrisisUtil, #16, #YoMeQuedoEnCasa,...",[],"[, escucha, música, gusta, hace, años, escucha...","[, escuch, music, gust, hac, años, escuch, tel..."
4,Increible el festival de musica gratuito que h...,Alexiat84,positive,increible el festival de musica gratuito que h...,[#YoMeQuedoEnCasa],[@NilMoliner],"[increible, festival, musica, gratuito, organi...","[increibl, festival, music, gratuit, organiz, ..."


## Apartado 1.6

Cambiamos el texto de la columna 'tweet_clean' y lo podemos todo en *lowercase*.

Para eso utilizamos la función lower() del objeto string

In [34]:
data2['tweet_clean'] = data2['tweet_clean'].apply(lambda x: x.lower())
data2.head()

Unnamed: 0,tweet,user,label,tweet_clean,hashtags,mentions
0,Hoy merendola deliciosa! Latte Macchiato Caram...,Lorenhia,positive,hoy merendola deliciosa latte macchiato carame...,"[#yomequedoencasa, #todovaasalirbien, #undiame...",[]
1,"Muchos ánimos a todos los compañeros, profesio...",VacunaJesusRuiz,positive,muchos ánimos a todos los compañeros profesion...,"[#CoronavirusESP, #YoMeQuedoEnCasa, #vacunas]",[]
2,Hay TANTAS cosas que se pueden hacer en casa: ...,jbautyoficial,positive,hay tantas cosas que se pueden hacer en casa v...,"[#YoMeQuedoEnCasa, #quedateEnTuCasa]",[]
3,#GabineteDeCrisisUtil #16 Escucha música! la q...,ton1pons,positive,escucha música la que te gusta pero también ...,"[#GabineteDeCrisisUtil, #16, #YoMeQuedoEnCasa,...",[]
4,Increible el festival de musica gratuito que h...,Alexiat84,positive,increible el festival de musica gratuito que h...,[#YoMeQuedoEnCasa],[@NilMoliner]


## Apartado 1.7

Aplicamos un tokenizer sencillo y guardamos todos los tokens de los tuits limpios en otra columna 'tweet_clean_tokens' usando la siguiente función sencilla de Tokenizer.

```
#defining function for tokenization
import re
def tokenization(text):
    tokens = re.split('\W+',text)
    return tokens
```



In [36]:
import re
def tokenization(text):
    tokens = re.split('\W+',text)
    return tokens

data2['tokens'] = data2['tweet_clean'].apply(lambda x: tokenization(x))
data2.head()

Unnamed: 0,tweet,user,label,tweet_clean,hashtags,mentions,tokens
0,Hoy merendola deliciosa! Latte Macchiato Caram...,Lorenhia,positive,hoy merendola deliciosa latte macchiato carame...,"[#yomequedoencasa, #todovaasalirbien, #undiame...",[],"[hoy, merendola, deliciosa, latte, macchiato, ..."
1,"Muchos ánimos a todos los compañeros, profesio...",VacunaJesusRuiz,positive,muchos ánimos a todos los compañeros profesion...,"[#CoronavirusESP, #YoMeQuedoEnCasa, #vacunas]",[],"[muchos, ánimos, a, todos, los, compañeros, pr..."
2,Hay TANTAS cosas que se pueden hacer en casa: ...,jbautyoficial,positive,hay tantas cosas que se pueden hacer en casa v...,"[#YoMeQuedoEnCasa, #quedateEnTuCasa]",[],"[hay, tantas, cosas, que, se, pueden, hacer, e..."
3,#GabineteDeCrisisUtil #16 Escucha música! la q...,ton1pons,positive,escucha música la que te gusta pero también ...,"[#GabineteDeCrisisUtil, #16, #YoMeQuedoEnCasa,...",[],"[, escucha, música, la, que, te, gusta, pero, ..."
4,Increible el festival de musica gratuito que h...,Alexiat84,positive,increible el festival de musica gratuito que h...,[#YoMeQuedoEnCasa],[@NilMoliner],"[increible, el, festival, de, musica, gratuito..."


## Apartado 1.8

**NLTK** es una librería con distintas herramientas para el PLN. La vamos a utilizar para descargar las stopwords en español y para usar su stemmer.

El siguiente paso sería eliminar las stopwords de los tokens usando la librería **NLTK**. Ver función siguiente.



```
import nltk
#Stop words present in the library
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('spanish')


#defining the function to remove stopwords from tokenized text
def remove_stopwords(text):
    output= [i for i in text if i not in stopwords]
    return output
    
```



In [38]:
import nltk
# Stop words present in the library
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('spanish')

stopwords

# defining the function to remove stopwords from tokenized text
def remove_stopwords(text):
    output= [i for i in text if i not in stopwords]
    return output

data2['tokens'] = data2['tokens'].apply(lambda x: remove_stopwords(x))
data2.tail()

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,tweet,user,label,tweet_clean,hashtags,mentions,tokens
195,Bueno...pues ya está!... Ya tengo ordenados lo...,Tuitero_David,positive,buenopues ya está ya tengo ordenados los condo...,[#YoMeQuedoEnCasa],[],"[buenopues, ordenados, condones, fecha, caduci..."
196,Han cerrado el corte ingles y ya no tengo que ...,AinhoaDelPilar,positive,han cerrado el corte ingles y ya no tengo que ...,"[#YoMeQuedoEnCasa, #cuarentena]",[],"[cerrado, corte, ingles, ir, trabajar, sincera..."
197,Juventud de España!!! Quedaos en casa. #YoMeQu...,XulesRun,positive,juventud de españa quedaos en casa,"[#YoMeQuedoEnCasa, #coranavirus, #coronavirusE...",[@spiriman],"[juventud, españa, quedaos, casa, ]"
198,Saludos desde @CADENA100 aquí también estamos ...,NavarroAlmudena,positive,saludos desde aquí también estamos cumpliendo...,"[#SeviciosMíminos, #OnAir, #teletrabajo, #YoMe...",[@CADENA100],"[saludos, aquí, cumpliendo, resto, tiempo, así..."
199,HOMENAJE A TODOS LOS SANITARIOS ??A LAS DIEZ H...,Anakin73630326,positive,homenaje a todos los sanitarios a las diez hor...,[#YoMeQuedoEnCasa],[],"[homenaje, sanitarios, diez, horas, noche, sal..."


## Apartado 1.9

Por último usando el SnowballStemmer de NLTK obtenemos los stems de cada una de los tokens sin las stopwords y lo guardamos en otra columna 'tweet_clean_stemmed_tokens'



```
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

#defining a function for stemming
def stemming(text):
  stem_text = [stemmer.stem(word) for word in text]
  return stem_text
  ```



In [39]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

# defining a function for stemming
def stemming(text):
  stem_text = [stemmer.stem(word) for word in text]
  return stem_text

data2['tweet_clean_stemmed_tokens'] = data2['tokens'].apply(lambda x: stemming(x))
data2.tail()

Unnamed: 0,tweet,user,label,tweet_clean,hashtags,mentions,tokens,tweet_clean_stemmed_tokens
195,Bueno...pues ya está!... Ya tengo ordenados lo...,Tuitero_David,positive,buenopues ya está ya tengo ordenados los condo...,[#YoMeQuedoEnCasa],[],"[buenopues, ordenados, condones, fecha, caduci...","[buenopu, orden, condon, fech, caduc, cos, hec..."
196,Han cerrado el corte ingles y ya no tengo que ...,AinhoaDelPilar,positive,han cerrado el corte ingles y ya no tengo que ...,"[#YoMeQuedoEnCasa, #cuarentena]",[],"[cerrado, corte, ingles, ir, trabajar, sincera...","[cerr, cort, ingles, ir, trabaj, sincer, alivi..."
197,Juventud de España!!! Quedaos en casa. #YoMeQu...,XulesRun,positive,juventud de españa quedaos en casa,"[#YoMeQuedoEnCasa, #coranavirus, #coronavirusE...",[@spiriman],"[juventud, españa, quedaos, casa, ]","[juventud, españ, queda, cas, ]"
198,Saludos desde @CADENA100 aquí también estamos ...,NavarroAlmudena,positive,saludos desde aquí también estamos cumpliendo...,"[#SeviciosMíminos, #OnAir, #teletrabajo, #YoMe...",[@CADENA100],"[saludos, aquí, cumpliendo, resto, tiempo, así...","[salud, aqu, cumpl, rest, tiemp, asi, cuant, s..."
199,HOMENAJE A TODOS LOS SANITARIOS ??A LAS DIEZ H...,Anakin73630326,positive,homenaje a todos los sanitarios a las diez hor...,[#YoMeQuedoEnCasa],[],"[homenaje, sanitarios, diez, horas, noche, sal...","[homenaj, sanitari, diez, hor, noch, saldr, ve..."


##Apartado 1.10  Simple corrección ortográfica (Resuelto)
Muchos textos tienen errores léxicos y hay distintas librerías para la corrección ortográfica a partir de diccionarios. Una de ellas es la librería **pyspellchecker**

Hay otras opciones como hunspell y pyenchant que hacen una corrección léxica basada en diccionarios

In [40]:
# instalamos la libería
!pip3 install pyspellchecker

#importamos la librería
import spellchecker

texto_erróneo = "La asginatura del master haze trabajar y aprehnder procesamiengo de teexto"

# Crea un objeto SpellChecker para el idioma especificado
spell = spellchecker.SpellChecker(language='es')

# Divide el texto en palabras
palabras = texto_erróneo.split()

# Inicializa una lista para las palabras corregidas
palabras_corregidas = []

# Verifica cada palabra en el texto
for palabra in palabras:
# Si la palabra está mal escrita, sugiere correcciones
   correccion = spell.correction(palabra)
   palabras_corregidas.append(correccion)

# Unimos las palabras corregidas para formar el texto corregido
texto_corregido = ' '.join(palabras_corregidas)
print(texto_corregido)

Collecting pyspellchecker
  Downloading pyspellchecker-0.7.2-py3-none-any.whl (3.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.4/3.4 MB[0m [31m15.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pyspellchecker
Successfully installed pyspellchecker-0.7.2
La asignatura del master hace trabajar y aprender procesamiento de texto


## Ejercicio a resolver y entregar
Una vez visto el framework stanza en el siguiente Notebook P1.2, crear una columna 'tweet_entities' con las entidades del texto.

Una mejora de este ejercicio es crear una columna para cada tipo de entidad detectada. Esto es necesario para tener la máxima nota en el ejercicio

Debido a que puede tardar bastante tiempo, podéis hacerlo con un subconjunto del dataset de unas 20 líneas.
