# Sesión 1. Análisis textual en Python

En esta sesión se pretende trabajar con algunos de los conceptos básicos de Python para el procesamiento de texto.


##Apartado 1.0

Descargamos primero el dataset "datasetEspañol.csv" con el que vamos a trabajar.

In [None]:
!wget http://dis.um.es/~valencia/recursosTGINE/datasetEspañol.csv

## Apartado 1.1
Para ello cargaremos primero el dataset en CSV proporcionado "datasetEspañol.csv" usando la librería **pandas**

Mostraremos también las primeras líneas del CSV cargado

In [None]:
import pandas as pd
import csv



## Apartado 1.2

Seleccionamos únicamente las 200 primeras filas y las columnas 'twitter_id', 'twitter_created_at', 'tweet', 'user' y 'label' y guardamos de nuevo el CSV en el fichero "datasetEspañolReducido.csv".

A partir de ahora trabajaremos con este dataset reducido.

## Apartado 1.3

Ahora trabajaremos detectando de manera sencilla algunas expresiones regulares usando la librería **re**.

Para ello seleccionaremos los **hashtags** y **menciones** de los tuits.

Una expresión regular para detectar los hashtags podría ser la siguiente:
\#[A-Za-záéíóúÁÉÍÓÚÜüÑñ0-9\_\-]+

Además, crearemos una nueva columna 'tweet_clean' que no contenga los hashtags ni menciones.

- Usaremos la función "apply" y "lambda" de Pandas.
- Para detectar si la expresión regular existe en un determinado String usaremos la función re.sub()

## Apartado 1.4

Una vez detectadas las expresiones regulares, procederemos a crear dos nuevas columnas con los **hashtags** y **menciones** respectivamente.

- Podemos usar la función re.findall()

## Apartado 1.5

Sobre esa nueva columna 'tweet_clean' quitaremos los símbolos de puntuación haciendo uso de la librería **string**

Podemos usar la siguiente función

```
#defining the function to remove punctuation
import string

spanish_punctuation = string.punctuation+'¿'+'¡'
def remove_punctuation(text):
    punctuationfree="".join([i for i in text if i not in spanish_punctuation])
    return punctuationfree

```


## Apartado 1.6

Cambiamos el texto de la columna 'tweet_clean' y lo podemos todo en *lowercase*.

Para eso utilizamos la función lower() del objeto string

## Apartado 1.7

Aplicamos un tokenizer sencillo y guardamos todos los tokens de los tuits limpios en otra columna 'tweet_clean_tokens' usando la siguiente función sencilla de Tokenizer.

```
#defining function for tokenization
import re
def tokenization(text):
    tokens = re.split('\W+',text)
    return tokens
```



## Apartado 1.8

**NLTK** es una librería con distintas herramientas para el PLN. La vamos a utilizar para descargar las stopwords en español y para usar su stemmer.

El siguiente paso sería eliminar las stopwords de los tokens usando la librería **NLTK**. Ver función siguiente.



```
import nltk
#Stop words present in the library
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('spanish')


#defining the function to remove stopwords from tokenized text
def remove_stopwords(text):
    output= [i for i in text if i not in stopwords]
    return output
    
```



## Apartado 1.9

Por último usando el SnowballStemmer de NLTK obtenemos los stems de cada una de los tokens sin las stopwords y lo guardamos en otra columna 'tweet_clean_stemmed_tokens'



```
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer('spanish')

#defining a function for stemming
def stemming(text):
  stem_text = [stemmer.stem(word) for word in text]
  return stem_text
  ```



##Apartado 1.10  Simple corrección ortográfica (Resuelto)
Muchos textos tienen errores léxicos y hay distintas librerías para la corrección ortográfica a partir de diccionarios. Una de ellas es la librería **pyspellchecker**

Hay otras opciones como hunspell y pyenchant que hacen una corrección léxica basada en diccionarios

In [None]:
# instalamos la libería
!pip3 install pyspellchecker

#importamos la librería
import spellchecker

texto_erróneo = "La asginatura del master haze trabajar y aprehnder procesamiengo de teexto"

# Crea un objeto SpellChecker para el idioma especificado
spell = spellchecker.SpellChecker(language='es')

# Divide el texto en palabras
palabras = texto_erróneo.split()

# Inicializa una lista para las palabras corregidas
palabras_corregidas = []

# Verifica cada palabra en el texto
for palabra in palabras:
# Si la palabra está mal escrita, sugiere correcciones
   correccion = spell.correction(palabra)
   palabras_corregidas.append(correccion)

# Unimos las palabras corregidas para formar el texto corregido
texto_corregido = ' '.join(palabras_corregidas)
print(texto_corregido)

## Ejercicio a resolver y entregar
Una vez visto el framework stanza en el siguiente Notebook P1.2, crear una columna 'tweet_entities' con las entidades del texto.

Una mejora de este ejercicio es crear una columna para cada tipo de entidad detectada. Esto es necesario para tener la máxima nota en el ejercicio

Debido a que puede tardar bastante tiempo, podéis hacerlo con un subconjunto del dataset de unas 20 líneas.
