**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos):

Fecha:
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Caracterización de textos</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [2]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv
import es_core_news_md

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>: 

https://spacy.io/models/es#es_core_news_md


In [3]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [10]:
# filename = "Hate Speech Library in Spain.xlsx"
# lines_number = 10000
# data = pd.read_excel(filename, nrows=lines_number)
filename = "02Dataset_anonimizado.csv"
lines_number = 10000
data = pd.read_csv(filename, nrows=lines_number, sep=';', encoding='ISO-8859-1')
data.head()

Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el barí§a nunca acaeza ante un segundo b ni an...,3.0,Otros,,,,,,,,,
1,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,cristina cifuentes podrí­a haber sido la presi...,3.0,Ideológico,,,,,,,,,
3,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,habrí­a que reabrir el caso. el supremo se ded...,3.0,Ideológico,,,,,,,,,
4,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,me parece un poco exagerado pedir más de tres ...,3.0,Ideológico,Si,,,,,,,,


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas: 


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [None]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["INTENSIDAD"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):
    
    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)
    
    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de cómo recorrer un comentario palabra por palabra    


el
real
madrid
ha
puesto
punto
y
final
a
su
andadura
en
la
copa
del
rey
en
el
primer
escalón
.
los
de
zidane
han
caí­do
ante
el
alcoyano
,
de
segunda
b
,
a
pesar
de
empezar
ganando
y
jugar
con
un
hombre
menos
en
la
prórroga
.
el
técnico
francés
dispuso
un
equipo
plagado
de
los
menos
habituales
,
con
vinicius
y
mariano
en
ataque
.
ninguno
de
los
dos
logró
crear
ocasiones
.
fue
militao
el
que
marcó
el
gol
del
madrid
,
justo
antes
del
descanso
.
en
la
segunda
parte
intentaron
cerrar
el
partido
,
pero
sin
el
colmillo
suficiente
y
el
modesto
alcoyano
aprovechó
un
córner
para
empatar
el
partido
a
cinco
minutos
para
el
final
.
el
empate
sentó
como
un
jarro
de
agua
frí­a
a
los
blancos
,
que
lo
intentaron
en
el
tiempo
extra
a
falta
de
cinco
minutos
,
el
casanova
consiguió
el
gol
más
importante
de
su
vida
,
que
vale
la
clasificación
para
octavos
de
la
copa
.
el
madrid
de
zidane
queda
apeado
del
torneo
una
vez
más
,
por
lo
que
el
francés
se
quedará
sin
pelear
por
el
único
tí­tulo
que
no
ha
conseg

In [18]:
print(doc[1].text)
print("TOKEN\t\tTEXTO\tLEMA\tPOS\tDEP\tSTOPWORD")
print("----------------------------------------------------------------")
for token in doc[1]:
    print(f"{token.i}\t\t{token.text}\t{token.lemma_}\t{token.pos_}\t{token.dep_}\t{token.is_stop}")
print("ENTIDADES RECONOCIDAS:")
for ent in doc[1].ents:
    print(f"Texto: {ent.text}, Tipo: {ent.label_}")
print("\nANÁLISIS DE DEPENDENCIAS:")
for token in doc[1]:
    print(f"Token: {token.text} <-- Dep: {token.dep_} <-- Head: {token.head.text}")

el real madrid ha puesto punto y final a su andadura en la copa del rey en el primer escalón. los de zidane han caí­do ante el alcoyano, de segunda b, a pesar de empezar ganando y jugar con un hombre menos en la prórroga. el técnico francés dispuso un equipo plagado de los menos habituales, con vinicius y mariano en ataque. ninguno de los dos logró crear ocasiones. fue militao el que marcó el gol del madrid, justo antes del descanso. en la segunda parte intentaron cerrar el partido, pero sin el colmillo suficiente y el modesto alcoyano aprovechó un córner para empatar el partido a cinco minutos para el final. el empate sentó como un jarro de agua frí­a a los blancos, que lo intentaron en el tiempo extra a falta de cinco minutos, el casanova consiguió el gol más importante de su vida, que vale la clasificación para octavos de la copa. el madrid de zidane queda apeado del torneo una vez más, por lo que el francés se quedará sin pelear por el único tí­tulo que no ha conseguido nunca. así­

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
print("El corpus tiene un numero de registros de: ", len(doc))


El corpus tiene un numero de registros de:  10000


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

El corpus tiene un numero de registros de 10000. Realmente no era necesario obtenerlo mediante código porque ya cuando definimos el dataset anteriormente con pandas.read_csv aplicamos el parámetro de nrows con nuestra variable definida como lines_number=10000. Por lo que desde el principio nosotros obtenemos el total de 10000 registros del dataset en bruto.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [20]:
# Incluye aquí el código generado para poder responder a tu pregunta
palabras = []
for registro in doc:
    for token in registro:
        palabras.append(token.text)
print(len(palabras))

252849


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

Para responder a esta pregunta, utilizo un doble bucle. Gracias a él, puedo ir recorriendo la lista doc, que contiene todos los textos que tengo que analizar. Cada elemento de doc es un texto completo; por eso, al iterar con el segundo bucle dentro de cada doc, consigo obtener las palabras individuales. Todas estas palabras las voy guardando en la lista palabras y, finalmente, uso len() para contarlas y saber cuantas hay en total.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [30]:
# Incluye aquí el código generado para poder responder a tu pregunta
numero_palabras = []
for registro in doc:
    numero_palabras.append(len(registro))
print("Por si interesa ver cuantas palabras hay en cada comentario: ", numero_palabras)
#El numero de palabras ya lo tendríamos calculado de antes, al igual que el total de comentarios que sabemos que son 10000, pero igualmente aplicamos la formula de la media:
print(sum(numero_palabras)/len(numero_palabras))


Por si interesa ver cuantas palabras hay en cada comentario:  [27, 213, 145, 22, 168, 119, 33, 63, 35, 22, 15, 80, 8, 5, 76, 222, 22, 198, 11, 21, 67, 19, 33, 12, 58, 49, 45, 44, 20, 31, 106, 168, 7, 51, 19, 19, 18, 33, 32, 33, 179, 11, 14, 12, 4, 15, 8, 20, 9, 10, 4, 22, 13, 9, 17, 24, 26, 11, 6, 9, 6, 18, 31, 4, 2252, 1214, 531, 30, 12, 23, 16, 58, 44, 67, 81, 70, 5, 38, 58, 89, 27, 19, 3, 16, 4, 8, 6, 4, 16, 16, 25, 15, 26, 21, 16, 16, 16, 19, 4, 10, 11, 10, 20, 18, 21, 19, 2, 6, 14, 4, 51, 13, 30, 10, 15, 12, 10, 19, 23, 24, 19, 20, 15, 36, 103, 185, 19, 30, 11, 20, 63, 80, 11, 4, 4, 6, 8, 7, 14, 4, 2, 17, 16, 23, 15, 25, 19, 35, 9, 13, 16, 12, 7, 7, 11, 20, 20, 9, 3, 38, 3, 7, 16, 10, 14, 11, 21, 8, 19, 33, 5, 55, 31, 5, 60, 18, 2, 5, 4, 13, 14, 7, 8, 8, 13, 2, 38, 4, 3, 19, 30, 52, 4, 20, 11, 12, 8, 20, 5, 2, 10, 40, 10, 4, 9, 19, 25, 16, 19, 7, 5, 14, 8, 38, 12, 26, 25, 37, 22, 25, 29, 8, 26, 15, 6, 6, 5, 3, 37, 18, 6, 15, 53, 4, 25, 2, 4, 4, 7, 4, 4, 8, 7, 4, 2, 1, 9, 19, 9, 7,

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

Para calcular la media de palabras que hay en cada comentario, tenemos que emplear una formula simple de media: suma de palabras / total de comentarios. Sabemos que el total de palabras es el calculado anteriormente (252849 palabras), aunque quería ver cuantas palabras hay en cada comentario usando el bucle. Y el total de comentarios también lo sabemos de antes, por ser el numero de registros. Igualmente decidí aplicar la formula con el nuevo dato obtenido haciendo uso de sum y de len. Vemos que hay un numero de palabras aproximado de 25 palabras por comentario

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [31]:
# Incluye aquí el código generado para poder responder a tu pregunta
data.head()


Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el barí§a nunca acaeza ante un segundo b ni an...,3.0,Otros,,,,,,,,,
1,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,cristina cifuentes podrí­a haber sido la presi...,3.0,Ideológico,,,,,,,,,
3,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,habrí­a que reabrir el caso. el supremo se ded...,3.0,Ideológico,,,,,,,,,
4,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,me parece un poco exagerado pedir más de tres ...,3.0,Ideológico,Si,,,,,,,,


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Plantea tus propias preguntas</span>

<span><b>Plantea al menos 4 características</b> del texto cuyo análisis permita una caracterización completa del texto. Puedes utilizar recomendaciones proporcionadas por la IA Generativa, si así lo deseas. Para cada una de las características planteadas, obtén valores separados para los grupos ODIO/NO-ODIO.</span>

<span>En la explicación aportada, deberás <b>explicar el significado de la característica planteada</b> así como la importancia de ésta en la caracterización del texto.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 1.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 2.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 3.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 4.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
 

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Reflexión final</span>

<span>Una de las utilidades de la caracterización de texto es que nos sirve como etapa de <i>feature-extraction</i> (extración de características) de cara a un posterior sistema de clasificación. Es pertinente, por tanto, reflexionar sobre la capacidad discriminatoria de cada una de las características extraídas. </span>

<span> Responde, para ello, a la siguiente pregunta.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Reflexión final.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 