**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos):

Fecha:
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv
import es_core_news_md

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>: 

https://spacy.io/models/es#es_core_news_md


In [2]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [3]:
filename = "./comentariosOdio.csv"

In [4]:

lines_number = 20
data = pd.read_csv(filename, delimiter=';', encoding='latin1')  
#data = pd.read_csv(filename, delimiter=';',nrows=lines_number)  

  data = pd.read_csv(filename, delimiter=';', encoding='latin1')


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas: 


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [5]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):#'''len(data["CONTENIDO A ANALIZAR"])'''
    
    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)
    
    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de cómo recorrer un comentario palabra por palabra    
for token in doc[1]:
    print(token)

el
real
madrid
ha
puesto
punto
y
final
a
su
andadura
en
la
copa
del
rey
en
el
primer
escalÃ³n
.
los
de
zidane
han
caÃ­do
ante
el
alcoyano
,
de
segunda
b
,
a
pesar
de
empezar
ganando
y
jugar
con
un
hombre
menos
en
la
prÃ³rroga
.
el
tÃ
©
cnico
francÃ
©
s
dispuso
un
equipo
plagado
de
los
menos
habituales
,
con
vinicius
y
mariano
en
ataque
.
ninguno
de
los
dos
logrÃ³
crear
ocasiones
.
fue
militao
el
que
marcÃ³
el
gol
del
madrid
,
justo
antes
del
descanso
.
en
la
segunda
parte
intentaron
cerrar
el
partido
,
pero
sin
el
colmillo
suficiente
y
el
modesto
alcoyano
aprovechÃ³
un
cÃ³rner
para
empatar
el
partido
a
cinco
minutos
para
el
final
.
el
empate
sentÃ³
como
un
jarro
de
agua
frÃ­a
a
los
blancos
,
que
lo
intentaron
en
el
tiempo
extra
a
falta
de
cinco
minutos
,
el
casanova
consiguiÃ³
el
gol
mÃ¡s
importante
de
su
vida
,
que
vale
la
clasificaciÃ³n
para
octavos
de
la
copa
.
el
madrid
de
zidane
queda
apeado
del
torneo
una
vez
mÃ¡s
,
por
lo
que
el
francÃ
©
s
se
quedarÃ
¡
sin
pelear
por
el
Ãºnico
t

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [6]:
print(f"Número de registros: {len(data)}")

Número de registros: 574915


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

El dataset contiene 574915 registros si miramos el número de filas del CSV

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

He visto que hay varios problemas en el dataset:
- Muchas filas en las que todos los valores son nulos menos 1, que es la continuación del contenido de la fila anterior. Para arreglar esto borraré las filas que solo contengan ese valor.
- Hay varias columnas más de las que son en verdad. Esto se debe a que hay direcciones, nombres y demás mal tabulados. Borraré todas las columnas que no tengan un nombre definido, ya que estas columnas en realidad no tienen nombre.

In [7]:
import pandas as pd

# Configura el nombre de tu archivo CSV original y el de salida
input_file = "comentariosOdio.csv"
output_file = "comentariosOdioLimpio.csv"

# Lee el archivo con utf-8 y evita errores de codificación
try:
    with open(input_file, encoding='utf-8', errors='replace') as file:
        df = pd.read_csv(file, delimiter=';', engine='python')
except Exception as e:
    print(f"Error al leer el archivo: {e}")
    exit()

# Guarda el número de columnas base (número de columnas en la primera fila)
num_columnas_base = 9

# Encuentra columnas con índice mayor al número de columnas base
exceso_columnas = df.columns[num_columnas_base:]

# Lista para almacenar las filas con datos en columnas excedentes
filas_con_datos_excedentes = []

# Verifica si alguna de las columnas excedentes tiene datos
for col in exceso_columnas:
    if df[col].notnull().any():
        # Obtén las filas donde esta columna tiene datos
        filas_con_datos = df[df[col].notnull()]
        filas_con_datos_excedentes.append(filas_con_datos)
        # Imprime cada fila que tiene datos en una columna excedente
        for idx, fila in filas_con_datos.iterrows():
            print(f"Fila con datos en columna excedente ({col}):")
            print(fila)
            print("-" * 40)

# Elimina las columnas excedentes del DataFrame
df = df.iloc[:, :num_columnas_base]

# Guarda el archivo limpio
try:
    df.to_csv(output_file, sep=';', index=False, encoding='utf-8')
    print(f"Archivo limpio guardado como '{output_file}'")
except Exception as e:
    print(f"Error al guardar el archivo: {e}")

# Imprime un resumen
print(f"Columnas eliminadas: {len(exceso_columnas)}")
print(f"Filas afectadas por columnas eliminadas: {sum([len(f) for f in filas_con_datos_excedentes])}")

Fila con datos en columna excedente (Unnamed: 9):
MEDIO                                                           alcoi, 66
SOPORTE                                                    en mislata, 62
URL                                                           en elda, 61
TIPO DE MENSAJE                                              en xàbia, 59
CONTENIDO A ANALIZAR                                      el campello, 53
INTENSIDAD                                             la vila joiosa, 52
TIPO DE ODIO                                     burjassot y l'eliana, 51
TONO HUMORISTICO                                              godella, 49
MODIFICADOR                                                   manises, 48
Unnamed: 9                                                    alfafar, 47
Unnamed: 10                                                     puçol, 46
Unnamed: 11                                                benicàssim, 45
Unnamed: 12                               benicarló, petrer y 

In [8]:
data = pd.read_csv("comentariosOdioLimpio.csv", delimiter=';', encoding= 'utf-8')

if "CONTENIDO A ANALIZAR" in data.columns:
    #borrar columnas con valores nulos
    data = data.dropna(subset=["CONTENIDO A ANALIZAR"])
    # Combinar todos los comentarios de la columna en un solo texto
    texto_completo = " ".join(data["CONTENIDO A ANALIZAR"].astype(str))

    # Contar las palabras
    numero_palabras = len(texto_completo.split())

    print(f"Número total de palabras en el corpus: {numero_palabras}")
else:
    print("La columna 'CONTENIDO A ANALIZAR' no existe en el dataset.")

  data = pd.read_csv("comentariosOdioLimpio.csv", delimiter=';', encoding= 'utf-8')


Número total de palabras en el corpus: 63025846


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Si miramos el contenido de la columna de comentarios llmada "CONTENIDO A ANALIZAR", podemos ver que el corpus contiene 63025846 palabras

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [9]:
# mirar si hay valores nulos
print(data.isnull().sum())


MEDIO                        0
SOPORTE                      0
URL                          0
TIPO DE MENSAJE              1
CONTENIDO A ANALIZAR         0
INTENSIDAD                 121
TIPO DE ODIO            562467
TONO HUMORISTICO        574617
MODIFICADOR             574410
dtype: int64


In [10]:
def contar_palabras(texto):
    if isinstance(texto, str):
        return len(texto.split())
    return 0

In [11]:
columna = "CONTENIDO A ANALIZAR"
if columna in data.columns:
    # Manejar valores nulos reemplazándolos por cadenas vacías
    comentarios = data[columna].fillna("").astype(str)
    
    # Aplicamos la función a cada comentario
    data["num_palabras"] = comentarios.apply(contar_palabras)
    
    # Calcular el promedio de palabras por comentario
    promedio = data["num_palabras"].mean()
    
    print(f"Número promedio de palabras por comentario: {promedio}")
    
    print("\nEstadísticas adicionales:")
    print(data["num_palabras"].describe())
else:
    print(f"La columna '{columna}' no existe en el dataset.")

Número promedio de palabras por comentario: 109.65536403700308

Estadísticas adicionales:
count    574763.000000
mean        109.655364
std         266.330755
min           0.000000
25%           8.000000
50%          17.000000
75%          47.000000
max        5434.000000
Name: num_palabras, dtype: float64


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Primero nos aseguramos de rellenar lo svalores nulos por un string vacío para no equivocarnos. Cuando esté hecho, podemos contar el número de palabras por cada fila. Una vez hecho podremos hacer la media. 

El número medio de palabras por comentario es de aproximadamente 109.66. 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [12]:
# Filtrar los comentarios de odio y no odio
comentarios_odio = data[data['TIPO DE ODIO'].notnull()]['CONTENIDO A ANALIZAR']
comentarios_no_odio = data[data['TIPO DE ODIO'].isnull()]['CONTENIDO A ANALIZAR']

# Calcular la media de palabras
media_palabras_odio = comentarios_odio.apply(contar_palabras).mean()
media_palabras_no_odio = comentarios_no_odio.apply(contar_palabras).mean()

# Imprimir resultados
print(f"Media de palabras en comentarios de odio: {media_palabras_odio:.2f}")
print(f"Media de palabras en comentarios que no son de odio: {media_palabras_no_odio:.2f}")

Media de palabras en comentarios de odio: 15.96
Media de palabras en comentarios que no son de odio: 111.70


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Si filtramos los datos de filas donde no se dice si hay odio y en las que si hay odio y luego hacemos la media, podemos ver que la media de palabras en comentarios de odio es de 15.96. 

Mientras que la media de palabras en comentarios que no son de odio es de 111.70.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [13]:
def contar_oraciones(texto):
    if isinstance(texto, str):
        # Dividir por ".", "?" o "!" y eliminar vacíos
        return len([oracion.strip() for oracion in texto.split('.') if oracion.strip()])
    return 0

In [14]:
# Filtrar los comentarios de odio y no odio
comentarios_odio = data[data['TIPO DE ODIO'].notnull()]['CONTENIDO A ANALIZAR']
comentarios_no_odio = data[data['TIPO DE ODIO'].isnull()]['CONTENIDO A ANALIZAR']

# Calcular la media de oraciones
media_oraciones_odio = comentarios_odio.apply(contar_oraciones).mean()
media_oraciones_no_odio = comentarios_no_odio.apply(contar_oraciones).mean()

# Imprimir resultados
print(f"Promedio de oraciones en comentarios de odio: {media_oraciones_odio:.2f}")
print(f"Promedio de oraciones en comentarios que no son de odio: {media_oraciones_no_odio:.2f}")

Promedio de oraciones en comentarios de odio: 1.58
Promedio de oraciones en comentarios que no son de odio: 5.27


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Las oraciones se suelen separar por ".", "?" o "!", por lo que si separamos las oraciones por ahí y hacemos la media de oraciones por cada grupo, nos da que el promedio de oraciones en comentarios de odio es de 1.58.

Mientras que el promedio de oraciones en comentarios que no son de odio es de 5.27.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [None]:
def contiene_entidades(texto):
    if isinstance(texto, str):
        doc = nlp(texto)
        return len(doc.ents) > 0  # True si hay al menos una entidad
    return False

: 

In [None]:
# Filtrar los comentarios de odio y no odio
comentarios_odio = data[data['TIPO DE ODIO'].notnull()]['CONTENIDO A ANALIZAR']
comentarios_no_odio = data[data['TIPO DE ODIO'].isnull()]['CONTENIDO A ANALIZAR']

# Calcular porcentaje de comentarios con entidades NER
porcentaje_ner_odio = comentarios_odio.apply(contiene_entidades).mean() * 100
porcentaje_ner_no_odio = comentarios_no_odio.apply(contiene_entidades).mean() * 100

# Imprimir resultados
print(f"Porcentaje de comentarios de odio que contienen entidades NER: {porcentaje_ner_odio:.2f}%")
print(f"Porcentaje de comentarios que no son de odio y contienen entidades NER: {porcentaje_ner_no_odio:.2f}%")

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER de tipo PERSON en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de palabras en cada combinación posible de género y número (p.ej. masculino singular) en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), indica cuántas entidades de cada tipo posible se reconocen en cada uno de los grupos</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), extrae y muestra los 100 lemas más repetidos en los comentarios de cada grupo</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 11.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 