**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos):

Fecha:
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [5]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv
import es_core_news_md

#import es_core_news_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>: 

https://spacy.io/models/es#es_core_news_md


In [6]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [7]:
filename = "./comentariosOdio.csv"

In [8]:

lines_number = 20
data = pd.read_csv(filename, delimiter=';', encoding='latin1')  
#data = pd.read_csv(filename, delimiter=';',nrows=lines_number)  

  data = pd.read_csv(filename, delimiter=';', encoding='latin1')


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas: 


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [9]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):#'''len(data["CONTENIDO A ANALIZAR"])'''
    
    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)
    
    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


# #ejemplo de cómo recorrer un comentario palabra por palabra    
# for token in doc[1]:
#     print(token)

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

He visto que hay varios problemas en el dataset:
- Muchas filas en las que todos los valores son nulos menos 1, que es la continuación del contenido de la fila anterior. Para arreglar esto borraré las filas que solo contengan ese valor.
- Hay varias columnas más de las que son en verdad. Esto se debe a que hay direcciones, nombres y demás mal tabulados. Borraré todas las columnas que no tengan un nombre definido, ya que estas columnas en realidad no tienen nombre.

In [10]:
import pandas as pd

# Configura el nombre de tu archivo CSV original y el de salida
input_file = "comentariosOdio.csv"
output_file = "comentariosOdioLimpio.csv"

# Lee el archivo con utf-8 y evita errores de codificación
try:
    with open(input_file, encoding='utf-8', errors='replace') as file:
        df = pd.read_csv(file, delimiter=';', engine='python')
except Exception as e:
    print(f"Error al leer el archivo: {e}")
    exit()

# Guarda el número de columnas base (número de columnas en la primera fila)
num_columnas_base = 9

# Encuentra columnas con índice mayor al número de columnas base
exceso_columnas = df.columns[num_columnas_base:]

# Lista para almacenar las filas con datos en columnas excedentes
filas_con_datos_excedentes = []

# Verifica si alguna de las columnas excedentes tiene datos
for col in exceso_columnas:
    if df[col].notnull().any():
        # Obtén las filas donde esta columna tiene datos
        filas_con_datos = df[df[col].notnull()]
        filas_con_datos_excedentes.append(filas_con_datos)
        # Imprime cada fila que tiene datos en una columna excedente
        for idx, fila in filas_con_datos.iterrows():
            print(f"Fila con datos en columna excedente ({col}):")
            print(fila)
            print("-" * 40)

# Elimina las columnas excedentes del DataFrame
df = df.iloc[:, :num_columnas_base]

# Imprime un resumen
print(f"Columnas eliminadas: {len(exceso_columnas)}")
print(f"Filas afectadas por columnas eliminadas: {sum([len(f) for f in filas_con_datos_excedentes])}")

Fila con datos en columna excedente (Unnamed: 9):
MEDIO                                                           alcoi, 66
SOPORTE                                                    en mislata, 62
URL                                                           en elda, 61
TIPO DE MENSAJE                                              en xàbia, 59
CONTENIDO A ANALIZAR                                      el campello, 53
INTENSIDAD                                             la vila joiosa, 52
TIPO DE ODIO                                     burjassot y l'eliana, 51
TONO HUMORISTICO                                              godella, 49
MODIFICADOR                                                   manises, 48
Unnamed: 9                                                    alfafar, 47
Unnamed: 10                                                     puçol, 46
Unnamed: 11                                                benicàssim, 45
Unnamed: 12                               benicarló, petrer y 

In [11]:
#limpiar el df quitando todas las columnas menos CONTENIDO A ANALIZAR e INTENSIDAD
df = df[["CONTENIDO A ANALIZAR", "INTENSIDAD"]]

In [12]:
# Si la fila es nula o duplicada, eliminar
df = df.dropna()
df = df.drop_duplicates()

# contar cuantas filas tiene el df
print(f"Filas en el DataFrame: {len(df)}")

Filas en el DataFrame: 485712


In [13]:
# Guarda el archivo limpio
try:
    df.to_csv(output_file, sep=';', index=False, encoding='utf-8')
    print(f"Archivo limpio guardado como '{output_file}'")
except Exception as e:
    print(f"Error al guardar el archivo: {e}")

Archivo limpio guardado como 'comentariosOdioLimpio.csv'


In [14]:
# Buscar filas nulas o repetidas

# Crea una lista de filas con valores nulos
filas_nulas = df[df.isnull().any(axis=1)]

# Crea una lista de filas duplicadas
filas_duplicadas = df[df.duplicated()]

# Imprime un resumen
print(f"Columnas con valores nulos: {filas_nulas}")
print(f"Filas duplicadas: {len(filas_duplicadas)}")

Columnas con valores nulos: Empty DataFrame
Columns: [CONTENIDO A ANALIZAR, INTENSIDAD]
Index: []
Filas duplicadas: 0


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Después de limpiar el dataset de columnas innecesarias, filas nulas y valores duplicados, el dataset contiene 485712 registros si miramos el número de filas del CSV

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [15]:
data = pd.read_csv("comentariosOdioLimpio.csv", delimiter=';', encoding= 'utf-8')

if "CONTENIDO A ANALIZAR" in data.columns:
    # Combinar todos los comentarios de la columna en un solo texto
    texto_completo = " ".join(data["CONTENIDO A ANALIZAR"].astype(str))

    # Contar las palabras
    numero_palabras = len(texto_completo.split())

    print(f"Número total de palabras en el corpus: {numero_palabras}")
else:
    print("La columna 'CONTENIDO A ANALIZAR' no existe en el dataset.")

Número total de palabras en el corpus: 60518520


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Después de eliminar las columnas repetidas, nulas y las columnas que no son relevantes, si revisamos el contenido de la columna de comentarios llamada "CONTENIDO A ANALIZAR", podemos contar las palabras y obseravamos que el corpus contiene un total de 60518520 palabras.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [16]:
def contar_palabras(texto):
    if isinstance(texto, str):
        return len(texto.split())
    return 0

In [17]:
columna = "CONTENIDO A ANALIZAR"
if columna in data.columns:

    comentarios = data[columna]
    
    # Aplicamos la función a cada comentario
    data["num_palabras"] = comentarios.apply(contar_palabras)
    
    # Calcular el promedio de palabras por comentario
    promedio = data["num_palabras"].mean()
    
    print(f"Número promedio de palabras por comentario: {promedio}")
    
    print("\nEstadísticas adicionales:")
    print(data["num_palabras"].describe())
else:
    print(f"La columna '{columna}' no existe en el dataset.")

Número promedio de palabras por comentario: 124.5975392825378

Estadísticas adicionales:
count    485712.000000
mean        124.597539
std         272.501166
min           0.000000
25%          10.000000
50%          19.000000
75%          59.000000
max        5341.000000
Name: num_palabras, dtype: float64


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Si guardamso el número de palabras de cada fila y después aplicamos la función mean(), podemos ver que el número medio de palabras por comentario es de aproximadamente  124.6. 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

Vamos a verficar el tipo de dato de la columna INTENSIDAD ya que en caso de no ser numérica, la deberemos de pasar a tipo numérico.

In [18]:
#implrimir 20 valores de la comlumna INTENSIDAD y su type
print(data["INTENSIDAD"].head(20))
print(data["INTENSIDAD"].dtype)

# Convertir la columna INTENSIDAD a tipo numérico
data["INTENSIDAD"] = pd.to_numeric(data["INTENSIDAD"], errors='coerce')

# Verificar si la conversión fue exitosa
print(data["INTENSIDAD"].dtype)

0     3.0
1     0.0
2     3.0
3     3.0
4     3.0
5     3.0
6     4.0
7     3.0
8     4.0
9     3.0
10    3.0
11    4.0
12    0.0
13    4.0
14    4.0
15    3.0
16    0.0
17    3.0
18    0.0
19    0.0
Name: INTENSIDAD, dtype: object
object
float64


In [19]:
# media de palabras por comentario si intensidad == 0 y para intensidad >0

# Filtrar comentarios con intensidad 0
comentarios_no_odio = data[data["INTENSIDAD"] == 0]

# Filtrar comentarios con intensidad mayor a 0
comentarios_odio = data[data["INTENSIDAD"] > 0]

# Calcular el promedio de palabras por comentario
promedio_no_odio = comentarios_no_odio["num_palabras"].mean()
promedio_odio = comentarios_odio["num_palabras"].mean()

print(f"Número promedio de palabras por comentario (sin odio): {promedio_no_odio}")
print(f"Número promedio de palabras por comentario (con odio): {promedio_odio}")


Número promedio de palabras por comentario (sin odio): 127.16041126120524
Número promedio de palabras por comentario (con odio): 16.69876630868909


In [20]:
#borrar columna
data = data.drop(columns=["num_palabras"])

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Si filtramos los datos de filas donde no se dice si hay odio y en las que si hay odio y luego hacemos la media de la columna num_palabras la cual contiene el número de palabras del comentario, podemos ver que la media de palabras en comentarios de odio es de 16.69, mientras que la media de palabras en comentarios que no son de odio es de 127.16.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [21]:
def contar_oraciones(texto):
    if isinstance(texto, str):
        # Dividir por ".", "?" o "!" y eliminar vacíos
        return len([oracion.strip() for oracion in texto.split('.') if oracion.strip()])
    return 0

In [22]:
# contar nº de oraciones en cada comentario de odio o no odio

# Filtrar comentarios con intensidad 0
comentarios_no_odio = data[data["INTENSIDAD"] == 0]

# Filtrar comentarios con intensidad mayor a 0
comentarios_odio = data[data["INTENSIDAD"] > 0]

# Aplicar la función a cada comentario
comentarios_no_odio["num_oraciones"] = comentarios_no_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)
comentarios_odio["num_oraciones"] = comentarios_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)

# Calcular el promedio de oraciones por comentario
promedio_no_odio = comentarios_no_odio["num_oraciones"].mean()
promedio_odio = comentarios_odio["num_oraciones"].mean()

print(f"Número promedio de oraciones por comentario (sin odio): {promedio_no_odio}")
print(f"Número promedio de oraciones por comentario (con odio): {promedio_odio}")

Número promedio de oraciones por comentario (sin odio): 5.864360945361192
Número promedio de oraciones por comentario (con odio): 1.6069938759208307


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  comentarios_no_odio["num_oraciones"] = comentarios_no_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  comentarios_odio["num_oraciones"] = comentarios_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Las oraciones se suelen separar por ".", "?" o "!", por lo que si separamos las oraciones por ahí y contamos las oraciones que tiene cada fila, guardándola en la columna num_oraciones, podremos calcular el promedio de oraciones por tipo de comentario. El promedio de oraciones en comentarios de odio es de aproximadamente 1.61 oraciones, mientras que el promedio de oraciones en comentarios que no son de odio es de aproximadamente 5.86.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

A partir de ahora, tras muchos experimentos donde me daba un error en el kernel, tal y como ha dicho el profesor en las clases online voy a usar una muestra significativa del dataset para que no tenga problemas.Tras probar varios números de filas, he conseguido llegar a usar 35.000 filas, por lo que usaré una muestra de ese tamaño para continuar.

Las filas serán seleccionadas aleatoriamente con una seed para que sea reproducible e intente tener los menos sesgos posibles.

In [23]:
data = data.sample(n=35000, random_state = 3)

In [24]:
columna = "CONTENIDO A ANALIZAR"
if columna in data.columns:

    comentarios = data[columna]
    
    # Aplicamos la función a cada comentario
    data["num_palabras"] = comentarios.apply(contar_palabras)
    
    # Calcular el promedio de palabras por comentario
    promedio = data["num_palabras"].mean()
    
    print(f"Número promedio de palabras por comentario: {promedio}")
    
    print("\nEstadísticas adicionales:")
    print(data["num_palabras"].describe())
else:
    print(f"La columna '{columna}' no existe en el dataset.")

Número promedio de palabras por comentario: 125.26768571428572

Estadísticas adicionales:
count    35000.000000
mean       125.267686
std        272.214444
min          1.000000
25%         10.000000
50%         19.000000
75%         60.000000
max       5154.000000
Name: num_palabras, dtype: float64


In [25]:
# media de palabras por comentario si intensidad == 0 y para intensidad >0

# Filtrar comentarios con intensidad 0
comentarios_no_odio = data[data["INTENSIDAD"] == 0]

# Filtrar comentarios con intensidad mayor a 0
comentarios_odio = data[data["INTENSIDAD"] > 0]

# Calcular el promedio de palabras por comentario
promedio_no_odio = comentarios_no_odio["num_palabras"].mean()
promedio_odio = comentarios_odio["num_palabras"].mean()

print(f"Número promedio de palabras por comentario (sin odio): {promedio_no_odio}")
print(f"Número promedio de palabras por comentario (con odio): {promedio_odio}")


Número promedio de palabras por comentario (sin odio): 127.77589079535822
Número promedio de palabras por comentario (con odio): 16.512040557667934


In [26]:
# Filtrar comentarios con intensidad 0
comentarios_no_odio = data[data["INTENSIDAD"] == 0]

# Filtrar comentarios con intensidad mayor a 0
comentarios_odio = data[data["INTENSIDAD"] > 0]

# Aplicar la función a cada comentario
comentarios_no_odio["num_oraciones"] = comentarios_no_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)
comentarios_odio["num_oraciones"] = comentarios_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)

# Calcular el promedio de oraciones por comentario
promedio_no_odio = comentarios_no_odio["num_oraciones"].mean()
promedio_odio = comentarios_odio["num_oraciones"].mean()

print(f"Número promedio de oraciones por comentario (sin odio): {promedio_no_odio}")
print(f"Número promedio de oraciones por comentario (con odio): {promedio_odio}")

Número promedio de oraciones por comentario (sin odio): 5.907748969629651
Número promedio de oraciones por comentario (con odio): 1.6007604562737643


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  comentarios_no_odio["num_oraciones"] = comentarios_no_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  comentarios_odio["num_oraciones"] = comentarios_odio["CONTENIDO A ANALIZAR"].apply(contar_oraciones)


Tras probar varias seeds, he determinado que '3' es válida ya que tiene casi el mismo número de palabras por comentario, casi el mismo numero de oraciones por comentario de odio o no odio y un numero de palabras por comentario de odio o no odio muy parecido al del dataset original.

In [27]:
data = data.drop(columns=["num_palabras"])

In [28]:
# # Contar las palabras en "CONTENIDO A ANALIZAR"
# data['word_count'] = data['CONTENIDO A ANALIZAR'].apply(lambda x: len(str(x).split()))

# # Filtrar las filas con más de 1000 palabras
# rows_with_many_words = data[data['word_count'] > 2000]

# # Mostrar el número de filas y sus índices
# print(f"Número de filas con más de 1000 palabras: {len(rows_with_many_words)}")
# print(rows_with_many_words[['CONTENIDO A ANALIZAR', 'word_count']])

#data = data[data['word_count']<=500]

Ahora vamos a responder a la pregunta

In [29]:
# Función para aplicar NER en lotes usando nlp.pipe
def detect_ner_in_batches(texts, batch_size=50):
    has_ner = []
    for doc in nlp.pipe(texts, batch_size=batch_size, disable=["tagger", "parser"]):  # Solo NER
        has_ner.append(len(doc.ents) > 0)
    return has_ner


In [30]:
# Dividir en dos grupos (trabajando con copias explícitas para evitar el SettingWithCopyWarning)
odio = data[data['INTENSIDAD'] > 0.0].copy()
no_odio = data[data['INTENSIDAD'] == 0.0].copy()

# Procesar comentarios con spaCy en lotes y asignar los resultados
odio.loc[:, 'has_ner'] = detect_ner_in_batches(odio['CONTENIDO A ANALIZAR'], batch_size=50)
no_odio.loc[:, 'has_ner'] = detect_ner_in_batches(no_odio['CONTENIDO A ANALIZAR'], batch_size=50)

# Calcular porcentajes
porcentaje_ner_odio = (odio['has_ner'].mean()) * 100
porcentaje_ner_no_odio = (no_odio['has_ner'].mean()) * 100

print(f"Porcentaje de comentarios con NER (odio): {porcentaje_ner_odio:.2f}%")
print(f"Porcentaje de comentarios con NER (no odio): {porcentaje_ner_no_odio:.2f}%")

Porcentaje de comentarios con NER (odio): 39.16%
Porcentaje de comentarios con NER (no odio): 59.42%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Tras usar 35k comentarios, y buscar en cada comentario si el número de entidades NER es mayor que 0 (doc.ents) podemos ver los porcentajes:

Porcentaje de comentarios con NER (odio): 39.16%
Porcentaje de comentarios con NER (no odio): 59.42%

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER de tipo PERSON en cada grupo?</span>

In [31]:
def has_person_entity(texts, batch_size=50):
    has_person = []
    for doc in nlp.pipe(texts, batch_size=batch_size, disable=["tagger", "parser"]):  # Solo NER
        # Verificar si hay al menos una entidad de tipo "PERSON"
        has_person.append(any(ent.label_ == "PER" for ent in doc.ents))
    return has_person

In [32]:
# Dividir en dos grupos (trabajando con copias explícitas para evitar el SettingWithCopyWarning)
odio = data[data['INTENSIDAD'] > 0.0].copy()
no_odio = data[data['INTENSIDAD'] == 0.0].copy()

# Procesar comentarios con spaCy en lotes y asignar los resultados
odio.loc[:, 'has_person'] = has_person_entity(odio['CONTENIDO A ANALIZAR'], batch_size=50)
no_odio.loc[:, 'has_person'] = has_person_entity(no_odio['CONTENIDO A ANALIZAR'], batch_size=50)

# Calcular porcentajes
porcentaje_person_odio = (odio['has_person'].mean()) * 100
porcentaje_person_no_odio = (no_odio['has_person'].mean()) * 100

print(f"Porcentaje de comentarios con entidades PERSON (odio): {porcentaje_person_odio:.2f}%")
print(f"Porcentaje de comentarios con entidades PERSON (no odio): {porcentaje_person_no_odio:.2f}%")

Porcentaje de comentarios con entidades PERSON (odio): 16.98%
Porcentaje de comentarios con entidades PERSON (no odio): 32.42%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

En este apartado solamente tenemos que comprobar si hay alguna entidad NER de tipo PER en el comentario (doc.label_ == "PER") si el output es TRUE, se contabiliza como que hay al menos una entidad de tipo PER. Tras analizarlo, podemos ver los porcentajes:

Porcentaje de comentarios con entidades PERSON (odio): 16,98%
Porcentaje de comentarios con entidades PERSON (no odio): 32.42%

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de palabras en cada combinación posible de género y número (p.ej. masculino singular) en cada grupo?</span>

In [33]:
from collections import Counter

def analyze_gender_number_debug(texts, batch_size=50):
    # Contadores para género y número
    counts = Counter()
    total_relevant_words = 0

    # Procesar textos en lotes
    for doc in nlp.pipe(texts, batch_size=batch_size, disable=["ner", "parser"]):  # Solo análisis léxico
        for token in doc:
            # Mostrar token y su información morfosintáctica
            #print(f"Token: {token.text}, Morph: {token.morph}")

            # Consideramos solo palabras con información de género y número
            gender = token.morph.get("Gender")
            number = token.morph.get("Number")
            
            if gender and number:  # Solo si ambos atributos existen
                #print(f"Palabra: {token.text}, Género: {gender[0]}, Número: {number[0]}")
                counts[(gender[0], number[0])] += 1
                total_relevant_words += 1
            #else:
                #print(f"Palabra: {token.text} no tiene género o número relevante")

    # Calcular porcentajes
    percentages = {k: (v / total_relevant_words) * 100 for k, v in counts.items()} if total_relevant_words > 0 else {}

    return counts, percentages

# Analizar género y número para cada grupo de comentarios
counts_odio, percentages_odio = analyze_gender_number_debug(odio['CONTENIDO A ANALIZAR'], batch_size=50)
counts_no_odio, percentages_no_odio = analyze_gender_number_debug(no_odio['CONTENIDO A ANALIZAR'], batch_size=50)

# Mostrar resultados
print("Porcentajes por género y número (grupo odio):")
for k, v in percentages_odio.items():
    print(f"{k}: {v:.2f}%")

print("\nPorcentajes por género y número (grupo no odio):")
for k, v in percentages_no_odio.items():
    print(f"{k}: {v:.2f}%")


Porcentajes por género y número (grupo odio):
('Masc', 'Sing'): 39.82%
('Fem', 'Plur'): 8.49%
('Masc', 'Plur'): 19.16%
('Fem', 'Sing'): 32.53%

Porcentajes por género y número (grupo no odio):
('Masc', 'Sing'): 41.03%
('Fem', 'Sing'): 33.46%
('Masc', 'Plur'): 14.97%
('Fem', 'Plur'): 10.54%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Con la librería collections, podemos generar un diccionario con el que iremos contando cada una de las posibilidades. Se verifica palabra por palabra y comentario por comentario el género y número de cada palabra con token.morph y si la palabra tiene género y número, se ñade al diccionario en el índice que le corresponde.

Depués se calculan los porcentajes. Con esto teemos los siguientes resultados:

Odio:

- Masculino singular: 39.82%
- Masculino plural: 19.16%
- Femenino singular: 32.53%
- Femenino plural: 8.49%

No odio:
- Masculino singular: 41.03%
- Masculino plural: 14.97%
- Femenino singular: 33.46%
- Femenino plural: 10.54%

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), indica cuántas entidades de cada tipo posible se reconocen en cada uno de los grupos</span>

In [39]:
from collections import Counter

def analyze_entities_by_type(texts, batch_size=50):
    # Contador para cada tipo de entidad
    entity_counts = {ent_type: 0 for ent_type in ["PER", "ORG", "LOC", "MISC"]}
    total_entities = 0

    # Procesar textos en lotes
    for doc in nlp.pipe(texts, batch_size=batch_size, disable=["parser"]):  # Solo análisis de entidades
        for ent in doc.ents:
            # Validar que la etiqueta de entidad sea válida
            if ent.label_ in entity_counts:
                entity_counts[ent.label_] += 1
                total_entities += 1
            else:
                print(f"Etiqueta de entidad desconocida: {ent.label_}")

    # Calcular porcentajes si es necesario
    percentages = {k: (v / total_entities) * 100 for k, v in entity_counts.items()} if total_entities > 0 else {}

    return entity_counts, percentages

# Analizar entidades para cada grupo de comentarios
entity_counts_odio, percentages_odio = analyze_entities_by_type(odio['CONTENIDO A ANALIZAR'], batch_size=50)
entity_counts_no_odio, percentages_no_odio = analyze_entities_by_type(no_odio['CONTENIDO A ANALIZAR'], batch_size=50)

# Mostrar resultados
print("Cantidad de entidades por tipo (grupo odio):")
for ent_type, count in entity_counts_odio.items():
    print(f"{ent_type}: {count}")

print("\nCantidad de entidades por tipo (grupo no odio):")
for ent_type, count in entity_counts_no_odio.items():
    print(f"{ent_type}: {count}")


Cantidad de entidades por tipo (grupo odio):
PER: 150
ORG: 62
LOC: 112
MISC: 82

Cantidad de entidades por tipo (grupo no odio):
PER: 48127
ORG: 16131
LOC: 51921
MISC: 12712


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Al igual que en el anterior ejercicio, se utiliza el paquete collections para generar un diccionario que contenga el numero de veces que sale cada entidad. 

Tras ver comentario por comentario viendo que entidades tiene el comentario y contando el numero de entidades distintas que hay en cada grupo, podemos ver los siguientes resultados:

Cantidad de entidades (grupo odio):
- PER: 150
- ORG: 62
- LOC: 112
- MISC: 82

Cantidad de entidades (grupo no odio):
- PER: 48127
- ORG: 16131
- LOC: 51921
- MISC: 12712

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), extrae y muestra los 100 lemas más repetidos en los comentarios de cada grupo</span>

In [37]:
from collections import Counter

def obtener_top_lemas(textos, n=100):
    # Contador para almacenar lemas
    lemas = Counter()

    # Procesar textos y extraer lemas
    for doc in nlp.pipe(textos, batch_size=50, disable=["ner", "parser"]):  # Solo análisis léxico
        lemas.update(token.lemma_.lower() for token in doc if not token.is_punct and not token.is_space)

    # Retornar los n lemas más comunes
    return lemas.most_common(n)

# Dividir los grupos de odio y no odio
odio = data[data['INTENSIDAD'] > 0.0]
no_odio = data[data['INTENSIDAD'] == 0.0]

# Obtener los 100 lemas más comunes
top_lemas_odio = obtener_top_lemas(odio['CONTENIDO A ANALIZAR'])
top_lemas_no_odio = obtener_top_lemas(no_odio['CONTENIDO A ANALIZAR'])

# Mostrar resultados
print("Top 100 lemas en comentarios de odio:")
for lema, freq in top_lemas_odio:
    print(f"{lema}: {freq}")

print("\nTop 100 lemas en comentarios de no odio:")
for lema, freq in top_lemas_no_odio:
    print(f"{lema}: {freq}")


Top 100 lemas en comentarios de odio:
el: 897
de: 612
que: 548
él: 464
ser: 375
y: 369
a: 357
uno: 268
no: 201
en: 189
este: 165
por: 117
haber: 117
yo: 105
su: 102
todo: 101
para: 99
con: 96
como: 94
del: 88
tener: 75
hacer: 75
tú: 70
más: 69
estar: 69
si: 67
ese: 64
puta: 63
ir: 63
mierda: 59
poder: 58
al: 55
pero: 53
dar: 47
ya: 44
o: 43
tanto: 41
mucho: 41
gobierno: 40
panfleto: 38
hijo: 38
otro: 38
decir: 37
menudo: 36
ni: 36
ver: 36
españa: 34
asco: 33
mentiroso: 32
qué: 30
sin: 30
solo: 29
país: 28
tu: 27
q: 26
cuando: 25
ahora: 24
sois: 24
gente: 24
basura: 23
político: 23
nuestro: 22
nada: 22
gentuza: 22
bien: 21
saber: 19
año: 19
mundo: 19
comunista: 19
creer: 18
vuestro: 18
mismo: 18
idiota: 18
pues: 18
español: 18
noticia: 17
e: 17
sinvergüenza: 17
querer: 17
poco: 17
estupidez: 17
gilipol él: 16
inútil: 16
pagar: 16
poner: 16
vergüenza: 16
porque: 16
vaya: 16
salir: 15
casa: 15
siempre: 15
pasar: 15
vez: 15
culo: 15
dejar: 15
llevar: 14
partido: 14
votar: 14
periódico: 14


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Al igual que en los anteriores ejercicios, usamos collections para guardar en un diccionario el número de veces que sale cada palabra.

Viendo comentario por comentario, palabra por palabra y guardando cada palabra en el diccionario,podemos ver en el print las 100 palabras más repetidas cada grupo.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 11.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [38]:
# Incluye aquí el código generado para poder responder a tu pregunta


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 