<a href="https://colab.research.google.com/github/robinsonmirandaco/pln-caracterizacion-textos-unir/blob/main/caracteristicasOdio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Robinson José Miranda Pérez

Fecha: 21/04/2025
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
!pip install spacy
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-md
Successfully installed es-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [1]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv
import es_core_news_md

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>:

https://spacy.io/models/es#es_core_news_md


In [2]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [4]:
filename = "/content/02Dataset_sin_procesar.csv"
data = pd.read_csv(filename, delimiter=';', encoding='latin1')
data.head()

  data = pd.read_csv(filename, delimiter=';', encoding='latin1')


Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PAÃS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el barÃ§a nunca acaeza ante un segundo b ni an...,3.0,Otros,,,,,,,,,
1,EL PAÃS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PAÃS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,cristina cifuentes podrÃ­a haber sido la presi...,3.0,IdeolÃ³gico,,,,,,,,,
3,EL PAÃS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,habrÃ­a que reabrir el caso. el supremo se ded...,3.0,IdeolÃ³gico,,,,,,,,,
4,EL PAÃS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,me parece un poco exagerado pedir mÃ¡s de tres...,3.0,IdeolÃ³gico,Si,,,,,,,,


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas:


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [None]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):

    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)

    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de cómo recorrer un comentario palabra por palabra
for token in doc[1]:
    print(token)

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [5]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Contar cuántos registros (filas) tiene el corpus
num_registros = len(data)
print(f"Número total de registros en el corpus: {num_registros}")

Número total de registros en el corpus: 574915


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 Para conocer cuántos registros tiene el corpus, utilicé la función len() sobre el DataFrame data, que contiene el contenido del archivo 02Dataset_sin_procesar.csv cargado desde la plataforma de UNIR. Este archivo ya venía previamente etiquetado con los comentarios y sus niveles de intensidad.

El resultado fue 574.915 registros, lo que representa el total de comentarios que voy a analizar. Este valor confirma que estoy trabajando con el dataset completo y en buen estado, lo cual es importante para asegurar que los resultados posteriores sean representativos.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [6]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Seleccionamos una muestra aleatoria del 0.5% del corpus
muestra = data.sample(frac=0.005, random_state=42)

total_palabras_muestra = 0

# Contar solo palabras reales en cada comentario de la muestra
for texto in muestra["CONTENIDO A ANALIZAR"]:
    doc = nlp(str(texto))
    total_palabras_muestra += len([token for token in doc if not token.is_punct and not token.is_space])

# Escalar la cantidad de palabras al tamaño total del corpus
estimado_total_palabras = int(total_palabras_muestra * (len(data) / len(muestra)))

print(f"Estimación del número total de palabras en el corpus: {estimado_total_palabras}")

Estimación del número total de palabras en el corpus: 66104426


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 Como procesar los más de 574.000 comentarios completos con spaCy tomaría mucho tiempo, opté por seleccionar una muestra aleatoria del 0.5% del corpus. En esa muestra, conté cuántas palabras reales había (excluyendo signos y espacios), y luego escalé ese número al tamaño total del corpus.

Esta técnica me permite estimar cuántas palabras hay en todos los comentarios sin tener que procesarlos uno por uno, ahorrando tiempo sin perder precisión en el análisis.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [7]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Usamos el total estimado de palabras de la Pregunta 2
estimado_total_palabras = 66104426
total_comentarios = len(data)

# Cálculo del promedio
promedio_palabras = estimado_total_palabras / total_comentarios

print(f"Número promedio de palabras por comentario: {promedio_palabras:.2f}")

Número promedio de palabras por comentario: 114.98


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 Luego de estimar que el corpus tiene alrededor de 66 millones de palabras, dividí ese valor entre el total de registros (574.915 comentarios). Esto me permitió calcular el promedio de palabras por comentario, que resultó ser 114.98. Este dato es útil para entender la longitud media del contenido, y confirma que muchos mensajes son más largos de lo que se esperaría en un corpus de redes sociales o foros.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [8]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Asegurarse de que la columna INTENSIDAD es numérica
data["INTENSIDAD"] = pd.to_numeric(data["INTENSIDAD"], errors='coerce')

# Separar los dos grupos
sin_odio = data[data["INTENSIDAD"] == 0]
con_odio = data[data["INTENSIDAD"] > 0]

# Tomar muestra del 0.5% en cada grupo
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Función para contar palabras reales
def contar_palabras(muestra):
    total = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        total += len([token for token in doc if not token.is_punct and not token.is_space])
    return total

# Conteo por muestra
palabras_sin_odio = contar_palabras(muestra_sin_odio)
palabras_con_odio = contar_palabras(muestra_con_odio)

# Escalar al total del grupo
estimado_total_sin_odio = int(palabras_sin_odio * (len(sin_odio) / len(muestra_sin_odio)))
estimado_total_con_odio = int(palabras_con_odio * (len(con_odio) / len(muestra_con_odio)))

# Promedio por grupo
promedio_sin_odio = estimado_total_sin_odio / len(sin_odio)
promedio_con_odio = estimado_total_con_odio / len(con_odio)

# Mostrar resultados
print(f"Promedio de palabras (SIN odio): {promedio_sin_odio:.2f}")
print(f"Promedio de palabras (CON odio): {promedio_con_odio:.2f}")

Promedio de palabras (SIN odio): 119.04
Promedio de palabras (CON odio): 14.08


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En esta parte del análisis dividí el corpus en dos grupos utilizando la columna INTENSIDAD: aquellos comentarios sin odio (INTENSIDAD = 0) y aquellos con odio (INTENSIDAD > 0). Utilicé spaCy sobre una muestra del 0.5% de cada grupo para contar solo palabras reales (sin espacios ni signos), y luego extrapolé el resultado al total de registros por grupo.

El resultado fue que los comentarios sin odio tienen en promedio 119.04 palabras, mientras que los con odio tienen en promedio solo 14.08 palabras. Esta diferencia es significativa y refleja cómo cambia la forma de comunicación cuando hay lenguaje de odio: este tiende a ser más corto, directo y agresivo, mientras que los mensajes sin odio suelen ser más extensos, explicativos o reflexivos.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [9]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Función para contar oraciones en cada muestra
def contar_oraciones(muestra):
    total = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        total += len(list(doc.sents))  # .sents permite contar oraciones detectadas por spaCy
    return total

# Tomar una muestra del 0.5% de cada grupo
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Contar oraciones en cada muestra
oraciones_sin_odio = contar_oraciones(muestra_sin_odio)
oraciones_con_odio = contar_oraciones(muestra_con_odio)

# Escalar a los tamaños reales de los grupos
estimado_total_oraciones_sin_odio = int(oraciones_sin_odio * (len(sin_odio) / len(muestra_sin_odio)))
estimado_total_oraciones_con_odio = int(oraciones_con_odio * (len(con_odio) / len(muestra_con_odio)))

# Promedios por grupo
promedio_oraciones_sin_odio = estimado_total_oraciones_sin_odio / len(sin_odio)
promedio_oraciones_con_odio = estimado_total_oraciones_con_odio / len(con_odio)

# Mostrar resultados
print(f"Promedio de oraciones (SIN odio): {promedio_oraciones_sin_odio:.2f}")
print(f"Promedio de oraciones (CON odio): {promedio_oraciones_con_odio:.2f}")

Promedio de oraciones (SIN odio): 4.04
Promedio de oraciones (CON odio): 1.52


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En esta parte conté el número promedio de oraciones por comentario, separando los mensajes según la etiqueta de INTENSIDAD. Para lograrlo, utilicé el método doc.sents de spaCy sobre una muestra del 0.5% en cada grupo. Luego extrapolé los resultados al total de registros en cada grupo para obtener un promedio más representativo.

Los resultados muestran que los comentarios sin odio contienen en promedio 4.04 oraciones, mientras que los comentarios con odio solo tienen 1.52. Esto reafirma que los mensajes con odio tienden a ser breves y poco estructurados, mientras que los mensajes sin odio son más extensos y complejos en su forma.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [10]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Función para contar cuántos comentarios tienen al menos una entidad NER
def comentarios_con_entidades(muestra):
    con_entidades = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        if len(doc.ents) > 0:
            con_entidades += 1
    return con_entidades

# Muestras del 0.5%
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Conteo de comentarios con entidades
con_entidades_sin_odio = comentarios_con_entidades(muestra_sin_odio)
con_entidades_con_odio = comentarios_con_entidades(muestra_con_odio)

# Cálculo de porcentajes
porcentaje_sin_odio = (con_entidades_sin_odio / len(muestra_sin_odio)) * 100
porcentaje_con_odio = (con_entidades_con_odio / len(muestra_con_odio)) * 100

# Mostrar resultados
print(f"Porcentaje de comentarios CON entidades (SIN odio): {porcentaje_sin_odio:.2f}%")
print(f"Porcentaje de comentarios CON entidades (CON odio): {porcentaje_con_odio:.2f}%")

Porcentaje de comentarios CON entidades (SIN odio): 64.44%
Porcentaje de comentarios CON entidades (CON odio): 26.23%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 En esta pregunta analicé cuántos comentarios contenían al menos una entidad reconocida por spaCy (como personas, organizaciones, lugares, etc.). Lo hice a partir de una muestra del 0.5% de cada grupo (con odio y sin odio).

El resultado fue que 64.44% de los comentarios sin odio contenían entidades, mientras que solo 26.23% de los comentarios con odio lo hicieron. Esta diferencia indica que los mensajes sin odio tienden a hacer más referencias a contextos reales o concretos, mientras que los comentarios con odio suelen ser más simples o emocionales, con menos menciones específicas.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER de tipo PERSON en cada grupo?</span>

In [11]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Función para contar comentarios que mencionan PERSON
def comentarios_con_person(muestra):
    con_person = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        if any(ent.label_ == "PER" or ent.label_ == "PERSON" for ent in doc.ents):
            con_person += 1
    return con_person

# Contar por grupo
comentarios_person_sin_odio = comentarios_con_person(muestra_sin_odio)
comentarios_person_con_odio = comentarios_con_person(muestra_con_odio)

# Calcular porcentaje por grupo
porcentaje_person_sin_odio = (comentarios_person_sin_odio / len(muestra_sin_odio)) * 100
porcentaje_person_con_odio = (comentarios_person_con_odio / len(muestra_con_odio)) * 100

# Mostrar resultados
print(f"Porcentaje de comentarios que mencionan personas (SIN odio): {porcentaje_person_sin_odio:.2f}%")
print(f"Porcentaje de comentarios que mencionan personas (CON odio): {porcentaje_person_con_odio:.2f}%")

Porcentaje de comentarios que mencionan personas (SIN odio): 30.44%
Porcentaje de comentarios que mencionan personas (CON odio): 14.75%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 En esta pregunta me enfoqué en las entidades de tipo PERSON detectadas por spaCy, es decir, menciones a personas reales. Apliqué este análisis sobre una muestra del 0.5% de los comentarios con y sin odio.

El resultado fue que 30.44% de los comentarios sin odio contenían menciones a personas, mientras que solo 14.75% de los comentarios con odio lo hacían. Esta diferencia refuerza la idea de que los mensajes sin odio son más descriptivos y tienden a mencionar a personas de forma informativa o conversacional. En contraste, los mensajes con odio son más breves, emocionales o generalizadores, y rara vez incluyen menciones específicas a individuos.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de palabras en cada combinación posible de género y número (p.ej. masculino singular) en cada grupo?</span>

In [13]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

# Función para contar combinaciones de género y número en una muestra
def contar_genero_numero(muestra):
    combinaciones = Counter()
    total_validos = 0

    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        for token in doc:
            genero = token.morph.get("Gender")
            numero = token.morph.get("Number")
            if genero and numero:
                combinacion = f"{genero[0]}-{numero[0]}"  # ej: Masculine-Singular → Masc-Sing
                combinaciones[combinacion] += 1
                total_validos += 1

    # Calcular porcentajes
    porcentajes = {
        comb: (count / total_validos) * 100
        for comb, count in combinaciones.items()
    }

    return porcentajes

# Ejecutar en ambas muestras
porcentajes_sin_odio = contar_genero_numero(muestra_sin_odio)
porcentajes_con_odio = contar_genero_numero(muestra_con_odio)

# Mostrar resultados
print("Porcentajes por combinación género-número (SIN odio):")
for comb, porcentaje in sorted(porcentajes_sin_odio.items(), key=lambda x: -x[1]):
    print(f"{comb}: {porcentaje:.2f}%")

print("\nPorcentajes por combinación género-número (CON odio):")
for comb, porcentaje in sorted(porcentajes_con_odio.items(), key=lambda x: -x[1]):
    print(f"{comb}: {porcentaje:.2f}%")

Porcentajes por combinación género-número (SIN odio):
Masc-Sing: 41.91%
Fem-Sing: 32.81%
Masc-Plur: 14.96%
Fem-Plur: 10.32%

Porcentajes por combinación género-número (CON odio):
Masc-Sing: 40.51%
Fem-Sing: 32.28%
Masc-Plur: 19.94%
Fem-Plur: 7.28%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 Para esta pregunta analicé la proporción de palabras que presentan género y número gramatical (por ejemplo: masculino singular, femenino plural, etc.) en cada grupo de comentarios. Utilicé spaCy para acceder a los atributos morfosintácticos de cada token (Gender y Number) y conté las combinaciones válidas en una muestra del 0.5% por grupo.

En los comentarios sin odio, las combinaciones más comunes fueron: masculino singular (41.91%), seguido por femenino singular (32.81%), masculino plural (14.96%) y femenino plural (10.32%).

En los comentarios con odio, aunque las combinaciones más frecuentes fueron similares, se observó una diferencia: masculino plural aumentó al 19.94%, mientras que femenino plural disminuyó al 7.28%.

Estos resultados podrían indicar que los comentarios con odio tienden a usar más sustantivos masculinos en plural, lo cual podría estar relacionado con expresiones generalizadas o estereotipos dirigidos a grupos (por ejemplo, "inmigrantes", "extranjeros", "hombres", etc.).

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), indica cuántas entidades de cada tipo posible se reconocen en cada uno de los grupos</span>

In [14]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

# Función para contar tipos de entidades en una muestra
def contar_tipos_entidades(muestra):
    contador = Counter()
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        for ent in doc.ents:
            contador[ent.label_] += 1
    return contador

# Aplicar función a cada grupo
entidades_sin_odio = contar_tipos_entidades(muestra_sin_odio)
entidades_con_odio = contar_tipos_entidades(muestra_con_odio)

# Mostrar resultados ordenados por cantidad
print("Entidades reconocidas (SIN odio):")
for tipo, cantidad in entidades_sin_odio.most_common():
    print(f"{tipo}: {cantidad}")

print("\nEntidades reconocidas (CON odio):")
for tipo, cantidad in entidades_con_odio.most_common():
    print(f"{tipo}: {cantidad}")

Entidades reconocidas (SIN odio):
LOC: 4053
PER: 3729
MISC: 2413
ORG: 1437

Entidades reconocidas (CON odio):
PER: 10
MISC: 4
LOC: 4
ORG: 3


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 ara esta pregunta conté cuántas entidades reconocidas por spaCy aparecían en cada grupo de comentarios (con y sin odio), clasificadas por tipo (PER, LOC, ORG, MISC, etc.). Utilicé una muestra del 0.5% por grupo.

En los comentarios sin odio, se reconocieron un total considerable de entidades: 4.053 de tipo LOC (lugares), 3.729 de tipo PER (personas), 2.413 de tipo MISC, y 1.437 de tipo ORG (organizaciones).

En contraste, en los comentarios con odio las entidades fueron escasas: solo 10 personas (PER), 4 MISC, 4 lugares (LOC), y 3 organizaciones (ORG).

Este resultado refuerza los análisis anteriores: los comentarios sin odio tienden a ser más informativos, contextuales y estructurados, mientras que los comentarios con odio tienden a ser breves, más emocionales y con menos referencias específicas a entidades reales.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), extrae y muestra los 100 lemas más repetidos en los comentarios de cada grupo</span>

In [15]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

# Función para extraer y contar lemas
def lemas_mas_frecuentes(muestra, top_n=100):
    todos_los_lemas = []
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        lemas = [token.lemma_.lower() for token in doc if token.is_alpha and not token.is_stop]
        todos_los_lemas.extend(lemas)
    return Counter(todos_los_lemas).most_common(top_n)

# Obtener lemas más frecuentes por grupo
lemas_sin_odio = lemas_mas_frecuentes(muestra_sin_odio)
lemas_con_odio = lemas_mas_frecuentes(muestra_con_odio)

# Mostrar resultados
print("Top 100 lemas más repetidos (SIN odio):")
for lema, frecuencia in lemas_sin_odio:
    print(f"{lema}: {frecuencia}")

print("\nTop 100 lemas más repetidos (CON odio):")
for lema, frecuencia in lemas_con_odio:
    print(f"{lema}: {frecuencia}")

Top 100 lemas más repetidos (SIN odio):
n: 731
s: 689
tambiã: 607
estã: 547
gobierno: 458
persona: 431
caso: 372
ã: 345
euros: 339
segãºn: 304
madrid: 289
millón: 287
pãºblico: 274
hora: 272
comunidad: 250
despuã: 242
grupo: 241
â: 238
partido: 236
momento: 233
llegar: 232
vida: 229
tiempo: 227
ãºltimo: 226
mes: 223
centro: 223
ver: 221
poner: 220
social: 218
mundo: 211
semana: 208
quã: 206
medida: 204
seguir: 201
dejar: 197
explicar: 194
pp: 193
casa: 192
pandemia: 189
portada: 188
rt: 187
trabajo: 187
poder: 183
i: 179
servicio: 178
forma: 177
pasar: 171
presidente: 168
punto: 166
general: 163
mantener: 162
equipo: 156
recordar: 155
pedir: 154
vacuna: 153
tener: 153
l: 153
serã: 149
empresa: 149
cosa: 148
gente: 148
lugar: 146
quedar: 146
haber: 145
querer: 145
familia: 145
nãºmero: 144
salir: 144
mujer: 143
derecho: 141
problema: 141
nacional: 141
recibir: 140
nivel: 138
ir: 138
trabajar: 137
ley: 137
plan: 137
salud: 134
zona: 134
hombre: 134
alto: 132
permitir: 132
mã: 132
sistema

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 En esta última pregunta extraje los 100 lemas más repetidos en los comentarios con y sin odio utilizando spaCy. El lema es la forma base de una palabra, lo cual permite agrupar variantes gramaticales. Eliminé signos de puntuación y stopwords para centrarme solo en el contenido significativo.

En los comentarios sin odio, los lemas más frecuentes reflejan un lenguaje más informativo y estructurado, con palabras relacionadas con instituciones, personas, lugares y verbos de acción como gobierno, caso, persona, vacuna, explicar, plan, salud, entre otros.

En los comentarios con odio, destacan insultos y expresiones ofensivas como puta, tonto, asco, imbã, hdp, gentuza, mariconazo, y palabras con fuerte carga ideológica como propaganda, terrorista, ultraderechs.

Este análisis confirma que el lenguaje con odio está más centrado en agresión directa y descalificación personal, mientras que el lenguaje sin odio es más diverso, amplio y enfocado en hechos o ideas.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 11.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [16]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Resumen estadístico simplificado para apoyar la conclusión

print(f"Promedio de palabras por comentario (SIN odio): {promedio_sin_odio:.2f}")
print(f"Promedio de palabras por comentario (CON odio): {promedio_con_odio:.2f}")

print(f"Promedio de oraciones por comentario (SIN odio): {promedio_oraciones_sin_odio:.2f}")
print(f"Promedio de oraciones por comentario (CON odio): {promedio_oraciones_con_odio:.2f}")

print(f"Porcentaje de comentarios con entidades NER (SIN odio): {porcentaje_sin_odio:.2f}%")
print(f"Porcentaje de comentarios con entidades NER (CON odio): {porcentaje_con_odio:.2f}%")

print(f"Porcentaje de comentarios con entidad PERSON (SIN odio): {porcentaje_person_sin_odio:.2f}%")
print(f"Porcentaje de comentarios con entidad PERSON (CON odio): {porcentaje_person_con_odio:.2f}%")

Promedio de palabras por comentario (SIN odio): 119.04
Promedio de palabras por comentario (CON odio): 14.08
Promedio de oraciones por comentario (SIN odio): 4.04
Promedio de oraciones por comentario (CON odio): 1.52
Porcentaje de comentarios con entidades NER (SIN odio): 64.44%
Porcentaje de comentarios con entidades NER (CON odio): 26.23%
Porcentaje de comentarios con entidad PERSON (SIN odio): 30.44%
Porcentaje de comentarios con entidad PERSON (CON odio): 14.75%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 Para responder si es posible detectar lenguaje de odio a partir de las características extraídas, realicé un análisis comparativo entre los comentarios con y sin odio usando varias métricas cuantificables.

Al revisar los resultados obtenidos:

Los comentarios con odio tienen en promedio solo 14.08 palabras y 1.52 oraciones, mientras que los sin odio tienen 119.04 palabras y 4.04 oraciones. Esto demuestra que los mensajes con odio tienden a ser mucho más breves y directos.

Solo el 26.23% de los comentarios con odio contienen entidades nombradas (NER), frente al 64.44% en los sin odio. Y solo 14.75% mencionan personas (PERSON) frente a 30.44% en los sin odio.

Estos datos evidencian un patrón estructural y lingüístico diferenciado, lo cual es clave: podemos usar estas diferencias como features predictivas en un modelo de clasificación de texto.

Para reforzar esto, calculé también la diferencia relativa (%) entre ambos grupos para cada variable:

In [18]:
# Cálculo de diferencias relativas (en porcentaje)
def dif_rel(val1, val2):
    return ((val1 - val2) / val1) * 100

print("🧪 Comparativa entre grupos:")

dif_palabras = dif_rel(promedio_sin_odio, promedio_con_odio)
print(f"Diferencia relativa en palabras promedio: {dif_palabras:.2f}%")

dif_oraciones = dif_rel(promedio_oraciones_sin_odio, promedio_oraciones_con_odio)
print(f"Diferencia relativa en oraciones promedio: {dif_oraciones:.2f}%")

dif_ner = dif_rel(porcentaje_sin_odio, porcentaje_con_odio)
print(f"Diferencia relativa en comentarios con entidades NER: {dif_ner:.2f}%")

dif_person = dif_rel(porcentaje_person_sin_odio, porcentaje_person_con_odio)
print(f"Diferencia relativa en menciones a PERSON: {dif_person:.2f}%")

🧪 Comparativa entre grupos:
Diferencia relativa en palabras promedio: 88.17%
Diferencia relativa en oraciones promedio: 62.26%
Diferencia relativa en comentarios con entidades NER: 59.30%
Diferencia relativa en menciones a PERSON: 51.53%


A partir de este análisis estadístico, puedo concluir que sí es posible utilizar varias de las características extraídas (longitud, estructura, entidades reconocidas) como indicadores para determinar si un comentario contiene lenguaje de odio.

Las diferencias relativas entre los grupos superan en todos los casos el 50%, lo cual sugiere un patrón suficientemente fuerte como para alimentar modelos de detección basados en machine learning o reglas lingüísticas.

Por tanto, estas características no solo son útiles desde una perspectiva exploratoria, sino que también tienen potencial predictivo real si se integran en un sistema automatizado de clasificación.

**Conclusión FINAL**

A lo largo de este trabajo, realicé un análisis detallado del lenguaje natural utilizado en comentarios con y sin odio, apoyándome en herramientas de procesamiento lingüístico como spaCy. A partir de muestras representativas del corpus, extraje métricas sobre longitud, estructura, entidades nombradas, morfología gramatical y vocabulario utilizado, tanto a nivel superficial (tokens) como profundo (lemas).

Los resultados revelaron diferencias claras y consistentes entre ambos grupos. Los comentarios con odio tienden a ser más breves, menos estructurados, con menos referencias a personas o lugares, y un vocabulario más emocional o agresivo. Por el contrario, los comentarios sin odio presentan mayor complejidad estructural, uso de entidades y lenguaje descriptivo o informativo.

Este análisis no solo permite comprender mejor cómo se manifiesta el discurso de odio en entornos digitales, sino que también abre la puerta a crear modelos de detección automática más éticos y precisos. Las variables extraídas pueden funcionar como features predictivas para modelos de IA aplicados al monitoreo del discurso en redes sociales, medios o foros.

En conclusión, este ejercicio no fue solo técnico, sino también socialmente significativo: mostró cómo la inteligencia artificial puede ayudarnos a entender, filtrar y prevenir la propagación del odio en los espacios digitales, promoviendo una comunicación más sana y responsable.