<a href="https://colab.research.google.com/github/robinsonmirandaco/pln-caracterizacion-textos-unir/blob/main/caracteristicasOdio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Robinson José Miranda Pérez

Fecha: 21/04/2025
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [None]:
!pip install spacy
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-md
Successfully installed es-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv
import es_core_news_md

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>:

https://spacy.io/models/es#es_core_news_md


In [None]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [None]:
filename = "/content/02Dataset_sin_procesar.csv"
data = pd.read_csv(filename, delimiter=';', encoding='latin1')
data.head()

  data = pd.read_csv(filename, delimiter=';', encoding='latin1')


Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PAÃS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el barÃ§a nunca acaeza ante un segundo b ni an...,3.0,Otros,,,,,,,,,
1,EL PAÃS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PAÃS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,cristina cifuentes podrÃ­a haber sido la presi...,3.0,IdeolÃ³gico,,,,,,,,,
3,EL PAÃS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,habrÃ­a que reabrir el caso. el supremo se ded...,3.0,IdeolÃ³gico,,,,,,,,,
4,EL PAÃS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,me parece un poco exagerado pedir mÃ¡s de tres...,3.0,IdeolÃ³gico,Si,,,,,,,,


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas:


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [None]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):

    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)

    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de cómo recorrer un comentario palabra por palabra
for token in doc[1]:
    print(token)

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Contar cuántos registros (filas) tiene el corpus
num_registros = len(data)
print(f"Número total de registros en el corpus: {num_registros}")

Número total de registros en el corpus: 574915


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


*   Utilicé la funcion Len() (*Está funcion sirve para contar el número de registros que tiene el dataset, es decir cuántos comentarios hay en total*) sobre el DataFrame cargado como: (02Dataset_sin_procesar.csv).
*   El archivo ya contiene los mensajes y sus etiquetas de intensidad.

El resultado fue = **574.915** registros, espero este sea el resultado ya que dudé si el dataset habia sido cargado correctamente al principio en google Colab. Luego este número me dio un poco de tranquilidad.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Seleccionamos una muestra aleatoria del 0.5% del corpus
muestra = data.sample(frac=0.005, random_state=42)

total_palabras_muestra = 0

# Contar solo palabras reales en cada comentario de la muestra
for texto in muestra["CONTENIDO A ANALIZAR"]:
    doc = nlp(str(texto))
    total_palabras_muestra += len([token for token in doc if not token.is_punct and not token.is_space])

# Escalar la cantidad de palabras al tamaño total del corpus
estimado_total_palabras = int(total_palabras_muestra * (len(data) / len(muestra)))

print(f"Estimación del número total de palabras en el corpus: {estimado_total_palabras}")

Estimación del número total de palabras en el corpus: 66104426


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


*   Seleccione el 0.5% de los registros y utilice el párametro random_state=42 para asegurar que siempre se retorna la misma muestra, esto con el proposito de que los resultados sean reproducibles.
*   Después, Conté el número de palabras reales de cada comentario de la muestra seleccionada, para esto Utilicé spaCy y descarté signos de puntuación y espacios en blanco.
*   Al final utilicé una técnica de extrapolación que consitió en escalar el tamaño del corpus para estimar cuántas palabras habría si analizara todos los comentarios. Esta técnica la aprendí en un bootcamp de Datasicence la cuál permite obtener un valor aproximado sin tener que procesarlos 574.915 registros uno por uno.

La estimación del número total de palabras del corpues fue: **66.104.426**






<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Usamos el total estimado de palabras de la Pregunta 2
estimado_total_palabras = 66104426
total_comentarios = len(data)

# Cálculo del promedio
promedio_palabras = estimado_total_palabras / total_comentarios

print(f"Número promedio de palabras por comentario: {promedio_palabras:.2f}")

Número promedio de palabras por comentario: 114.98


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


*   Para calcular el promedio de palabras por cada comentario utilice el estimado total de palabras que contiene el corpus: 66.194.426, para hacer una división  entre el numero total de comentarios: *estimado_total_palabras/len(data).*
*   Este cálculo sirve como referencia general para entender la dimensión del corpus y su variación en la longitud textual a lo largo del análisis.

El resultado fue = **114.98** palabras por comentario



<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Asegurarse de que la columna INTENSIDAD es numérica
data["INTENSIDAD"] = pd.to_numeric(data["INTENSIDAD"], errors='coerce')

# Separar los dos grupos
sin_odio = data[data["INTENSIDAD"] == 0]
con_odio = data[data["INTENSIDAD"] > 0]

# Tomar muestra del 0.5% en cada grupo
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Función para contar palabras reales
def contar_palabras(muestra):
    total = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        total += len([token for token in doc if not token.is_punct and not token.is_space])
    return total

# Conteo por muestra
palabras_sin_odio = contar_palabras(muestra_sin_odio)
palabras_con_odio = contar_palabras(muestra_con_odio)

# Escalar al total del grupo
estimado_total_sin_odio = int(palabras_sin_odio * (len(sin_odio) / len(muestra_sin_odio)))
estimado_total_con_odio = int(palabras_con_odio * (len(con_odio) / len(muestra_con_odio)))

# Promedio por grupo
promedio_sin_odio = estimado_total_sin_odio / len(sin_odio)
promedio_con_odio = estimado_total_con_odio / len(con_odio)

# Mostrar resultados
print(f"Promedio de palabras (SIN odio): {promedio_sin_odio:.2f}")
print(f"Promedio de palabras (CON odio): {promedio_con_odio:.2f}")

Promedio de palabras (SIN odio): 119.04
Promedio de palabras (CON odio): 14.08


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para responder la pregunta dividí el corpus en do grupos según la columna INTENSIDAD:

*   **Con odio** (INTENSIDAD == 0)
*   **Sin odio** (INTENSIDAD > 0)

Luego, tomé una muestra de 0.5% de cada grupo y usé spaCy para contar solo las palabras reales, es decir sin signos de puntuación y espacios vacios.

Para cada grupo:

1.   Conté palabras reales.
2.   Escalé ese número proporcionalmente al tamáño del grupo.
3.   Al final, dividi la cantidad de registros para obtener el promedio de palabras por comentarios.

**Reflexión Final:**
Algo muy llamativo del análisis es que los comentarios sin odio tienden a ser mucho más largos que los comentarios que expresan odio. Esto tiene sentido, porque muchas expresiones de odio tienden a ser impulsivas, breves y directas mientras que los comentarios que no tienen carga negativa tienden a ser mas argumentativos y explicativos. *Esto puede ser clave para desarrollar sistemas automáticos que detecten contenido tóxico con base en su estructura y extensión.*

**Resultado Final:**

*   **Promedio de palabras por comentario (SIN odio):** `119.04`  
*   **Promedio de palabras por comentario (CON odio):** `14.08`



<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Función para contar oraciones en cada muestra
def contar_oraciones(muestra):
    total = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        total += len(list(doc.sents))  # .sents permite contar oraciones detectadas por spaCy
    return total

# Tomar una muestra del 0.5% de cada grupo
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Contar oraciones en cada muestra
oraciones_sin_odio = contar_oraciones(muestra_sin_odio)
oraciones_con_odio = contar_oraciones(muestra_con_odio)

# Escalar a los tamaños reales de los grupos
estimado_total_oraciones_sin_odio = int(oraciones_sin_odio * (len(sin_odio) / len(muestra_sin_odio)))
estimado_total_oraciones_con_odio = int(oraciones_con_odio * (len(con_odio) / len(muestra_con_odio)))

# Promedios por grupo
promedio_oraciones_sin_odio = estimado_total_oraciones_sin_odio / len(sin_odio)
promedio_oraciones_con_odio = estimado_total_oraciones_con_odio / len(con_odio)

# Mostrar resultados
print(f"Promedio de oraciones (SIN odio): {promedio_oraciones_sin_odio:.2f}")
print(f"Promedio de oraciones (CON odio): {promedio_oraciones_con_odio:.2f}")

Promedio de oraciones (SIN odio): 4.04
Promedio de oraciones (CON odio): 1.52


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En esta pregunta traté de averiguar si tambien habia diferencia en la estructura gramatical.

Para esto, calculé cuántas oraciones en promedio tiene un comentario con odio vs uno sin odio.

- Usé la función `doc.sents` de spaCy, la cual detecta oraciones dentro de un texto de forma automática.
- Apliqué esto sobre el mismo tamaño de muestra 0.5% de cada grupo (con y sin odio), y luego escalé los resultados al tamaño real del grupo, igual que en la pregunta anterior.

**Reflexión Final**: los mensajes con odio son mucho mas simples, directos y poco desarrollados, mientras que los mensajes sin odio suelen tener un contenido mas elaborado, estructurados y con contexto. *Esto puede ser importante si queremos identificar patrones tóxicos más alla del contenido en si, fijandonos en como se organiza el lenguaje.*

**Resultado Final**:
- **Promedio de oraciones por comentario (SIN odio):** `4.04`  
- **Promedio de oraciones por comentario (CON odio):** `1.52`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Función para contar cuántos comentarios tienen al menos una entidad NER
def comentarios_con_entidades(muestra):
    con_entidades = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        if len(doc.ents) > 0:
            con_entidades += 1
    return con_entidades

# Muestras del 0.5%
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Conteo de comentarios con entidades
con_entidades_sin_odio = comentarios_con_entidades(muestra_sin_odio)
con_entidades_con_odio = comentarios_con_entidades(muestra_con_odio)

# Cálculo de porcentajes
porcentaje_sin_odio = (con_entidades_sin_odio / len(muestra_sin_odio)) * 100
porcentaje_con_odio = (con_entidades_con_odio / len(muestra_con_odio)) * 100

# Mostrar resultados
print(f"Porcentaje de comentarios CON entidades (SIN odio): {porcentaje_sin_odio:.2f}%")
print(f"Porcentaje de comentarios CON entidades (CON odio): {porcentaje_con_odio:.2f}%")

Porcentaje de comentarios CON entidades (SIN odio): 64.44%
Porcentaje de comentarios CON entidades (CON odio): 26.23%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Con esta pregunta quise analizar cuántos comentarios mencionan al menos una entidad reconocible.

Para eso:
- Tomé una muestra del grupo del 0.5% en cada grupo (con y sin odio).
- Procesé cada texto con la ayuda de spaCy y verifiqué si el modelo detecta alguna entidad utilizando `doc.ents`.
- Si el comentario tenía al menos una entidad, lo contaba como válido para el cálculo.

**Relexión Final:**

Es evidente una diferencia clara entre ambos grupos:
- En los mensajes **sin odio**, **64.44%** contenían alguna entidad.  
- En los mensajes **con odio**, solo **26.23%** lo hicieron.

Esto me lleva a pensar que los comentarios sin odio suelen estar mas conectados con hechos, luegares o personas reales.

En cambio los mensajes con odio parecen más emocionales, impulsivos y abstractos, sin muchas referencias a contextos concretos. Es decir, el contenido de odio suele apuntar a un ataque directo, no tanto a explicar o contextualizar.

**Resultado Final:**
- **Porcentaje de comentarios CON entidades (SIN odio):** `64.44%`  
- **Porcentaje de comentarios CON entidades (CON odio):** `26.23%`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER de tipo PERSON en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Función para contar comentarios que mencionan PERSON
def comentarios_con_person(muestra):
    con_person = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        if any(ent.label_ == "PER" or ent.label_ == "PERSON" for ent in doc.ents):
            con_person += 1
    return con_person

# Contar por grupo
comentarios_person_sin_odio = comentarios_con_person(muestra_sin_odio)
comentarios_person_con_odio = comentarios_con_person(muestra_con_odio)

# Calcular porcentaje por grupo
porcentaje_person_sin_odio = (comentarios_person_sin_odio / len(muestra_sin_odio)) * 100
porcentaje_person_con_odio = (comentarios_person_con_odio / len(muestra_con_odio)) * 100

# Mostrar resultados
print(f"Porcentaje de comentarios que mencionan personas (SIN odio): {porcentaje_person_sin_odio:.2f}%")
print(f"Porcentaje de comentarios que mencionan personas (CON odio): {porcentaje_person_con_odio:.2f}%")

Porcentaje de comentarios que mencionan personas (SIN odio): 30.44%
Porcentaje de comentarios que mencionan personas (CON odio): 14.75%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En esta pregunta quise averiguar cuántos comentarios hacen referencia directa a personas (entidades tipo PERSON detectadas por spaCy)

Para esto:

- Tomé las mismas muestras 0.5% de los grupos con y sin odio.
- Revisé cada texto con spaCy para detectar si habia la menos una entidad conla etiqueta PER o PERSON.
- Usé una función que cuenta solo aquellos comentarios que mencionan personas, y luego calculé el porcentaje sobre el total de la muestra.


**Reflexión Final:**

Aquí los resultados volvieron a mostrar una diferencia clara:
- **30.44%** de los comentarios sin odio mencionan personas  
- Solo **14.75%** de los comentarios con odio lo hacen

Esto me ayuda a reforzar la idea de que los mensajes sin odio suelen tener mas contexto y referencias reales, y que los comentarios con odio pueden ser mas genéricos o atacan de forma directa sin siquiera identificar claramente a alguien.
También podría argumentar que el lenguaje ofensivo  muchas veces evita usar nombres reales por miedo, anonimato o simplemente por impulsividad.

**Resultado Final:**
- **Porcentaje de comentarios que mencionan personas (SIN odio):** `30.44%`  
- **Porcentaje de comentarios que mencionan personas (CON odio):** `14.75%`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de palabras en cada combinación posible de género y número (p.ej. masculino singular) en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

# Función para contar combinaciones de género y número en una muestra
def contar_genero_numero(muestra):
    combinaciones = Counter()
    total_validos = 0

    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        for token in doc:
            genero = token.morph.get("Gender")
            numero = token.morph.get("Number")
            if genero and numero:
                combinacion = f"{genero[0]}-{numero[0]}"  # ej: Masculine-Singular → Masc-Sing
                combinaciones[combinacion] += 1
                total_validos += 1

    # Calcular porcentajes
    porcentajes = {
        comb: (count / total_validos) * 100
        for comb, count in combinaciones.items()
    }

    return porcentajes

# Ejecutar en ambas muestras
porcentajes_sin_odio = contar_genero_numero(muestra_sin_odio)
porcentajes_con_odio = contar_genero_numero(muestra_con_odio)

# Mostrar resultados
print("Porcentajes por combinación género-número (SIN odio):")
for comb, porcentaje in sorted(porcentajes_sin_odio.items(), key=lambda x: -x[1]):
    print(f"{comb}: {porcentaje:.2f}%")

print("\nPorcentajes por combinación género-número (CON odio):")
for comb, porcentaje in sorted(porcentajes_con_odio.items(), key=lambda x: -x[1]):
    print(f"{comb}: {porcentaje:.2f}%")

Porcentajes por combinación género-número (SIN odio):
Masc-Sing: 41.91%
Fem-Sing: 32.81%
Masc-Plur: 14.96%
Fem-Plur: 10.32%

Porcentajes por combinación género-número (CON odio):
Masc-Sing: 40.51%
Fem-Sing: 32.28%
Masc-Plur: 19.94%
Fem-Plur: 7.28%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En esta pregunta quise analizar cómo varían las combinaciones de género y número gramatical (masculino/femenino, singular/plural) en los comentarios con y sin odio.

Para lograrlo:
- Procesé una muestra del 0.5% de cada grupo.
- Usé spaCy para extraer los atributos `Gender` y `Number` de cada palabra (token).
- Luego conté todas las combinaciones válidas (ej. `Masc-Sing`, `Fem-Plur`, etc.) y calculé sus porcentajes dentro del grupo.


**Reflexión Final:**

Me pareció interesante que, aunque ambas distribuciones son similares, en los comentarios con odio el uso de **masculino plural aumenta notablemente**, mientras que el **femenino plural disminuye**.

Esto podría indicar una tendencia a usar **expresiones generales o estereotipos dirigidos a colectivos** (como “extranjeros”, “migrantes”, “ellos”, “invasores”, etc.), lo cual es muy común en mensajes con carga de odio.

Además, este tipo de análisis morfosintáctico puede ser útil si en el futuro se quisiera construir un modelo que identifique este tipo de patrones lingüísticos como indicadores tempranos de discurso tóxico (útil para mi TFM).

**Resultado Final:**

**En comentarios SIN odio:**
- Masculino singular: `41.91%`
- Femenino singular: `32.81%`
- Masculino plural: `14.96%`
- Femenino plural: `10.32%`

**En comentarios CON odio:**
- Masculino singular: `40.51%`
- Femenino singular: `32.28%`
- Masculino plural: `19.94%`
- Femenino plural: `7.28%`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), indica cuántas entidades de cada tipo posible se reconocen en cada uno de los grupos</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

# Función para contar tipos de entidades en una muestra
def contar_tipos_entidades(muestra):
    contador = Counter()
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        for ent in doc.ents:
            contador[ent.label_] += 1
    return contador

# Aplicar función a cada grupo
entidades_sin_odio = contar_tipos_entidades(muestra_sin_odio)
entidades_con_odio = contar_tipos_entidades(muestra_con_odio)

# Mostrar resultados ordenados por cantidad
print("Entidades reconocidas (SIN odio):")
for tipo, cantidad in entidades_sin_odio.most_common():
    print(f"{tipo}: {cantidad}")

print("\nEntidades reconocidas (CON odio):")
for tipo, cantidad in entidades_con_odio.most_common():
    print(f"{tipo}: {cantidad}")

Entidades reconocidas (SIN odio):
LOC: 4053
PER: 3729
MISC: 2413
ORG: 1437

Entidades reconocidas (CON odio):
PER: 10
MISC: 4
LOC: 4
ORG: 3


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En esta pregunta quería saber cuántas entidades reconocidas por spaCy aparecían en los comentarios, clasificadas por tipo:

- `PER` (personas)  
- `LOC` (lugares)  
- `ORG` (organizaciones)  
- `MISC` (otras)

Para esto:
- Procesé una muestra del 0.5% en cada grupo
- Conté cuántas veces aparecía cada tipo de entidad usando `doc.ents` en spaCy
- Luego agrupé y ordené los resultados por frecuencia

**Reflexión Final:**

La diferencia es muy clara. En los comentarios **sin odio** se hace referencia constante a personas, lugares, organizaciones, etc., lo cual indica que son **más informativos, contextuales y conectados con la realidad**.

En cambio, los mensajes **con odio apenas contienen entidades**. Esto refuerza lo que ya veníamos viendo: los comentarios con odio suelen ser **más cortos, menos estructurados y cargados de emoción más que de hechos concretos**.

Esto me hace pensar que los mensajes sin odio son más argumentativos, mientras que los mensajes con odio son más impulsivos o genéricos, lo cual también puede ser una pista útil en tareas de detección automática.


**Resultado Final:**

**En comentarios SIN odio:**
- `LOC`: 4.053 (lugares)
- `PER`: 3.729 (personas)
- `MISC`: 2.413
- `ORG`: 1.437 (organizaciones)

**En comentarios CON odio:**
- `PER`: 10
- `MISC`: 4
- `LOC`: 4
- `ORG`: 3

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), extrae y muestra los 100 lemas más repetidos en los comentarios de cada grupo</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

# Función para extraer y contar lemas
def lemas_mas_frecuentes(muestra, top_n=100):
    todos_los_lemas = []
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        lemas = [token.lemma_.lower() for token in doc if token.is_alpha and not token.is_stop]
        todos_los_lemas.extend(lemas)
    return Counter(todos_los_lemas).most_common(top_n)

# Obtener lemas más frecuentes por grupo
lemas_sin_odio = lemas_mas_frecuentes(muestra_sin_odio)
lemas_con_odio = lemas_mas_frecuentes(muestra_con_odio)

# Mostrar resultados
print("Top 100 lemas más repetidos (SIN odio):")
for lema, frecuencia in lemas_sin_odio:
    print(f"{lema}: {frecuencia}")

print("\nTop 100 lemas más repetidos (CON odio):")
for lema, frecuencia in lemas_con_odio:
    print(f"{lema}: {frecuencia}")

Top 100 lemas más repetidos (SIN odio):
n: 731
s: 689
tambiã: 607
estã: 547
gobierno: 458
persona: 431
caso: 372
ã: 345
euros: 339
segãºn: 304
madrid: 289
millón: 287
pãºblico: 274
hora: 272
comunidad: 250
despuã: 242
grupo: 241
â: 238
partido: 236
momento: 233
llegar: 232
vida: 229
tiempo: 227
ãºltimo: 226
mes: 223
centro: 223
ver: 221
poner: 220
social: 218
mundo: 211
semana: 208
quã: 206
medida: 204
seguir: 201
dejar: 197
explicar: 194
pp: 193
casa: 192
pandemia: 189
portada: 188
rt: 187
trabajo: 187
poder: 183
i: 179
servicio: 178
forma: 177
pasar: 171
presidente: 168
punto: 166
general: 163
mantener: 162
equipo: 156
recordar: 155
pedir: 154
vacuna: 153
tener: 153
l: 153
serã: 149
empresa: 149
cosa: 148
gente: 148
lugar: 146
quedar: 146
haber: 145
querer: 145
familia: 145
nãºmero: 144
salir: 144
mujer: 143
derecho: 141
problema: 141
nacional: 141
recibir: 140
nivel: 138
ir: 138
trabajar: 137
ley: 137
plan: 137
salud: 134
zona: 134
hombre: 134
alto: 132
permitir: 132
mã: 132
sistema

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para esta pregunta analicé los **100 lemas más repetidos** (formas base de las palabras) en cada grupo: con y sin odio.

Lo que hice fue:
- Procesar una muestra del 0.5% por grupo con spaCy
- Extraer solo lemas que fueran palabras reales (`is_alpha`) y que no fueran stopwords (`is_stop`)
- Contar cuántas veces aparecía cada lema y ordenar los 100 más frecuentes por grupo


**Reflexión Final:**

La diferencia es muy marcada:

- **Los comentarios sin odio** reflejan una intención de **informar o reflexionar**, con palabras relacionadas con temas reales, noticias, contexto social o sanitario.
- **Los comentarios con odio**, en cambio, son **más emocionales, agresivos y simplificados**, usando insultos, generalizaciones o términos cargados de negatividad.

Esto demuestra cómo el lenguaje se transforma no solo en su contenido, sino también en **su base gramatical y lexical**.  
Y esto puede ser muy útil para identificar patrones automáticos de contenido tóxico.


**Conclusión:**
Este análisis de lemas sirve como un termómetro del tipo de lenguaje predominante en cada grupo.  
A través de los lemas, se evidencia que los mensajes con odio tienen un vocabulario **mucho más limitado, ofensivo y menos informativo**.
<hr>

**Resultado Final (Resumen):**

**En comentarios SIN odio**, los lemas más frecuentes estaban relacionados con:
- Tópicos sociales o políticos: `gobierno`, `persona`, `partido`, `comunidad`, `ley`, `presidente`
- Salud y pandemia: `vacuna`, `hospital`, `salud`, `pandemia`, `dosis`
- Tiempos, lugares y acciones generales: `mundo`, `vida`, `tiempo`, `ver`, `seguir`, `trabajo`

**En comentarios CON odio**, los lemas más frecuentes fueron palabras:
- Ofensivas o insultantes: `puta`, `tonto`, `asco`, `hdp`, `mentiroso`, `fascista`, `mariconazo`
- Negativas y emocionales: `odio`, `desprecio`, `inmoral`, `harto`, `terrorista`, `cobardes`
- A veces distorsionadas o mal escritas (errores de codificación): como `imbã`, `â`, `ãº`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 11.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Resumen estadístico simplificado para apoyar la conclusión

print(f"Promedio de palabras por comentario (SIN odio): {promedio_sin_odio:.2f}")
print(f"Promedio de palabras por comentario (CON odio): {promedio_con_odio:.2f}")

print(f"Promedio de oraciones por comentario (SIN odio): {promedio_oraciones_sin_odio:.2f}")
print(f"Promedio de oraciones por comentario (CON odio): {promedio_oraciones_con_odio:.2f}")

print(f"Porcentaje de comentarios con entidades NER (SIN odio): {porcentaje_sin_odio:.2f}%")
print(f"Porcentaje de comentarios con entidades NER (CON odio): {porcentaje_con_odio:.2f}%")

print(f"Porcentaje de comentarios con entidad PERSON (SIN odio): {porcentaje_person_sin_odio:.2f}%")
print(f"Porcentaje de comentarios con entidad PERSON (CON odio): {porcentaje_person_con_odio:.2f}%")

Promedio de palabras por comentario (SIN odio): 119.04
Promedio de palabras por comentario (CON odio): 14.08
Promedio de oraciones por comentario (SIN odio): 4.04
Promedio de oraciones por comentario (CON odio): 1.52
Porcentaje de comentarios con entidades NER (SIN odio): 64.44%
Porcentaje de comentarios con entidades NER (CON odio): 26.23%
Porcentaje de comentarios con entidad PERSON (SIN odio): 30.44%
Porcentaje de comentarios con entidad PERSON (CON odio): 14.75%


In [None]:
# Cálculo de diferencias relativas (en porcentaje)
def dif_rel(val1, val2):
    return ((val1 - val2) / val1) * 100

print("🧪 Comparativa entre grupos:")

dif_palabras = dif_rel(promedio_sin_odio, promedio_con_odio)
print(f"Diferencia relativa en palabras promedio: {dif_palabras:.2f}%")

dif_oraciones = dif_rel(promedio_oraciones_sin_odio, promedio_oraciones_con_odio)
print(f"Diferencia relativa en oraciones promedio: {dif_oraciones:.2f}%")

dif_ner = dif_rel(porcentaje_sin_odio, porcentaje_con_odio)
print(f"Diferencia relativa en comentarios con entidades NER: {dif_ner:.2f}%")

dif_person = dif_rel(porcentaje_person_sin_odio, porcentaje_person_con_odio)
print(f"Diferencia relativa en menciones a PERSON: {dif_person:.2f}%")

🧪 Comparativa entre grupos:
Diferencia relativa en palabras promedio: 88.17%
Diferencia relativa en oraciones promedio: 62.26%
Diferencia relativa en comentarios con entidades NER: 59.30%
Diferencia relativa en menciones a PERSON: 51.53%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Sí, es posible utilizar varias de las características extraídas en este análisis para determinar si un mensaje contiene odio.

Para justificarlo, realicé una comparación estadística entre los comentarios con y sin odio, evaluando variables como:

- Longitud promedio (palabras y oraciones)
- Presencia de entidades NER
- Menciones específicas a personas (`PERSON`)

Los resultados mostraron diferencias muy significativas:

📊 **Diferencias relativas entre grupos:**
- Palabras por comentario: `88.17%` menos en los mensajes con odio  
- Oraciones por comentario: `62.26%` menos  
- Comentarios con entidades NER: `59.30%` menos  
- Menciones a personas (PERSON): `51.53%` menos

Esto sugiere un patrón claro:  
👉 Los mensajes con odio son más breves, menos estructurados, y menos referenciales.  
👉 Los mensajes sin odio son más contextuales, informativos y gramaticalmente más ricos.

---

#✅ Conclusión final

Este análisis demuestra que sí es posible construir **modelos predictivos** usando estas variables.  
Las diferencias superan el 50% en todas las métricas clave, lo cual refuerza su utilidad como **features de clasificación** en tareas de PLN.

Pero más allá del aspecto técnico, esto también deja una enseñanza social:  
💡 La forma en que usamos el lenguaje dice mucho sobre la intención detrás del mensaje.  
Y con la ayuda de la inteligencia artificial, podemos comenzar a **entender y prevenir** el discurso de odio en los entornos digitales, promoviendo espacios más sanos y respetuosos para todos.