<a href="https://colab.research.google.com/github/robinsonmirandaco/pln-caracterizacion-textos-unir/blob/main/caracteristicasOdio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Universidad Internacional de La Rioja (UNIR) - M√°ster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Robinson Jos√© Miranda P√©rez

Fecha: 21/04/2025
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratar√° de que el alumno se familiarice con el manejo de la librer√≠a spacy, as√≠ como con los conceptos b√°sicos de manejo de las t√©cnicas NER

**Descripci√≥n**

En esta actividad debes procesar de forma autom√°tica un texto en lenguaje natural para detectar caracter√≠sticas b√°sicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localizaci√≥n, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un c√≥digo fuente a trav√©s del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan s√≥lo debe ejecutar y entender el c√≥digo proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deber√° responderse con un fragmento de c√≥digo fuente que est√© acompa√±ado de la explicaci√≥n correspondiente. Para elaborar el c√≥digo solicitado, el alumno deber√° visitar la documentaci√≥n de la librer√≠a spacy, cuyos enlaces se proporcionar√°n donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librer√≠as que se est√°n importando.

In [None]:
!pip install spacy
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m42.3/42.3 MB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-md
Successfully installed es-core-news-md-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m‚ö† Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv
import es_core_news_md

El siguiente c√≥digo simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>:

https://spacy.io/models/es#es_core_news_md


In [None]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versi√≥n preprocesada. As√≠, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento b√°sico, que consiste en tokenizar el texto.

In [None]:
filename = "/content/02Dataset_sin_procesar.csv"
data = pd.read_csv(filename, delimiter=';', encoding='latin1')
data.head()

  data = pd.read_csv(filename, delimiter=';', encoding='latin1')


Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PA√É¬çS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el bar√É¬ßa nunca acaeza ante un segundo b ni an...,3.0,Otros,,,,,,,,,
1,EL PA√É¬çS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PA√É¬çS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,cristina cifuentes podr√É¬≠a haber sido la presi...,3.0,Ideol√É¬≥gico,,,,,,,,,
3,EL PA√É¬çS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,habr√É¬≠a que reabrir el caso. el supremo se ded...,3.0,Ideol√É¬≥gico,,,,,,,,,
4,EL PA√É¬çS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,me parece un poco exagerado pedir m√É¬°s de tres...,3.0,Ideol√É¬≥gico,Si,,,,,,,,


El c√≥digo anterior carga el archivo CSV (opcionalmente con un l√≠mite de l√≠neas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos le√≠dos del CSV.

Te vendr√° bien conocer la siguiente documentaci√≥n:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el c√≥digo previo. A modo de ejemplo, se ofrece c√≥digo que realiza las siguientes tareas:


- leer un n√∫mero dado de l√≠neas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opci√≥n m√°s)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y as√≠ obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentaci√≥n de dicha clase y experimenta probando las diferentes funciones y atributos

In [None]:
# Puedes insertar aqu√≠ c√≥digo de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):

    #en un primer paso se parsea el comentario. En el segundo paso se a√±ade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)

    #en un primer paso extrae el valor. En el segundo paso se a√±ade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de c√≥mo recorrer un comentario palabra por palabra
for token in doc[1]:
    print(token)

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¬øCu√°ntos registros contiene el corpus?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Contar cu√°ntos registros (filas) tiene el corpus
num_registros = len(data)
print(f"N√∫mero total de registros en el corpus: {num_registros}")

N√∫mero total de registros en el corpus: 574915


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>


*   Utilic√© la funcion Len() (*Est√° funcion sirve para contar el n√∫mero de registros que tiene el dataset, es decir cu√°ntos comentarios hay en total*) sobre el DataFrame cargado como: (02Dataset_sin_procesar.csv).
*   El archivo ya contiene los mensajes y sus etiquetas de intensidad.

El resultado fue = **574.915** registros, espero este sea el resultado ya que dud√© si el dataset habia sido cargado correctamente al principio en google Colab. Luego este n√∫mero me dio un poco de tranquilidad.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¬øCu√°ntas palabras totales hay en los comentarios del corpus?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Seleccionamos una muestra aleatoria del 0.5% del corpus
muestra = data.sample(frac=0.005, random_state=42)

total_palabras_muestra = 0

# Contar solo palabras reales en cada comentario de la muestra
for texto in muestra["CONTENIDO A ANALIZAR"]:
    doc = nlp(str(texto))
    total_palabras_muestra += len([token for token in doc if not token.is_punct and not token.is_space])

# Escalar la cantidad de palabras al tama√±o total del corpus
estimado_total_palabras = int(total_palabras_muestra * (len(data) / len(muestra)))

print(f"Estimaci√≥n del n√∫mero total de palabras en el corpus: {estimado_total_palabras}")

Estimaci√≥n del n√∫mero total de palabras en el corpus: 66104426


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>


*   Seleccione el 0.5% de los registros y utilice el p√°rametro random_state=42 para asegurar que siempre se retorna la misma muestra, esto con el proposito de que los resultados sean reproducibles.
*   Despu√©s, Cont√© el n√∫mero de palabras reales de cada comentario de la muestra seleccionada, para esto Utilic√© spaCy y descart√© signos de puntuaci√≥n y espacios en blanco.
*   Al final utilic√© una t√©cnica de extrapolaci√≥n que consiti√≥ en escalar el tama√±o del corpus para estimar cu√°ntas palabras habr√≠a si analizara todos los comentarios. Esta t√©cnica la aprend√≠ en un bootcamp de Datasicence la cu√°l permite obtener un valor aproximado sin tener que procesarlos 574.915 registros uno por uno.

La estimaci√≥n del n√∫mero total de palabras del corpues fue: **66.104.426**






<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¬øCu√°l el n√∫mero promedio de palabras en cada comentario?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Usamos el total estimado de palabras de la Pregunta 2
estimado_total_palabras = 66104426
total_comentarios = len(data)

# C√°lculo del promedio
promedio_palabras = estimado_total_palabras / total_comentarios

print(f"N√∫mero promedio de palabras por comentario: {promedio_palabras:.2f}")

N√∫mero promedio de palabras por comentario: 114.98


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>


*   Para calcular el promedio de palabras por cada comentario utilice el estimado total de palabras que contiene el corpus: 66.194.426, para hacer una divisi√≥n  entre el numero total de comentarios: *estimado_total_palabras/len(data).*
*   Este c√°lculo sirve como referencia general para entender la dimensi√≥n del corpus y su variaci√≥n en la longitud textual a lo largo del an√°lisis.

El resultado fue = **114.98** palabras por comentario



<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¬øCu√°l el n√∫mero promedio de palabras en los comentarios de cada grupo?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Asegurarse de que la columna INTENSIDAD es num√©rica
data["INTENSIDAD"] = pd.to_numeric(data["INTENSIDAD"], errors='coerce')

# Separar los dos grupos
sin_odio = data[data["INTENSIDAD"] == 0]
con_odio = data[data["INTENSIDAD"] > 0]

# Tomar muestra del 0.5% en cada grupo
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Funci√≥n para contar palabras reales
def contar_palabras(muestra):
    total = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        total += len([token for token in doc if not token.is_punct and not token.is_space])
    return total

# Conteo por muestra
palabras_sin_odio = contar_palabras(muestra_sin_odio)
palabras_con_odio = contar_palabras(muestra_con_odio)

# Escalar al total del grupo
estimado_total_sin_odio = int(palabras_sin_odio * (len(sin_odio) / len(muestra_sin_odio)))
estimado_total_con_odio = int(palabras_con_odio * (len(con_odio) / len(muestra_con_odio)))

# Promedio por grupo
promedio_sin_odio = estimado_total_sin_odio / len(sin_odio)
promedio_con_odio = estimado_total_con_odio / len(con_odio)

# Mostrar resultados
print(f"Promedio de palabras (SIN odio): {promedio_sin_odio:.2f}")
print(f"Promedio de palabras (CON odio): {promedio_con_odio:.2f}")

Promedio de palabras (SIN odio): 119.04
Promedio de palabras (CON odio): 14.08


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
Para responder la pregunta divid√≠ el corpus en do grupos seg√∫n la columna INTENSIDAD:

*   **Con odio** (INTENSIDAD == 0)
*   **Sin odio** (INTENSIDAD > 0)

Luego, tom√© una muestra de 0.5% de cada grupo y us√© spaCy para contar solo las palabras reales, es decir sin signos de puntuaci√≥n y espacios vacios.

Para cada grupo:

1.   Cont√© palabras reales.
2.   Escal√© ese n√∫mero proporcionalmente al tam√°√±o del grupo.
3.   Al final, dividi la cantidad de registros para obtener el promedio de palabras por comentarios.

**Reflexi√≥n Final:**
Algo muy llamativo del an√°lisis es que los comentarios sin odio tienden a ser mucho m√°s largos que los comentarios que expresan odio. Esto tiene sentido, porque muchas expresiones de odio tienden a ser impulsivas, breves y directas mientras que los comentarios que no tienen carga negativa tienden a ser mas argumentativos y explicativos. *Esto puede ser clave para desarrollar sistemas autom√°ticos que detecten contenido t√≥xico con base en su estructura y extensi√≥n.*

**Resultado Final:**

*   **Promedio de palabras por comentario (SIN odio):** `119.04`  
*   **Promedio de palabras por comentario (CON odio):** `14.08`



<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¬øCu√°l es el n√∫mero promedio de oraciones en los comentarios de cada grupo?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Funci√≥n para contar oraciones en cada muestra
def contar_oraciones(muestra):
    total = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        total += len(list(doc.sents))  # .sents permite contar oraciones detectadas por spaCy
    return total

# Tomar una muestra del 0.5% de cada grupo
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Contar oraciones en cada muestra
oraciones_sin_odio = contar_oraciones(muestra_sin_odio)
oraciones_con_odio = contar_oraciones(muestra_con_odio)

# Escalar a los tama√±os reales de los grupos
estimado_total_oraciones_sin_odio = int(oraciones_sin_odio * (len(sin_odio) / len(muestra_sin_odio)))
estimado_total_oraciones_con_odio = int(oraciones_con_odio * (len(con_odio) / len(muestra_con_odio)))

# Promedios por grupo
promedio_oraciones_sin_odio = estimado_total_oraciones_sin_odio / len(sin_odio)
promedio_oraciones_con_odio = estimado_total_oraciones_con_odio / len(con_odio)

# Mostrar resultados
print(f"Promedio de oraciones (SIN odio): {promedio_oraciones_sin_odio:.2f}")
print(f"Promedio de oraciones (CON odio): {promedio_oraciones_con_odio:.2f}")

Promedio de oraciones (SIN odio): 4.04
Promedio de oraciones (CON odio): 1.52


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
En esta pregunta trat√© de averiguar si tambien habia diferencia en la estructura gramatical.

Para esto, calcul√© cu√°ntas oraciones en promedio tiene un comentario con odio vs uno sin odio.

- Us√© la funci√≥n `doc.sents` de spaCy, la cual detecta oraciones dentro de un texto de forma autom√°tica.
- Apliqu√© esto sobre el mismo tama√±o de muestra 0.5% de cada grupo (con y sin odio), y luego escal√© los resultados al tama√±o real del grupo, igual que en la pregunta anterior.

**Reflexi√≥n Final**: los mensajes con odio son mucho mas simples, directos y poco desarrollados, mientras que los mensajes sin odio suelen tener un contenido mas elaborado, estructurados y con contexto. *Esto puede ser importante si queremos identificar patrones t√≥xicos m√°s alla del contenido en si, fijandonos en como se organiza el lenguaje.*

**Resultado Final**:
- **Promedio de oraciones por comentario (SIN odio):** `4.04`  
- **Promedio de oraciones por comentario (CON odio):** `1.52`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¬øCu√°l es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Funci√≥n para contar cu√°ntos comentarios tienen al menos una entidad NER
def comentarios_con_entidades(muestra):
    con_entidades = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        if len(doc.ents) > 0:
            con_entidades += 1
    return con_entidades

# Muestras del 0.5%
muestra_sin_odio = sin_odio.sample(frac=0.005, random_state=42)
muestra_con_odio = con_odio.sample(frac=0.005, random_state=42)

# Conteo de comentarios con entidades
con_entidades_sin_odio = comentarios_con_entidades(muestra_sin_odio)
con_entidades_con_odio = comentarios_con_entidades(muestra_con_odio)

# C√°lculo de porcentajes
porcentaje_sin_odio = (con_entidades_sin_odio / len(muestra_sin_odio)) * 100
porcentaje_con_odio = (con_entidades_con_odio / len(muestra_con_odio)) * 100

# Mostrar resultados
print(f"Porcentaje de comentarios CON entidades (SIN odio): {porcentaje_sin_odio:.2f}%")
print(f"Porcentaje de comentarios CON entidades (CON odio): {porcentaje_con_odio:.2f}%")

Porcentaje de comentarios CON entidades (SIN odio): 64.44%
Porcentaje de comentarios CON entidades (CON odio): 26.23%


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
Con esta pregunta quise analizar cu√°ntos comentarios mencionan al menos una entidad reconocible.

Para eso:
- Tom√© una muestra del grupo del 0.5% en cada grupo (con y sin odio).
- Proces√© cada texto con la ayuda de spaCy y verifiqu√© si el modelo detecta alguna entidad utilizando `doc.ents`.
- Si el comentario ten√≠a al menos una entidad, lo contaba como v√°lido para el c√°lculo.

**Relexi√≥n Final:**

Es evidente una diferencia clara entre ambos grupos:
- En los mensajes **sin odio**, **64.44%** conten√≠an alguna entidad.  
- En los mensajes **con odio**, solo **26.23%** lo hicieron.

Esto me lleva a pensar que los comentarios sin odio suelen estar mas conectados con hechos, luegares o personas reales.

En cambio los mensajes con odio parecen m√°s emocionales, impulsivos y abstractos, sin muchas referencias a contextos concretos. Es decir, el contenido de odio suele apuntar a un ataque directo, no tanto a explicar o contextualizar.

**Resultado Final:**
- **Porcentaje de comentarios CON entidades (SIN odio):** `64.44%`  
- **Porcentaje de comentarios CON entidades (CON odio):** `26.23%`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¬øCu√°l es el porcentaje de comentarios que contienen entidades NER de tipo PERSON en cada grupo?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Funci√≥n para contar comentarios que mencionan PERSON
def comentarios_con_person(muestra):
    con_person = 0
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        if any(ent.label_ == "PER" or ent.label_ == "PERSON" for ent in doc.ents):
            con_person += 1
    return con_person

# Contar por grupo
comentarios_person_sin_odio = comentarios_con_person(muestra_sin_odio)
comentarios_person_con_odio = comentarios_con_person(muestra_con_odio)

# Calcular porcentaje por grupo
porcentaje_person_sin_odio = (comentarios_person_sin_odio / len(muestra_sin_odio)) * 100
porcentaje_person_con_odio = (comentarios_person_con_odio / len(muestra_con_odio)) * 100

# Mostrar resultados
print(f"Porcentaje de comentarios que mencionan personas (SIN odio): {porcentaje_person_sin_odio:.2f}%")
print(f"Porcentaje de comentarios que mencionan personas (CON odio): {porcentaje_person_con_odio:.2f}%")

Porcentaje de comentarios que mencionan personas (SIN odio): 30.44%
Porcentaje de comentarios que mencionan personas (CON odio): 14.75%


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
En esta pregunta quise averiguar cu√°ntos comentarios hacen referencia directa a personas (entidades tipo PERSON detectadas por spaCy)

Para esto:

- Tom√© las mismas muestras 0.5% de los grupos con y sin odio.
- Revis√© cada texto con spaCy para detectar si habia la menos una entidad conla etiqueta PER o PERSON.
- Us√© una funci√≥n que cuenta solo aquellos comentarios que mencionan personas, y luego calcul√© el porcentaje sobre el total de la muestra.


**Reflexi√≥n Final:**

Aqu√≠ los resultados volvieron a mostrar una diferencia clara:
- **30.44%** de los comentarios sin odio mencionan personas  
- Solo **14.75%** de los comentarios con odio lo hacen

Esto me ayuda a reforzar la idea de que los mensajes sin odio suelen tener mas contexto y referencias reales, y que los comentarios con odio pueden ser mas gen√©ricos o atacan de forma directa sin siquiera identificar claramente a alguien.
Tambi√©n podr√≠a argumentar que el lenguaje ofensivo  muchas veces evita usar nombres reales por miedo, anonimato o simplemente por impulsividad.

**Resultado Final:**
- **Porcentaje de comentarios que mencionan personas (SIN odio):** `30.44%`  
- **Porcentaje de comentarios que mencionan personas (CON odio):** `14.75%`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¬øCu√°l es el porcentaje de palabras en cada combinaci√≥n posible de g√©nero y n√∫mero (p.ej. masculino singular) en cada grupo?</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
from collections import Counter

# Funci√≥n para contar combinaciones de g√©nero y n√∫mero en una muestra
def contar_genero_numero(muestra):
    combinaciones = Counter()
    total_validos = 0

    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        for token in doc:
            genero = token.morph.get("Gender")
            numero = token.morph.get("Number")
            if genero and numero:
                combinacion = f"{genero[0]}-{numero[0]}"  # ej: Masculine-Singular ‚Üí Masc-Sing
                combinaciones[combinacion] += 1
                total_validos += 1

    # Calcular porcentajes
    porcentajes = {
        comb: (count / total_validos) * 100
        for comb, count in combinaciones.items()
    }

    return porcentajes

# Ejecutar en ambas muestras
porcentajes_sin_odio = contar_genero_numero(muestra_sin_odio)
porcentajes_con_odio = contar_genero_numero(muestra_con_odio)

# Mostrar resultados
print("Porcentajes por combinaci√≥n g√©nero-n√∫mero (SIN odio):")
for comb, porcentaje in sorted(porcentajes_sin_odio.items(), key=lambda x: -x[1]):
    print(f"{comb}: {porcentaje:.2f}%")

print("\nPorcentajes por combinaci√≥n g√©nero-n√∫mero (CON odio):")
for comb, porcentaje in sorted(porcentajes_con_odio.items(), key=lambda x: -x[1]):
    print(f"{comb}: {porcentaje:.2f}%")

Porcentajes por combinaci√≥n g√©nero-n√∫mero (SIN odio):
Masc-Sing: 41.91%
Fem-Sing: 32.81%
Masc-Plur: 14.96%
Fem-Plur: 10.32%

Porcentajes por combinaci√≥n g√©nero-n√∫mero (CON odio):
Masc-Sing: 40.51%
Fem-Sing: 32.28%
Masc-Plur: 19.94%
Fem-Plur: 7.28%


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
En esta pregunta quise analizar c√≥mo var√≠an las combinaciones de g√©nero y n√∫mero gramatical (masculino/femenino, singular/plural) en los comentarios con y sin odio.

Para lograrlo:
- Proces√© una muestra del 0.5% de cada grupo.
- Us√© spaCy para extraer los atributos `Gender` y `Number` de cada palabra (token).
- Luego cont√© todas las combinaciones v√°lidas (ej. `Masc-Sing`, `Fem-Plur`, etc.) y calcul√© sus porcentajes dentro del grupo.


**Reflexi√≥n Final:**

Me pareci√≥ interesante que, aunque ambas distribuciones son similares, en los comentarios con odio el uso de **masculino plural aumenta notablemente**, mientras que el **femenino plural disminuye**.

Esto podr√≠a indicar una tendencia a usar **expresiones generales o estereotipos dirigidos a colectivos** (como ‚Äúextranjeros‚Äù, ‚Äúmigrantes‚Äù, ‚Äúellos‚Äù, ‚Äúinvasores‚Äù, etc.), lo cual es muy com√∫n en mensajes con carga de odio.

Adem√°s, este tipo de an√°lisis morfosint√°ctico puede ser √∫til si en el futuro se quisiera construir un modelo que identifique este tipo de patrones ling√º√≠sticos como indicadores tempranos de discurso t√≥xico (√∫til para mi TFM).

**Resultado Final:**

**En comentarios SIN odio:**
- Masculino singular: `41.91%`
- Femenino singular: `32.81%`
- Masculino plural: `14.96%`
- Femenino plural: `10.32%`

**En comentarios CON odio:**
- Masculino singular: `40.51%`
- Femenino singular: `32.28%`
- Masculino plural: `19.94%`
- Femenino plural: `7.28%`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), indica cu√°ntas entidades de cada tipo posible se reconocen en cada uno de los grupos</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
from collections import Counter

# Funci√≥n para contar tipos de entidades en una muestra
def contar_tipos_entidades(muestra):
    contador = Counter()
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        for ent in doc.ents:
            contador[ent.label_] += 1
    return contador

# Aplicar funci√≥n a cada grupo
entidades_sin_odio = contar_tipos_entidades(muestra_sin_odio)
entidades_con_odio = contar_tipos_entidades(muestra_con_odio)

# Mostrar resultados ordenados por cantidad
print("Entidades reconocidas (SIN odio):")
for tipo, cantidad in entidades_sin_odio.most_common():
    print(f"{tipo}: {cantidad}")

print("\nEntidades reconocidas (CON odio):")
for tipo, cantidad in entidades_con_odio.most_common():
    print(f"{tipo}: {cantidad}")

Entidades reconocidas (SIN odio):
LOC: 4053
PER: 3729
MISC: 2413
ORG: 1437

Entidades reconocidas (CON odio):
PER: 10
MISC: 4
LOC: 4
ORG: 3


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
En esta pregunta quer√≠a saber cu√°ntas entidades reconocidas por spaCy aparec√≠an en los comentarios, clasificadas por tipo:

- `PER` (personas)  
- `LOC` (lugares)  
- `ORG` (organizaciones)  
- `MISC` (otras)

Para esto:
- Proces√© una muestra del 0.5% en cada grupo
- Cont√© cu√°ntas veces aparec√≠a cada tipo de entidad usando `doc.ents` en spaCy
- Luego agrup√© y orden√© los resultados por frecuencia

**Reflexi√≥n Final:**

La diferencia es muy clara. En los comentarios **sin odio** se hace referencia constante a personas, lugares, organizaciones, etc., lo cual indica que son **m√°s informativos, contextuales y conectados con la realidad**.

En cambio, los mensajes **con odio apenas contienen entidades**. Esto refuerza lo que ya ven√≠amos viendo: los comentarios con odio suelen ser **m√°s cortos, menos estructurados y cargados de emoci√≥n m√°s que de hechos concretos**.

Esto me hace pensar que los mensajes sin odio son m√°s argumentativos, mientras que los mensajes con odio son m√°s impulsivos o gen√©ricos, lo cual tambi√©n puede ser una pista √∫til en tareas de detecci√≥n autom√°tica.


**Resultado Final:**

**En comentarios SIN odio:**
- `LOC`: 4.053 (lugares)
- `PER`: 3.729 (personas)
- `MISC`: 2.413
- `ORG`: 1.437 (organizaciones)

**En comentarios CON odio:**
- `PER`: 10
- `MISC`: 4
- `LOC`: 4
- `ORG`: 3

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), extrae y muestra los 100 lemas m√°s repetidos en los comentarios de cada grupo</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
from collections import Counter

# Funci√≥n para extraer y contar lemas
def lemas_mas_frecuentes(muestra, top_n=100):
    todos_los_lemas = []
    for texto in muestra["CONTENIDO A ANALIZAR"]:
        doc = nlp(str(texto))
        lemas = [token.lemma_.lower() for token in doc if token.is_alpha and not token.is_stop]
        todos_los_lemas.extend(lemas)
    return Counter(todos_los_lemas).most_common(top_n)

# Obtener lemas m√°s frecuentes por grupo
lemas_sin_odio = lemas_mas_frecuentes(muestra_sin_odio)
lemas_con_odio = lemas_mas_frecuentes(muestra_con_odio)

# Mostrar resultados
print("Top 100 lemas m√°s repetidos (SIN odio):")
for lema, frecuencia in lemas_sin_odio:
    print(f"{lema}: {frecuencia}")

print("\nTop 100 lemas m√°s repetidos (CON odio):")
for lema, frecuencia in lemas_con_odio:
    print(f"{lema}: {frecuencia}")

Top 100 lemas m√°s repetidos (SIN odio):
n: 731
s: 689
tambi√£: 607
est√£: 547
gobierno: 458
persona: 431
caso: 372
√£: 345
euros: 339
seg√£¬∫n: 304
madrid: 289
mill√≥n: 287
p√£¬∫blico: 274
hora: 272
comunidad: 250
despu√£: 242
grupo: 241
√¢: 238
partido: 236
momento: 233
llegar: 232
vida: 229
tiempo: 227
√£¬∫ltimo: 226
mes: 223
centro: 223
ver: 221
poner: 220
social: 218
mundo: 211
semana: 208
qu√£: 206
medida: 204
seguir: 201
dejar: 197
explicar: 194
pp: 193
casa: 192
pandemia: 189
portada: 188
rt: 187
trabajo: 187
poder: 183
i: 179
servicio: 178
forma: 177
pasar: 171
presidente: 168
punto: 166
general: 163
mantener: 162
equipo: 156
recordar: 155
pedir: 154
vacuna: 153
tener: 153
l: 153
ser√£: 149
empresa: 149
cosa: 148
gente: 148
lugar: 146
quedar: 146
haber: 145
querer: 145
familia: 145
n√£¬∫mero: 144
salir: 144
mujer: 143
derecho: 141
problema: 141
nacional: 141
recibir: 140
nivel: 138
ir: 138
trabajar: 137
ley: 137
plan: 137
salud: 134
zona: 134
hombre: 134
alto: 132
permitir: 13

<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
Para esta pregunta analic√© los **100 lemas m√°s repetidos** (formas base de las palabras) en cada grupo: con y sin odio.

Lo que hice fue:
- Procesar una muestra del 0.5% por grupo con spaCy
- Extraer solo lemas que fueran palabras reales (`is_alpha`) y que no fueran stopwords (`is_stop`)
- Contar cu√°ntas veces aparec√≠a cada lema y ordenar los 100 m√°s frecuentes por grupo


**Reflexi√≥n Final:**

La diferencia es muy marcada:

- **Los comentarios sin odio** reflejan una intenci√≥n de **informar o reflexionar**, con palabras relacionadas con temas reales, noticias, contexto social o sanitario.
- **Los comentarios con odio**, en cambio, son **m√°s emocionales, agresivos y simplificados**, usando insultos, generalizaciones o t√©rminos cargados de negatividad.

Esto demuestra c√≥mo el lenguaje se transforma no solo en su contenido, sino tambi√©n en **su base gramatical y lexical**.  
Y esto puede ser muy √∫til para identificar patrones autom√°ticos de contenido t√≥xico.


**Conclusi√≥n:**
Este an√°lisis de lemas sirve como un term√≥metro del tipo de lenguaje predominante en cada grupo.  
A trav√©s de los lemas, se evidencia que los mensajes con odio tienen un vocabulario **mucho m√°s limitado, ofensivo y menos informativo**.
<hr>

**Resultado Final (Resumen):**

**En comentarios SIN odio**, los lemas m√°s frecuentes estaban relacionados con:
- T√≥picos sociales o pol√≠ticos: `gobierno`, `persona`, `partido`, `comunidad`, `ley`, `presidente`
- Salud y pandemia: `vacuna`, `hospital`, `salud`, `pandemia`, `dosis`
- Tiempos, lugares y acciones generales: `mundo`, `vida`, `tiempo`, `ver`, `seguir`, `trabajo`

**En comentarios CON odio**, los lemas m√°s frecuentes fueron palabras:
- Ofensivas o insultantes: `puta`, `tonto`, `asco`, `hdp`, `mentiroso`, `fascista`, `mariconazo`
- Negativas y emocionales: `odio`, `desprecio`, `inmoral`, `harto`, `terrorista`, `cobardes`
- A veces distorsionadas o mal escritas (errores de codificaci√≥n): como `imb√£`, `√¢`, `√£¬∫`

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 11.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¬øEs posible utilizar alguna de las caracter√≠sticas extra√≠das en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el an√°lisis estad√≠stico que consideres necesario.</span>

In [None]:
# Incluye aqu√≠ el c√≥digo generado para poder responder a tu pregunta
# Resumen estad√≠stico simplificado para apoyar la conclusi√≥n

print(f"Promedio de palabras por comentario (SIN odio): {promedio_sin_odio:.2f}")
print(f"Promedio de palabras por comentario (CON odio): {promedio_con_odio:.2f}")

print(f"Promedio de oraciones por comentario (SIN odio): {promedio_oraciones_sin_odio:.2f}")
print(f"Promedio de oraciones por comentario (CON odio): {promedio_oraciones_con_odio:.2f}")

print(f"Porcentaje de comentarios con entidades NER (SIN odio): {porcentaje_sin_odio:.2f}%")
print(f"Porcentaje de comentarios con entidades NER (CON odio): {porcentaje_con_odio:.2f}%")

print(f"Porcentaje de comentarios con entidad PERSON (SIN odio): {porcentaje_person_sin_odio:.2f}%")
print(f"Porcentaje de comentarios con entidad PERSON (CON odio): {porcentaje_person_con_odio:.2f}%")

Promedio de palabras por comentario (SIN odio): 119.04
Promedio de palabras por comentario (CON odio): 14.08
Promedio de oraciones por comentario (SIN odio): 4.04
Promedio de oraciones por comentario (CON odio): 1.52
Porcentaje de comentarios con entidades NER (SIN odio): 64.44%
Porcentaje de comentarios con entidades NER (CON odio): 26.23%
Porcentaje de comentarios con entidad PERSON (SIN odio): 30.44%
Porcentaje de comentarios con entidad PERSON (CON odio): 14.75%


In [None]:
# C√°lculo de diferencias relativas (en porcentaje)
def dif_rel(val1, val2):
    return ((val1 - val2) / val1) * 100

print("üß™ Comparativa entre grupos:")

dif_palabras = dif_rel(promedio_sin_odio, promedio_con_odio)
print(f"Diferencia relativa en palabras promedio: {dif_palabras:.2f}%")

dif_oraciones = dif_rel(promedio_oraciones_sin_odio, promedio_oraciones_con_odio)
print(f"Diferencia relativa en oraciones promedio: {dif_oraciones:.2f}%")

dif_ner = dif_rel(porcentaje_sin_odio, porcentaje_con_odio)
print(f"Diferencia relativa en comentarios con entidades NER: {dif_ner:.2f}%")

dif_person = dif_rel(porcentaje_person_sin_odio, porcentaje_person_con_odio)
print(f"Diferencia relativa en menciones a PERSON: {dif_person:.2f}%")

üß™ Comparativa entre grupos:
Diferencia relativa en palabras promedio: 88.17%
Diferencia relativa en oraciones promedio: 62.26%
Diferencia relativa en comentarios con entidades NER: 59.30%
Diferencia relativa en menciones a PERSON: 51.53%


<b>Incluye aqu√≠, debajo de la l√≠nea, la explicaci√≥n de tu respuesta</b>
<hr>
S√≠, es posible utilizar varias de las caracter√≠sticas extra√≠das en este an√°lisis para determinar si un mensaje contiene odio.

Para justificarlo, realic√© una comparaci√≥n estad√≠stica entre los comentarios con y sin odio, evaluando variables como:

- Longitud promedio (palabras y oraciones)
- Presencia de entidades NER
- Menciones espec√≠ficas a personas (`PERSON`)

Los resultados mostraron diferencias muy significativas:

üìä **Diferencias relativas entre grupos:**
- Palabras por comentario: `88.17%` menos en los mensajes con odio  
- Oraciones por comentario: `62.26%` menos  
- Comentarios con entidades NER: `59.30%` menos  
- Menciones a personas (PERSON): `51.53%` menos

Esto sugiere un patr√≥n claro:  
üëâ Los mensajes con odio son m√°s breves, menos estructurados, y menos referenciales.  
üëâ Los mensajes sin odio son m√°s contextuales, informativos y gramaticalmente m√°s ricos.

---

#‚úÖ Conclusi√≥n final

Este an√°lisis demuestra que s√≠ es posible construir **modelos predictivos** usando estas variables.  
Las diferencias superan el 50% en todas las m√©tricas clave, lo cual refuerza su utilidad como **features de clasificaci√≥n** en tareas de PLN.

Pero m√°s all√° del aspecto t√©cnico, esto tambi√©n deja una ense√±anza social:  
üí° La forma en que usamos el lenguaje dice mucho sobre la intenci√≥n detr√°s del mensaje.  
Y con la ayuda de la inteligencia artificial, podemos comenzar a **entender y prevenir** el discurso de odio en los entornos digitales, promoviendo espacios m√°s sanos y respetuosos para todos.