**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Alejandro de León Fernández

Fecha: 13/12/2024
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [None]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv

In [None]:
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.7.0/es_core_news_md-3.7.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m45.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-md
Successfully installed es-core-news-md-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>:

https://spacy.io/models/es#es_core_news_md


In [None]:
import es_core_news_md

In [None]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
filename = "drive/MyDrive/UNIR/datos/comentariosOdio.csv"
lines_number = 20
#data = pd.read_csv(filename, delimiter=';')
#data = pd.read_csv(filename, delimiter=';',nrows=lines_number)
data = pd.read_csv(filename, delimiter=';', encoding='utf-8', low_memory=False)
data.head()

Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PAÍS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el barça nunca acaeza ante un segundo b ni ant...,3.0,Otros,,,,,,,,,
1,EL PAÍS,WEB,https://elpais.com/deportes/2021-01-20/alcoyan...,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PAÍS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,cristina cifuentes podría haber sido la presid...,3.0,Ideológico,,,,,,,,,
3,EL PAÍS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,habría que reabrir el caso. el supremo se dedi...,3.0,Ideológico,,,,,,,,,
4,EL PAÍS,WEB,https://elpais.com/espana/2021-01-18/comienza-...,COMENTARIO,me parece un poco exagerado pedir más de tres ...,3.0,Ideológico,Si,,,,,,,,


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas:


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [None]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):

    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)

    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de cómo recorrer un comentario palabra por palabra
for token in doc[1]:
    print(token)

el
real
madrid
ha
puesto
punto
y
final
a
su
andadura
en
la
copa
del
rey
en
el
primer
escalón
.
los
de
zidane
han
caído
ante
el
alcoyano
,
de
segunda
b
,
a
pesar
de
empezar
ganando
y
jugar
con
un
hombre
menos
en
la
prórroga
.
el
técnico
francés
dispuso
un
equipo
plagado
de
los
menos
habituales
,
con
vinicius
y
mariano
en
ataque
.
ninguno
de
los
dos
logró
crear
ocasiones
.
fue
militao
el
que
marcó
el
gol
del
madrid
,
justo
antes
del
descanso
.
en
la
segunda
parte
intentaron
cerrar
el
partido
,
pero
sin
el
colmillo
suficiente
y
el
modesto
alcoyano
aprovechó
un
córner
para
empatar
el
partido
a
cinco
minutos
para
el
final
.
el
empate
sentó
como
un
jarro
de
agua
fría
a
los
blancos
,
que
lo
intentaron
en
el
tiempo
extra
a
falta
de
cinco
minutos
,
el
casanova
consiguió
el
gol
más
importante
de
su
vida
,
que
vale
la
clasificación
para
octavos
de
la
copa
.
el
madrid
de
zidane
queda
apeado
del
torneo
una
vez
más
,
por
lo
que
el
francés
se
quedará
sin
pelear
por
el
único
título
que
no
ha
conseguid

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
num_registros = len(data)
print(f"El archivo CSV contiene {num_registros} registros.")

El archivo CSV contiene 574915 registros.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Se considera un registro cada fila del archivo CSV. Con la funcion len() se obtiene el numero de registros del dataset creado a partir del CSV.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from tqdm import tqdm
comentarios = data[data['TIPO DE MENSAJE'] == 'COMENTARIO']
textos = comentarios['CONTENIDO A ANALIZAR'].dropna()

components_to_disable = ['ner','parser','tok2vec','attribute_ruler','lemmatizer']
with nlp.disable_pipes(*components_to_disable):
  tqdm.pandas()
  docs = nlp.pipe(textos, batch_size=1000, n_process=-1)

  docs_progreso = tqdm(docs, total=len(textos))

  num_palabras_totales = sum(len(doc) for doc in docs_progreso)

print(f'Los comentarios del corpus contienen un total de {num_palabras_totales} palabras.')

100%|██████████| 334323/334323 [14:41<00:00, 379.23it/s]

Los comentarios del corpus contienen un total de 17845272 palabras.





<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Lo primero que se hace es filtrar los mensajes que son de tipo COMENTARIO y se guardan en la variable 'comentario'. Posteriormente se eliminan todos los mensajes nulos con la funcion <b>dropna()</b>.
Una vez hecho esto se comienza el análisis con spaCy, para acelerar el proceso se hace uso de batch con pipes. La función <b>nlp.pipe()</b> permite procesar varios textos en paralelo mejorando el rendimiento ya que en este caso el corpus es de un tamaño considerable. Se han usado batch de 1000 textos por lote y todos los núcleos disponibles. También se han desactivado componentes del pipeline que no son necesarios para agilizar el procesamiento.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
num_comentarios = len(comentarios)

promedio_palabras = num_palabras_totales / num_comentarios
print(f'El numero promedio de palabras por comentario es de {promedio_palabras:.2f}')

El numero promedio de palabras por comentario es de 53.38


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para calcular el número promedio de palabras en cada comentario se utiliza el total de palabras del corpus obtenido en la pregunta 2 y se divide entre el número total de comentarios.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
#COMENTARIOS ODIO
from tqdm import tqdm

comentarios = data[data['TIPO DE MENSAJE'] == 'COMENTARIO']
comentarios.loc[:,'INTENSIDAD'] = pd.to_numeric(comentarios['INTENSIDAD'], errors='coerce')
comentarios_odio = comentarios[comentarios['INTENSIDAD'] > 0]
textos_odio = comentarios_odio['CONTENIDO A ANALIZAR'].dropna()

components_to_disable = ['ner','parser','tok2vec','attribute_ruler','lemmatizer']
with nlp.disable_pipes(*components_to_disable):
  tqdm.pandas()
  docs_odio = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
  docs_progreso_odio = tqdm(docs_odio, total=len(textos_odio))
  num_palabras_odio = sum(len(doc) for doc in docs_progreso_odio)

print(f'\nLos comentarios de odio contienen un total de {num_palabras_odio} palabras.')

num_comentarios_odio = len(comentarios_odio)
promedio_palabras_odio = num_palabras_odio / num_comentarios_odio
print(f'Los comentarios de odio tienen un numero promedio de {promedio_palabras_odio:.2f} palabras')


100%|██████████| 10621/10621 [00:23<00:00, 451.88it/s] 



Los comentarios de odio contienen un total de 193570 palabras.
Los comentarios de odio tienen un numero promedio de 18.23 palabras


In [None]:
#COMENTARIOS NO ODIO
from tqdm import tqdm

comentarios_no_odio = comentarios[comentarios['INTENSIDAD'] == 0]
textos_no_odio = comentarios_no_odio['CONTENIDO A ANALIZAR'].dropna()

components_to_disable = ['ner','parser','tok2vec','attribute_ruler','lemmatizer']
with nlp.disable_pipes(*components_to_disable):
  tqdm.pandas()
  docs_no_odio = nlp.pipe(textos_no_odio, batch_size=1000, n_process=-1)
  docs_progreso_no_odio = tqdm(docs_no_odio, total=len(textos_no_odio))
  num_palabras_no_odio = sum(len(doc) for doc in docs_progreso_no_odio)

print(f'\nLos comentarios de no odio contienen un total de {num_palabras_no_odio} palabras.')

num_comentarios_no_odio = len(comentarios_no_odio)
promedio_palabras_no_odio = num_palabras_no_odio / num_comentarios_no_odio

print(f'Los comentarios de no odio tienen un numero promedio de {promedio_palabras_odio:.2f} palabras')

100%|██████████| 323699/323699 [13:49<00:00, 390.12it/s]


Los comentarios de no odio contienen un total de 17640317 palabras.
Los comentarios de no odio tienen un numero promedio de 18.23 palabras





<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Los comentarios de odio tienen un promedio de <b>18,23 palabras</b> por comentario y los comentarios sin odio tienen un promedio de <b>18,23 palabras por comentario</b>. Para ello se han dividido los comentarios en dos grupos 'comentarios_odio' y 'comentarios_no_odio' filtrando por la intensidad = 0 o > 0. Una vez obtenidos los dos datasets se utiliza un pipeline deshabilitando los componentes que no son necesarios para agilizar el procesamiento de los textos. En este caso han sido <b>['ner','parser','tok2vec','attribute_ruler','lemmatizer']</b>. Finalmente se divide el numero de palabras de cada grupo entre el número de comentarios de cada grupo para obtener la media.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from tqdm import tqdm
comentarios = data[data['TIPO DE MENSAJE'] == 'COMENTARIO']
comentarios.loc[:,'INTENSIDAD'] = pd.to_numeric(comentarios['INTENSIDAD'], errors='coerce')
comentarios_odio = comentarios[comentarios['INTENSIDAD'] > 0]
textos_odio = comentarios_odio['CONTENIDO A ANALIZAR'].dropna()
components_to_disable = ['ner']

with nlp.disable_pipes(*components_to_disable):
  tqdm.pandas()
  docs_odio = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
  docs_progreso_odio = tqdm(docs_odio, total=len(textos_odio))
  num_oraciones_odio = sum(len(list(doc.sents)) for doc in docs_progreso_odio)

print(f'\nLos comentarios de odio contienen un total de {num_oraciones_odio} oraciones.')
print(f'Los comentarios de odio tiene un promedio de {num_oraciones_odio/len(comentarios_odio):.2f} oraciones por comentario.')

100%|██████████| 10621/10621 [00:16<00:00, 649.96it/s]


Los comentarios de odio contienen un total de 16520 oraciones.
Los comentarios de odio tiene un promedio de 1.56 oraciones por comentario.





In [None]:
comentarios_no_odio = comentarios[comentarios['INTENSIDAD'] == 0]
textos_no_odio = comentarios_no_odio['CONTENIDO A ANALIZAR'].dropna()
with nlp.disable_pipes(*components_to_disable):
  tqdm.pandas()
  docs_no_odio = nlp.pipe(textos_no_odio, batch_size=1000, n_process=-1)
  docs_progreso_no_odio = tqdm(docs_no_odio, total=len(textos_no_odio))
  num_oraciones_no_odio = sum(len(list(doc.sents)) for doc in docs_progreso_no_odio)

print(f'\nLos comentarios de no odio contienen un total de {num_oraciones_no_odio} oraciones.')
print(f'Los comentarios de no odio tiene un promedio de {num_oraciones_no_odio/len(comentarios_no_odio):.2f} oraciones por comentario.')

100%|██████████| 323699/323699 [08:27<00:00, 638.40it/s]


Los comentarios de no odio contienen un total de 734655 oraciones.
Los comentarios de no odio tiene un promedio de 2.27 oraciones por comentario.





<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para obtener el número de oraciones haciendo uso del pipeline de spaCy, se hace uso de la propiedad <b>doc.sents</b> por cada documento procesado. En el pipeline se desactivan los componentes innecesarios para acelerar el procesamiento de los textos, en este caso se desactiva solo 'ner' para conservar 'parser' que es necesario para la detección de oraciones. Se procesan los textos mostrando la barra de progreso haciendo uso de la libreria tqdm y se cuenta el total de oraciones obteniendo un promedio de <b>1,56 oraciones</b> para los comentarios de odio y <b>2,27 oraciones</b> para los comentarios sin odio.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
docs = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_odio))
num_comentarios_con_ner_odio = sum(1 for doc in docs_progreso if doc.ents)

print(f'\nEl {num_comentarios_con_ner_odio/len(textos_odio)*100:.2f}% de los comentarios de odio contienen entidades NER.')

docs = nlp.pipe(textos_no_odio, batch_size=500, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_no_odio))
num_comentarios_con_ner_no_odio = sum(1 for doc in docs_progreso if doc.ents)

print(f'\nEl {num_comentarios_con_ner_no_odio/len(textos_no_odio)*100:.2f}% de los comentarios de odio contienen entidades NER.')

100%|██████████| 10621/10621 [00:16<00:00, 661.87it/s]



El 34.35% de los comentarios de odio contienen entidades NER.


100%|██████████| 323699/323699 [09:12<00:00, 586.30it/s]


El 46.10% de los comentarios de odio contienen entidades NER.





<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para calcular el porcentaje de comentarios que tienen al menos una entidad NER se hace uso del pipeline de spaCy con la funcionalidad de entidades <b>doc.ents</b>. Se devuelve un iterable con las NER en un documento, en caso de estar vacio significa que no hay entidades en ese comentario. Posteriormente se usa un generador para contar los documentos que contienen al menos una entidad NER. Para finalizar se calcula el porcentaje de comentarios que tienen entidades con la formula <b>((num_comentarios_con_ner_odio / len(textos_odio)*100)</b>.
Como resultado se obtiene que el <b>34,35% de los comentarios de odio</b> y el <b>46,10% de comentarios sin odio</b> contienen entidades NER.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER de tipo PERSON en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
comentarios_no_odio = comentarios[comentarios['INTENSIDAD'] == 0]
textos_no_odio = comentarios_no_odio['CONTENIDO A ANALIZAR'].dropna()

docs = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_odio))
num_comentarios_con_ner_odio = sum(1 for doc in docs_progreso if any(ent.label_ == 'PER' for ent in doc.ents))

print(f'\nEl {num_comentarios_con_ner_odio/len(textos_odio)*100:.2f}% de los comentarios de odio contienen entidades NER de tipo PERSON.')

docs = nlp.pipe(textos_no_odio, batch_size=1000, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_no_odio))
num_comentarios_con_ner_no_odio = sum(1 for doc in docs_progreso if any(ent.label_ == 'PER' for ent in doc.ents))

print(f'\nEl {num_comentarios_con_ner_no_odio/len(textos_no_odio)*100:.2f}% de los comentarios sin odio contienen entidades NER de tipo PERSON.')

100%|██████████| 10621/10621 [00:15<00:00, 668.82it/s]



El 18.80% de los comentarios de odio contienen entidades NER de tipo PERSON.


100%|██████████| 323699/323699 [09:56<00:00, 542.45it/s]


El 20.83% de los comentarios sin odio contienen entidades NER de tipo PERSON.





<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para obtener el procentaje de comentarios que contienen al menos una entidad NER de tipo PERSON se extiende el código implementado en la pregunta 6 filtrando exclusivamente para este tipo de entidad. Cada entidad tiene un atributo .label_ que indica su tipo. El tipo PERSON se usa para identificar nombres de personas. Para filtrar por entidades PERSON se usa <b>any(ent.label_ == 'PERSON' for ent in doc.ents)</b> comprobando asi si alguna de las entidades en el doc es de tipo PERSON. En el caso de cumplir la condición se suma uno al contador num_comentarios_con_person_odio en el caso de comentarios con odio y lo mismo para los comentarios sin odio.
Como resultado se obtiene que el <b>18,80% de los comentarios de odio</b> y el <b>0% de los comentarios sin odio</b> contienen al menos una entidad PERSON.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de palabras en cada combinación posible de género y número (p.ej. masculino singular) en cada grupo?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

docs = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_odio))

genero_numero_contador = Counter()
palabras_totales = 0
for doc in docs_progreso:
  for token in doc:
    genero = token.morph.get("Gender")
    numero = token.morph.get("Number")
    if genero and numero:
      genero_numero_contador[(genero[0], numero[0])] += 1
    palabras_totales += 1

porcentajes = {key: (count / palabras_totales)*100 for key, count in genero_numero_contador.items()}

print(f'\nPorcentaje de palabras por combinación de género y número en los comentarios de odio:')
for(genero, numero), porcentaje in porcentajes.items():
  print(f'\n{genero} {numero}: {porcentaje:.2f}%')


docs = nlp.pipe(textos_no_odio, batch_size=700, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_no_odio))

genero_numero_contador = Counter()
palabras_totales = 0
for doc in docs_progreso:
  for token in doc:
    genero = token.morph.get("Gender")
    numero = token.morph.get("Number")
    if genero and numero:
      genero_numero_contador[(genero[0], numero[0])] += 1
    palabras_totales += 1

porcentajes = {key: (count / palabras_totales)*100 for key, count in genero_numero_contador.items()}

print(f'\nPorcentaje de palabras por combinación de género y número en los comentarios sin odio:')
for(genero, numero), porcentaje in porcentajes.items():
  print(f'\n{genero} {numero}: {porcentaje:.2f}%')

100%|██████████| 10621/10621 [00:16<00:00, 627.85it/s]



Porcentaje de palabras por combinación de género y número en los comentarios de odio:

Masc Sing: 13.75%

Fem Sing: 11.32%

Masc Plur: 6.37%

Fem Plur: 2.84%


100%|██████████| 323699/323699 [10:42<00:00, 503.69it/s]


Porcentaje de palabras por combinación de género y número en los comentarios sin odio:

Masc Sing: 14.61%

Fem Sing: 11.65%

Masc Plur: 5.76%

Fem Plur: 3.87%





<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para calcular el porcentaje de palabras en cada combinación de género y número en los comentarios, se usa el atributo <b>token.morph</b> de los tokens en spaCy, que contienen información morfológica y se filtran segun su género y número. Cuando se extraen las caracteristicas morfológicas del token se usa 'Gender' y 'Number'. Se cuenta la cantidad de tokens con cada combinación de género y número y se calcula el porcentaje dividiendo el conteo entre el total de palabras y multiplicando por 100.
Como resultado se obtiene:


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), indica cuántas entidades de cada tipo posible se reconocen en cada uno de los grupos</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from collections import Counter

docs = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_odio))

contador_tipo_entidades = Counter()

for doc in docs_progreso:
  contador_tipo_entidades.update([ent.label_ for ent in doc.ents])

print(f'\nConteo de entidades por tipo en los comentarios de odio:')
for tipo_entidad, cuenta in contador_tipo_entidades.items():
  print(f'\n{tipo_entidad}: {cuenta}')

docs = nlp.pipe(textos_no_odio, batch_size=700, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_no_odio))

contador_tipo_entidades = Counter()

for doc in docs_progreso:
  contador_tipo_entidades.update([ent.label_ for ent in doc.ents])

print(f'\nConteo de entidades por tipo en los comentarios sin odio:')
for tipo_entidad, cuenta in contador_tipo_entidades.items():
  print(f'\n{tipo_entidad}: {cuenta}')

100%|██████████| 10621/10621 [00:15<00:00, 671.56it/s]



Conteo de entidades por tipo en los comentarios de odio:

PER: 2300

MISC: 902

ORG: 526

LOC: 1084


100%|██████████| 323699/323699 [09:18<00:00, 579.66it/s]


Conteo de entidades por tipo en los comentarios sin odio:

ORG: 53245

MISC: 58914

PER: 148768

LOC: 176677





<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para obtener las entidades de cada tipo en los dos grupos se usa el <b>Counter()</b> para contar las etiquetas de las entidades <b>(ent.label_)</b> en todos los textos procesados. En este caso se obtienen las entidades de tipo <b>PERSON, ORGANIZATION, LOCATION y MISCELLANEOUS</b>.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio), extrae y muestra los 100 lemas más repetidos en los comentarios de cada grupo</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
#COMENTARIOS CON ODIO
docs = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_odio))

contador_lemas = Counter()

for doc in docs_progreso:
  contador_lemas.update(token.lemma_.lower() for token in doc if not token.is_punct and not token.is_stop)

lemas_comunes = contador_lemas.most_common(100)

print("\nLos 100 lemas más repetidos en los comentarios de odio:")
for i, (lema, frecuencia) in enumerate(lemas_comunes, 1):
    print(f"{i}. {lema}: {frecuencia}")

100%|██████████| 10621/10621 [00:16<00:00, 652.06it/s]


Los 100 lemas más repetidos en los comentarios de odio:
1. mierda: 758
2. 
: 725
3. puta: 657
4. asco: 503
5.  : 468
6. gobierno: 453
7. q: 384
8. hijo: 381
9. españa: 376
10. mentiroso: 369
11. país: 366
12. panfleto: 347
13. gente: 345
14. vergüenza: 330
15. gentuza: 299
16. basura: 297
17.  : 290
18. español: 265
19. tonto: 253
20. político: 239
21. miserable: 239
22. dejar: 226
23. pasar: 223
24. gilipol él: 219
25. puto: 216
26. pagar: 204
27. ver: 201
28. mundo: 194
29. inútil: 191
30. facha: 189
31. culo: 189
32. tener: 187
33. año: 186
34. salir: 184
35. madre: 180
36. decir: 177
37. idiota: 177
38. 

: 176
39. terrorista: 174
40. seguir: 170
41. sinvergüenza: 169
42. dinero: 167
43. dar: 167
44. vida: 167
45. informativo: 167
46. haber: 160
47. fascista: 160
48. noticia: 156
49. poner: 155
50. querer: 155
51. ir: 152
52. cara: 150
53. menudo: 150
54. cárcel: 147
55. madrid: 144
56. tomar: 143
57. hdp: 143
58.   : 139
59. payaso: 138
60. @lavanguardia: 138
61. hdlgp: 137
62




In [None]:
#COMENTARIOS SIN ODIO
docs = nlp.pipe(textos_no_odio, batch_size=1000, n_process=-1)
docs_progreso = tqdm(docs, total=len(textos_no_odio))

contador_lemas = Counter()

for doc in docs_progreso:
  contador_lemas.update(token.lemma_.lower() for token in doc if not token.is_punct and not token.is_stop)

lemas_comunes = contador_lemas.most_common(100)

print("Los 100 lemas más repetidos en los comentarios sin odio:")
for i, (lema, frecuencia) in enumerate(lemas_comunes, 1):
    print(f"{i}. {lema}: {frecuencia}")

100%|██████████| 323699/323699 [09:56<00:00, 542.35it/s]

Los 100 lemas más repetidos en los comentarios sin odio:
1. año: 32567
2.  : 27880
3. gobierno: 26895
4. 
: 23984
5.  : 22941
6. españa: 22595
7. persona: 21663
8. caso: 19210
9. país: 18318
10. ver: 18223
11. pasar: 15644
12. madrid: 15193
13. gente: 15145
14. seguir: 14452
15. vacuna: 13813
16. millón: 13434
17. español: 13285
18. haber: 13257
19. querer: 13027
20. dejar: 12945
21. poner: 12692
22. público: 12407
23. tener: 12403
24. poder: 12063
25. llegar: 12043
26. pandemia: 11730
27. salir: 11722
28. político: 11560
29. hora: 11467
30. cosa: 11361
31. decir: 11199
32. comunidad: 11103
33.   : 11016
34. quedar: 11010
35. tiempo: 11005
36. medida: 11000
37. vida: 10565
38. mundo: 10432
39. euros: 10372
40. mes: 10332
41. centro: 10289
42. deber: 9998
43. partido: 9828
44. social: 9684
45. momento: 9466
46. pedir: 9391
47. pagar: 9338
48. q: 9299
49. esperar: 9290
50. semana: 9221
51. ir: 9114
52. problema: 9034
53. servicio: 8993
54. estar: 8858
55. vivir: 8840
56. casa: 8802
57. 




<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para extraer los 100 lemas más repetidos en los comentarios se utiliza el atributo <b>token.lemma_</b>.<br>El <b>token.is_punct</b> ignora los tokens que son signos de puntuación, el <b>token.is_stop</b> ignora las stop words y <b>token.lemma_.lower()</b> extrae el lema en minusculas para evitar duplicados. Con el método <b>Counter()</b> se almacena la frecuencia de cada lema en todos los comentarios y posteriormente con el método <b>most_common(100)</b> se seleccionan los 100 más frecuentes.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 11.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
from sklearn.utils import resample

comentarios = data[data['TIPO DE MENSAJE'] == 'COMENTARIO']
comentarios.loc[:,'INTENSIDAD'] = pd.to_numeric(comentarios['INTENSIDAD'], errors='coerce')

comentarios_odio = comentarios[comentarios['INTENSIDAD'] > 0]
textos_odio = comentarios_odio['CONTENIDO A ANALIZAR'].dropna()

comentarios_no_odio = comentarios[comentarios['INTENSIDAD'] == 0]
textos_no_odio = comentarios_no_odio['CONTENIDO A ANALIZAR'].dropna()

textos_no_odio_balanceados = resample(textos_no_odio, replace=True, n_samples=len(textos_odio), random_state=42)
textos_no_odio_balanceados.count()

10621

In [None]:
docs = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
num_palabras_odio = sum(len(doc) for doc in docs)

docs = nlp.pipe(textos_no_odio_balanceados, batch_size=1000, n_process=-1)
num_palabras_no_odio_b = sum(len(doc) for doc in docs)

print(f'Número de palabras en mensajes de odio: {num_palabras_odio}')
print(f'Número de palabras en mensajes de no odio balanceados: {num_palabras_no_odio_b}')
print(f'Media de palabras en comentarios de odio: {num_palabras_odio / len(textos_odio):.2f}')
print(f'Media de palabras en comentarios de no odio: {num_palabras_no_odio_b / len(textos_no_odio_balanceados):.2f}')

Número de palabras en mensajes de odio: 193570
Número de palabras en mensajes de no odio balanceados: 582425
Media de palabras en comentarios de odio: 18.23
Media de palabras en comentarios de no odio: 54.84


In [None]:
docs = nlp.pipe(textos_odio, batch_size=1000, n_process=-1)
num_comentarios_con_ner_odio = sum(1 for doc in docs if any(ent.label_ == 'PER' for ent in doc.ents))

print(f'\nEl {num_comentarios_con_ner_odio/len(textos_odio)*100:.2f}% de los comentarios de odio contienen entidades NER de tipo PERSON.')

docs = nlp.pipe(textos_no_odio_balanceados, batch_size=1000, n_process=-1)
num_comentarios_con_ner_no_odio = sum(1 for doc in docs if any(ent.label_ == 'PER' for ent in doc.ents))

print(f'\nEl {num_comentarios_con_ner_no_odio/len(textos_no_odio_balanceados)*100:.2f}% de los comentarios sin odio contienen entidades NER de tipo PERSON.')


El 18.80% de los comentarios de odio contienen entidades NER de tipo PERSON.

El 20.54% de los comentarios sin odio contienen entidades NER de tipo PERSON.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Al balancear los datos y realizar la media de palabras de cada grupo se obtiene que los mensajes de odio tienen un promedio de 18,23 palabras y los mensajes sin odio un promedio de 54,84 palabras. Esto sugiere que, en promedio, los mensajes de odio son más breves o con menos elaboración que los mensajes sin odio.<br>
En cuanto a las entidades NER de tipo PERSON, la diferencia entre ambos grupos es poco significativa, aproximadamente de 1,74%. Esto indica que la presencia de nombres propios no parece ser un indicador para distinguir entre mensajes de odio y no odio.<br>
