**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Javier Llorente Leyton

Fecha: 05/12/2025
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Caracterización de textos</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [11]:
import pathlib
import spacy
import pandas as pd
import numpy as np
from spacy import displacy
import csv
#!python -m spacy download es_core_news_md
import es_core_news_md
print("cargado")

cargado


El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>:

https://spacy.io/models/es#es_core_news_md


In [8]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [5]:
# EL fichero lo he limpiado con el codigo que se puso en el foro
filename = "./02Dataset_anonimizado_limpio_utf8.csv"
lines_number = 10000
#data = ESCRIBE AQUÍ TU CÓDIGO, PARA CARGAR LOS DATOS EN UN DATAFRAME DE PANDAS
data = pd.read_csv(filename,  encoding = "utf-8",nrows=lines_number,sep=";")
print("Leido")

Leido


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas:


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [6]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
import time
import re
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):

    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    contenido = re.sub(' +', ' ',data["CONTENIDO A ANALIZAR"][i])
    tmp_doc = nlp(contenido)
    doc.append(tmp_doc)
    if (i % 100 == 0):
       print(f"\rProgreso: {i}", end="", flush=True)
       time.sleep(0.01)
    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de cómo recorrer un comentario palabra por palabra
#for token in doc[1]:
#    print(token)

Progreso: 9900

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [54]:
# Incluye aquí el código generado para poder responder a tu pregunta
len(doc)

10000

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
<p>Un corpus se define como un conjunto de textos. Existen diversos corpora, como el de sonetos del Siglo de Oro en castellano. En este caso, se ha procedido a la carga de los 10.000 primeros comentarios del fichero, por lo que el corpus en cuestión se encuentra compuesto por los textos correspondientes a los 10.000 registros.</p>
<b>Respuesta: Tiene 10.000 registros</b>

<p> En el presente estudio se ha calculado el porcentaje de comentarios de odio y de no odio de una muestra de 10 000 registros, con el objetivo de establecer si la distribución de dichos comentarios es similar a la del total de registros</p>
<p> He calculado que en total hay 574.749 registros de no odio en el fichero que es un 97,86%% (Este calculo al no haber conseguido cargar el fichero con el python lo he realizado con la aplicación notepad++, la explicación esta en el otro documento adjunto a la actividad )</p>
<p>En el corpus de 10.000 comentarios, se ha registrado un total de 9.252 comentarios, que no se enmarcan en la categoría de odio con lo que tenemos un porcentaje del 92,52% de No odio, Esto se ha calculado en la pregunta 4</p>
<p>Al realizar un análisis comparativo de la distribución de comentarios en ambas categorías, se observa que ambas presentan una distribución similar. En consecuencia, se puede inferir que los resultados obtenidos serán similares si se considera este aspecto.</p>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [47]:
# Incluye aquí el código generado para poder responder a tu pregunta
i = 0
for comentario in doc:
   for token in comentario:
     if not token.is_punct:
            i+=1
print(f"Total palabras: {i}")

Total palabras: 218201


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
<p>El criterio empleado para la cuantificación léxica del corpus se ha limitado a la exclusión de los signos de puntuación. En esta fase del análisis, no se ha descartado la eliminación de los stop words, puesto que, si bien más adelante serán eliminados al no aportar información relevante, constituyen parte del vocabulario.
</p>
<b>El total de palabras: 218.201.</b>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [48]:
# Incluye aquí el código generado para poder responder a tu pregunta
import numpy as np
numero_Palabras_comentario = []
j = 0
for comentario in doc:
    i = 0
    for token in comentario:
        if not token.is_punct:
            i+=1
    numero_Palabras_comentario.append(i)
    j+=1
print(f"Nº Comentarios: {j}")
print(f"Promedio depalabras: {np.mean(numero_Palabras_comentario)}")


Nº Comentarios: 10000
Promedio depalabras: 21.8201


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
<p>El criterio metodológico empleado para la cuantificación léxica se fundamentó en la contabilización exhaustiva de todos los tokens presentes en cada comentario, excluyendo los signos de puntuación. Para la estimación numérica del promedio se ha empleado la librería numpy, reconocida por su eficacia en el análisis de grandes conjuntos de datos.</p>
<b>EL promedio de palabras por comentario es 21,8201.</b>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [12]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Separar los comentarios en odio y no pdio
doc_odio = []
doc_no_odio = []
i = 0
for comentario in doc:
  intensidad=value[i]
  if intensidad == 0:
    doc_no_odio.append(comentario)
  else:
    doc_odio.append(comentario)
  i+=1
print(f"no odio: ",len(doc_no_odio))
print(f"odio: ",len(doc_odio))
print("---------------------------------")
# Numero palabras comentarios de odio
numero_Palabras_comentario_odio = []
for comentario in doc_odio:
  i = 0
  for token in comentario:
    if not token.is_punct:
      i+=1
  numero_Palabras_comentario_odio.append(i)
print(f"odio: {np.mean(numero_Palabras_comentario_odio)}")
print("---------------------------------")
# Numero palabras comentarios de no odio
numero_Palabras_comentario_no_odio = []
for comentario in doc_no_odio:
  i = 0
  for token in comentario:
    if not token.is_punct:
      i+=1
  numero_Palabras_comentario_no_odio.append(i)
print(f"no odio: {np.mean(numero_Palabras_comentario_no_odio)}")

no odio:  9252
odio:  748
---------------------------------
odio: 23.045454545454547
---------------------------------
no odio: 21.721033290099438


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
<p> En primera instancia, se procede a la clasificación de los comentarios en dos listas separadas, denominadas «doc_odio» y «doc_no odio», respectivamente. Estas listas se usarn en preguntas posteriores</p>
<p><b> Comentarios odio: 748 Comentarios no odio: 9.252</b><p>
<p> En ambos casos, se ha procedido a la cuantificación de los tokens presentes en cada comentario, excluyendo los signos de puntuación. Posteriormente, se ha determinado el promedio de cada lista..</p>
<b>Respuesta el promedio de palabras: Comentarios odio: 23,045454545454547 y Comentarios no odio: 21,721033290099438</b>
<p>Como se desprende del análisis realizado, el número de palabras es equiparable en ambos casos. Por lo tanto, no es posible emplear esta métrica para distinguir entre comentarios de odio y aquellos que no lo son.</p>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [50]:
from pandas.core.indexes.base import InvalidIndexError
# Incluye aquí el código generado para poder responder a tu pregunta
numero_oraciones_comentario_odio = []
numero_oraciones_comentario_no_odio = []
i = 0
for comentario in doc_odio:
  numero_oraciones_comentario_odio.append(len(list(comentario.sents)))
print(f"Odio: {np.mean(numero_oraciones_comentario_odio)}")
for comentario in doc_no_odio:
  numero_oraciones_comentario_no_odio.append(len(list(comentario.sents)))
print(f"No odio: {np.mean(numero_oraciones_comentario_no_odio)}")

Odio: 1.7767379679144386
No odio: 1.7849113705144835


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
<p> En ambos casos, se ha procedido a la cuantificación del número de oraciones contenidas en cada comentario mediante la utilización del atributo sents del objeto spacy Doc. Posteriormente, se ha calculado el promedio de cada lista.</p>
<p><b>Respuesta el promedio de oraciones: Comentarios odio: 1,7767379679144386 y Comentarios no odio: 1,7849113705144835</b></p>
<p> Como se desprende del análisis realizado, el número de oraciones exhibe una notable similitud en ambos contextos, lo que dificulta la distinción precisa entre comentarios de odio y aquellos que no se enmarcan en dicha categoría. En este punto, es pertinente considerar la posibilidad de que la influencia se deba al tipo de texto que constituye nuestro corpus, dado que se ha observado que muchos de los comentarios provenientes de la plataforma de microblogging Twitter presentan restricciones en términos de longitud.</p>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [51]:
# Incluye aquí el código generado para poder responder a tu pregunta
numero_comentario_odio_con_entidad = []
numero_comentario_no_odio_con_entidad = []
rows_odio = []
rows_no_odio = []
for comentario in doc_odio:
    if len(comentario.ents) >0:
       numero_comentario_odio_con_entidad.append(comentario)
       for ent in comentario.ents: 
           rows_odio.append({ent.label_})
for comentario in doc_no_odio:
    if len(comentario.ents) >0:
       numero_comentario_no_odio_con_entidad.append(comentario)
       for ent in comentario.ents: 
           rows_no_odio.append({ent.label_})
print(f"Total no odio: {len(doc_no_odio)}")
print(f"Total no odio con entidad: {len(numero_comentario_no_odio_con_entidad)}")
print(f"Porcentage no odio con entidad: {(len(numero_comentario_no_odio_con_entidad)/len(doc_no_odio))*100}")
print(f"Total odio: {len(doc_odio)}")
print(f"Total odio con entidad: {len(numero_comentario_odio_con_entidad)}")
print(f"Porcentage no odio con entidad: {(len(numero_comentario_odio_con_entidad)/len(doc_odio))*100}")
df = pd.DataFrame(rows_odio,columns=["odio"])
agrupado_odio = df.groupby("odio")["odio"].count()
agrupado_odio.sort_values(ascending=False,inplace=True)
print(agrupado_odio)
print()
df = pd.DataFrame(rows_no_odio,columns=["no odio"])
agrupado_no_odio = df.groupby("no odio")["no odio"].count()
agrupado_no_odio.sort_values(ascending=False,inplace=True)
print(agrupado_no_odio)
print()


Total no odio: 9252
Total no odio con entidad: 3156
Porcentage no odio con entidad: 34.11154345006485
Total odio: 748
Total odio con entidad: 284
Porcentage no odio con entidad: 37.967914438502675
odio
PER     294
LOC     176
MISC     96
ORG      91
Name: odio, dtype: int64

no odio
PER     2966
LOC     1923
MISC    1268
ORG      984
Name: no odio, dtype: int64



<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
<p>En los dos casos, se ha procedido a la cuantificación de las entidades contenidas en cada comentario mediante la utilización del atributo ents del objeto spacy Doc. Este procedimiento ha dado lugar a la generación de dos listas de comentarios que contienen entidades con y sin odio, respectivamente. Se ha calculado el porcentaje comentarios con entidades con estas lista y las listas totales doc_odio doc_no_odio</p>
<p><b>Respuesta el Porcentage: Comentarios odio:  37,967914438502675 y Comentarios no odio: 34,11154345006485</b></p>
<p> Como se evidencia en el análisis realizado, el porcentaje de comentarios emitidos por entidades es notablemente similar en ambos contextos, lo que impide la diferenciación entre aquellos que podrían ser considerados como comentarios de odio y aquellos que no lo son. </p>
<p>Como se evidencia en las dos tablas generadas sobre tipos de entidades que han sido etiquetadas como «tipos de entidades genéricas», sería pertinente aplicar un etiquetado que tuviera en cuenta el contexto.</p>

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Plantea tus propias preguntas</span>

<span><b>Plantea al menos 4 características</b> del texto cuyo análisis permita una caracterización completa del texto. Puedes utilizar recomendaciones proporcionadas por la IA Generativa, si así lo deseas. Para cada una de las características planteadas, obtén valores separados para los grupos ODIO/NO-ODIO.</span>

<span>En la explicación aportada, deberás <b>explicar el significado de la característica planteada</b> así como la importancia de ésta en la caracterización del texto.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 1.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuáles son los adjetivos más usados en los comentarios de cada grupo?</span>

In [13]:
# Incluye aquí el código generado para poder responder a tu pregunta
print("Adjetivos en comentarios de odio")
rows = []
for comentario in doc_odio:
    for token in comentario:
        if token.pos_ == "ADJ":
            rows.append({token.lemma_.lower()})
df = pd.DataFrame(rows,columns=["odio"])
agrupado_adj_odio = df.groupby("odio")["odio"].count()
agrupado_adj_odio.sort_values(ascending=False,inplace=True)
print(agrupado_adj_odio[0:9])
print()
print("Adjetivos en comentarios de no odio")
rows = []
for comentario in doc_no_odio:
    for token in comentario:
        if token.pos_ == "ADJ":
            rows.append({token.lemma_.lower()})
df = pd.DataFrame(rows,columns=["no odio"])
agrupado_adj_no_odio = df.groupby("no odio")["no odio"].count()
agrupado_adj_no_odio.sort_values(ascending=False,inplace=True)
print(agrupado_adj_no_odio[0:9])

Adjetivos en comentarios de odio
odio
polí­tico    16
catalán      14
tonto        13
miserable    13
maldito      13
mejor        12
menudo       11
ilegal       11
nuevo        11
Name: odio, dtype: int64

Adjetivos en comentarios de no odio
no odio
primero      171
mejor        166
claro        133
polí­tico    131
gran         127
buen         123
solo         123
nuevo        123
igual        108
Name: no odio, dtype: int64


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
<p>El código fuente empleando la librería Pandas da lugar a la creación de un dataframe en el que se puede agrupar por adjetivo, seleccionando los tokens que tienen el atributo pos_=="ADJ" por su lema, con el propósito de optimizar el proceso de agrupación. Posteriormente, se procedió a la cuantificación de la frecuencia con la que el adjetivo en cuestión se manifestaba en los comentarios de odio y en los comentarios de no odio. 
</P>
<p>Se ha considerado pertinente incluir esta característica en el análisis del texto, puesto que los adjetivos contribuyen a una mayor precisión y aportan cualidades distintivas a la observación . En este sentido, se evidencia un mayor uso de adjetivos con un significado negativo en los comentarios de odio (EJ: miserable maldito) en comparación con los comentarios de no odio. En consecuencia, dichas características resultan fundamentales a la hora de llevar a cabo el primer etiquetado, con el propósito de distinguir los elementos en cuestión.</p>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 2.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuáles son los verbos más usados en los comentarios de cada grupo?</span>

In [14]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Incluye aquí el código generado para poder responder a tu pregunta
print("Verbos en comentarios de odio")
rows = []
for comentario in doc_odio:
    for token in comentario:
        if token.pos_ == "VERB":
            rows.append({token.lemma_.lower()})
df = pd.DataFrame(rows,columns=["odio"])
agrupado_odio = df.groupby("odio")["odio"].count()
agrupado_odio.sort_values(ascending=False,inplace=True)
print(agrupado_odio[0:9])
print()
print("Verbos en comentarios de no odio")
rows = []
for comentario in doc_no_odio:
    for token in comentario:
        if token.pos_ == "VERB":
            rows.append({token.lemma_.lower()})
df = pd.DataFrame(rows,columns=["no odio"])
agrupado_no_odio = df.groupby("no odio")["no odio"].count()
agrupado_no_odio.sort_values(ascending=False,inplace=True)
print(agrupado_no_odio[0:9])


Verbos en comentarios de odio
odio
tener    97
hacer    67
decir    46
dar      44
ver      41
ir       34
estar    21
pagar    21
pasar    21
Name: odio, dtype: int64

Verbos en comentarios de no odio
no odio
tener     1090
hacer     1016
decir      573
dar        526
ver        494
ir         488
pasar      358
saber      343
seguir     272
Name: no odio, dtype: int64


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
<p>El código fuente empleando la librería Pandas da lugar a la creación de un dataframe en el que se puede agrupar por verbo, seleccionando los tokens que tienen el atributo pos_=="VERB" por su lema, con el propósito de optimizar el proceso de agrupación . Posteriormente, se procedió a la cuantificación de la frecuencia con la que el verbo en cuestión se manifestaba en los comentarios de odio y en los comentarios de no odio.</P>
<p>Se ha considerado pertinente incluir esta característica en el análisis del texto, puesto que los verbos proporcionan el contexto de las acciones. Se ha observado que estos comentarios comparten una serie de verbos comunes, lo que dificulta su distinción. En el presente estudio, se ha identificado un conjunto de diez verbos que se reiteran en ambos tipos de comentarios.</p>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 3.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuáles son las palabras más usadas en los comentarios de cada grupo?</span>

In [15]:
# Incluye aquí el código generado para poder responder a tu pregunta
print("lema en comentarios de odio")
rows = []
for comentario in doc_odio:
    for token in comentario:
        if token.is_alpha and not token.is_stop and not token.is_punct:
            rows.append({token.lemma_.lower()})
df = pd.DataFrame(rows,columns=["odio"])
agrupado_lema_odio = df.groupby("odio")["odio"].count()
agrupado_lema_odio.sort_values(ascending=False,inplace=True)
print(agrupado_lema_odio[0:9])
print()
print("Lemas en comentarios de no odio")
rows = []
for comentario in doc_no_odio:
    for token in comentario:
        if token.is_alpha and not token.is_stop and not token.is_punct:
            rows.append({token.lemma_.lower()})
df = pd.DataFrame(rows,columns=["no odio"])
agrupado_lema_no_odio = df.groupby("no odio")["no odio"].count()
agrupado_lema_no_odio.sort_values(ascending=False,inplace=True)
print(agrupado_lema_no_odio[0:9])

lema en comentarios de odio
odio
mierda         58
puta           52
hijo           47
i              40
catalán        32
asco           32
gente          30
per            27
catalanisme    26
Name: odio, dtype: int64

Lemas en comentarios de no odio
no odio
i           707
gobierno    338
pasar       327
gente       292
q           285
trump       279
ver         268
per         262
el          246
Name: no odio, dtype: int64


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
<p>El código fuente empleando la librería Pandas da lugar a la creación de un dataframe en el que se puede agrupar por palabras, seleccionando los tokens que son alfanumericas, no son signos de puntuación ni stop words por su lema, con el propósito de optimizar el proceso de agrupación. Posteriormente, se procedió a la cuantificación de las instancias en que el término en cuestión se manifestaba en los comentarios.</P>
<p> Se ha incorporado esta propiedad debido a que las palabras, en términos generales, proporcionan información acerca del vocabulario empleado. Se han observado diferencias significativas en el vocabulario utilizado en ambos tipos de comentarios. Se identifican palabras con connotaciones negativas, como «mierda» y «puta», que se utilizan de manera específica en los comentarios de odio.</p>
<p>También se puede ver que tenemos la palabra <<i>> y <<q>> que realmente no son palabras en castellano, para una mayor comprensión del problema tendriamos que volver a  revisar el fichero para enteder que esta pasando</p>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 4.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuáles son las entidades más usadas en los comentarios de cada grupo?</span>

In [16]:
# Incluye aquí el código generado para poder responder a tu pregunta
print("Entidades en comentarios de odio")
rows_odio = []
rows_no_odio = []
entidad= []
for comentario in doc_odio:
    for ent in comentario.ents: 
       rows_odio.append({ent.text})      
df = pd.DataFrame(rows_odio,columns=["odio"])
agrupado_odio = df.groupby("odio")["odio"].count()
agrupado_odio.sort_values(ascending=False,inplace=True)
print(agrupado_odio[0:9])
print("Entidades en comentarios de no odio")
rows = []
for comentario in doc_no_odio:
    for ent in comentario.ents: 
       rows_no_odio.append(ent.text)
df = pd.DataFrame(rows_no_odio,columns=["Signo"])
agrupado = df.groupby("Signo")["Signo"].count()
agrupado.sort_values(ascending=False,inplace=True)
print(agrupado[0:9])
print()

Entidades en comentarios de odio
odio
gentuza      14
pp           13
puta         12
madrid       11
trump         7
psoe          6
venezuela     4
covid         4
ÃÂ           4
Name: odio, dtype: int64
Entidades en comentarios de no odio
Signo
trump        182
madrid       130
pp            84
psoe          74
barcelona     69
biden         51
messi         50
nií±os        45
europa        44
Name: Signo, dtype: int64



<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
<p>El análisis del código fuente mediante el uso de la librería Pandas da como resultado la creación de un dataframe en el que es posible llevar a cabo la agrupación por entidad. Posteriormente, se ha procedido a la cuantificación de las instancias en que dicha entidad ha sido mencionada en los comentarios de odio y en los comentarios de no odio.</p>
<p>El propósito de la inclusión de esta característica es la identificación de las entidades que se consideren representativas en el corpus en cuestión. A modo ilustrativo, se plantea la posibilidad de crear la etiqueta «partido político», como una medida que se podría implementar para optimizar la organización y la comprensión de los datos.</p>
<p>Asimismo, se evidencia la presencia de un problema relacionado con la codificación del archivo, específicamente en el carácter «ÃÂ». Este carácter, representado por la letra «é», se manifiesta como un error en el proceso de codificación y afecta la correcta representación del archivo. Es crucial abordar este aspecto en las iteraciones subsecuentes para garantizar una resolución efectiva.</p>

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Reflexión final</span>

<span>Una de las utilidades de la caracterización de texto es que nos sirve como etapa de <i>feature-extraction</i> (extración de características) de cara a un posterior sistema de clasificación. Es pertinente, por tanto, reflexionar sobre la capacidad discriminatoria de cada una de las características extraídas. </span>

<span> Responde, para ello, a la siguiente pregunta.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Reflexión final.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [23]:
# Incluye aquí el código generado para poder responder a tu pregunta
print("entidades odio")
print(agrupado_odio[8:9])
print("Adjetivos odio")
print(agrupado_adj_odio[0:9])
print("Adjetivos no_odio")
print(agrupado_adj_no_odio[0:9])
print("---------------------------------------------")
print("Lemas odio")
print(agrupado_lema_odio[0:9])
print("Lemas no odio")
print(agrupado_lema_no_odio[0:9])
print("--------------- comentario 64")
print(doc[64]);
print("--------------- comentario 132")
print(doc[132]);
print("--------------- comentario 4131")
print(doc[4131]);

entidades odio
odio
ÃÂ    4
Name: odio, dtype: int64
Adjetivos odio
odio
polí­tico    16
catalán      14
tonto        13
miserable    13
maldito      13
mejor        12
menudo       11
ilegal       11
nuevo        11
Name: odio, dtype: int64
Adjetivos no_odio
no odio
primero      171
mejor        166
claro        133
polí­tico    131
gran         127
buen         123
solo         123
nuevo        123
igual        108
Name: no odio, dtype: int64
---------------------------------------------
Lemas odio
odio
mierda         58
puta           52
hijo           47
i              40
catalán        32
asco           32
gente          30
per            27
catalanisme    26
Name: odio, dtype: int64
Lemas no odio
no odio
i           707
gobierno    338
pasar       327
gente       292
q           285
trump       279
ver         268
per         262
el          246
Name: no odio, dtype: int64
--------------- comentario 64
"a mi em preocupa que convertim lÃ¢ÂÂindependentisme en un catalanisme 2.0.

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
<p>Una vez ejecutada la actividad, se ha comprobado que, previo a la identificación de características en los datos, es imperativo realizar una limpieza de los mismos y verificar su distribución. Este procedimiento resulta de vital importancia para una adecuada tokenización, como se evidencia en las entidades de odio que la que tenemos en la posición 9 esta mal codificada.</p>
<p>Asimismo, se evidencia la presencia de palabras que no han sido incorporadas al idioma castellano, como es el caso de la letra «i», comprobando  el comentario número 64 vemos que este comentario esta en catalán. algo que nos va a generar ruido tener textos entro idioma cuando usamos un core de spacy en castellano</p>
<p>Como se evidencia en el comentario 132, la palabra «q» no cuenta con una correspondencia exacta en castellano, lo que sugiere una posible abreviación o error ortográfico. Este fenómeno requiere de una investigación adicional, dado que las abreviaciones y errores ortográficos pueden generar confusión y son ampliamente difundidos en el contexto de la red.</p>
<p>Las caracteristicas que me han dado una diferancia significativa entre los comentarios de odio y no odio  se centran en el análisis de los adjetivos o vocabulario empleados.
Los resultados obtenidos en las demás características presentan una alta similitud entre sí.</p>
<p>En última instancia, es pertinente señalar que el porcentaje de comentarios que expresan odio es notablemente bajo. Se ha identificado un comentario con una intensidad de 0,0, identificado con el número 4.131, que evidencia una clara manifestación de odio, aunque no se especifica hacia qué colectivo. En el análisis realizado, se evidencia la presencia de comentarios etiquetados como 0.0 en los resultados obtenidos al buscar la palabra «mujer». Esta situación plantea interrogantes sobre la pertinencia de la valoración asignada y sugiere la necesidad de una revisión exhaustiva del etiquetado del archivo.</p>