**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos): Juan Navarro Rodríguez

Fecha:
*** 5/12/2025

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Caracterización de textos</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [2]:
import pathlib
import spacy
import pandas as pd
from spacy import displacy
import csv
import es_core_news_md

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>: 

https://spacy.io/models/es#es_core_news_md


In [3]:
nlp = es_core_news_md.load()

El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

In [4]:
filename = "02Dataset_anonimizado.csv"
lines_number = 10000
#data = ESCRIBE AQUÍ TU CÓDIGO, PARA CARGAR LOS DATOS EN UN DATAFRAME DE PANDAS
data = pd.read_csv(filename, nrows=lines_number, encoding='latin-1', sep=';')

# Muestra las primeras filas para ver si ha cargado bien
data.head()

Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el barí§a nunca acaeza ante un segundo b ni an...,3.0,Otros,,,,,,,,,
1,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,cristina cifuentes podrí­a haber sido la presi...,3.0,Ideológico,,,,,,,,,
3,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,habrí­a que reabrir el caso. el supremo se ded...,3.0,Ideológico,,,,,,,,,
4,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,me parece un poco exagerado pedir más de tres ...,3.0,Ideológico,Si,,,,,,,,


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

### Playground

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas: 


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [5]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
#print(data["CONTENIDO A ANALIZAR"][1])
#print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):
    
    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)
    
    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)


#ejemplo de cómo recorrer un comentario palabra por palabra    
for token in doc[1]:
    print(token)

el
real
madrid
ha
puesto
punto
y
final
a
su
andadura
en
la
copa
del
rey
en
el
primer
escalón
.
los
de
zidane
han
caí­do
ante
el
alcoyano
,
de
segunda
b
,
a
pesar
de
empezar
ganando
y
jugar
con
un
hombre
menos
en
la
prórroga
.
el
técnico
francés
dispuso
un
equipo
plagado
de
los
menos
habituales
,
con
vinicius
y
mariano
en
ataque
.
ninguno
de
los
dos
logró
crear
ocasiones
.
fue
militao
el
que
marcó
el
gol
del
madrid
,
justo
antes
del
descanso
.
en
la
segunda
parte
intentaron
cerrar
el
partido
,
pero
sin
el
colmillo
suficiente
y
el
modesto
alcoyano
aprovechó
un
córner
para
empatar
el
partido
a
cinco
minutos
para
el
final
.
el
empate
sentó
como
un
jarro
de
agua
frí­a
a
los
blancos
,
que
lo
intentaron
en
el
tiempo
extra
a
falta
de
cinco
minutos
,
el
casanova
consiguió
el
gol
más
importante
de
su
vida
,
que
vale
la
clasificación
para
octavos
de
la
copa
.
el
madrid
de
zidane
queda
apeado
del
torneo
una
vez
más
,
por
lo
que
el
francés
se
quedará
sin
pelear
por
el
único
tí­tulo
que
no
ha
conseg

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [6]:
# Incluye aquí el código generado para poder responder a tu pregunta
num_registros = len(data)
print(f"El corpus contiene {num_registros} registros.")

El corpus contiene 10000 registros.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

En esta primera pregunta hemos definido una variable que utiliza la función len para ver la longitud de data, que como previamente la definimos en 10.000, saldrán ese número de registros, pero variará en función de donde cortemos o si lo dejamos libre que lea la longitud que sea.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [7]:
# Incluye aquí el código generado para poder responder a tu pregunta
total = 0
for i in doc:
    total += len(i)

print(f"Hay un total de {total} palabras (tokens) en el corpus.")


Hay un total de 252849 palabras (tokens) en el corpus.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Aquí hemos inicializado una variable 'total' igualándola a 0. Entonces iteramos sobre la lista doc y utilizamos un acumulador + len que ya utilizamos antes y así sacamos el total de registros.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>

In [8]:
# Incluye aquí el código generado para poder responder a tu pregunta
total_comentarios = len(doc)
promedio = total / total_comentarios

print(f"El número promedio de palabras en cada comentario es: {promedio:.2f}")

El número promedio de palabras en cada comentario es: 25.28


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Aquí reutilizamos el total de la pregunta anterior y dividimos entre el total de documentos que hay, para sacar así la media de palabras por comentario.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [9]:
# Incluye aquí el código generado para poder responder a tu pregunta
odio_tokens = 0
odio_docs = 0

no_odio_tokens = 0
no_odio_docs = 0

for d, v in zip(doc, value):
    longitud = len(d)
    
    # Si la intensidad es mayor que 0, es Odio
    if v > 0:
        odio_tokens += longitud
        odio_docs += 1
    # Si es 0, es No Odio
    else:
        no_odio_tokens += longitud
        no_odio_docs += 1

promedio_odio = odio_tokens / odio_docs if odio_docs > 0 else 0
promedio_no_odio = no_odio_tokens / no_odio_docs if no_odio_docs > 0 else 0

print(f"Promedio de palabras en mensajes de ODIO: {promedio_odio:.2f}")
print(f"Promedio de palabras en mensajes SIN ODIO: {promedio_no_odio:.2f}")

Promedio de palabras en mensajes de ODIO: 26.84
Promedio de palabras en mensajes SIN ODIO: 25.16


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
En esta pregunta ya hemos tenido que implementar la lógica de odio = intensidad>0 y al contrario. Hemos inicializado las dos posibilidades y hemos ido iterando sobre el doc y aplicando la restricción, para asi después sacar el promedio de cada opción.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [None]:
odio_oraciones = 0
no_odio_oraciones = 0

for d, v in zip(doc, value):
    num_sents = len(list(d.sents))
    
    if v > 0: 
        odio_oraciones += num_sents
    else: 
        no_odio_oraciones += num_sents


promedio_odio_sents = odio_oraciones / odio_docs if 'odio_docs' in locals() and odio_docs > 0 else 0
promedio_no_odio_sents = no_odio_oraciones / no_odio_docs if 'no_odio_docs' in locals() and no_odio_docs > 0 else 0

print(f"Promedio de oraciones en mensajes de ODIO: {promedio_odio_sents:.2f}")
print(f"Promedio de oraciones en mensajes SIN ODIO: {promedio_no_odio_sents:.2f}")

Promedio de oraciones en mensajes de ODIO: 1.77
Promedio de oraciones en mensajes SIN ODIO: 1.78


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
En esta pregunta, al igual que en la 4, reutilizamos ya código de la anterior. Aparte de eso hemos iterado para sacar el número promedio de oraciones en los comentarios, y de ambos casos. Para ello hemos aplicado en len como veníamos haciendo pero esta vez hemos añadido .ents, esto sirve para detectar las oraciones del modelo.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [12]:
# Incluye aquí el código generado para poder responder a tu pregunta
odio_con_ner = 0
no_odio_con_ner = 0

for d, v in zip(doc, value):
    tiene_entidad = len(d.ents) > 0
    
    if v > 0: 
        if tiene_entidad:
            odio_con_ner += 1
    else: 
        if tiene_entidad:
            no_odio_con_ner += 1

porcentaje_odio = (odio_con_ner / odio_docs * 100) if 'odio_docs' in locals() and odio_docs > 0 else 0
porcentaje_no_odio = (no_odio_con_ner / no_odio_docs * 100) if 'no_odio_docs' in locals() and no_odio_docs > 0 else 0

print(f"Porcentaje de mensajes con entidades NER (ODIO): {porcentaje_odio:.2f}%")
print(f"Porcentaje de mensajes con entidades NER (NO ODIO): {porcentaje_no_odio:.2f}%")

Porcentaje de mensajes con entidades NER (ODIO): 37.57%
Porcentaje de mensajes con entidades NER (NO ODIO): 33.91%


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
De nuevo utilizamos .ents queva a contener todo lo que necesitamos detectando en el texto. Para ello también recordamos las variables que definimos en la pregunta 4 a la hora de sacar el porcentaje.

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Plantea tus propias preguntas</span>

<span><b>Plantea al menos 4 características</b> del texto cuyo análisis permita una caracterización completa del texto. Puedes utilizar recomendaciones proporcionadas por la IA Generativa, si así lo deseas. Para cada una de las características planteadas, obtén valores separados para los grupos ODIO/NO-ODIO.</span>

<span>En la explicación aportada, deberás <b>explicar el significado de la característica planteada</b> así como la importancia de ésta en la caracterización del texto.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 1.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[Indicador de "Gritos"]</span>


In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
odio_caps = 0
no_odio_caps = 0

for d, v in zip(doc, value):

    num_caps = sum(1 for token in d if token.is_upper and len(token.text) > 1)
    
    if v > 0: 
        odio_caps += num_caps
    else: 
        no_odio_caps += num_caps


prom_odio_caps = odio_caps / odio_docs if 'odio_docs' in locals() and odio_docs > 0 else 0
prom_no_odio_caps = no_odio_caps / no_odio_docs if 'no_odio_docs' in locals() and no_odio_docs > 0 else 0

print(f"Promedio de palabras en MAYÚSCULAS (ODIO): {prom_odio_caps:.2f}")
print(f"Promedio de palabras en MAYÚSCULAS (NO ODIO): {prom_no_odio_caps:.2f}")

Promedio de palabras en MAYÚSCULAS (ODIO): 0.15
Promedio de palabras en MAYÚSCULAS (NO ODIO): 0.21


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
 
Con esto buscamos medir de alguna manera la agresividad o intensidad del mensaje midiendo cuantas palabras se escriben en mayúsculas. Podríamos decir que los mensajes de odio suelen ir acompañados de una intensidad alta, entonces la idea es medir eso.


En cuanto al código he propuesto algo similar a lo que vengo haciendo. Iteramos buscando la suma de palabras con mayúsculas con un > 1 para no contabilizar palabras como 'Hola' o 'Y'. Y luego calculamos el promedio con las variables ya definidas.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 2.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[Densidad de Adjetivos]</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
odio_adj = 0
no_odio_adj = 0

for d, v in zip(doc, value):

    num_adj = sum(1 for token in d if token.pos_ == 'ADJ')
    
    if v > 0: 
        odio_adj += num_adj
    else: 
        no_odio_adj += num_adj


prom_odio_adj = odio_adj / odio_docs if 'odio_docs' in locals() and odio_docs > 0 else 0
prom_no_odio_adj = no_odio_adj / no_odio_docs if 'no_odio_docs' in locals() and no_odio_docs > 0 else 0

print(f"Promedio de adjetivos por mensaje (ODIO): {prom_odio_adj:.2f}")
print(f"Promedio de adjetivos por mensaje (NO ODIO): {prom_no_odio_adj:.2f}")

Promedio de adjetivos por mensaje (ODIO): 1.81
Promedio de adjetivos por mensaje (NO ODIO): 1.52


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
 
Aquí propongo cuantificar el uso de adjetivos en los mensajes. Para ello, utilizamos el etiquetado que usa Spacy, filtrando aquellos tokens cuya categoría sea ADJ.


Normalmente el discurso o un mensaje con odio suele contener mayor número de adjetivos, entonces queremos hacer esa comprobación.


En cuanto al código un poco la misma línea, iteramos sobre las variables que inicializamos y etiquetamos según 'ADJ', si es así lo sumamos al contador.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 3.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[Longitud Media de las Palabras]</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
odio_caracteres = 0
odio_num_palabras = 0

no_odio_caracteres = 0
no_odio_num_palabras = 0

for d, v in zip(doc, value):

    caracteres_doc = sum(len(token.text) for token in d if not token.is_punct and not token.is_space)
    palabras_doc = sum(1 for token in d if not token.is_punct and not token.is_space)
    
    if v > 0: 
        odio_caracteres += caracteres_doc
        odio_num_palabras += palabras_doc
    else: 
        no_odio_caracteres += caracteres_doc
        no_odio_num_palabras += palabras_doc

prom_long_odio = odio_caracteres / odio_num_palabras if odio_num_palabras > 0 else 0
prom_long_no_odio = no_odio_caracteres / no_odio_num_palabras if no_odio_num_palabras > 0 else 0

print(f"Longitud media de palabra (ODIO): {prom_long_odio:.2f} caracteres")
print(f"Longitud media de palabra (NO ODIO): {prom_long_no_odio:.2f} caracteres")

Longitud media de palabra (ODIO): 4.92 caracteres
Longitud media de palabra (NO ODIO): 4.80 caracteres


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>

Proponemos analizar la longitud de las palabras, se me ha ocurrido que los mensajes con odio suelen ir más al grano, y en cambio los mensajes sin odio suelen dar más explicaciones por ejemplo. 


En cuanto al código inicializamos las variables, y luego hemos sumado la longitud de las palabras según el filtro, y limpiando los signos de puntuación etc, no nos interesa esa parte.
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 4.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[INDICA AQUÍ LA CARACTERÍSTICA QUE PROPONES]</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">[Presencia de Datos Numéricos]</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta
odio_nums = 0
no_odio_nums = 0

for d, v in zip(doc, value):

    cantidad_numeros = sum(1 for token in d if token.like_num)
    
    if v > 0: 
        odio_nums += cantidad_numeros
    else: 
        no_odio_nums += cantidad_numeros


prom_odio_num = odio_nums / odio_docs if 'odio_docs' in locals() and odio_docs > 0 else 0
prom_no_odio_num = no_odio_nums / no_odio_docs if 'no_odio_docs' in locals() and no_odio_docs > 0 else 0

print(f"Promedio de cifras/números por mensaje (ODIO): {prom_odio_num:.2f}")
print(f"Promedio de cifras/números por mensaje (NO ODIO): {prom_no_odio_num:.2f}")

Promedio de cifras/números por mensaje (ODIO): 0.23
Promedio de cifras/números por mensaje (NO ODIO): 0.21


<b>Incluye aquí, debajo de la línea, la explicación de la característica propuesta y su motivación. Incluye también una explicación del código fuente aportado.</b>
<hr>
 
En este caso buscamos lo contrario, buscamos analizar la cantidad de números en los mensajes, entendiendo que los mensajes sin odio pueden representar noticias o datos y deberían de contener más números.


En cuanto al código, la iteración en este caso utiliza .like_num de Spacy para detectar las cifras y sumarlas al contador.

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Reflexión final</span>

<span>Una de las utilidades de la caracterización de texto es que nos sirve como etapa de <i>feature-extraction</i> (extración de características) de cara a un posterior sistema de clasificación. Es pertinente, por tanto, reflexionar sobre la capacidad discriminatoria de cada una de las características extraídas. </span>

<span> Responde, para ello, a la siguiente pregunta.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Reflexión final.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

In [None]:
from scipy import stats
import numpy as np

def analizar_caracteristica(nombre, funcion_extraccion):
    vals_odio = []
    vals_no_odio = []

    for d, v in zip(doc, value):
        try:
            val = funcion_extraccion(d)
        except:
            val = 0 
            
        if v > 0:
            vals_odio.append(val)
        else:
            vals_no_odio.append(val)

    t_stat, p_value = stats.ttest_ind(vals_odio, vals_no_odio, equal_var=False, nan_policy='omit')

    print(f"--- ANÁLISIS DE: {nombre.upper()} ---")
    print(f"   Media Odio: {np.mean(vals_odio):.4f} | Media No-Odio: {np.mean(vals_no_odio):.4f}")
    print(f"   P-Valor: {p_value:.4e}")
    
    if p_value < 0.05:
        print("    CONCLUSIÓN: Diferencia SIGNIFICATIVA. (Sirve para detectar odio)")
    else:
        print("    CONCLUSIÓN: NO es significativa. (Probablemente no sirve)")
    print("\n")


def feat_mayusculas(d):
    return sum(1 for t in d if t.is_upper and len(t.text) > 1)

def feat_adjetivos(d):
    return sum(1 for t in d if t.pos_ == 'ADJ')

def feat_longitud_media(d):
    tokens_validos = [len(t.text) for t in d if not t.is_punct and not t.is_space]
    if len(tokens_validos) > 0:
        return sum(tokens_validos) / len(tokens_validos)
    return 0

def feat_numeros(d):
    return sum(1 for t in d if t.like_num)

print("RESULTADOS DEL ANÁLISIS ESTADÍSTICO FINAL\n" + "="*40 + "\n")

analizar_caracteristica("Uso de Mayúsculas", feat_mayusculas)
analizar_caracteristica("Cantidad de Adjetivos", feat_adjetivos)
analizar_caracteristica("Longitud Media Palabra", feat_longitud_media)
analizar_caracteristica("Uso de Números", feat_numeros)

RESULTADOS DEL ANÁLISIS ESTADÍSTICO FINAL

--- ANÁLISIS DE: USO DE MAYÚSCULAS ---
   Media Odio: 0.1484 | Media No-Odio: 0.2064
   P-Valor: 2.1363e-04
    CONCLUSIÓN: Diferencia SIGNIFICATIVA. (Sirve para detectar odio)


--- ANÁLISIS DE: CANTIDAD DE ADJETIVOS ---
   Media Odio: 1.8115 | Media No-Odio: 1.5223
   P-Valor: 3.1964e-01
    CONCLUSIÓN: NO es significativa. (Probablemente no sirve)


--- ANÁLISIS DE: LONGITUD MEDIA PALABRA ---
   Media Odio: 5.0100 | Media No-Odio: 5.0633
   P-Valor: 4.7051e-01
    CONCLUSIÓN: NO es significativa. (Probablemente no sirve)


--- ANÁLISIS DE: USO DE NÚMEROS ---
   Media Odio: 0.2326 | Media No-Odio: 0.2131
   P-Valor: 6.7606e-01
    CONCLUSIÓN: NO es significativa. (Probablemente no sirve)




<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 
Sí, es posible que con determinadas características se pueda detectar el odio en mensajes, pero con el análisis que hicimos podríamos indicar que no todas son válidas.


Para ello, en el código hemos aplicado una prueba T de Student a las 4 características propuestas, donde los datos han indicado que solo el uso de mayúsculas está po debajo del p-valor y que por lo tanto puede indicarnos algo respectivo a la pregunta inicial. Todas las demás se alejan de este, haciendo que las mayúsculas sea el predictor más fuerte.