**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos): Jonnier Moreno Bertel

Fecha: 4/12/2025
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Caracterización de textos</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# **Parte 1: carga y preprocesamiento del texto a analizar**

Observa las diferentes librerías que se están importando.

In [1]:
import spacy
import pandas as pd
import es_core_news_md
import ftfy
from spacy import displacy
from pathlib import Path


### **Librerías**

Bajo el proposito de resolver la primera actividad del curso Procesamiento de Lenguaje Natural (NLP), se importan las siguientes librerías: pathlib, spacy, pandas, displacy de spac, csv y es_core_news_md.

**pathlib:**

La librería pathlib le permite al usuario manejar rutas de archivos y directorios de forma orientada a objetos, permitiendole la lectura, la escritura, la creación de ficheros, la navegación entre rutas, etc. a través de metodos intuitivos.

**Pandas:**

Es una herramienta diseñada para manipulación, el análisis y transformación de datos, siendo estos datos presentado como series o especialmente datos tabulares como (Excel, CSV, bases de datos, etc.).

Pandas introduce dos conceptos:

- Dataframes: Estructura tabular de dos dimensiones con etiquetas en filas y columnas, similar a un archivo CSV, Excel, SQL, etc.

- Series: Array de una dimensión etiquetado que puede verse como una columna de un dataframe.

Pandas es el puente entre la fuente de datos y su posterior analisis, pues por lo general, la información debe ser extraida de archivos externos como los ya mencionados CSV, Excel, SQL, etc.

**ftfy:**

Es una librería que permite corregir automáticamente problemas de codificación Unicode dentro de cadenas de textos, corrige los caracteres mal codificados o incorrectos a caracteres correctos, esta librería es ideal cuando en un solo archivo existe múltiples codificaciones.

**Spacy:**

La librería Spacy es una librería muy empleada en el mundo del NLP, esta librería permite procesar y analizar volúmenes grandes de texto a los cuales se les podrá realizar diferentes funciones, como: tokenización, análisis de dependencias, reconocimiento de entidades y etiquetado gramatical. Ofrece modelos preentrenados en diferentes idiomas, tal es el caso del modelo importado **"es_core_news_md"** el cual sirve para procesar texto en español compuesto de un pipeline que incluye: tokenización, Lematización, POS tagging, Dependencias Sintácticas, NER y un embedding de tamaño mediano (md).

**Displacy**

Es una librería que le permite al usuario visualizar graficamente los análisis lingüisticos generados por spaCy.

### **Ejercicio**

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>es_core_news_md</i>: 

https://spacy.io/models/es#es_core_news_md


In [2]:
nlp = es_core_news_md.load()

#### **es_core_news_md.load()**

```
nlp = es_core_news_md.load()
```
Se instancia el modelo para el procesamiento de texto en español. Este modelo según su documentación es de tamaño medio y fue entrenado con textos de noticias y medios. Existirán diferentes modelos los cuales variarán de muchas formas entre ellas su tamaño.

Para este mismo modelo basado en noticias, se trabajará con **md**, no obstante, se informa que existen modelos **sm** de tamaño pequeño y **lg** de tamaño grande. 

Una de las principales diferencias entre cada uno de los modelos es la velocidad de procesamiento, esta característica será abordada a continuación:

**La velocidad de procesamiento:** Siendo de esta el modelo **sm** el mas rápido, el modelo **lg** el mas lento y el modelo **md** un intermedio entre ambos, **entre mas grande el modelo mas completo, confiable y preciso en la información que este aporta ante un mismo dataset de datos**, sin embargo, se reduce la velocidad de procesamiento y es por ello, que es necesario contar con recursos suficientes a nivel de hardware o un criterio suficiente para saber en qué situación utilizar un modelo u otro.



El objeto <i>nlp</i> permite utilizar el modelo de lenguaje cargado, de forma que se puede procesar un texto y obtenerlo en su versión preprocesada. Así, nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

#### **Funciones Auxiliares**

La siguiente función le permite al usuario corregir un dataframe con codificaciones mixtas haciendo uso de la librería ftfy:

```
def corrector_dataframe(df: pd.DataFrame, path):
    for col in df.columns:
        if df[col].dtype == object:
            df[col] = df[col].astype(str).apply(ftfy.fix_text)
    #Almacena archivo corregido dentro de la ruta del archivo original
    path_save = Path(path)

    #Se crea un nuevo CSV con codificación utf-8 dado que es el estandar de códificación universal que soporta todos los idiomas
    df.to_csv(path_save, sep=";", index=False, encoding="utf-8")
```

La siguiente función es una función auxiliar que le permite al usuario crear dataframes de un archivo existente, con una codificación determinada utilizando pandas:

```
def build_dataframe(path, encoding):
    df = pd.read_csv(
        path,
        sep=";",
        decimal=".",
        encoding=encoding,
        header=0,
        low_memory=False
    )
    return df  
```

In [3]:
# Función para corregir textos dañados
def corrector_dataframe(df: pd.DataFrame, path):
    for col in df.columns:
        if df[col].dtype == object:
            df[col] = df[col].astype(str).apply(ftfy.fix_text)
    #Almacena archivo corregido dentro de la ruta del archivo original
    path_save = Path(path)

    #Se crea un nuevo CSV con codificación utf-8 dado que es el estandar de códificación universal que soporta todos los idiomas
    df.to_csv(path_save, sep=";", index=False, encoding="utf-8")
    
    return df
# Crea los Dataframe a partir del archivo original o corregido según sea el caso
def build_dataframe(path, encoding):
    df = pd.read_csv(
        path,
        sep=";",
        decimal=".",
        encoding=encoding,
        header=0,
        low_memory=False
    )
    return df   

In [4]:
#Rutas de los archivos a analizar
filename = "dataset/02Dataset_sin_procesar.csv"
filename_corrected = "dataset/03Dataset_limpio.csv"
path_original = Path(filename)
path_clean = Path(filename_corrected)

# Código para cargar el dataset del archivo en la ruta ./dataset/02Dataset_sin_procesar.csv
if not path_clean.exists():
    encoding = "latin1"
    df = build_dataframe(path_original, encoding)
    # Corregir textos dañados y almacenar nuevo CSV
    data_complete = corrector_dataframe(df, path_clean)
else:
    encoding = "utf-8"
    data_complete = build_dataframe(path_clean, encoding)

data_complete

Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el barí§a nunca acaeza ante un segundo b ni an...,3.0,Otros,,,,,,,,,
1,EL PAÍS,WEB,URL_a4d7efc0,COMENTARIO,el real madrid ha puesto punto y final a su an...,0.0,,,,,,,,,,
2,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,cristina cifuentes podrí­a haber sido la presi...,3.0,Ideológico,,,,,,,,,
3,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,habrí­a que reabrir el caso. el supremo se ded...,3.0,Ideológico,,,,,,,,,
4,EL PAÍS,WEB,URL_54312d9e,COMENTARIO,me parece un poco exagerado pedir más de tres ...,3.0,Ideológico,Si,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
575024,EL PAÍS,TWITTER,URL_b56184b9,COMENTARIO,sabéis lo que está abultada?\nel tamaño de nue...,4.0,Otros,,,,,,,,,
575025,EL PAÍS,TWITTER,URL_b56184b9,COMENTARIO,sólo queréis el dinero público para que se inv...,4.0,Otros,,,,,,,,,
575026,EL PAÍS,TWITTER,URL_b56184b9,COMENTARIO,"un panfleto, criticando el gasto públco????soi...",4.0,Otros,,Intensificador,,,,,,,
575027,EL PAÍS,TWITTER,URL_b56184b9,COMENTARIO,"un servicio a los enfermos, ¿donde está el pro...",4.0,Ideológico,,,,,,,,,


#### **Registros limitados**
Para garantizar el procesamiento de los datos dentro de las capacidades de hardware poseídas por el estudiante, se establece un numero de lineas dinámico "lines_number" el cual, el estudiante variará según las capacidades de computo de su herramienta de trabajo.

In [5]:
import math

def reduced_dataframe(df: pd.DataFrame, lines_number):
    # Verificar la existencia de la columna "TIPO DE MENSAJE"
    Path_reduce = Path("dataset/04Dataset_reducido.csv")
    if "TIPO DE MENSAJE" not in df.columns:
        raise ValueError("La columna 'TIPO DE MENSAJE' no existe en el dataset.")
    
    # Representa la distribución real de elementos dentro del dataframe
    original_distribution = df["TIPO DE MENSAJE"].value_counts(normalize=True)

    # Crear un nuevo dataframe proporcional al original
    df_sample = pd.DataFrame()

    for _type, percentage in original_distribution.items():
        n_records = math.floor(lines_number*percentage)

        #Tomar muestra aleatoria de cada tipo de mensaje
        df_type = df[df["TIPO DE MENSAJE"] == _type].sample(n=n_records, random_state=42)

        df_sample = pd.concat([df_sample, df_type], ignore_index=True)
    
    # Si llegasen a faltar elementos es posible obtenerlos restando el numero esperado lines_number con el tamaño del dataframe final
    rest_element = lines_number - len(df_sample)
    if rest_element > 0:
        add_element = df.sample(n=rest_element, random_state=42)
        df_sample = pd.concat([df_sample, add_element], ignore_index=True)
    
    #Se crea un nuevo CSV con codificación utf-8 dado que es el estandar de códificación universal que soporta todos los idiomas
    df.to_csv(Path_reduce, sep=";", index=False, encoding="utf-8")
    return df_sample

In [6]:
#Lineas a leer dentro del archivo, se debe garantizar que la lectura garantice la fidelidad de los datos
lines_number = 20000

# Se debe respetar la distribución de los datos originales, para las siguientes funciones se basará en la distribución de los datos organizados por la columna: "TIPO DE MENSAJE"
data = reduced_dataframe(data_complete, lines_number)
data


Unnamed: 0,MEDIO,SOPORTE,URL,TIPO DE MENSAJE,CONTENIDO A ANALIZAR,INTENSIDAD,TIPO DE ODIO,TONO HUMORISTICO,MODIFICADOR,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,EL MUNDO,WEB,URL_db2f86ee,COMENTARIO,"que mujeres mas empoderadas pagar por sexo, gr...",1.0,Misoginia,,,,,,,,,
1,EL PAÍS,WEB,URL_87b4a434,COMENTARIO,muchí­simas gracias. en mi caso serán buenas n...,0.0,,,,,,,,,,
2,EL PAÍS,WEB,URL_4ad12223,COMENTARIO,"raro que no mencionen alguna ""secretaría de ov...",0.0,,,,,,,,,,
3,20MIN,TWITTER,URL_aa12ce38,COMENTARIO,"supongo,que como vasco,no le gustará ser de un...",0.0,,,,,,,,,,
4,20MIN,WEB,URL_03108509,COMENTARIO,"a simple vista, unica zí¼rn (berlí­n, 1916-par...",0.0,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,20MIN,WEB,URL_8f79add0,TITULAR NOTICIA,tranquilos. que esa la deuda la vamos a pagar ...,0.0,,,,,,,,,,
19996,20MIN,WEB,URL_2081139a,TITULAR NOTICIA,el ayuntamiento de vélez-malaga reclama a junt...,0.0,,,,,,,,,,
19997,EL MUNDO,WEB,URL_6018e541,TITULAR NOTICIA,cataluí±a sancionará a 16 compaí±í­as aéreas p...,0.0,,,,,,,,,,
19998,EL MUNDO,TWITTER,URL_03dbb844,COMENTARIO,no se podí­a prever..... \nspain is different,0.0,,,,,,,,,,


El código anterior carga el archivo CSV (opcionalmente con un límite de líneas a leer) y genera la variable <i>data</i>, que contiene un Dataframe (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) con los datos leídos del CSV.

Te vendrá bien conocer la siguiente documentación:
<ul>
    <li>https://spacy.io/api/doc</li>
    <li>https://spacy.io/api/token</li>
    <li>https://spacy.io/api/morphology#morphanalysis</li>
</ul>

#### **Documentación - Definiciones importantes:**
- **Token:** Un token en la librería Spacy es individualmente una palabra, un signo de puntuación, un espacio en blanco, etc. Es podría decirse una unidad minima de texto.
- **doc:** Un doc es el objeto central de spaCy el cual contiene una secuencia de objetos Token procesados por nlp.
- **Morphoanalysis:** Devuelve un objeto tipo MophAnalisys, con sus respectivas características morfológicas.




### **Playground**

Utiliza este espacio para hacer pruebas y ensayos con las variables generadas con el código previo. A modo de ejemplo, se ofrece código que realiza las siguientes tareas: 


- leer un número dado de líneas del Dataframe y generar dos listas con los valores (se pueden leer directamente del DataFrame, se muestra el ejemplo como una opción más)
- procesar el texto de cada comentario


Para procesarlo, hay utilizar el objeto <i>nlp</i> y así obtener objetos de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [7]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
print(data["CONTENIDO A ANALIZAR"][1])
print(data["INTENSIDAD"][1])
doc = []
value = []

#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number):
    
    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista
    tmp_doc = nlp(data["CONTENIDO A ANALIZAR"][i])
    doc.append(tmp_doc)
    
    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data["INTENSIDAD"][i]
    value.append(tmp_value)

muchí­simas gracias. en mi caso serán buenas noches. a estas intempestivas horas me voy a la cama. hasta "maí±ana".
0.0


In [8]:
#ejemplo de cómo recorrer un comentario palabra por palabra
number_docs = len(doc)
print(number_docs)    
# Representación gráfica
displacy.render(doc[1], style="dep", jupyter=True)
for token in doc[1]:
    print(f"\"{token}\" \"{token.morph}\"")

20000


"muchí­simas" "Gender=Fem|Number=Plur"
"gracias" "Gender=Fem|Number=Plur"
"." "PunctType=Peri"
"en" ""
"mi" "Number=Sing|Number[psor]=Sing|Person=1|Poss=Yes|PronType=Prs"
"caso" "Gender=Masc|Number=Sing"
"serán" "Mood=Ind|Number=Plur|Person=3|Tense=Fut|VerbForm=Fin"
"buenas" "Gender=Fem|Number=Plur"
"noches" "Gender=Fem|Number=Plur"
"." "PunctType=Peri"
"a" ""
"estas" "Gender=Fem|Number=Plur|PronType=Dem"
"intempestivas" "Gender=Fem|Number=Plur"
"horas" "Gender=Fem|Number=Plur"
"me" "Case=Acc|Number=Sing|Person=1|PrepCase=Npr|PronType=Prs|Reflex=Yes"
"voy" "Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin"
"a" ""
"la" "Definite=Def|Gender=Fem|Number=Sing|PronType=Art"
"cama" "Gender=Fem|Number=Sing"
"." "PunctType=Peri"
"hasta" ""
""" "PunctType=Quot"
"maí±ana" "Gender=Fem|Number=Sing"
""" "PunctType=Quot"
"." "PunctType=Peri"


#### **Inicio de desarrollo**
En este espacio, se inicializará el doc de interés para el desarrollo de la acitvidad 1. Muchos de los puntos hacen referencia al dataframe cuyos registros son de tipo **"COMENTARIO"**, ello se abordará en esta sección.

In [9]:
doc = []
value = []
data_coment = data[data["TIPO DE MENSAJE"] == "COMENTARIO"]
lines_number_coment = len(data_coment)
#con el bucle, generamos sendas listas con los comentarios ya parseados y con el valor de intensidad
for i in range(0, lines_number_coment):
    
    #en un primer paso se parsea el comentario. En el segundo paso se añade el objeto a la lista, la instrucción iloc extraera el valor correcto despues de haberse filtrado
    tmp_doc = nlp(data_coment["CONTENIDO A ANALIZAR"].iloc[i])
    doc.append(tmp_doc)
    
    #en un primer paso extrae el valor. En el segundo paso se añade el valor a la lista
    tmp_value = data_coment["INTENSIDAD"].iloc[i]
    value.append(tmp_value)

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántos registros contiene el corpus?</span>

In [10]:
print(f"El corpus original posee: {len(data_complete)} Registros")
print(f"El corpus reducido posee: {len(data)} Registros")
print(f"El corpus para tipo de mensaje \"COMENTARIO\" posee: {len(data_coment)} Registros")

El corpus original posee: 575029 Registros
El corpus reducido posee: 20000 Registros
El corpus para tipo de mensaje "COMENTARIO" posee: 11635 Registros


Para conocer el numero de registros del Corpus original basta con averiguar el tamaño del dataframe. La cantidad de registros del Corpus original es: **575029** registros.

Al ser tan voluminoso, **se hace una reducción a 20000**, así reducir la carga computacional del hardware del estudiante.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras totales hay en los comentarios del corpus?</span>

In [11]:
# Función para extraer tokens del doc y añadirlos a una lista, discriminando aquellos que no sean alfa-numéricos
def tokens_list(tokens):
    token_elements = []
    for token in tokens:
        if token.is_alpha:
            token_elements.append(token)
    return token_elements
# Función para contar la cantidad de tokens dentro del corpus comentario
def counter_words(doc):
    counter_word = 0
    for tokens in doc:
        token_elements = tokens_list(tokens)
        counter_word += len(token_elements)
    return counter_word

In [12]:
# Contador palabras dentro del corpus, cuenta la cantidad de palabras que hay en un registro y se lo suma al conteo anterior
counter_word = counter_words(doc)

print(f"Existe un total de {counter_word} palabras en los comentarios del corpus")


Existe un total de 525669 palabras en los comentarios del corpus


Para resolver esta pregunta es tan sencillo como ir sumando la cantidad de tokens que hay dentro de cada sub arreglo de doc. Sin embargo, se debe poner en consideración si se tomarán los signos de puntuación, espacios y demás simbología que no hace referencia a una palabra persé.

El estudiante procede a descartar la simbología para quedarse unicamente con los elementos alfa-numéricos
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número promedio de palabras en cada comentario?</span>


In [13]:

mean_word =  counter_word/lines_number_coment 
print(f"El numero de palabras aproximado por registro es de: {mean_word:.2f}")

El numero de palabras aproximado por registro es de: 45.18


El estudiante tomará el promedio de palabras como la suma total ponderada de las palabras que hay en cada uno de los registros, esto dividido por el numero de registros de tipo comentario, esto quiere decir, se analiza cuantas palabras hay en el primer registro de tipo comentario, luego se analiza la siguiente y se suma con la anterior, el resultado de se suma con las palabras del siguiente registro hasta llegar al último registro, siendo así que con el total de palabras sumadas se divide por el tamaño de la muestra, es decir, se divide por la cantidad de registros de tipo comentario y el resultado será el promedio de palabras en cada comentario.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál el número promedio de palabras en los comentarios de cada grupo?</span>

In [14]:
# Función generadora de objetos Doc
def data_doc_converter(_df):
    _doc = []
    _lines_number = len(_df)
    for i in range(0, _lines_number):
        _tmp_doc = nlp(_df["CONTENIDO A ANALIZAR"].iloc[i])
        _doc.append(_tmp_doc)
    return _doc

#Extracción de comentarios por odio, es decir, intenisidad mayor a 0
data_hate= data_coment[data_coment["INTENSIDAD"] > 0]
doc_data_hate = data_doc_converter(data_hate)
counter_data_hate_word = counter_words(doc_data_hate)
print(f"Existe un total de {counter_data_hate_word} palabras de odio en los comentarios del corpus")

#Extracción de comentarios por no odio, es decir, intenisidad igual a 0
data_not_hate = data_coment[data_coment["INTENSIDAD"] == 0]
doc_data_not_hate = data_doc_converter(data_not_hate)
counter_data_not_hate_word = counter_words(doc_data_not_hate)
print(f"Existe un total de {counter_data_not_hate_word} palabras de no odio en los comentarios del corpus")

Existe un total de 5372 palabras de odio en los comentarios del corpus
Existe un total de 520297 palabras de no odio en los comentarios del corpus


In [15]:
data_hate_len = len(data_hate)
print(f"El tamaño de la muestra fue {data_hate_len} y promedio aproximad de palabras por grupo de odio es de: {counter_data_hate_word/data_hate_len:.2f}")
data_not_hate_len = len(data_not_hate)
print(f"El tamaño de la muestra fue {data_not_hate_len} y promedio aproximado de palabras por grupo de no odio es de: {counter_data_not_hate_word/data_not_hate_len:.2f}")

El tamaño de la muestra fue 385 y promedio aproximad de palabras por grupo de odio es de: 13.95
El tamaño de la muestra fue 11250 y promedio aproximado de palabras por grupo de no odio es de: 46.25


Se establece que el promedio de cada grupo corresponderá a la suma independiente de todas las palabras pertenecientes a cada grupo individualmente, dividido por el tamaño total de registros en cada grupo, obteniendo que en promedio las palabras de odio según la muestra tienden a ser menor en proporción a las palabras de no odio, esto puede ser debido a que los comentarios de no odio tienden a ser argumentativos mas allá de sentimentales, los argumento de odio tienden a ser fulminantes, precisos y de naturaleza corta. No obstante se resalta que estos resultados dependen enormemente de la naturaleza aleatoria de la muestra.
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el número promedio de oraciones en los comentarios de cada grupo?</span>

In [16]:
# Función para contar el número de oraciones totales de un objeto doc, contando individualmente y sumando las oraciones de cada uno de los registros
def counter_sentences(_doc):
    count_sentences = 0
    for tokens in _doc:
        token_elements = list(tokens.sents)
        count_sentences += len(token_elements)
    return count_sentences

count_data_hate_sentences = counter_sentences(doc_data_hate)
print(f"El promedio de la muestra para oraciones de comentarios de odio fue de: { count_data_hate_sentences/data_hate_len:.2f} oraciones")

count_data_not_hate_sentences = counter_sentences(doc_data_not_hate)
print(f"El promedio de la muestra para oraciones de comentarios de no odio fue de: { count_data_not_hate_sentences/data_not_hate_len:.2f} oraciones")


El promedio de la muestra para oraciones de comentarios de odio fue de: 1.60 oraciones
El promedio de la muestra para oraciones de comentarios de no odio fue de: 2.28 oraciones


El promedio de oraciones por comentarios de no odio fue mayor que el de comentarios de odio, esto concuerda con la información sobre el promedio de palabras por cada grupo en los comentarios dónde el promedio de palabras de no odio era mayor que el promedio de palabras del grupo de odio, queriendo decir esto que una sentencia con un proposito solido y basado en argumento tiende a ser por lo general mas largo que un argumento orientado al odio y con proposito de dar una opinion negativa extrema.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Considerando dos grupos de comentarios (odio y no odio) ¿Cuál es el porcentaje de comentarios que contienen entidades NER en cada grupo?</span>

In [17]:
# Función para contar el número de NER totales de un objeto doc, contando individualmente y sumando las NER de cada uno de los registros
def counter_ner(_doc):
    count_ner = 0
    ner_list = []
    for tokens in _doc:
        _token_elements = tokens.ents
        if(len(_token_elements)> 0):
            count_ner += len(_token_elements)
            ner_list.append(_token_elements)
    return count_ner, ner_list

count_data_hate_ner, ner_hate_list = counter_ner(doc_data_hate)
print(f"El porcentaje de comentarios de odio que contienen entidades NER, se calcula como la suma de comentarios que poseen por lo menos una NER sobre el total de comentarios del grupo de la muestra de odio {(len(ner_hate_list)/data_hate_len)*100:.2f}%.")

count_data_not_hate_ner, ner_not_hate_list = counter_ner(doc_data_not_hate)
print(f"El porcentaje de comentarios de no odio que contienen entidades NER, se calcula como la suma de comentarios que poseen por lo menos una NER sobre el total de comentarios del grupo de la muestra de no odio {(len(ner_not_hate_list)/data_not_hate_len)*100:.2f}%.")

El porcentaje de comentarios de odio que contienen entidades NER, se calcula como la suma de comentarios que poseen por lo menos una NER sobre el total de comentarios del grupo de la muestra de odio 35.06%.
El porcentaje de comentarios de no odio que contienen entidades NER, se calcula como la suma de comentarios que poseen por lo menos una NER sobre el total de comentarios del grupo de la muestra de no odio 42.82%.


Aunque la pregunta llegue a ser confusa por la dinámica que se traia en los anteriores puntos, el estudiante interpreta que se pregunta por aquellos comentarios que contienen entidades NER, es decir, acumula un punto aquellos registros cuyos comentarios poseen entidades NER mayores que 0, es decir, no es necesario tener en cuenta todos las entidades ner de un solo comentario basta con que el comentario posea una entidad NER para sumar al conteo, al final, el conteo total de cada grupo se divide por el numero de la muestra correspondiente a cada grupo.

Nueva se obtiene un porcentaje mayor para las muestras de no odio, al ser comentarios mas completos tienden a tener una naturaleza que mas rica en información que los comentarios de odio.
 

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Plantea tus propias preguntas</span>

<span><b>Plantea al menos 4 características</b> del texto cuyo análisis permita una caracterización completa del texto. Puedes utilizar recomendaciones proporcionadas por la IA Generativa, si así lo deseas. Para cada una de las características planteadas, obtén valores separados para los grupos ODIO/NO-ODIO.</span>

<span>En la explicación aportada, deberás <b>explicar el significado de la característica planteada</b> así como la importancia de ésta en la caracterización del texto.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 1.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Promedio de caracteres simbólicos para comentarios de cada grupo (Odio y no odio)</span>

In [18]:
# Función para extraer tokens del doc y añadirlos a una lista, discriminando aquellos que no sean signos de puntuación
def tokens_list_punct(tokens):
    token_elements = []
    for _token in tokens:
        if _token.is_punct:
            token_elements.append(_token)
    return token_elements
# Función para contar la cantidad de tokens asociadas a los signos de puntuación
def counter_punct(_doc):
    count_punct = 0
    for tokens in _doc:
        token_elements = tokens_list_punct(tokens)
        count_punct += len(token_elements)
    return count_punct

count_data_hate_punct = counter_punct(doc_data_hate)
print(f"El promedio de la muestra para puntuaciones de comentarios de odio fue de: { count_data_hate_punct/data_hate_len:.2f} puntuaciones")
count_data_not_hate_punct = counter_punct(doc_data_not_hate)
print(f"El promedio de la muestra para puntuaciones de comentarios de no odio fue de: { count_data_not_hate_punct/data_not_hate_len:.2f} puntuaciones")

El promedio de la muestra para puntuaciones de comentarios de odio fue de: 2.69 puntuaciones
El promedio de la muestra para puntuaciones de comentarios de no odio fue de: 6.95 puntuaciones


Según lo analizado previamente, los comentarios de no odio tienden a ser mas elaborados que los de odio, podrían tener una estructura mas organizada empleando los signos de puntuación en mayor proporción. No obstante, aunque esta es una apreciación sin un fundamento social sólido, es interesante analizar qye los signos de puntuación cumplen esta afirmación en esta actividad y efectivamente poseen un impacto notorio en el tipo de comentario donde los comentarios de no odio tienen un promedio casi tres veces mayor a los comentarios de odio. 
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 2.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Promedio de palabras completamente en mayúsculas por comentarios de cada grupo (Odio y no odio)</span>

In [19]:
# Función para extraer tokens del doc y añadirlos a una lista, discriminando aquellos que no sean alfa-numéricos y seleccionado aquellos que estén en mayúscula
def tokens_list_mayus(tokens):
    token_elements = []
    for token in tokens:
        if token.is_alpha and token.text.isupper():
            token_elements.append(token)
    return token_elements
# Función para contar la cantidad de tokens dentro del corpus comentario
def counter_mayus(doc):
    counter_mayus = 0
    for tokens in doc:
        token_elements = tokens_list_mayus(tokens)
        counter_mayus += len(token_elements)
    return counter_mayus

count_data_hate_mayus = counter_mayus(doc_data_hate)
print(f"El promedio de la muestra para elementos en mayúscula de comentarios de odio fue de: { count_data_hate_mayus/data_hate_len:.2f} mayúsculas")

count_data_not_hate_mayus = counter_mayus(doc_data_not_hate)
print(f"El promedio de la muestra para elementos en mayúscula de comentarios de odio fue de: { count_data_not_hate_mayus/data_not_hate_len:.2f} mayúsculas")

El promedio de la muestra para elementos en mayúscula de comentarios de odio fue de: 0.00 mayúsculas
El promedio de la muestra para elementos en mayúscula de comentarios de odio fue de: 0.00 mayúsculas


En las redes sociales es común que se utilicen comentarios en mayúscula para demostrar emociones fuertes normalmente ligadas a gritos, esta característica podría favorecer mas a los comentarios de odio que a los de no odio, por ello se considera un factor de interés a analizar. No obstante los resultados indicaron que no es influyente las mayúsculas por lo menos no en este caso para determinar si se trataba de un contenido de odio o no odio. No obstante, puede deberse a un contenido normalizado y llevado aa minúsculas así como también un contenido influenciado por el tamaño de la muestra, para el estudiante es una característica a tener en cuenta.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 3.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Promedio de verbos por comentarios según el grupo correspondiente (Odio y no odio)</span>

In [20]:
# Función para extraer tokens verbales del doc y añadirlos a una lista
def tokens_list_verb(tokens):
    token_elements = []
    for token in tokens:
        if token.pos_ == "VERB":
            token_elements.append(token)
    return token_elements
# Función para contar la cantidad de tokens dentro del corpus comentario
def counter_verb(doc):
    counter_verb = 0
    for tokens in doc:
        token_elements = tokens_list_verb(tokens)
        counter_verb += len(token_elements)
    return counter_verb

count_data_hate_verb = counter_verb(doc_data_hate)
print(f"El promedio de la muestra para elementos verbales de comentarios de odio fue de: { count_data_hate_verb/data_hate_len:.2f} verbos")

count_data_not_hate_verb = counter_verb(doc_data_not_hate)
print(f"El promedio de la muestra para elementos verbales de comentarios de no odio fue de: { count_data_not_hate_verb/data_not_hate_len:.2f} verbos")

El promedio de la muestra para elementos verbales de comentarios de odio fue de: 1.69 verbos
El promedio de la muestra para elementos verbales de comentarios de no odio fue de: 5.34 verbos


Aunque es tal vez no influyente, los comentarios de odio tienden a utilizar verbos agresivos en medio de discursos de odio, normalmente cuando se realizar amenazas, advertencias u otra manifestación de intenciones negativas. Dado que no son muy complejos los comentariso de odio pueden estar conformado de pocos verbos o tal vez muchos, no obstante, respecto a un comentario bien fundamentado y solido, la cantidad de verbos de odio es inferior en proporcion a la cantidad verbos de comentarios de no odio.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Característica adicional 4.</span>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Promedio de verbos en imperactivo para comentarios según el grupo correspondiente (Odio y no odio)</span>

In [21]:
# Función para extraer tokens verbales del doc y añadirlos a una lista
def tokens_list_verb_imp(tokens):
    token_elements = []
    for token in tokens:
        if token.pos_ == "VERB" and token.morph.get("Mood") == ["Imp"]:
            token_elements.append(token)
    return token_elements
# Función para contar la cantidad de tokens dentro del corpus comentario
def counter_verb_imp(doc):
    counter_verb = 0
    for tokens in doc:
        token_elements = tokens_list_verb_imp(tokens)
        counter_verb += len(token_elements)
    return counter_verb

count_data_hate_verb_imp = counter_verb_imp(doc_data_hate)
print(f"El promedio de la muestra para elementos verbales imperativo de comentarios de odio fue de: { count_data_hate_verb_imp/data_hate_len:.4f} verbos")

count_data_not_hate_verb_imp = counter_verb_imp(doc_data_not_hate)
print(f"El promedio de la muestra para elementos verbales imperativo de comentarios de no odio fue de: { count_data_not_hate_verb_imp/data_not_hate_len:.4f} verbos")

El promedio de la muestra para elementos verbales imperativo de comentarios de odio fue de: 0.0623 verbos
El promedio de la muestra para elementos verbales imperativo de comentarios de no odio fue de: 0.0615 verbos


Los verbos imperactivos suelen aparecer con naturalidad en cualquier tipo de oración, sin embargo, en comentarios odio suelen utilizarse de manera continua para incidir de forma negativa al interlocutor. En este caso se obtienen promedios similares, estando por encima pocas decimas el promedio verbal del grupo de odio.
 

<span style="font-size: 16pt; font-weight: bold; color: #0098cd;">Reflexión final</span>

<span>Una de las utilidades de la caracterización de texto es que nos sirve como etapa de <i>feature-extraction</i> (extración de características) de cara a un posterior sistema de clasificación. Es pertinente, por tanto, reflexionar sobre la capacidad discriminatoria de cada una de las características extraídas. </span>

<span> Responde, para ello, a la siguiente pregunta.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Reflexión final.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Es posible utilizar alguna de las características extraídas en las preguntas anteriores para determinar si un mensaje contiene odio? Justifica tu respuesta con el análisis estadístico que consideres necesario.</span>

Para poder emplear de forma adecuada las características que determinan si un mensaje contiene discurso de odio o no, es necesario realizar un estudio social que analice las tendencias y comportamientos de las personas al manifestar comentarios negativos hacia individuos o grupos.

No obstante, de este ejercicio puede resaltarse algo que ya se ha mencionado en diversas ocasiones: la complejidad de los textos sin odio frente a los textos con odio. Los mensajes de odio suelen presentar un mejor promedio en varias de las características analizadas, y solo en algunos casos alcanzan valores similares a los mensajes sin odio (particularmente en las características adicionales 2 y 4).

Se considera que estas dos características, para este caso específico, quizá no aportan información relevante. Sin embargo, el hecho de que el imperativo de la característica 4 en los comentarios de odio se encuentre unas décimas por encima del observado en los mensajes sin odio es un aspecto destacable, ya que podría contribuir a identificar la presencia de contenido de odio en los mensajes.