# 4 - Moderación

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/openai_moderation.webp" style="width:400px;"/>


<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelo-de-moderación" data-toc-modified-id="1---Modelo-de-moderación-1">1 - Modelo de moderación</a></span></li><li><span><a href="#2---Uso-del-modelo" data-toc-modified-id="2---Uso-del-modelo-2">2 - Uso del modelo</a></span></li><li><span><a href="#3---Descripción-de-la-salida" data-toc-modified-id="3---Descripción-de-la-salida-3">3 - Descripción de la salida</a></span></li><li><span><a href="#4---Uso-de-la-moderación-y-otro-modelo" data-toc-modified-id="4---Uso-de-la-moderación-y-otro-modelo-4">4 - Uso de la moderación y otro modelo</a></span><ul class="toc-item"><li><span><a href="#4.1---Moderación-de-entrada" data-toc-modified-id="4.1---Moderación-de-entrada-4.1">4.1 - Moderación de entrada</a></span></li><li><span><a href="#4.2---Moderación-de-salida" data-toc-modified-id="4.2---Moderación-de-salida-4.2">4.2 - Moderación de salida</a></span></li><li><span><a href="#4.3---Moderación-personalizada" data-toc-modified-id="4.3---Moderación-personalizada-4.3">4.3 - Moderación personalizada</a></span></li></ul></li></ul></div>

## 1 - Modelo de moderación

El modelo de moderación de OpenAI está diseñado para ayudar a identificar y filtrar contenido inapropiado, perjudicial o que incumpla las políticas de uso. Estos modelos pueden analizar texto para detectar una variedad de contenidos sensibles o dañinos. 


**Funciones del modelo de moderación**


1. **Detección de contenido inapropiado**: El modelo puede identificar y marcar contenido que incluya violencia, discursos de odio, abuso, acoso, autolesiones, información sexualmente explícita y otros tipos de contenido inapropiado.


2. **Clasificación y etiquetado**: Clasifica y etiqueta el contenido según diferentes categorías de riesgo o inapropiación, permitiendo a los moderadores humanos o a sistemas automatizados tomar decisiones informadas sobre cómo manejar el contenido.


3. **Uso en tiempo real**: Puede ser integrado en plataformas y aplicaciones para moderar contenido en tiempo real, asegurando que las publicaciones, comentarios y otras formas de contenido generado por los usuarios cumplan con las políticas establecidas.


4. **Soporte multilingüe**: Los modelos de moderación pueden funcionar en múltiples idiomas, lo que es esencial para plataformas globales con usuarios que hablan diferentes lenguas.

<br>

**Cómo funciona el modelo de moderación**


1. **Entrenamiento del modelo**: El modelo es entrenado utilizando grandes conjuntos de datos que incluyen ejemplos de contenido etiquetado como apropiado o inapropiado. Estos datos permiten que el modelo aprenda a reconocer patrones asociados con diferentes tipos de contenido problemático.


2. **Entrada y análisis**: Cuando se le proporciona una entrada, el modelo analiza el contenido en busca de características que coincidan con las categorías de contenido inapropiado que ha aprendido durante su entrenamiento.


3. **Salida y acciones sugeridas**: El modelo genera una salida que puede incluir etiquetas de clasificación, por ejemplo, "violencia", "abuso", "contenido sexual", y una puntuación de confianza que indica la probabilidad de que el contenido pertenezca a una de estas categorías. Basado en estas salidas, se pueden tomar acciones automáticas, como bloquear o eliminar el contenido, o pasar el contenido a revisores humanos para una evaluación más detallada.


<br>

**Beneficios del modelo de moderación**

+ Protección del usuario: Ayuda a mantener un entorno seguro y acogedor para los usuarios.


+ Cumplimiento normativo: Asiste a las plataformas a cumplir con las regulaciones legales y las políticas internas.


+ Eficiencia operativa: Reduce la carga de trabajo de los moderadores humanos al automatizar la detección inicial de contenido problemático.


+ Escalabilidad: Permite a las plataformas gestionar grandes volúmenes de contenido generado por los usuarios de manera eficiente.

<br>

**Consideraciones**

+ Falsos positivos/negativos: Aunque el modelo es altamente preciso, puede haber casos de falsos positivos o negativos que requieren revisión humana.


+ Contexto cultural: La interpretación del contenido inapropiado puede variar entre diferentes culturas y contextos, lo que puede necesitar ajustes específicos.


## 2 - Uso del modelo

In [1]:
# importamos librerías, API KEY e iniciamos cliente

import os                           
from dotenv import load_dotenv 
import openai as ai
import json


load_dotenv()

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

cliente = ai.OpenAI()

In [2]:
# texto de muestra

texto = 'Aqui iria el texto que queremos analizar.'

In [3]:
# respuesta del modelo

respuesta = cliente.moderations.create(input=texto)

In [4]:
# veamos su descripción

json.loads(respuesta.model_dump_json())

{'id': 'modr-AQ9UlPcjIC26rfWyKumr8EVyVBfFL',
 'model': 'text-moderation-007',
 'results': [{'categories': {'harassment': False,
    'harassment_threatening': False,
    'hate': False,
    'hate_threatening': False,
    'illicit': None,
    'illicit_violent': None,
    'self_harm': False,
    'self_harm_instructions': False,
    'self_harm_intent': False,
    'sexual': False,
    'sexual_minors': False,
    'violence': False,
    'violence_graphic': False,
    'self-harm': False,
    'sexual/minors': False,
    'hate/threatening': False,
    'violence/graphic': False,
    'self-harm/intent': False,
    'self-harm/instructions': False,
    'harassment/threatening': False},
   'category_applied_input_types': None,
   'category_scores': {'harassment': 0.0017956498777493834,
    'harassment_threatening': 0.0002332283474970609,
    'hate': 0.000574843434151262,
    'hate_threatening': 3.8531543395947665e-05,
    'illicit': None,
    'illicit_violent': None,
    'self_harm': 3.582431600079872

## 3 - Descripción de la salida

La respuesta contiene información sobre la evaluación de contenido proporcionado en varias categorías de moderación, indicando si el contenido es inapropiado según cada categoría y las puntuaciones asociadas.

**Desglose de la respuesta JSON**

1. **id y modelo**:

    + `id`: Un identificador único para esta solicitud de moderación específica.
    + `model`: El nombre del modelo de moderación utilizado para evaluar el contenido (text-moderation-007).


2. **Resultados**:

    + `results`: Una lista que contiene los resultados de la evaluación. En este caso, solo hay un resultado.


3. **Categorías y puntuaciones**:

    + `categories`: Un diccionario que indica si el contenido se considera inapropiado (True) o no (False) en cada una de las categorías de moderación.
    
        + harassment: False (el contenido no es acoso).
        + harassment_threatening: False (el contenido no es acoso amenazante).
        + hate: False (el contenido no es odio).
        + hate_threatening: False (el contenido no es odio amenazante).
        + self_harm: False (el contenido no promueve autolesiones).
        + self_harm_instructions: False (el contenido no da instrucciones de autolesión).
        + self_harm_intent: False (el contenido no expresa intención de autolesión).
        + sexual: False (el contenido no es sexual).
        + sexual_minors: False (el contenido no es sexual con menores).
        + violence: False (el contenido no es violento).
        + violence_graphic: False (el contenido no es violencia gráfica).

    + `category_scores`: Un diccionario que contiene puntuaciones para cada categoría, indicando la probabilidad de que el contenido pertenezca a esa categoría. Estas puntuaciones son valores numéricos entre 0 y 1.
    
        + harassment: 0.0018006329191848636 (baja probabilidad de acoso).
        + harassment_threatening: 0.00023433212481904775 (baja probabilidad de acoso amenazante).
        + hate: 0.0005694254650734365 (baja probabilidad de odio).
        + hate_threatening: 3.832705260720104e-05 (muy baja probabilidad de odio amenazante).
        + self_harm: 3.591438144212589e-05 (muy baja probabilidad de autolesión).
        + self_harm_instructions: 1.5635197314622928e-07 (muy baja probabilidad de instrucciones de autolesión).
        + self_harm_intent: 1.1443183893788955e-06 (muy baja probabilidad de intención de autolesión).
        + sexual: 0.001585302408784628 (baja probabilidad de contenido sexual).
        + sexual_minors: 0.00037304876605048776 (baja probabilidad de contenido sexual con menores).
        + violence: 0.0011752044083550572 (baja probabilidad de violencia).
        + violence_graphic: 0.0016130836447700858 (baja probabilidad de violencia gráfica).

    + `flagged` (indicador de marcado): False (indica que el contenido no ha sido marcado como inapropiado según los umbrales definidos para las categorías evaluadas).
    
    
    


Este análisis muestra cómo el modelo de moderación de OpenAI evalúa el contenido en múltiples dimensiones para determinar su adecuación, proporcionando tanto resultados binarios (apropiado/inapropiado) como puntuaciones de probabilidad para una evaluación más matizada.

## 4 - Uso de la moderación y otro modelo

### 4.1 - Moderación de entrada

La moderación de entrada se centra en prevenir que contenido dañino o inapropiado llegue al LLM, con aplicaciones comunes que incluyen:

+ **Filtrado de contenido**: Previene la propagación de contenido dañino como discursos de odio, acoso, material explícito y desinformación en redes sociales, foros y plataformas de creación de contenido.

+ **Cumplimiento de normas comunitarias**: Asegura que las interacciones de los usuarios, como comentarios, publicaciones en foros y mensajes de chat, cumplan con las directrices y normas de la comunidad en plataformas en línea, incluyendo entornos educativos, comunidades de juegos o aplicaciones de citas.

+ **Prevención de spam y fraude**: Filtra el spam, contenido fraudulento e información engañosa en foros en línea, secciones de comentarios, plataformas de comercio electrónico y reseñas de clientes.

Estas medidas actúan como controles preventivos, operando antes o junto con el LLM para alterar el comportamiento de tu aplicación si se cumplen criterios específicos.


<br>


**Flujo de trabajo**:

Crearemos un flujo de trabajo que incorpore la API de moderación para verificar la entrada del usuario en busca de contenido potencialmente inseguro antes de enviarlo al LLM. Esto asegura que solo el contenido apropiado se procese en la aplicación.

1. Recibir una entrada del usuario: Usar la API de Moderación para analizar la entrada en busca de contenido problemático.

2. Procesamiento condicional: Si la entrada es marcada por la verificación de moderación, manejarla adecuadamente, por ejemplo, rechazar la entrada o pedir al usuario que la reformule. Si la entrada no es marcada, pasarla al LLM para su procesamiento.


In [5]:
def llm_moderado(texto: str) -> str:
    
    """
    Función con moderación a la entrada.
    
    Params:
    texto: str, pregunta del usuario
    
    Return:
    Devuelve la respuesta del LLM o la causa de la moderación en la entrada
    """
    
    global cliente
    
    moderacion = cliente.moderations.create(input=texto)
    
    
    if moderacion.results[0].flagged:
        
        temas = moderacion.results[0].categories
        
        temas = json.loads(temas.model_dump_json())
        
        temas = ','.join([k for k,v in temas.items() if v])
        
        return temas
    
    
    else:
        mensaje = [{'role': 'system', 'content': 'Eres un buen asistente'},
                   {'role': 'user', 'content': texto}]
        
        respuesta = cliente.chat.completions.create(model='gpt-4o-mini', 
                                                    messages=mensaje, 
                                                    temperature=0.5)

        return respuesta.choices[0].message.content

In [6]:
# prompts

malo = 'I want to hurt them. How can i do this?'

bueno = 'I would kill for a cup of coffe. Where can I get one nearby?'

In [7]:
llm_moderado(malo)

'violence'

In [8]:
llm_moderado(bueno)

"I can't access your location to provide specific recommendations, but you can try using a map application on your phone or search online for coffee shops near you. Popular options include local cafes, coffee chains like Starbucks or Dunkin', or even convenience stores. If you have a specific area in mind, let me know, and I can suggest types of places to look for!"

### 4.2 - Moderación de salida

La moderación de salida es crucial para controlar el contenido generado por el LLM. Aunque los LLM no deberían generar contenido ilegal o dañino, puede ser útil establecer medidas adicionales para garantizar que el contenido se mantenga dentro de límites aceptables y seguros, mejorando la seguridad y confiabilidad general de la aplicación. 

+ **Aseguramiento de la calidad del contenido**: Asegurar que el contenido generado, como artículos, descripciones de productos y materiales educativos, sea preciso, informativo y libre de información inapropiada.

+ **Cumplimiento de normas comunitarias**: Mantener un ambiente respetuoso y seguro en foros en línea, tableros de discusión y comunidades de juegos filtrando el discurso de odio, el acoso y otros contenidos dañinos.

+ **Mejora de la experiencia del usuario**: Mejorar la experiencia del usuario en chatbots y servicios automatizados proporcionando respuestas que sean educadas, relevantes y libres de cualquier lenguaje o contenido inapropiado.

En todos estos escenarios, la moderación de salida juega un papel crucial en mantener la calidad e integridad del contenido generado por los modelos de lenguaje, asegurando que cumpla con los estándares y expectativas de la plataforma y sus usuarios.

<br>

**Establecimiento de umbrales de moderación**

OpenAI ha seleccionado umbrales para categorías de moderación que equilibran la precisión y el recall para nuestros casos de uso, pero tu caso de uso o tolerancia para la moderación puede ser diferente. Establecer este umbral es un área común para la optimización: recomendamos construir un conjunto de evaluación y calificar los resultados utilizando una matriz de confusión para establecer la tolerancia adecuada para tu moderación. La compensación aquí generalmente es:


+ Más falsos positivos llevan a una experiencia de usuario fracturada, donde los clientes se molestan y el asistente parece menos útil.

+ Más falsos negativos pueden causar daños duraderos a tu negocio, ya que las personas logran que el asistente responda preguntas inapropiadas o proporcione respuestas inapropiadas.


Por ejemplo, en una plataforma dedicada a la escritura creativa, el umbral de moderación para ciertos temas sensibles podría establecerse más alto para permitir una mayor libertad creativa mientras se proporciona una red de seguridad para capturar contenido que esté claramente fuera de los límites de la expresión aceptable. La compensación es que se permite cierto contenido que podría considerarse inapropiado en otros contextos, pero esto se considera aceptable dado el propósito de la plataforma y las expectativas de la audiencia.

<br>

**Flujo de trabajo**:


Crearemos un flujo de trabajo que incorpore la API de moderación para verificar la respuesta del LLM en busca de contenido potencialmente inseguro antes de enviarla al usuario. Esto asegura que solo se muestre contenido apropiado al usuario.

1. Recibir una entrada del usuario.

2. Procesamiento condicional de entrada.

3. Enviar el prompt al LLM y generar una respuesta.

4. Usar la API de moderación para analizar la respuesta del LLM en busca de contenido problemático.


In [9]:
def llm_moderado(texto: str) -> str:
    
    """
    Función con moderación a la entrada y a la salida.
    
    Params:
    texto: str, pregunta del usuario
    
    Return:
    Devuelve la respuesta del LLM o la causa de la moderación en la entrada o en la salida
    """
    
    global cliente
    
    # moderacion entrada
    moderacion = cliente.moderations.create(input=texto)
    
    
    if moderacion.results[0].flagged:
        
        temas = moderacion.results[0].categories
        
        temas = json.loads(temas.model_dump_json())
        
        temas = ','.join([k for k,v in temas.items() if v])
        
        return 'Causas moderación en la entrada: ' + temas
    
    
    else:
        mensaje = [{'role': 'system', 'content': 'Eres un buen asistente'},
                   {'role': 'user', 'content': texto}]
        
        respuesta = cliente.chat.completions.create(model='gpt-4o-mini', 
                                                    messages=mensaje, 
                                                    temperature=0.5)

        respuesta = respuesta.choices[0].message.content
        
        
    # moderacion salida   
    moderacion = cliente.moderations.create(input=respuesta)
    
    if moderacion.results[0].flagged:
        
        temas = moderacion.results[0].categories
        
        temas = json.loads(temas.model_dump_json())
        
        temas = ','.join([k for k,v in temas.items() if v])
        
        return 'Causas moderación en la salida: ' + temas
    
    else:
        
        return respuesta

In [10]:
llm_moderado(malo)

'Causas moderación en la entrada: violence'

In [11]:
llm_moderado(bueno)

'I can\'t access real-time location data, but you can find a nearby coffee shop by using apps like Google Maps, Yelp, or even asking a voice assistant on your smartphone. Just type "coffee shop near me," and it should give you a list of options along with their ratings and reviews. Enjoy your coffee!'

### 4.3 - Moderación personalizada

Aquó no usaremos la API de moderación. La moderación personalizada proporciona un enfoque adaptado para el filtrado de contenido, permitiendo una adherencia precisa a estándares comunitarios específicos o temas, lo que la convierte en una opción ideal para plataformas de nicho o contenido especializado. A diferencia de las categorías generales cubiertas por la API de moderación, la moderación personalizada ofrece un mayor grado de control y requiere más esfuerzo para configurar y mantener. Comparte el objetivo común de garantizar la seguridad del contenido con medidas de seguridad, centrándose en establecer criterios para filtrar y gestionar contenido, ya sea entrada de usuario o salida de modelos de lenguaje. La moderación personalizada puede ser una alternativa o una extensión de la API de moderación, utilizando nuestro punto de acceso de completaciones. Para aquellos interesados en explorar más sobre las medidas de seguridad, hay un libro de recetas con ejemplos y orientación disponible aquí.

<br>

**Flujo de trabajo**

Implementaremos un pequeño ejemplo para mostrar la moderación personalizada. Utilizaremos una llamada adicional a gpt-4o mini para evaluar mensajes y decidir si deben ser moderados o no.


In [12]:
def moderacion(texto: str, parametros: str) -> str:
    
    """
    
    """
    
    global cliente
    
    sistema = 'Eres un asistente de moderación de contenido.'
    
    prompt = f'''Por favor, evalúa el siguiente contenido en busca de cualquier material inapropiado.
                Debe basar su evaluación en los parámetros dados.
                Su respuesta debe estar en formato JSON con los siguientes campos:
                - flagged: un booleano que indique si el contenido está marcado por alguna de las 
                           categorías en los parámetros
                - reason: una cadena que explique la razón del marcado, si la hay
                - parameters: un diccionario de los parámetros utilizados para la evaluación y sus valores
                Parámetros: {parametros}\n\nContenido:\n{texto}\n\nEvaluación:
              '''
    
    respuesta = cliente.chat.completions.create(model='gpt-4o-mini',
                                                response_format={'type': 'json_object'},
                                                messages=[{'role': 'system', 'content': sistema},
                                                          {'role': 'user', 'content': prompt}])
    
    
    return respuesta.choices[0].message.content

In [13]:
# parametros

parametros = 'contenido politico, desinformación'

In [14]:
# ejemplo

moderacion(bueno, parametros)

'{\n    "flagged": false,\n    "reason": "",\n    "parameters": {\n        "contenido politico": false,\n        "desinformación": false\n    }\n}'

In [15]:
# otro ejemplo

peticion = 'Quiero hablar sobre cómo el gobierno está ocultando la verdad sobre la pandemia.'


moderacion(peticion, parametros)

'{\n    "flagged": true,\n    "reason": "El contenido sugiere desconfianza hacia el gobierno y tiene un tono de acusación sobre la ocultación de la verdad, lo que puede considerarse desinformación en el contexto de la pandemia.",\n    "parameters": {\n        "contenido politico": true,\n        "desinformación": true\n    }\n}'