¿Cual es la diferencia entre un modelo del lenguaje entrenado usando datos generados automáticamente y datos que han pasado por validación humana??
Dependerá de cuál sea la forma de generación automática de dichos datos. En términos generales, cualquier modelo de aprendizaje máquina que haya sido entrenado con datos generados (o filtrados) por humanos, es susceptible de adquirir características, ideas y preconcepciones propias de los seres humanos.
Lo mismo puede ocurrir si la forma de generar datos de manera automática es diseñada para que dichos datos reflejen (u omitan) ciertas características.
La pregunta es bastante abierta, y sugiero ser más específicos con los detalles sobre el tipo de datos y generación de los mismos, así como el propósito del modelo de lenguaje propuesto para poder entregar una respuesta más completa.