In [None]:
import os

from langchain_openai import ChatOpenAI
from langchain.llms import Cohere

from langchain import hub
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_core.runnables import RunnableParallel
from langchain_community.document_loaders import DirectoryLoader

from dotenv import load_dotenv

In [None]:
load_dotenv()

OPENAI_API_KEY = os.environ['OPENAI_API_KEY']
COHERE_API_KEY = os.environ["COHERE_API_KEY"]

In [None]:
loader = DirectoryLoader("data/sources_txt/")
documents = loader.load()

In [None]:
llm_eval = ChatOpenAI(model_name='gpt-4-0125-preview', # gpt-4-0125-preview gpt-3.5-turbo-0125
                    temperature=0,
                    openai_api_key=OPENAI_API_KEY)

In [None]:
# ABC

respuesta_eval = llm_eval.invoke('''
Dato el siguiente texto, escribe 50 afirmaciones. Estas pueden ser de los siguientes tipos, tienes una explicación al respecto:
- "Refuta": Crea una afirmación completamente falsa con respecto al texto.
- "Apoya": Crea una afirmación completamente verdadera con respecto al texto.
- "A medias": La información tiene algunas partes verdaderas y otras falsas acorde al contexto, con información contradictoria, o modificando algún detalle.
- "No hay información": No existe información sobre la temática central de la información en el texto. Si no existe nada de información al respecto, elige esta opción.
                                 
Devuelve 10 afirmaciones de cada clasificación basándote en el texto proporcionado (debe haber el mismo número de Refuta, Apoya, A medias, No hay información).
                                 
Devuelvelo en formato tabla de Pandas con código en Python, con una columna sobre la afirmación, otra con la clasificación y otra con la fuente (en este caso, abc):
afirmaciones = [
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "abc"},
    ...,
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "abc"},                         
]
                                 
El texto es el siguiente: '''
+ documents[0].page_content)

print(respuesta_eval.content)

```python
import pandas as pd

afirmaciones = [
    {"Afirmación": "El empleo en España disminuyó en 2023.", "Clasificación": "Refuta", "Fuente": "abc"},
    {"Afirmación": "La tasa de desempleo en España se situó en el 11,7% a finales de 2023.", "Clasificación": "Apoya", "Fuente": "abc"},
    {"Afirmación": "El empleo público disminuyó en el último trimestre de 2023.", "Clasificación": "Refuta", "Fuente": "abc"},
    {"Afirmación": "El número de parados disminuyó en 24.600 personas en el último trimestre de 2023.", "Clasificación": "Apoya", "Fuente": "abc"},
    {"Afirmación": "El empleo privado aumentó en 77.600 personas en el último trimestre de 2023.", "Clasificación": "Refuta", "Fuente": "abc"},
    {"Afirmación": "Más de la mitad del empleo creado en 2023 fue para las mujeres.", "Clasificación": "Apoya", "Fuente": "abc"},
    {"Afirmación": "El recorte de jornada laboral aumentará la creación de empleo en 2024.", "Clasificación": "Refuta", "Fuente": "abc"},
    {"Afirmación": "La

In [None]:
# ElMundo

respuesta_eval = llm_eval.invoke('''
Dato el siguiente texto, escribe 50 afirmaciones. Estas pueden ser de los siguientes tipos, tienes una explicación al respecto:
- "Refuta": Crea una afirmación completamente falsa con respecto al texto.
- "Apoya": Crea una afirmación completamente verdadera con respecto al texto.
- "A medias": La información tiene algunas partes verdaderas y otras falsas acorde al contexto, con información contradictoria, o modificando algún detalle.
- "No hay información": No existe información sobre la temática central de la información en el texto. Si no existe nada de información al respecto, elige esta opción.
                                 
Devuelve 10 afirmaciones de cada clasificación basándote en el texto proporcionado (debe haber el mismo número de Refuta, Apoya, A medias, No hay información).
                                 
Devuelvelo en formato tabla de Pandas con código en Python, con una columna sobre la afirmación, otra con la clasificación y otra con la fuente (en este caso, elmundo):
afirmaciones = [
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "elmundo"},
    ...,
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "elmundo"},                         
]
                                 
El texto es el siguiente: '''
+ documents[1].page_content)

print(respuesta_eval.content)

```python
import pandas as pd

afirmaciones = [
    {"Afirmación": "El empleo en España disminuyó en 2023.", "Clasificación": "Refuta", "Fuente": "elmundo"},
    {"Afirmación": "El paro en España aumentó en 2023.", "Clasificación": "Refuta", "Fuente": "elmundo"},
    {"Afirmación": "En 2023, el número de trabajadores en España fue menor que en 2022.", "Clasificación": "Refuta", "Fuente": "elmundo"},
    {"Afirmación": "La tasa de paro en 2023 fue superior al 15%.", "Clasificación": "Refuta", "Fuente": "elmundo"},
    {"Afirmación": "El sector público fue el principal generador de empleo en 2023.", "Clasificación": "Refuta", "Fuente": "elmundo"},
    {"Afirmación": "La mayoría de los empleos creados en 2023 fueron a tiempo parcial.", "Clasificación": "Refuta", "Fuente": "elmundo"},
    {"Afirmación": "El paro aumentó en el último trimestre de 2023.", "Clasificación": "Refuta", "Fuente": "elmundo"},
    {"Afirmación": "En 2023, España cerró el año con más de 3 millones de parados.", "Cla

In [None]:
# ElPlural

respuesta_eval = llm_eval.invoke('''
Dato el siguiente texto, escribe 50 afirmaciones. Estas pueden ser de los siguientes tipos, tienes una explicación al respecto:
- "Refuta": Crea una afirmación completamente falsa con respecto al texto.
- "Apoya": Crea una afirmación completamente verdadera con respecto al texto.
- "A medias": La información tiene algunas partes verdaderas y otras falsas acorde al contexto, con información contradictoria, o modificando algún detalle.
- "No hay información": No existe información sobre la temática central de la información en el texto. Si no existe nada de información al respecto, elige esta opción.
                                 
Devuelve 10 afirmaciones de cada clasificación basándote en el texto proporcionado (debe haber el mismo número de Refuta, Apoya, A medias, No hay información).
                                 
Devuelvelo en formato tabla de Pandas con código en Python, con una columna sobre la afirmación, otra con la clasificación y otra con la fuente (en este caso, elplural):
afirmaciones = [
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "elplural"},
    ...,
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "elplural"},                         
]
                                 
El texto es el siguiente: '''
+ documents[2].page_content)

print(respuesta_eval.content)

```python
import pandas as pd

afirmaciones = [
    {"Afirmación": "El paro aumentó en el último año.", "Clasificación": "Refuta", "Fuente": "elplural"},
    {"Afirmación": "La tasa de desempleo es del 11,7%.", "Clasificación": "Apoya", "Fuente": "elplural"},
    {"Afirmación": "El empleo a tiempo parcial disminuyó en el último año.", "Clasificación": "A medias", "Fuente": "elplural"},
    {"Afirmación": "El número de hogares con todos sus miembros trabajando disminuyó.", "Clasificación": "Refuta", "Fuente": "elplural"},
    {"Afirmación": "El empleo en el sector privado creció en 715.900 puestos.", "Clasificación": "Apoya", "Fuente": "elplural"},
    {"Afirmación": "La tasa de temporalidad aumentó y superó la media europea.", "Clasificación": "Refuta", "Fuente": "elplural"},
    {"Afirmación": "El número de ocupados asciende a 2.246.900.", "Clasificación": "A medias", "Fuente": "elplural"},
    {"Afirmación": "El empleo a tiempo completo aumentó en más de 600.000 personas.", "Clasific

In [None]:
# OKdiario

respuesta_eval = llm_eval.invoke('''
Dato el siguiente texto, escribe 50 afirmaciones. Estas pueden ser de los siguientes tipos, tienes una explicación al respecto:
- "Refuta": Crea una afirmación completamente falsa con respecto al texto.
- "Apoya": Crea una afirmación completamente verdadera con respecto al texto.
- "A medias": La información tiene algunas partes verdaderas y otras falsas acorde al contexto, con información contradictoria, o modificando algún detalle.
- "No hay información": No existe información sobre la temática central de la información en el texto. Si no existe nada de información al respecto, elige esta opción.
                                 
Devuelve 10 afirmaciones de cada clasificación basándote en el texto proporcionado (debe haber el mismo número de Refuta, Apoya, A medias, No hay información).
                                 
Devuelvelo en formato tabla de Pandas con código en Python, con una columna sobre la afirmación, otra con la clasificación y otra con la fuente (en este caso, okdiario):
afirmaciones = [
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "okdiario"},
    ...,
    {"Afirmación": "Afirmación generada", "Clasificación": "Clasificación generada", "Fuente": "okdiario"},                         
]
                                 
El texto es el siguiente: '''
+ documents[3].page_content)

print(respuesta_eval.content)

```python
import pandas as pd

afirmaciones = [
    {"Afirmación": "Yolanda Díaz vive en un piso de 443 metros cuadrados.", "Clasificación": "Apoya", "Fuente": "okdiario"},
    {"Afirmación": "Yolanda Díaz considera vivir en Madrid como una bendición.", "Clasificación": "Refuta", "Fuente": "okdiario"},
    {"Afirmación": "El piso de Yolanda Díaz está fuera del Ministerio de Trabajo y Economía Social.", "Clasificación": "Refuta", "Fuente": "okdiario"},
    {"Afirmación": "Yolanda Díaz es la vicepresidenta primera del Gobierno.", "Clasificación": "Refuta", "Fuente": "okdiario"},
    {"Afirmación": "El piso de Yolanda Díaz es propiedad del Estado.", "Clasificación": "Apoya", "Fuente": "okdiario"},
    {"Afirmación": "Yolanda Díaz es originaria de Madrid.", "Clasificación": "Refuta", "Fuente": "okdiario"},
    {"Afirmación": "Yolanda Díaz disfruta de hacer sentadillas con su equipo.", "Clasificación": "Apoya", "Fuente": "okdiario"},
    {"Afirmación": "La hija de Yolanda Díaz esperaba enco