<a href="https://colab.research.google.com/github/pipidepulus/AI-Content-Generator/blob/main/plantilla_notebook_0_hola_langchain_c7cc9f7e_88dc_40e5_9f18_0ffb77a58dd8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hola, mundo en LangChain

## Instalar librerías principales y configuración de API Key de OpenAI

In [13]:
%%capture
!pip install langchain pypdf openai chromadb tiktoken

In [14]:
from getpass import getpass
import os

OPENAI_API_KEY = getpass('Enter the secret value: ')
os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY
#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

Enter the secret value: ··········


## Carga de documents

In [15]:
import requests
from langchain.document_loaders import PyPDFLoader

urls = [
    'https://arxiv.org/pdf/2306.06031v1.pdf',
    'https://arxiv.org/pdf/2306.12156v1.pdf',
    'https://arxiv.org/pdf/2306.14289v1.pdf',
    'https://arxiv.org/pdf/2305.10973v1.pdf',
    'https://arxiv.org/pdf/2306.13643v1.pdf'
]

ml_papers = []

for i, url in enumerate(urls):
    response = requests.get(url)
    filename = f'paper{i+1}.pdf'
    with open(filename, 'wb') as f:
        f.write(response.content)
        print(f'Descargado {filename}')

        loader = PyPDFLoader(filename)
        data = loader.load()
        ml_papers.extend(data)




# Utiliza la lista ml_papers para acceder a los elementos de todos los documentos descargados
print('Contenido de ml_papers:')
print()

Descargado paper1.pdf
Descargado paper2.pdf
Descargado paper3.pdf
Descargado paper4.pdf
Descargado paper5.pdf
Contenido de ml_papers:



In [16]:
type(ml_papers), len(ml_papers), ml_papers[3]

(list,
 57,
 Document(page_content='Figure 1: FinGPT Framework.\n4.1 Data Sources\nThe first stage of the FinGPT pipeline involves the collec-\ntion of extensive financial data from a wide array of online\nsources. These include, but are not limited to:\n•Financial news: Websites such as Reuters, CNBC, Yahoo\nFinance, among others, are rich sources of financial news\nand market updates. These sites provide valuable informa-\ntion on market trends, company earnings, macroeconomic\nindicators, and other financial events.\n•Social media : Platforms such as Twitter, Facebook, Red-\ndit, Weibo, and others, offer a wealth of information in\nterms of public sentiment, trending topics, and immediate\nreactions to financial news and events.\n•Filings : Websites of financial regulatory authorities, such\nas the SEC in the United States, offer access to company\nfilings. These filings include annual reports, quarterly earn-\nings, insider trading reports, and other important company-\nspecific in

## Split de documents

In [17]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
    length_function=len
    )

documents = text_splitter.split_documents(ml_papers)

In [18]:
len(documents), documents[10]

(212,
 Document(page_content='highly volatile, changing rapidly in response to news events\nor market movements.\nTrends , often observable through websites like Seeking\nAlpha, Google Trends, and other finance-oriented blogs and\nforums, offer critical insights into market movements and in-\nvestment strategies. They feature:\n•Analyst perspectives: These platforms provide access to\nmarket predictions and investment advice from seasoned\nfinancial analysts and experts.\n•Market sentiment: The discourse on these platforms can\nreflect the collective sentiment about specific securities,\nsectors, or the overall market, providing valuable insights\ninto the prevailing market mood.\n•Broad coverage: Trends data spans diverse securities and\nmarket segments, offering comprehensive market coverage.\nEach of these data sources provides unique insights into\nthe financial world. By integrating these diverse data types,\nfinancial language models like FinGPT can facilitate a com-\nprehensive 

## Embeddings e ingesta a base de datos vectorial

In [19]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma


embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings
)

retriever = vectorstore.as_retriever(
    search_kwargs={"k": 3}
    )

## Modelos de chat y cadenas para consulta de información

In [20]:
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

chat = ChatOpenAI(
    openai_api_key=OPENAI_API_KEY,
    model_name='gpt-3.5-turbo',
    temperature=0.0
)

qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    chain_type="stuff",
    retriever=retriever
)

In [21]:
query = "qué es fingpt?"
qa_chain.run(query)

'FinGPT es un modelo de lenguaje financiero de código abierto que utiliza técnicas de inteligencia artificial para procesar y comprender datos financieros. Está diseñado para abordar los desafíos específicos de trabajar con datos financieros, como la variedad de formatos y tipos de datos, la limpieza y el preprocesamiento rigurosos, y la necesidad de información actualizada. FinGPT tiene como objetivo estimular la innovación y democratizar el uso de modelos de lenguaje en el campo financiero, desbloqueando nuevas oportunidades en finanzas abiertas.'

In [22]:
query = "qué hace complicado entrenar un modelo como el fingpt?"
qa_chain.run(query)

'Entrenar un modelo como FinGPT puede ser complicado por varias razones:\n\n1. Requisitos computacionales intensivos: Modelos como BloombergGPT requieren una gran cantidad de recursos computacionales, como horas de GPU y costos asociados. Esto puede hacer que el entrenamiento sea costoso y lento.\n\n2. Costo financiero: El entrenamiento de modelos como BloombergGPT puede ser extremadamente costoso, llegando a millones de dólares. Esto limita su accesibilidad y hace que sea menos viable para muchas organizaciones o individuos.\n\n3. Actualizaciones y adaptabilidad: En el dominio financiero, es crucial tener modelos actualizados y adaptables debido a la naturaleza dinámica del mercado. Entrenar un modelo desde cero cada vez que se requiere una actualización puede ser ineficiente y llevar mucho tiempo.\n\n4. Personalización y transparencia: Los modelos de lenguaje financiero deben ser personalizables para adaptarse a las necesidades específicas de los usuarios. Entrenar modelos desde cero

In [23]:
query = "qué es fast segment?"
qa_chain.run(query)

'Fast Segment es un método alternativo propuesto en el artículo "Fast Segment Anything" para acelerar el modelo Segment Anything (SAM) en tareas de visión por computadora. SAM es un modelo que puede segmentar cualquier objeto en una imagen y ha demostrado resultados prometedores en diversas tareas. Sin embargo, SAM tiene altos costos computacionales debido a su arquitectura Transformer en entradas de alta resolución. Fast Segment propone una forma más rápida de lograr resultados comparables al entrenar un método existente de segmentación de instancias utilizando solo una fracción del conjunto de datos utilizado por SAM. Con Fast Segment, se logra una velocidad de ejecución 50 veces más rápida que SAM sin comprometer significativamente el rendimiento.'

In [24]:
query = "cuál es la diferencia entre fast sam y mobile sam?"
qa_chain.run(query)

'La diferencia entre FastSAM y MobileSAM se encuentra en su tamaño y velocidad. FastSAM tiene 68M de parámetros y tarda 40ms en procesar una imagen, mientras que MobileSAM tiene menos de 10M de parámetros y tarda solo 10ms en procesar una imagen. Esto significa que MobileSAM es más rápido y más pequeño que FastSAM. Además, MobileSAM muestra un mejor rendimiento en términos de mIoU (Índice de Jaccard promedio) en comparación con FastSAM.'