# Extraction

Outra aplicação comum para funções é a relização de extração de conteúdos do texto informado. Isso facilita o parseamento de informações em grande escala, em que podemos utilizar scripts para limpar textos informados, mantendo apenas o necessário da informação que o usuário necessita. Vamos começar com um exemplo simples, extraindo a informação de datas e acontecimentos de um texto.

## Extraindo datas e acontecimentos

Digamos que temos um texto como o a seguir e queremos extrair datas e acontecimentos que aparecerem no texto:


In [5]:
texto = '''A Apple foi fundada em 1 de abril de 1976 por Steve Wozniak, Steve Jobs e Ronald Wayne 
com o nome de Apple Computers, na Califórnia. O nome foi escolhido por Jobs após a visita do pomar 
de maçãs da fazenda de Robert Friedland, também pelo fato do nome soar bem e ficar antes da Atari 
nas listas telefônicas.

O primeiro protótipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club em 1975, 
as vendas começaram em julho de 1976 com o preço de US$ 666,66, aproximadamente 200 unidades foram 
vendidas,[21] em 1977 a empresa conseguiu o aporte de Mike Markkula e um empréstimo do Bank of America.'''

In [6]:
from pydantic import BaseModel, Field
from typing import List
from langchain_core.utils.function_calling import convert_to_openai_function

class Acontecimento(BaseModel):
    '''Informação sobre um acontecimento'''
    data: str = Field(description='Data do acontecimento no formato YYYY-MM-DD')
    acontecimento: str = Field(description='Acontecimento extraído do texto')

class ListaAcontecimentos(BaseModel):
    '''Acontecimentos para extração'''
    acontecimentos: List[Acontecimento] = Field(description='Lista de acontecimentos presentes no texto informado')

tool_acontecimentos = convert_to_openai_function(ListaAcontecimentos)
tool_acontecimentos

{'name': 'ListaAcontecimentos',
 'description': 'Acontecimentos para extração',
 'parameters': {'properties': {'acontecimentos': {'description': 'Lista de acontecimentos presentes no texto informado',
    'items': {'description': 'Informação sobre um acontecimento',
     'properties': {'data': {'description': 'Data do acontecimento no formato YYYY-MM-DD',
       'type': 'string'},
      'acontecimento': {'description': 'Acontecimento extraído do texto',
       'type': 'string'}},
     'required': ['data', 'acontecimento'],
     'type': 'object'},
    'type': 'array'}},
  'required': ['acontecimentos'],
  'type': 'object'}}

In [7]:
from dotenv import load_dotenv, find_dotenv
_=load_dotenv(find_dotenv())

In [9]:
from langchain.prompts import ChatPromptTemplate as cpt
from langchain_openai.chat_models import ChatOpenAI

prompt = cpt.from_messages([
    ('system', 'Extraia as frases de acontecimentos. Elas devem ser extraídas integralmente'),
    ('user', '{input}')
])

chat = ChatOpenAI(model='gpt-4o-mini')
chat = chat.bind(functions=[tool_acontecimentos], function_call={'name': 'ListaAcontecimentos'})

chain = prompt | chat

In [10]:
chain.invoke({'input': texto})

AIMessage(content='', additional_kwargs={'function_call': {'arguments': '{"acontecimentos":[{"data":"1976-04-01","acontecimento":"A Apple foi fundada por Steve Wozniak, Steve Jobs e Ronald Wayne com o nome de Apple Computers, na Califórnia."},{"data":"1975-01-01","acontecimento":"O primeiro protótipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club."},{"data":"1976-07-01","acontecimento":"As vendas do Apple I começaram com o preço de US$ 666,66, aproximadamente 200 unidades foram vendidas."},{"data":"1977-01-01","acontecimento":"A empresa conseguiu o aporte de Mike Markkula e um empréstimo do Bank of America."}]}', 'name': 'ListaAcontecimentos'}, 'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 156, 'prompt_tokens': 285, 'total_tokens': 441, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 

In [11]:
from langchain.output_parsers.openai_functions import JsonOutputFunctionsParser

chain = prompt | chat | JsonOutputFunctionsParser()

In [12]:
chain.invoke({'input': texto})

{'acontecimentos': [{'data': '1976-04-01',
   'acontecimento': 'A Apple foi fundada por Steve Wozniak, Steve Jobs e Ronald Wayne com o nome de Apple Computers, na Califórnia.'},
  {'data': '1975-01-01',
   'acontecimento': 'O primeiro protótipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club.'},
  {'data': '1976-07-01',
   'acontecimento': 'As vendas do Apple I começaram com o preço de US$ 666,66, aproximadamente 200 unidades foram vendidas.'},
  {'data': '1977-01-01',
   'acontecimento': 'A empresa conseguiu o aporte de Mike Markkula e um empréstimo do Bank of America.'}]}

In [13]:
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

chain = prompt | chat | JsonKeyOutputFunctionsParser(key_name='acontecimentos')

chain.invoke({'input': texto})

[{'data': '1976-04-01',
  'acontecimento': 'A Apple foi fundada em 1 de abril de 1976 por Steve Wozniak, Steve Jobs e Ronald Wayne com o nome de Apple Computers, na Califórnia.'},
 {'data': '1975-01-01',
  'acontecimento': 'O primeiro protótipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club em 1975.'},
 {'data': '1976-07-01',
  'acontecimento': 'As vendas começaram em julho de 1976 com o preço de US$ 666,66, aproximadamente 200 unidades foram vendidas.'},
 {'data': '1977-01-01',
  'acontecimento': 'Em 1977 a empresa conseguiu o aporte de Mike Markkula e um empréstimo do Bank of America.'}]

## Extraindo informações da web

A aplicação de extração pode ser muito utilizanda quando combinada com técnicas de WebScraping. Em geral, em WebScraping estamos buscando informações em páginas web. Em sua grande maioria, essas informações virão comletamente desformatadas e em html, o que dificulta a utilização da informação. Podemos criar aplicações utilizando as técnicas que aprendemos para conseguir as informações específicas que precisamos das páginas que estamos analisando.

Vamos dar um exemplo analisando a página de blog da Asimov e tentando extrair todas os posts contidos na página.
https://hub.asimov.academy/blog/


In [15]:
from langchain_community.document_loaders.web_base import WebBaseLoader

loader = WebBaseLoader('https://hub.asimov.academy/blog/')
page = loader.load()
page

[Document(metadata={'source': 'https://hub.asimov.academy/blog/', 'title': 'Blog de Python, IA e Data Science | Asimov Academy', 'description': 'Confira os principais assuntos de programação em Python, Inteligência Artificial e Data Science no blog da Asimov Academy!', 'language': 'pt-BR'}, page_content='\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nBlog de Python, IA e Data Science | Asimov Academy\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nTamanho de fonte\n\nA\nA\nA\nA\n\n\n\nAlto contraste\n\nLigado\nDesligado\n\n\n\nAltura de linha\n\n1\n1.3\n1.5\n1.7\n2.0\n\n\n\n \n\n\n\nPesquisar na plataforma\n\n\n\n\n\nEntrar\nCadastrar\n\n\n\n\n\nBlog\n\n\nArtigos\n\n\nTutoriais\n\n\nMateriais Extras\n\n\nEscreva para nós!\n200xp \n\n\n\n\nBlog da Asimov\n\n        Fique por dentro dos principais assuntos de Python e Inteligência Artificial      \n\n\n\n\n\n176 posts\n\n\n\nPesquisar\n\

In [17]:
from pydantic import BaseModel, Field
from typing import List
from langchain_core.utils.function_calling import convert_to_openai_function

class BlogPost(BaseModel):
    '''Informações sobre um post de blog'''
    titulo: str = Field(description='O título do posto de blog')
    autor: str = Field(description='O autor do post de blog')
    data: str = Field(description='A data da publicação do post de blog')

class BlogSite(BaseModel):
    '''Lista de blog posts de um site'''
    posts: List[BlogPost] = Field(description='Lista de posts de blog do site')

tool_blog = convert_to_openai_function(BlogSite)
tool_blog

{'name': 'BlogSite',
 'description': 'Lista de blog posts de um site',
 'parameters': {'properties': {'posts': {'description': 'Lista de posts de blog do site',
    'items': {'description': 'Informações sobre um post de blog',
     'properties': {'titulo': {'description': 'O título do posto de blog',
       'type': 'string'},
      'autor': {'description': 'O autor do post de blog', 'type': 'string'},
      'data': {'description': 'A data da publicação do post de blog',
       'type': 'string'}},
     'required': ['titulo', 'autor', 'data'],
     'type': 'object'},
    'type': 'array'}},
  'required': ['posts'],
  'type': 'object'}}

In [18]:

from langchain.prompts import ChatPromptTemplate as cpt
from langchain_openai.chat_models import ChatOpenAI
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

prompt = cpt.from_messages([
    ('system', 'Extraia da página todos os posts de blog com autor e data de publicação'),
    ('user', '{input}')
])

chat = ChatOpenAI(model='gpt-4o-mini')
chat = chat.bind(functions=[tool_blog], function_call={'name': 'BlogSite'})

chain = prompt | chat | JsonKeyOutputFunctionsParser(key_name='posts')

In [19]:
chain.invoke({'input': page})

[{'titulo': 'Ferramentas de automação: 10 projetos para aplicar no trabalho',
  'autor': 'Rebeca Honório',
  'data': '1 dia atrás'},
 {'titulo': 'Gerente de projetos de TI: o que faz, quanto ganha e como se destacar na área',
  'autor': 'Carolina Carvalho',
  'data': '2 dias atrás'},
 {'titulo': 'Django: a melhor ferramenta para desenvolvimento Web',
  'autor': 'Rebeca Honório',
  'data': '4 dias atrás'},
 {'titulo': 'IA no mercado de trabalho: ameaça ou aliada para sua carreira?',
  'autor': 'Carolina Carvalho',
  'data': '5 dias atrás'},
 {'titulo': 'LGPD e Inteligência Artificial: o que programadores precisam saber',
  'autor': 'Mykael Lima',
  'data': '8 dias atrás'},
 {'titulo': 'Veo 3: a revolução da geração de vídeos com IA do Google',
  'autor': 'Rebeca Honório',
  'data': '7 dias atrás'},
 {'titulo': 'IA na educação: como a inteligência artificial está transformando o ensino',
  'autor': 'Carolina Carvalho',
  'data': '4 dias atrás'},
 {'titulo': 'O que é computação em nuvem e