# Extraction

Outra aplica√ß√£o comum para fun√ß√µes √© a reliza√ß√£o de extra√ß√£o de conte√∫dos do texto informado. Isso facilita o parseamento de informa√ß√µes em grande escala, em que podemos utilizar scripts para limpar textos informados, mantendo apenas o necess√°rio da informa√ß√£o que o usu√°rio necessita. Vamos come√ßar com um exemplo simples, extraindo a informa√ß√£o de datas e acontecimentos de um texto.

## Extraindo datas e acontecimentos

Digamos que temos um texto como o a seguir e queremos extrair datas e acontecimentos que aparecerem no texto:


In [5]:
texto = '''A Apple foi fundada em 1 de abril de 1976 por Steve Wozniak, Steve Jobs e Ronald Wayne 
com o nome de Apple Computers, na Calif√≥rnia. O nome foi escolhido por Jobs ap√≥s a visita do pomar 
de ma√ß√£s da fazenda de Robert Friedland, tamb√©m pelo fato do nome soar bem e ficar antes da Atari 
nas listas telef√¥nicas.

O primeiro prot√≥tipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club em 1975, 
as vendas come√ßaram em julho de 1976 com o pre√ßo de US$ 666,66, aproximadamente 200 unidades foram 
vendidas,[21] em 1977 a empresa conseguiu o aporte de Mike Markkula e um empr√©stimo do Bank of America.'''

In [6]:
from pydantic import BaseModel, Field
from typing import List
from langchain_core.utils.function_calling import convert_to_openai_function

class Acontecimento(BaseModel):
    '''Informa√ß√£o sobre um acontecimento'''
    data: str = Field(description='Data do acontecimento no formato YYYY-MM-DD')
    acontecimento: str = Field(description='Acontecimento extra√≠do do texto')

class ListaAcontecimentos(BaseModel):
    '''Acontecimentos para extra√ß√£o'''
    acontecimentos: List[Acontecimento] = Field(description='Lista de acontecimentos presentes no texto informado')

tool_acontecimentos = convert_to_openai_function(ListaAcontecimentos)
tool_acontecimentos

{'name': 'ListaAcontecimentos',
 'description': 'Acontecimentos para extra√ß√£o',
 'parameters': {'properties': {'acontecimentos': {'description': 'Lista de acontecimentos presentes no texto informado',
    'items': {'description': 'Informa√ß√£o sobre um acontecimento',
     'properties': {'data': {'description': 'Data do acontecimento no formato YYYY-MM-DD',
       'type': 'string'},
      'acontecimento': {'description': 'Acontecimento extra√≠do do texto',
       'type': 'string'}},
     'required': ['data', 'acontecimento'],
     'type': 'object'},
    'type': 'array'}},
  'required': ['acontecimentos'],
  'type': 'object'}}

In [7]:
from dotenv import load_dotenv, find_dotenv
_=load_dotenv(find_dotenv())

In [9]:
from langchain.prompts import ChatPromptTemplate as cpt
from langchain_openai.chat_models import ChatOpenAI

prompt = cpt.from_messages([
    ('system', 'Extraia as frases de acontecimentos. Elas devem ser extra√≠das integralmente'),
    ('user', '{input}')
])

chat = ChatOpenAI(model='gpt-4o-mini')
chat = chat.bind(functions=[tool_acontecimentos], function_call={'name': 'ListaAcontecimentos'})

chain = prompt | chat

In [10]:
chain.invoke({'input': texto})

AIMessage(content='', additional_kwargs={'function_call': {'arguments': '{"acontecimentos":[{"data":"1976-04-01","acontecimento":"A Apple foi fundada por Steve Wozniak, Steve Jobs e Ronald Wayne com o nome de Apple Computers, na Calif√≥rnia."},{"data":"1975-01-01","acontecimento":"O primeiro prot√≥tipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club."},{"data":"1976-07-01","acontecimento":"As vendas do Apple I come√ßaram com o pre√ßo de US$ 666,66, aproximadamente 200 unidades foram vendidas."},{"data":"1977-01-01","acontecimento":"A empresa conseguiu o aporte de Mike Markkula e um empr√©stimo do Bank of America."}]}', 'name': 'ListaAcontecimentos'}, 'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 156, 'prompt_tokens': 285, 'total_tokens': 441, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_toke

In [11]:
from langchain.output_parsers.openai_functions import JsonOutputFunctionsParser

chain = prompt | chat | JsonOutputFunctionsParser()

In [12]:
chain.invoke({'input': texto})

{'acontecimentos': [{'data': '1976-04-01',
   'acontecimento': 'A Apple foi fundada por Steve Wozniak, Steve Jobs e Ronald Wayne com o nome de Apple Computers, na Calif√≥rnia.'},
  {'data': '1975-01-01',
   'acontecimento': 'O primeiro prot√≥tipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club.'},
  {'data': '1976-07-01',
   'acontecimento': 'As vendas do Apple I come√ßaram com o pre√ßo de US$ 666,66, aproximadamente 200 unidades foram vendidas.'},
  {'data': '1977-01-01',
   'acontecimento': 'A empresa conseguiu o aporte de Mike Markkula e um empr√©stimo do Bank of America.'}]}

In [13]:
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

chain = prompt | chat | JsonKeyOutputFunctionsParser(key_name='acontecimentos')

chain.invoke({'input': texto})

[{'data': '1976-04-01',
  'acontecimento': 'A Apple foi fundada em 1 de abril de 1976 por Steve Wozniak, Steve Jobs e Ronald Wayne com o nome de Apple Computers, na Calif√≥rnia.'},
 {'data': '1975-01-01',
  'acontecimento': 'O primeiro prot√≥tipo da empresa foi o Apple I que foi demonstrado na Homebrew Computer Club em 1975.'},
 {'data': '1976-07-01',
  'acontecimento': 'As vendas come√ßaram em julho de 1976 com o pre√ßo de US$ 666,66, aproximadamente 200 unidades foram vendidas.'},
 {'data': '1977-01-01',
  'acontecimento': 'Em 1977 a empresa conseguiu o aporte de Mike Markkula e um empr√©stimo do Bank of America.'}]

## Extraindo informa√ß√µes da web

A aplica√ß√£o de extra√ß√£o pode ser muito utilizanda quando combinada com t√©cnicas de WebScraping. Em geral, em WebScraping estamos buscando informa√ß√µes em p√°ginas web. Em sua grande maioria, essas informa√ß√µes vir√£o comletamente desformatadas e em html, o que dificulta a utiliza√ß√£o da informa√ß√£o. Podemos criar aplica√ß√µes utilizando as t√©cnicas que aprendemos para conseguir as informa√ß√µes espec√≠ficas que precisamos das p√°ginas que estamos analisando.

Vamos dar um exemplo analisando a p√°gina de blog da Asimov e tentando extrair todas os posts contidos na p√°gina.
https://hub.asimov.academy/blog/


In [15]:
from langchain_community.document_loaders.web_base import WebBaseLoader

loader = WebBaseLoader('https://hub.asimov.academy/blog/')
page = loader.load()
page

[Document(metadata={'source': 'https://hub.asimov.academy/blog/', 'title': 'Blog de Python, IA e Data Science | Asimov Academy', 'description': 'Confira os principais assuntos de programa√ß√£o em Python, Intelig√™ncia Artificial e Data Science no blog da Asimov Academy!', 'language': 'pt-BR'}, page_content='\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nBlog de Python, IA e Data Science | Asimov Academy\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nTamanho de fonte\n\nA\nA\nA\nA\n\n\n\nAlto contraste\n\nLigado\nDesligado\n\n\n\nAltura de linha\n\n1\n1.3\n1.5\n1.7\n2.0\n\n\n\n \n\n\n\nPesquisar na plataforma\n\n\n\n\n\nEntrar\nCadastrar\n\n\n\n\n\nBlog\n\n\nArtigos\n\n\nTutoriais\n\n\nMateriais Extras\n\n\nEscreva para n√≥s!\n200xp \n\n\n\n\nBlog da Asimov\n\n        Fique por dentro dos principais assuntos de Python e Intelig√™ncia Artificial      \n\n\n\n\n\n176 posts\n\n\n\nPesquis

In [17]:
from pydantic import BaseModel, Field
from typing import List
from langchain_core.utils.function_calling import convert_to_openai_function

class BlogPost(BaseModel):
    '''Informa√ß√µes sobre um post de blog'''
    titulo: str = Field(description='O t√≠tulo do posto de blog')
    autor: str = Field(description='O autor do post de blog')
    data: str = Field(description='A data da publica√ß√£o do post de blog')

class BlogSite(BaseModel):
    '''Lista de blog posts de um site'''
    posts: List[BlogPost] = Field(description='Lista de posts de blog do site')

tool_blog = convert_to_openai_function(BlogSite)
tool_blog

{'name': 'BlogSite',
 'description': 'Lista de blog posts de um site',
 'parameters': {'properties': {'posts': {'description': 'Lista de posts de blog do site',
    'items': {'description': 'Informa√ß√µes sobre um post de blog',
     'properties': {'titulo': {'description': 'O t√≠tulo do posto de blog',
       'type': 'string'},
      'autor': {'description': 'O autor do post de blog', 'type': 'string'},
      'data': {'description': 'A data da publica√ß√£o do post de blog',
       'type': 'string'}},
     'required': ['titulo', 'autor', 'data'],
     'type': 'object'},
    'type': 'array'}},
  'required': ['posts'],
  'type': 'object'}}

In [18]:

from langchain.prompts import ChatPromptTemplate as cpt
from langchain_openai.chat_models import ChatOpenAI
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

prompt = cpt.from_messages([
    ('system', 'Extraia da p√°gina todos os posts de blog com autor e data de publica√ß√£o'),
    ('user', '{input}')
])

chat = ChatOpenAI(model='gpt-4o-mini')
chat = chat.bind(functions=[tool_blog], function_call={'name': 'BlogSite'})

chain = prompt | chat | JsonKeyOutputFunctionsParser(key_name='posts')

In [19]:
chain.invoke({'input': page})

[{'titulo': 'Ferramentas de automa√ß√£o: 10 projetos para aplicar no trabalho',
  'autor': 'Rebeca Hon√≥rio',
  'data': '1 dia atr√°s'},
 {'titulo': 'Gerente de projetos de TI: o que faz, quanto ganha e como se destacar na √°rea',
  'autor': 'Carolina Carvalho',
  'data': '2 dias atr√°s'},
 {'titulo': 'Django: a melhor ferramenta para desenvolvimento Web',
  'autor': 'Rebeca Hon√≥rio',
  'data': '4 dias atr√°s'},
 {'titulo': 'IA no mercado de trabalho: amea√ßa ou aliada para sua carreira?',
  'autor': 'Carolina Carvalho',
  'data': '5 dias atr√°s'},
 {'titulo': 'LGPD e Intelig√™ncia Artificial: o que programadores precisam saber',
  'autor': 'Mykael Lima',
  'data': '8 dias atr√°s'},
 {'titulo': 'Veo 3: a revolu√ß√£o da gera√ß√£o de v√≠deos com IA do Google',
  'autor': 'Rebeca Hon√≥rio',
  'data': '7 dias atr√°s'},
 {'titulo': 'IA na educa√ß√£o: como a intelig√™ncia artificial est√° transformando o ensino',
  'autor': 'Carolina Carvalho',
  'data': '4 dias atr√°s'},
 {'titulo': 'O que