### Lista 2 - Extração e Manipulação de Dados 

###### Luiz Eduardo Paiva Ribeiro
###### Lucas Levy de Oliveira Barros


##### Scraping de Websites com BeautifulSoup

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.estadao.com.br'

response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

titulo = soup.title.string if soup.title else 'Sem título'
print('Título da página:', titulo)

links = [a.get('href') for a in soup.find_all('a', href=True)]
print('\nLinks encontrados:')
for link in links:
    print(link)


Título da página: Estadão | As Últimas Notícias do Brasil e do Mundo - Estadão

Links encontrados:
https://www.estadao.com.br/
https://ofertas.estadao.com.br/?sub-canal=botao&posicao=menu-lateral-esquerdo&referrer_url=

https://www.estadao.com.br/opiniao/
https://www.estadao.com.br/ultimas
https://www.estadao.com.br/150-anos/
https://www.estadao.com.br/150-anos/150-momentos/
https://www.estadao.com.br/150-anos/modernizar-a-historia/
https://www.estadao.com.br/150-anos/todo-o-futuro-pela-frente/
https://www.estadao.com.br/150-anos/opiniao-do-estadao/
https://www.estadao.com.br/150-anos/nossos-queridos-leitores/
https://www.estadao.com.br/150-anos/republica-em-transformacao/
https://www.estadao.com.br/politica/
https://www.estadao.com.br/politica/coluna-do-estadao/
https://www.estadao.com.br/politica/blog-do-fausto-macedo/
https://www.estadao.com.br/blogs-e-colunas/busca?ed=politica
https://www.estadao.com.br/economia/
https://www.estadao.com.br/economia/agronegocios/
https://estadaori.e

##### Extração de Texto de Imagens com OCR

In [2]:
!pip install pytesseract Pillow




In [3]:
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'


imagem = Image.open('saofrancisco.jpg')

texto = pytesseract.image_to_string(imagem)

print(texto)
with open('resultado_ocr.txt', 'w', encoding='utf-8') as arquivo:
    arquivo.write(texto)


Senhor fazei
de mim um

instrumento
de vossa paz.

SGo Francisco de Assis

@@ vensavor




##### Implementação Completa de um Extrator de Dados Estruturados e Não Estruturados

In [4]:
!pip install requests beautifulsoup4 PyPDF2 pillow pytesseract



In [5]:
import mimetypes
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfReader 
from PIL import Image 
import pytesseract  
import pandas as pd 

def extrair_dados(caminho):

    if caminho.startswith(('http://','https://')):
        resp = requests.get(caminho)
        soup = BeautifulSoup(resp.content, 'html.parser')
        return {
            'tipo': 'html',
            'titulo': soup.title.string if soup.title else None,
            'links': [a['href'] for a in soup.find_all('a', href=True)]
        }
    mime, _ = mimetypes.guess_type(caminho)
    if mime == 'application/pdf':
        reader = PdfReader(caminho)
        texto = ''.join(page.extract_text() or '' for page in reader.pages)
        return {'tipo': 'pdf', 'texto': texto}
    if mime and mime.startswith('image'):
        img = Image.open(caminho)
        texto = pytesseract.image_to_string(img)
        return {'tipo': 'image', 'texto': texto}
    raise ValueError(f"Tipo não suportado: {mime!r}")

arquivos = [
    'https://www.estadao.com.br',
    'ebooksemanasanta.pdf',
    'saofrancisco.jpg'
]
resultados = [extrair_dados(a) for a in arquivos]

df = pd.DataFrame(resultados, index=arquivos)
df


Unnamed: 0,tipo,titulo,links,texto
https://www.estadao.com.br,html,Estadão | As Últimas Notícias do Brasil e do M...,"[https://www.estadao.com.br/, https://ofertas....",
ebooksemanasanta.pdf,pdf,,,&Semana SantaQuaresmaPlanner 2025\n@catedralcr...
saofrancisco.jpg,image,,,Senhor fazei\nde mim um\n\ninstrumento\nde vos...
