<a href="https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/A05_WebScraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/mack_logo.png?raw=true" height="70" align="right"/></a>






# Web Scraping

O web scraping pode ser uma ferramenta poderosa para a captura de dados que alimentam uma série de aplicações e aqui você vai aprender um pouco dos conceitos e como fazer scrapings simples de páginas.

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/Mitchell_WebScraping.png?raw=true" height="250" align="left"/></a>


# Web Scraping

# 1. Introdução ao Web Scraping

Web scraping é o processo de extração automatizada de dados de websites. Os dados podem ser estruturados ou não estruturados, e são coletados a partir de elementos HTML da página. Dentre suas aplicações encontramos:

- Coleta de dados para análise de preços.
- Extração de informações para pesquisas acadêmicas.
- Monitoramento de redes sociais ou notícias.
- Enriquecimento de bases de dados.  

Há dois formas básicas de busca automática de dados em páginas Web. O **Web Scraping** é mais focado em extrair conteúdo de uma ou mais páginas específicas, enquanto os **Web Crawlers (ou Spiders)** são exploradores automáticos mas que navegam em geral em muitas páginas, seguindo os hiperlinks encontrados, se são  geralmente associados a motores de busca. Aqui focaremos exclusivamente em scraping.

Existem várias ferramentas de Web Scraping disponíveis. Vamos citar apenas algumas das mais comuns:

- **BeautifulSoup**: É simples e fácil de usar, sendo ideal para projetos pequenos com páginas bem estruturadas. Facilita localizar elementos na página e coletar dados.

- **Scrapy**: Framework Python para scraping de dados mais robusto e ideal para projetos maiores. Possui recursos para web crawling e retomada automática de scrapes quando encontra erros. Mas é mais complexa do que BeautifulSoup.

- **Selenium**: É usado para interagir com páginas dinâmicas e que requerem interações do usuário (por exemplo páginas com JavaScript). O Selenium simula um Browser (ou emprega um) e as ações do usuário clicando e digitando, mas sem que o navegador abra. É por isso mais lento e exige mais recursos e pode não ser muito adequado para grande volumes de dados.


# 2. Como Funciona o Web Scraping

Um scraping deve enviar uma requisição HTTP para o site que irá responder com o conteúdo HTML da página.
.

In [9]:
import requests
from bs4 import BeautifulSoup

url = 'https://pt.wikipedia.org/wiki/Kate_Beckinsale'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
soup

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-enabled vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-toc-available" dir="ltr" lang="pt">
<head>
<meta charset="utf-8"/>
<title>Kate Beckinsale – Wikipédia, a enciclopédia livre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-d

O HTML retornado é analisado para localizar e extrair os dados desejados. O BeautifulSoup facilita a navegação pela árvore de HTML para acessar elementos específicos.  Para isso, muitas vezes é necessário que se tenha conhecimento da estrutura da página e seu conteúdo. Identificar tabelas ou listas que contêm dados estruturados, como tabelas de classificações, para extrair essas informações para um DataFrame ou arquivo CSV pode ser em muitos casos desafiador.

In [10]:
# Encontra o título da página
titulo = soup.find('h1', id='firstHeading').text
print(titulo)

# Encontra todos os parágrafos da página
paragrafos = soup.find_all('p')
for paragrafo in paragrafos:
  print(paragrafo.text)


Kate Beckinsale
Kathrin Romany Beckinsale (Chiswick, 26 de julho de 1973) é uma atriz britânica. Depois de alguns papéis menores na televisão, ela estreou no cinema em Much Ado About Nothing (1993) enquanto ainda era estudante na Universidade de Oxford. Ela apareceu em dramas britânicos como Prince of Jutland (1994), Cold Comfort Farm (1995), Emma (1996) e The Golden Bowl (2000), além de várias produções teatrais e de rádio. Começou a procurar trabalhos cinematográficos nos Estados Unidos no final dos anos 90 e, depois de aparecer em dramas de pequena escala Os Últimos Dias de Disco (1998) e Brokedown Palace (1999), ela teve papéis principais no drama de guerra Pearl Harbor (2001), na comédia romântica Serendipity e Tiptoes (2003). Ela seguiu aqueles com aparições em The Aviator (2004) e Click (2006).

Desde que foi escalada como Selene na série de filmes Underworld (2003–2016), Beckinsale tornou-se conhecida principalmente por seu trabalho em filmes de ação, incluindo Van Helsing (200

Além do HTML, o scraping pode incluir a leitura de PDFs, CSVs ou arquivos de imagem hospedados em páginas, podendo ser necessário utilizar outras bibliotecas, como o `pdfminer`.  

Em **páginas estáticas** o conteúdo HTML completo é enviado pelo servidor na resposta inicial, é o caso por exemplo da maior parte das páginas da Wikipedia. Já sites mais elaborados, como sites de notícias e de vendas, empregam **páginas dinâmicas**. Nelas o conteúdo é carregado posteriormente, em geral por um programa JavaScript que faz parte da página e que executa quando a página é carregada. Nesse caso, bibliotecas como o Selenium, precisam ser empregadas.

     ```python
     # Este código não executa no Google Colab
     from selenium import webdriver
     
     driver = webdriver.Chrome()
     driver.get('https://example.com')
     content = driver.page_source
     ```
   




# 3. Desafios

Construir aplicações que empregam dados de web scraping envolve uma série de desafios, problemas técnicos e éticos.

Antes de usar verifique se o site permite scraping. O arquivo `robots.txt` define as regras de scraping.
  

In [14]:
import requests
from bs4 import BeautifulSoup

url = 'https://pt.wikipedia.org/robots.txt'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
soup

﻿# robots.txt for http://www.wikipedia.org/ and friends
#
# Please note: There are a lot of pages on this site, and there are
# some misbehaved spiders out there that go _way_ too fast. If you're
# irresponsible, your access to the site may be blocked.
#

# Observed spamming large amounts of https://en.wikipedia.org/?curid=NNNNNN
# and ignoring 429 ratelimit responses, claims to respect robots:
# http://mj12bot.com/
User-agent: MJ12bot
Disallow: /

# advertising-related bots:
User-agent: Mediapartners-Google*
Disallow: /

# Wikipedia work bots:
User-agent: IsraBot
Disallow:

User-agent: Orthogaffe
Disallow:

# Crawlers that are kind enough to obey, but which we'd rather not have
# unless they're feeding search engines.
User-agent: UbiCrawler
Disallow: /

User-agent: DOC
Disallow: /

User-agent: Zao
Disallow: /

# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: 

Os sites podem mudar sua estrutura interna sem aviso prévio. Isso significa que os seletores de elementos HTML que antes funcionavam podem deixar de funcionar, quebrando o código de scraping e tornando a coleta de dados muitas vezes inviável. É o caso, por exemplo, do **LinkedIn**, que frequentemente faz alterações para inibir práticas de scraping.

Muitos sites implementam também mecanismos de proteção contra web scraping, como **CAPTCHAs**, taxas de solicitação limitadas para não sobrecarregar o serviço e bloqueio de endereços IP.

# 4. Code: Raw

In [21]:
url = 'https://services.swpc.noaa.gov/text/solar-geophysical-event-reports.txt'
url = 'https://pt.wikipedia.org/wiki/Kate_Beckinsale'

response = requests.get(url)

if response.status_code == 200:
    text = response.text
    print(text)
else:
    print(f'Falha ao acessar a página. Response: {response.status_code}')



<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-enabled vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-toc-available" lang="pt" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Kate Beckinsale – Wikipédia, a enciclopédia livre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-dis

In [22]:
url = 'https://github.com/Rogerio-mack/data-engineering/raw/main/data/yahoo_B3.jsonl'

import requests
import json

def download_and_yield_rows(url):
    response = requests.get(url, stream=True)
    response.raise_for_status()  # Raise an HTTPError for bad responses

    for line in response.iter_lines():
        if line:
            yield json.loads(line)

# Use the generator to iterate over rows with minimal memory usage
for row in download_and_yield_rows(url):
    # Process each row as needed
    print(row)

{'Date': '2022-01-03', 'BRL=X': 5.5693001747, 'ITUB4.SA': 18.7625465393, 'PETR4.SA': 12.7351827621, 'VALE3.SA': 61.8115310669, '^BVSP': 103922.0}
{'Date': '2022-01-04', 'BRL=X': 5.6812000275, 'ITUB4.SA': 19.2946357727, 'PETR4.SA': 12.7833404541, 'VALE3.SA': 61.0824737549, '^BVSP': 103514.0}
{'Date': '2022-01-05', 'BRL=X': 5.676199913, 'ITUB4.SA': 18.9282817841, 'PETR4.SA': 12.2886428833, 'VALE3.SA': 61.6609725952, '^BVSP': 101006.0}
{'Date': '2022-01-06', 'BRL=X': 5.7056350708, 'ITUB4.SA': 19.3120746613, 'PETR4.SA': 12.2798881531, 'VALE3.SA': 62.9051208496, '^BVSP': 101561.0}
{'Date': '2022-01-07', 'BRL=X': 5.6824002266, 'ITUB4.SA': 19.739490509, 'PETR4.SA': 12.3367986679, 'VALE3.SA': 66.5662765503, '^BVSP': 102719.0}
{'Date': '2022-01-10', 'BRL=X': 5.6321997643, 'ITUB4.SA': 19.9226646423, 'PETR4.SA': 12.2623758316, 'VALE3.SA': 65.7738037109, '^BVSP': 101945.0}
{'Date': '2022-01-11', 'BRL=X': 5.6621999741, 'ITUB4.SA': 20.3675270081, 'PETR4.SA': 12.6257362366, 'VALE3.SA': 67.025894165, 

# 5. Code: Beautiful Soap

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/Kate_beckinsale.png?raw=true" height="250" align="left"/></a>


In [24]:
import requests
from bs4 import BeautifulSoup

url = 'https://pt.wikipedia.org/wiki/Kate_Beckinsale'

response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    main_content = soup.find('div', {'class': 'mw-parser-output'})

    text = []

    for paragraph in main_content.find_all(['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
        text.append(paragraph.get_text())

else:
    print(f'Falha ao acessar a página. Response: {response.status_code}')

lines = main_content.prettify().split('\n')
for line in lines[:20]:
    print(line)

<div class="mw-content-ltr mw-parser-output" dir="ltr" lang="pt">
 <table border="0" cellpadding="3" class="infobox infobox_v2" style="width: 22em; text-align: left; font-size: 88%; -moz-border-radius:5px;">
  <tbody>
   <tr>
    <th class="topo teatro" colspan="2" style="text-align: center; font-size: larger; background-color:#eedd88; color:#000000; padding: 0px; -moz-border-radius-topright:3px; -moz-border-radius-topleft:3px;">
     <span class="">
      <big>
       Kate Beckinsale
      </big>
     </span>
    </th>
   </tr>
   <tr>
    <td colspan="2" style="text-align:center;">
     <div style="padding-bottom: 5px;">
      <figure class="mw-halign-center" typeof="mw:File">
       <a class="mw-file-description" href="/wiki/Ficheiro:Kate_Beckinsale_2011_Comic-Con_(truer_color).jpg" title="Kate Beckinsale">
        <img alt="" class="mw-file-element" data-file-height="1797" data-file-width="1267" decoding="async" height="355" src="//upload.wikimedia.org/wikipedia/commons/thumb/d/d9/

In [25]:
for line in text[:20]:
    print(line)


Kathrin Romany Beckinsale (Chiswick, 26 de julho de 1973) é uma atriz britânica. Depois de alguns papéis menores na televisão, ela estreou no cinema em Much Ado About Nothing (1993) enquanto ainda era estudante na Universidade de Oxford. Ela apareceu em dramas britânicos como Prince of Jutland (1994), Cold Comfort Farm (1995), Emma (1996) e The Golden Bowl (2000), além de várias produções teatrais e de rádio. Começou a procurar trabalhos cinematográficos nos Estados Unidos no final dos anos 90 e, depois de aparecer em dramas de pequena escala Os Últimos Dias de Disco (1998) e Brokedown Palace (1999), ela teve papéis principais no drama de guerra Pearl Harbor (2001), na comédia romântica Serendipity e Tiptoes (2003). Ela seguiu aqueles com aparições em The Aviator (2004) e Click (2006).

Desde que foi escalada como Selene na série de filmes Underworld (2003–2016), Beckinsale tornou-se conhecida principalmente por seu trabalho em filmes de ação, incluindo Van Helsing (2004), Whiteout (20

# 5. Code: Selenium

Não muito bom no Colab.

In [27]:
# executar esse script somente no google colab
%%shell
sudo apt -y update
sudo apt install -y wget curl unzip
wget http://archive.ubuntu.com/ubuntu/pool/main/libu/libu2f-host/libu2f-udev_1.1.4-1_all.deb
dpkg -i libu2f-udev_1.1.4-1_all.deb
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
dpkg -i google-chrome-stable_current_amd64.deb
CHROME_DRIVER_VERSION=`curl -sS chromedriver.storage.googleapis.com/LATEST_RELEASE`
wget -N https://chromedriver.storage.googleapis.com/$CHROME_DRIVER_VERSION/chromedriver_linux64.zip -P /tmp/
unzip -o /tmp/chromedriver_linux64.zip -d /tmp/
chmod +x /tmp/chromedriver
mv /tmp/chromedriver /usr/local/bin/chromedriver
pip install selenium
pip install chromedriver-autoinstaller # caso o script mosk executar essa linha separadamente usando !pip

[33m0% [Working][0m            Hit:1 http://security.ubuntu.com/ubuntu jammy-security InRelease
[33m0% [Waiting for headers] [Connected to cloud.r-project.org (65.9.86.109)] [Conn[0m                                                                               Hit:2 http://archive.ubuntu.com/ubuntu jammy InRelease
                                                                               Hit:3 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
                                                                               Hit:4 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
[33m0% [Waiting for headers] [Connecting to r2u.stat.illinois.edu (192.17.190.167)][0m                                                                               Hit:5 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Hit:6 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Ign:7 https://r2u.stat.illinois.edu/ubuntu jamm



In [28]:
# Configurar o Chromium para o modo headless
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

import chromedriver_autoinstaller

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

chromedriver_autoinstaller.install()

# configura o webdriver
driver = webdriver.Chrome(options=chrome_options)

# URL da página
url = 'https://pt.wikipedia.org/wiki/Kate_Beckinsale'

# Acessar a página
driver.get(url)

# Localizar o conteúdo principal
main_content = driver.find_element(By.CLASS_NAME, 'mw-parser-output')

# Extrair o texto dos parágrafos e cabeçalhos
text = []
elements = main_content.find_elements(By.XPATH, ".//p | .//h1 | .//h2 | .//h3 | .//h4 | .//h5 | .//h6")
for element in elements:
    text.append(element.text)

# Imprimir as 20 primeiras linhas de main_content (como HTML)
lines = main_content.get_attribute('outerHTML').split('\n')
for line in lines[:20]:
    print(line)

# Encerra o driver
driver.quit()


<div class="mw-content-ltr mw-parser-output" lang="pt" dir="ltr"><table class="infobox infobox_v2" cellpadding="3" border="0" style="width: 22em; text-align: left; font-size: 88%; -moz-border-radius:5px;">

<tbody><tr>
<th colspan="2" class="topo teatro" style="text-align: center; font-size: larger; background-color:#eedd88; color:#000000; padding: 0px; -moz-border-radius-topright:3px; -moz-border-radius-topleft:3px;"><span class=""><big>Kate Beckinsale</big></span>
</th></tr>


<tr>
<td colspan="2" style="text-align:center;"><div style="padding-bottom: 5px;"><figure class="mw-halign-center" typeof="mw:File"><a href="/wiki/Ficheiro:Kate_Beckinsale_2011_Comic-Con_(truer_color).jpg" class="mw-file-description" title="Kate Beckinsale"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/d/d9/Kate_Beckinsale_2011_Comic-Con_%28truer_color%29.jpg/250px-Kate_Beckinsale_2011_Comic-Con_%28truer_color%29.jpg" decoding="async" width="250" height="355" class="mw-file-element" srcset="//

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from time import sleep
from bs4 import BeautifulSoup
import pandas as pd
import openpyxl
import requests
from io import BytesIO
import chromedriver_autoinstaller

import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')

# ------------------ Dependencias --------------------------

# Configurando o WebDriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') # ensure GUI is off
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# definindo o caminho para chromedriver de acordo com sua configuração
chromedriver_autoinstaller.install()

# configura o webdriver
navegador = webdriver.Chrome(options=chrome_options)


# URL da página alvo
url = "https://www.sspds.ce.gov.br/estatisticas-2-3/"

# Lista para armazenar os links dos PDFs
pdf_links = []

# Obtendo o conteúdo da página
navegador.get(url)
soup = BeautifulSoup(navegador.page_source, 'html.parser')

# Encontrando todos os links na página
links = soup.find_all('a', class_='box')

print(links)


# Filtrando apenas os links que contêm meses e anos
for link in links:
    if any(mes_ano in link['href'] for mes_ano in ["Janeiro", "Fevereiro", "Março", "Abril", "Maio", "Junho", "Julho", "Agosto", "Setembro", "Outubro", "Novembro", "Dezembro"]):
        pdf_links.append(link['href'])

print(pdf_links)

# Iterando sobre os links dos PDFs
for pdf_link in pdf_links:
    navegador.get(pdf_link)
    sleep(1)  # Aguarde o carregamento da página
    # Simule um clique no link de download
    download_link = navegador.find_element(By.CSS_SELECTOR, 'a[href$=".pdf"]')
    #download_link.click()
    sleep(5)

navegador.quit()

[<a class="box" href="https://www.sspds.ce.gov.br/wp-content/uploads/sites/24/2024/08/CVLI-Estatisticas-Mensais.pdf" rel="noopener noreferrer" target="_blank">
<h3>CRIMES VIOLENTOS LETAIS E INTENCIONAIS – CVLI</h3>
</a>, <a class="box" href="https://www.sspds.ce.gov.br/wp-content/uploads/sites/24/2024/08/CVP-Estatisticas-Mensais.pdf" rel="noopener noreferrer" target="_blank">
<h3>CRIMES VIOLENTOS CONTRA O PATRIMÔNIO – CVP</h3>
</a>, <a class="box" href="https://www.sspds.ce.gov.br/wp-content/uploads/sites/24/2024/08/Apreensao-de-Entorpecentes-Estatisticas-Mensais.pdf" rel="noopener noreferrer" target="_blank">
<h3>APREENSÃO DE ENTORPECENTES</h3>
</a>, <a class="box" href="https://www.sspds.ce.gov.br/wp-content/uploads/sites/24/2024/08/Apreensao-de-Arma-de-Fogo-Estatisticas-Mensais.pdf" rel="noopener noreferrer" target="_blank">
<h3>APREENSÃO DE ARMAS DE FOGO</h3>
</a>, <a class="box" href="https://www.sspds.ce.gov.br/wp-content/uploads/sites/24/2024/08/Furto-Estatisticas-Mensais.pdf" r

In [29]:
for line in text[:20]:
    print(line)

Kathrin Romany Beckinsale (Chiswick, 26 de julho de 1973) é uma atriz britânica. Depois de alguns papéis menores na televisão, ela estreou no cinema em Much Ado About Nothing (1993) enquanto ainda era estudante na Universidade de Oxford. Ela apareceu em dramas britânicos como Prince of Jutland (1994), Cold Comfort Farm (1995), Emma (1996) e The Golden Bowl (2000), além de várias produções teatrais e de rádio. Começou a procurar trabalhos cinematográficos nos Estados Unidos no final dos anos 90 e, depois de aparecer em dramas de pequena escala Os Últimos Dias de Disco (1998) e Brokedown Palace (1999), ela teve papéis principais no drama de guerra Pearl Harbor (2001), na comédia romântica Serendipity e Tiptoes (2003). Ela seguiu aqueles com aparições em The Aviator (2004) e Click (2006).
Desde que foi escalada como Selene na série de filmes Underworld (2003–2016), Beckinsale tornou-se conhecida principalmente por seu trabalho em filmes de ação, incluindo Van Helsing (2004), Whiteout (200

# 6. Code: scrapy

In [30]:
!pip install scrapy

Collecting scrapy
  Downloading Scrapy-2.11.2-py2.py3-none-any.whl.metadata (5.3 kB)
Collecting Twisted>=18.9.0 (from scrapy)
  Downloading twisted-24.7.0-py3-none-any.whl.metadata (18 kB)
Collecting cssselect>=0.9.1 (from scrapy)
  Downloading cssselect-1.2.0-py2.py3-none-any.whl.metadata (2.2 kB)
Collecting itemloaders>=1.0.1 (from scrapy)
  Downloading itemloaders-1.3.1-py3-none-any.whl.metadata (3.9 kB)
Collecting parsel>=1.5.0 (from scrapy)
  Downloading parsel-1.9.1-py2.py3-none-any.whl.metadata (11 kB)
Collecting queuelib>=1.4.2 (from scrapy)
  Downloading queuelib-1.7.0-py2.py3-none-any.whl.metadata (5.7 kB)
Collecting service-identity>=18.1.0 (from scrapy)
  Downloading service_identity-24.1.0-py3-none-any.whl.metadata (4.8 kB)
Collecting w3lib>=1.17.0 (from scrapy)
  Downloading w3lib-2.2.1-py3-none-any.whl.metadata (2.1 kB)
Collecting zope.interface>=5.1.0 (from scrapy)
  Downloading zope.interface-7.0.1-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_6

In [31]:
import scrapy

class WikipediaSpider(scrapy.Spider):
    name = "wikipedia_spider"
    start_urls = ['https://pt.wikipedia.org/wiki/Kate_Beckinsale']

    def parse(self, response):
        # Localizar o conteúdo principal
        main_content = response.css('div.mw-parser-output')

        # Extrair o texto dos parágrafos e cabeçalhos
        text = []
        paragraphs_and_headers = main_content.css('p, h1, h2, h3, h4, h5, h6')

        for element in paragraphs_and_headers:
            text.append(element.get())

        # Imprime as 20 primeiras linhas do conteúdo
        lines = main_content.get().split('\n')
        for line in lines[:20]:
            print(line)

        # Retorne o texto como parte dos dados extraídos (opcional)
        yield {
            'text': text
        }

# Executar o spider no Google Colab
from scrapy.crawler import CrawlerProcess

process = CrawlerProcess()
process.crawl(WikipediaSpider)
process.start()


INFO:scrapy.utils.log:Scrapy 2.11.2 started (bot: scrapybot)
2024-08-21 14:36:16 [scrapy.utils.log] INFO: Scrapy 2.11.2 started (bot: scrapybot)
INFO:scrapy.utils.log:Versions: lxml 4.9.4.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.9.1, w3lib 2.2.1, Twisted 24.7.0, Python 3.10.12 (main, Jul 29 2024, 16:56:48) [GCC 11.4.0], pyOpenSSL 24.2.1 (OpenSSL 3.2.2 4 Jun 2024), cryptography 42.0.8, Platform Linux-6.1.85+-x86_64-with-glibc2.35
2024-08-21 14:36:16 [scrapy.utils.log] INFO: Versions: lxml 4.9.4.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.9.1, w3lib 2.2.1, Twisted 24.7.0, Python 3.10.12 (main, Jul 29 2024, 16:56:48) [GCC 11.4.0], pyOpenSSL 24.2.1 (OpenSSL 3.2.2 4 Jun 2024), cryptography 42.0.8, Platform Linux-6.1.85+-x86_64-with-glibc2.35
INFO:scrapy.addons:Enabled addons:
[]
2024-08-21 14:36:16 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler

<div class="mw-content-ltr mw-parser-output" lang="pt" dir="ltr"><table class="infobox infobox_v2" cellpadding="3" border="0" style="width: 22em; text-align: left; font-size: 88%; -moz-border-radius:5px;">

<tbody><tr>
<th colspan="2" class="topo teatro" style="text-align: center; font-size: larger; background-color:#eedd88; color:#000000; padding: 0px; -moz-border-radius-topright:3px; -moz-border-radius-topleft:3px;"><span class=""><big>Kate Beckinsale</big></span>
</th></tr>


<tr>
<td colspan="2" style="text-align:center;"><div style="padding-bottom: 5px;"><figure class="mw-halign-center" typeof="mw:File"><a href="/wiki/Ficheiro:Kate_Beckinsale_2011_Comic-Con_(truer_color).jpg" class="mw-file-description" title="Kate Beckinsale"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/d/d9/Kate_Beckinsale_2011_Comic-Con_%28truer_color%29.jpg/250px-Kate_Beckinsale_2011_Comic-Con_%28truer_color%29.jpg" decoding="async" width="250" height="355" class="mw-file-element" srcset="//

In [32]:
for line in text[:20]:
    print(line)

Kathrin Romany Beckinsale (Chiswick, 26 de julho de 1973) é uma atriz britânica. Depois de alguns papéis menores na televisão, ela estreou no cinema em Much Ado About Nothing (1993) enquanto ainda era estudante na Universidade de Oxford. Ela apareceu em dramas britânicos como Prince of Jutland (1994), Cold Comfort Farm (1995), Emma (1996) e The Golden Bowl (2000), além de várias produções teatrais e de rádio. Começou a procurar trabalhos cinematográficos nos Estados Unidos no final dos anos 90 e, depois de aparecer em dramas de pequena escala Os Últimos Dias de Disco (1998) e Brokedown Palace (1999), ela teve papéis principais no drama de guerra Pearl Harbor (2001), na comédia romântica Serendipity e Tiptoes (2003). Ela seguiu aqueles com aparições em The Aviator (2004) e Click (2006).
Desde que foi escalada como Selene na série de filmes Underworld (2003–2016), Beckinsale tornou-se conhecida principalmente por seu trabalho em filmes de ação, incluindo Van Helsing (2004), Whiteout (200