# Web Scraping – Extração de Conteúdo da Wikipédia

#### Aqui realizamos a coleta e análise de conteúdo textual da página da Wikipédia sobre **Python**, utilizando técnicas de **web scraping** com as bibliotecas `requests`, `BeautifulSoup` e `pandas`.

#### O objetivo é explorar a estrutura HTML da página, extrair títulos, parágrafos e links, e entender como navegar por elementos específicos para fins de análise ou automação.

#### 1. Importando bibliotecas

In [None]:
import requests
from bs4 import BeautifulSoup

### 2. Definindo a URL e fazendo a requisição

Usei `requests.get()` para acessar o conteúdo da página da Wikipédia sobre Python, em seguida, `BeautifulSoup` interpreta o HTML para facilitar a extração de dados.

In [None]:
url = 'https://pt.wikipedia.org/wiki/Python'
requisicao = requests.get(url)
extracao = BeautifulSoup(requisicao.text, 'html.parser')

### 3. Exibindo o texto completo da página

Esse comando mostra todo o texto da página, sem formatação, é útil para verificar se a requisição funcionou corretamente.

In [None]:
print(extracao.text.strip())

### 4. Filtrando apenas os títulos (<"h2">)

Aqui busquei todas as tags <"h2">, que geralmente representam seções principais da página.

In [None]:
for linha_texto in extracao.find_all('h2'):
    titulo = linha_texto.text.strip()
    print('Título: ', titulo)

### 5. Contando títulos e parágrafos

Esse bloco percorre a página e conta quantas tags <"h2"> e <"p"> existem.

É útil para entender a estrutura textual da página.

In [None]:
contar_titulos = 0
contar_paragrafos = 0

for linha_texto in extracao.find_all(['h2', 'p']):
    if linha_texto.name == 'h2':
        contar_titulos += 1
    elif linha_texto.name == 'p':
        contar_paragrafos += 1

print('Total de títulos: ', contar_titulos)
print('Total de parágrafos: ', contar_paragrafos)

### 6. Exibindo o conteúdo das tags <"h2"> e <"p">

Aqui mostro o conteúdo de cada título e parágrafo separadamente, com formatação mais clara.

In [None]:
for linha_texto in extracao.find_all(['h2', 'p']):
    if linha_texto.name == 'h2':
        titulo = linha_texto.text.strip()
        print('Título: \n', titulo)
    elif linha_texto.name == 'p':
        paragrafo = linha_texto.text.strip()
        print('Parágrafo: \n', paragrafo)

### 7. Extraindo links dentro de seções

Esse trecho busca todos os links que aparecem após cada título <"h2">.

Mostra o texto do link e o endereço (href), útil para mapear referências da página.

In [None]:
for titulo in extracao.find_all('h2'):
    print('\nTítulo: ', titulo.text.strip())
    for link in titulo.find_next_siblings():
        for a in link.find_all('a', href=True):
            print('Texto do link: ', a.text.strip(), ' | URL: ', a["href"])