* Scraping de perguntas sobre Python no StackOverflow

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
n = 155  #define a quantidade de páginas para fazer o scraping

In [3]:
dados = list() 
#laço para percorrer o total de páginas
for i in range(1, n+1):
    
    #define a url e a requisição necessária
    url = 'https://pt.stackoverflow.com/questions/tagged/python?tab=newest&page='+str(i)+'&pagesize=50'
    req = requests.get(url)
    soup = BeautifulSoup(req.text, 'html.parser')
    
    #seleciona informações específicas para cada post
    for pergunta in soup.select('.question-summary'):
        titulo = pergunta.find('a').text
        data = pergunta.select_one('.relativetime').text
        visitas = pergunta.select_one('.views').text.split()[0]  #pega apenas o número
        votos = pergunta.select_one('.vote-count-post').text
        
        info = {
            'Título':titulo, 
            'Data':data, 
            'Visitas':visitas,
            'Votos':votos}
        
        dados.append(info)
        

In [4]:
#cria o dataframa a partir dos dados coletados
df = pd.DataFrame(dados, index = range(1, len(dados)+1))

In [5]:
#remove 'mil' da coluna Visitas e muda tipo de dado
df['Visitas'] = df['Visitas'].apply(lambda n:float(n.replace('mil','000')))
df['Votos'] = df['Votos'].astype(int)

In [6]:
#ordena o dataset pela coluna Visitas
df = df.sort_values(by = 'Visitas', ascending = False)

In [7]:
df.head(n = 10)

Unnamed: 0,Título,Data,Visitas,Votos
6584,Como limitar números decimais em Python?,9/01/17 às 18:51,103000.0,18
7353,Como gerar números aleatórios em Python?,24/07/15 às 0:02,94000.0,13
6273,Como quebrar a linha?,26/04/17 às 18:44,68000.0,5
7537,Como “arredondar” um float em Python?,21/12/14 às 1:15,67000.0,23
6232,Vetores em Python,6/05/17 às 2:23,57000.0,7
6186,Como criar uma matriz em python,17/05/17 às 23:22,56000.0,5
7317,Como concatenar multiplas Strings em Python?,26/08/15 às 18:38,56000.0,10
7296,Como converter uma variável string para int?,17/09/15 às 20:52,53000.0,10
7371,Como limpar o console no Python?,3/07/15 às 15:24,51000.0,24
7405,Encoding utf-8 permite acentos?,5/06/15 às 1:01,47000.0,10


In [8]:
df.tail(n = 10)

Unnamed: 0,Título,Data,Visitas,Votos
66,Exibindo PDF (criado em python) na WEB com nod...,26/12/20 às 14:28,10.0,1
88,Como levar uma função que retorna valores do t...,20/12/20 às 18:38,10.0,-1
998,Atualização de caractere e retorno do charriot...,26/06/20 às 10:59,10.0,0
2811,extends de templates a partir do projeto para ...,29/05/19 às 11:46,9.0,0
61,Erro de variavel com o OneHotEncoder,27/12/20 às 15:37,9.0,0
81,Erro durante deploy python em heroku,22/12/20 às 1:12,9.0,-2
978,Definir um estado inicial usando a suite_gym d...,29/06/20 às 22:10,8.0,0
15,ERRO ao add na tableWidget,2 dias atrás,8.0,-1
164,meu display nao abre no pygame pelo vs code,10/12/20 às 13:11,6.0,0
92,Utilizando um modelo de GAN com pytorch no goo...,20/12/20 às 2:27,5.0,-1


In [9]:
df.to_csv('python_stackoverflow.csv', index = False)