Chegou o momento de você se superar! Você está finalizando o décimo nono módulo, por esse motivo, seus conhecimentos adquiridos até aqui equivalem ao nível avançado de Python.

O GitHub é o maior repositório de código aberto na internet. Nele, você pode encontrar o código fonte de diversos projetos, alguns inclusive utilizamos em nossas aulas, como o Pandas. O GitHub apresenta uma página de projetos em destaque, que são os projetos que estão recebendo muita atenção da comunidade.

Desafio:

- Utilize os pacotes Python requests e beautifulsoup4 para extrair os 10 projetos mais populares do GitHub. Acesse o link https://github.com/trending

- Confira o arquivo robots.txt do website

- Escreva os dados extraídos no arquivo csv github.csv separado por ;


In [32]:
# Importando bibliotecas

import requests
from requests.exceptions import HTTPError
import pandas as pd
from bs4 import BeautifulSoup
import csv

In [33]:
# Verificando o arquivo robots.txt

robots_url = 'https://github.com/robots.txt'
robots_response = requests.get(robots_url)
print('Conteúdo do robots.txt:\n', robots_response.text)

Conteúdo do robots.txt:
 # If you would like to crawl GitHub contact us via https://support.github.com?tags=dotcom-robots
# We also provide an extensive API: https://docs.github.com
User-agent: baidu
crawl-delay: 1


User-agent: *

Disallow: /*/*/pulse
Disallow: /*/*/projects
Disallow: /*/*/forks
Disallow: /*/*/issues/new
Disallow: /*/*/issues/search
Disallow: /*/*/commits/
Disallow: /*/*/branches
Disallow: /*/*/contributors
Disallow: /*/*/tags
Disallow: /*/*/stargazers
Disallow: /*/*/watchers
Disallow: /*/*/network
Disallow: /*/*/graphs
Disallow: /*/*/compare

Disallow: /*/tree/
Disallow: /gist/
Disallow: /*/download
Disallow: /*/revisions
Disallow: /*/commits/*?author
Disallow: /*/commits/*?path
Disallow: /*/comments
Disallow: /*/archive/
Disallow: /*/blame/
Disallow: /*/raw/
Disallow: /*/cache/
Disallow: /.git/
Disallow: */.git/
Disallow: /*.git$
Disallow: /search/advanced
Disallow: /search$
Disallow: /*q=
Disallow: /*.atom$

Disallow: /ekansa/Open-Context-Data
Disallow: /ekansa/ope

In [34]:
# URL da página de tendências do GitHub

URL = 'https://github.com/trending'
headers = {'User-Agent': 'Mozilla/5.0'}

In [35]:
# Fazendo a requisição e se for bem-sucedida, processa os dados

try:
  response = requests.get(URL, headers=headers)
  response.raise_for_status()
  print("Requisição bem-sucedida!")
  conteudo = response.text
except HTTPError as exc:
  print('Erro ao acessar GitHub Trending:', exc)
  conteudo = None

Requisição bem-sucedida!


In [None]:
# Verifica se conteudo não é None antes de processá-lo com o BeautifulSoup e como conteudo = response.text, usamos ele no bs4
# Prosseguir e encontrar os 10 primeiros projetos na página

if conteudo:
  soup = BeautifulSoup(conteudo, 'html.parser')
  print(soup.prettify())
  projects = soup.find_all('article', class_='Box-row', limit=10)
  print(projects)

In [37]:
# Lista para armazenar dados dos projetos
top10_projects = []

# Iterar sobre os projetos encontrados
for ranking, project in enumerate(projects, start=1):

  # Extrair name, obtém o texto dentro da tag(get_text), remove espaços extras (strip=True), remove / ou , (replace).
  name = project.find('h2', class_='h3')
  name = name.get_text(strip=True).replace('/', '') if name else 'N/A'

  # Extrair language
  language = project.find('span', itemprop='programmingLanguage')
  language = language.get_text(strip=True) if language else 'N/A'

  # Extrair stars
  stars_tag = project.find_all('a', class_='Link--muted')
  stars = stars_tag[0].get_text(strip=True).replace(',', '') if len(stars_tag) > 0 else 'N/A'

  # Extrair stars_today
  stars_today = project.find('span', class_='d-inline-block float-sm-right')
  stars_today = stars_today.get_text(strip=True).split()[0].replace(',', '') if stars_today else 'N/A'

  # Extrair forks considerando que ele vem após stars
  forks = stars_tag[1].get_text(strip=True).replace(',', '') if len(stars_tag) > 1 else 'N/A'

  # Adicionar dados do projeto à lista
  top10_projects.append([ranking, name, language, stars, stars_today, forks])

# Exibir os dados extraídos
for project in top10_projects:
  print(project)

[1, 'langgenius dify', 'TypeScript', '63905', '369', '9438']
[2, 'infiniflow ragflow', 'Python', '33259', '475', '3037']
[3, 'unslothai unsloth', 'Python', '24949', '505', '1698']
[4, 'lobehub lobe-chat', 'TypeScript', '54472', '299', '11698']
[5, 'zhayujie chatgpt-on-wechat', 'Python', '33862', '102', '8706']
[6, 'microsoft terminal', 'C++', '96885', '145', '8447']
[7, 'RockChinQ LangBot', 'Python', '6344', '158', '420']
[8, 'songquanpeng one-api', 'JavaScript', '21804', '65', '4669']
[9, 'mendableai firecrawl', 'TypeScript', '24346', '329', '1988']
[10, 'AUTOMATIC1111 stable-diffusion-webui', 'Python', '147240', '106', '27546']


In [28]:
# Escrevendo os dados em um arquivo CSV
with open('github.csv', mode='w', newline='', encoding='utf8') as arquivo:
  writer = csv.writer(arquivo, delimiter=';')
  writer.writerow(['ranking', 'project', 'language', 'stars', 'stars_today', 'forks'])
  writer.writerows(top10_projects)

print(f'Os dados dos 10 projetos mais populares foram salvos com sucesso em github.csv')

Os dados dos 10 projetos mais populares foram salvos com sucesso em github.csv


In [29]:
top10_projects_df = pd.read_csv('github.csv')
top10_projects_df

Unnamed: 0,ranking;project;language;stars;stars_today;forks
0,1;langgenius dify;TypeScript;63881;369;9437
1,2;infiniflow ragflow;Python;33249;475;3037
2,3;unslothai unsloth;Python;24941;505;1698
3,4;lobehub lobe-chat;TypeScript;54465;299;11697
4,5;zhayujie chatgpt-on-wechat;Python;33862;102;...
5,6;microsoft terminal;C++;96884;145;8447
6,7;RockChinQ LangBot;Python;6343;158;420
7,8;songquanpeng one-api;JavaScript;21804;65;4669
8,9;mendableai firecrawl;TypeScript;24337;329;1987
9,10;AUTOMATIC1111 stable-diffusion-webui;Python...
