<img title="a title" alt="Alt text" src="social.png" width="100" height="100"> 

# An√°lise de Reposit√≥rios GitHub por Linguagem de Programa√ß√£o

## üåç Introdu√ß√£o
Este projeto tem como objetivo criar um dataset rico e estruturado com informa√ß√µes dos reposit√≥rios mais relevantes do GitHub, organizados pelas 10 linguagens de programa√ß√£o mais populares em 2025. Com esses dados, podemos responder perguntas como:

- Qual linguagem tem os projetos mais estrelados?
- H√° correla√ß√£o entre o n√∫mero de contribuidores e a atividade do reposit√≥rio?
- Quais licen√ßas s√£o mais comuns em projetos open-source?
- Como a localiza√ß√£o geogr√°fica dos donos influencia a popularidade dos reposit√≥rios?

O dataset gerado pode ser usado para:

‚úÖ Identifica√ß√£o de tend√™ncias no desenvolvimento de software

‚úÖ An√°lise de comunidades open-source

‚úÖ Tomada de decis√µes para contribui√ß√µes ou ado√ß√£o de tecnologias

In [1]:
# !pip install pandas
# !pip install requests

### Imports

In [2]:
import requests
import pandas as pd
from datetime import datetime, timedelta
import time
import random
import os

## üîÑ Rota√ß√£o de Tokens
Para evitar limites da API, usamos m√∫ltiplos tokens com sele√ß√£o aleat√≥ria:

In [None]:
TOKENS = [

]   

def get_headers():
    return {"Authorization": f"token {random.choice(TOKENS)}"}

## üîß Configura√ß√£o Inicial
Definir as linguagens para an√°lise e par√¢metros de pagina√ß√£o para extra√ß√£o eficiente dos dados.

In [None]:
LANGUAGES = ["Python", "JavaScript", "Java", "C#", "C++", "TypeScript", "Go", "Rust", "Kotlin", "Swift"]
PER_PAGE = 100
PAGES = 15
OUTPUT_FILE = "../dados/github_repos_completos.csv"

## üë§ Obter Informa√ß√µes do Dono do Reposit√≥rio
- Acessa o perfil do dono via API

- Trata 3 informa√ß√µes principais: tipo, quantidade de reposit√≥rios e localiza√ß√£o

- Implementa tratamento robusto de erros

In [5]:
def get_owner_info(owner_url):
    try:
        response = requests.get(owner_url, headers=get_headers())
        if response.status_code == 200:
            owner_data = response.json()
            return {
                "owner_type": owner_data.get("type", "User"),
                "owner_public_repos": owner_data.get("public_repos", 0),
                "owner_location": owner_data.get("location", None)
            }
    except Exception as e:
        print(f"Erro ao buscar owner: {e}")
    return {
        "owner_type": "User",
        "owner_public_repos": 0,
        "owner_location": None
    }

## üìà Coletar Estat√≠sticas do Reposit√≥rio
- Pagina√ß√£o autom√°tica para contagem de contribuidores

- Filtro temporal para issues fechadas

- Delay entre requisi√ß√µes para evitar rate limits

In [6]:
def get_paginated_count(url, headers, max_pages=50):
    """Fun√ß√£o auxiliar para contar itens com pagina√ß√£o completa"""
    total_count = 0
    page = 1
    
    while page <= max_pages:
        try:
            paginated_url = f"{url}?page={page}&per_page=100"
            response = requests.get(paginated_url, headers=headers)
            
            if response.status_code == 200:
                data = response.json()
                if not data or len(data) == 0:
                    break
                total_count += len(data)
                page += 1
                time.sleep(0.5)  # Delay menor entre p√°ginas
            else:
                break
                
        except Exception as e:
            print(f"Erro na pagina√ß√£o: {e}")
            break
            
    return total_count

def get_repo_stats(owner, repo_name):
    stats = {
        "subscribers_count": 0,
        "last_year_commits": 0,
        "contributors": 0,
        "closed_issues": 0,
        "pull_requests": 0
    }
    
    headers = get_headers()
    
    try:
        # CORRE√á√ÉO: Subscribers com pagina√ß√£o completa
        subscribers_url = f"https://api.github.com/repos/{owner}/{repo_name}/subscribers"
        stats["subscribers_count"] = get_paginated_count(subscribers_url, headers)
        
        # Commits do √∫ltimo ano
        participation = requests.get(
            f"https://api.github.com/repos/{owner}/{repo_name}/stats/participation",
            headers=headers
        )
        if participation.status_code == 200:
            participation_data = participation.json()
            if participation_data and "all" in participation_data:
                stats["last_year_commits"] = sum(participation_data["all"][-52:])

        # CORRE√á√ÉO: Contributors com pagina√ß√£o completa
        contributors_url = f"https://api.github.com/repos/{owner}/{repo_name}/contributors"
        stats["contributors"] = get_paginated_count(contributors_url, headers)

        # CORRE√á√ÉO: Issues fechadas nos √∫ltimos 6 meses com pagina√ß√£o
        since_date = (datetime.now() - timedelta(days=180)).isoformat()
        closed_issues_url = f"https://api.github.com/repos/{owner}/{repo_name}/issues"
        
        # Para issues fechadas, precisamos usar par√¢metros espec√≠ficos
        page = 1
        closed_count = 0
        while page <= 20:  # Limite razo√°vel para issues
            try:
                url = f"{closed_issues_url}?state=closed&since={since_date}&page={page}&per_page=100"
                response = requests.get(url, headers=headers)
                if response.status_code == 200:
                    issues = response.json()
                    if not issues:
                        break
                    closed_count += len(issues)
                    page += 1
                    time.sleep(0.5)
                else:
                    break
            except:
                break
        stats["closed_issues"] = closed_count

        # CORRE√á√ÉO: Pull Requests com pagina√ß√£o completa
        prs_url = f"https://api.github.com/repos/{owner}/{repo_name}/pulls"
        stats["pull_requests"] = get_paginated_count(prs_url, headers)

    except Exception as e:
        print(f"Erro ao buscar stats para {owner}/{repo_name}: {e}")
    
    return stats

**NOVA FUNCIONALIDADE**: Salva dados ap√≥s cada linguagem
**NOVA FUNCIONALIDADE**: Append mode para n√£o perder dados anteriores
**NOVA FUNCIONALIDADE**: Backup autom√°tico


In [7]:
def save_data_incremental(df, language, is_first_language=False):
    """Salva dados incrementalmente ap√≥s cada linguagem"""
    try:
        if is_first_language and os.path.exists(OUTPUT_FILE):
            # Backup do arquivo existente
            backup_name = f"backup_{datetime.now().strftime('%Y%m%d_%H%M%S')}_{OUTPUT_FILE}"
            os.rename(OUTPUT_FILE, backup_name)
            print(f"Backup criado: {backup_name}")
        
        # Salva ou adiciona ao arquivo
        if not os.path.exists(OUTPUT_FILE) or is_first_language:
            df.to_csv(OUTPUT_FILE, index=False, encoding='utf-8', mode='w')
            print(f"Arquivo criado: {OUTPUT_FILE}")
        else:
            df.to_csv(OUTPUT_FILE, index=False, encoding='utf-8', mode='a', header=False)
            print(f"Dados adicionados ao arquivo: {OUTPUT_FILE}")
            
        # Salva backup espec√≠fico da linguagem
        lang_file = f"backup_{language.lower()}_repos.csv"
        df.to_csv(lang_file, index=False, encoding='utf-8')
        print(f"Backup da linguagem salvo: {lang_file}")
        
    except Exception as e:
        print(f"Erro ao salvar dados: {e}")

def load_existing_data():
    """Carrega dados existentes se houver"""
    if os.path.exists(OUTPUT_FILE):
        try:
            return pd.read_csv(OUTPUT_FILE)
        except:
            return pd.DataFrame()
    return pd.DataFrame()


## üîç Fun√ß√£o Principal: Busca por Linguagem
- Rota√ß√£o autom√°tica de tokens

- Intervalos entre requisi√ß√µes

- Consolida√ß√£o em DataFrame

In [None]:
def fetch_repos_by_language(language, retry_count=3):
    all_repos = []
    
    print(f"\nüîç Iniciando coleta para {language}...")
    
    for page in range(1, PAGES + 1):
        for attempt in range(retry_count):
            try:
                url = f"https://api.github.com/search/repositories?q=language:{language}&sort=stars&page={page}&per_page={PER_PAGE}"
                response = requests.get(url, headers=get_headers())
                
                if response.status_code == 403:
                    print(f"Rate limit excedido na p√°gina {page}, aguardando...")
                    time.sleep(120)  # Espera 2 minutos
                    continue
                    
                if response.status_code == 422:
                    print(f"P√°gina {page} muito alta, parando coleta para {language}")
                    break
                    
                response.raise_for_status()
                
                repos_data = response.json()
                if "items" not in repos_data:
                    print(f"Sem reposit√≥rios na p√°gina {page}")
                    break
                
                print(f"  üìÑ Processando p√°gina {page}/{PAGES} ({len(repos_data['items'])} repos)")
                
                for i, repo in enumerate(repos_data["items"]):
                    print(f"    üìä Processando repo {i+1}/{len(repos_data['items'])}: {repo['name']}")
                    
                    repo_info = {
                        "name": repo["name"],
                        "owner": repo["owner"]["login"],
                        "stars": repo["stargazers_count"],
                        "forks": repo["forks_count"],
                        "language": repo["language"],
                        "created_at": repo["created_at"],
                        "updated_at": repo["updated_at"],
                        "size_kb": repo["size"],
                        "watchers_count": repo["watchers_count"],
                        "open_issues": repo["open_issues_count"]
                    }
                    
                    # Buscar informa√ß√µes do owner
                    owner_info = get_owner_info(repo["owner"]["url"])
                    repo_info.update(owner_info)
                    
                    # Buscar estat√≠sticas detalhadas (VERS√ÉO CORRIGIDA)
                    stats = get_repo_stats(repo["owner"]["login"], repo["name"])
                    repo_info.update(stats)
                    
                    all_repos.append(repo_info)
                    
                    time.sleep(2)  # Delay entre repos
                
                break  # Sai do retry loop se deu certo
                
            except Exception as e:
                print(f"Erro na p√°gina {page}, tentativa {attempt + 1}: {e}")
                if attempt == retry_count - 1:
                    print(f"Falha definitiva na p√°gina {page}")
                else:
                    time.sleep(30)  # Aguarda antes de tentar novamente
                continue
        
        time.sleep(5)  # Delay entre p√°ginas
            
    return pd.DataFrame(all_repos)

## üöÄ Execu√ß√£o e Exporta√ß√£o
- Arquivo github_repos_completos.csv com todas as linguagens

- Estrutura padronizada para an√°lise

In [None]:
def main():
    print("üöÄ Iniciando coleta de dados do GitHub...")
    print(f"üìã Linguagens: {', '.join(LANGUAGES)}")
    print(f"üìÑ P√°ginas por linguagem: {PAGES}")
    print(f"üìä Repos por p√°gina: {PER_PAGE}")
    print(f"üéØ Total estimado: {len(LANGUAGES) * PAGES * PER_PAGE} reposit√≥rios")
    
    # Verifica se j√° existem dados
    existing_data = load_existing_data()
    if not existing_data.empty:
        print(f"üìÅ Encontrados {len(existing_data)} reposit√≥rios existentes")
        processed_languages = existing_data['language'].unique().tolist()
        remaining_languages = [lang for lang in LANGUAGES if lang not in processed_languages]
        if remaining_languages:
            print(f"üîÑ Continuando com: {', '.join(remaining_languages)}")
            languages_to_process = remaining_languages
        else:
            print("‚úÖ Todas as linguagens j√° foram processadas!")
            return
    else:
        languages_to_process = LANGUAGES
    
    total_collected = len(existing_data)
    
    for i, lang in enumerate(languages_to_process):
        print(f"\n{'='*60}")
        print(f"üéØ LINGUAGEM {i+1}/{len(languages_to_process)}: {lang}")
        print(f"{'='*60}")
        
        try:
            df = fetch_repos_by_language(lang)
            
            if not df.empty:
                # Determina se √© a primeira linguagem NOVA sendo processada
                is_first_new = (i == 0 and existing_data.empty)
                
                save_data_incremental(df, lang, is_first_new)
                total_collected += len(df)
                
                print(f"‚úÖ {len(df)} reposit√≥rios de {lang} coletados!")
                print(f"üìä Total acumulado: {total_collected} reposit√≥rios")
            else:
                print(f"‚ö†Ô∏è  Nenhum reposit√≥rio coletado para {lang}")
            
            # Delay entre linguagens
            if i < len(languages_to_process) - 1:
                print(f"‚è≥ Aguardando 5 minutos antes da pr√≥xima linguagem...")
                time.sleep(300)
                
        except KeyboardInterrupt:
            print(f"\n‚ö†Ô∏è  Interrompido pelo usu√°rio na linguagem {lang}")
            print(f"üìä Dados salvos at√© agora: {total_collected} reposit√≥rios")
            break
        except Exception as e:
            print(f"‚ùå Erro cr√≠tico na linguagem {lang}: {e}")
            continue
    
    # Carrega dados finais
    final_data = load_existing_data()
    if not final_data.empty:
        print(f"\nüéâ COLETA FINALIZADA!")
        print(f"üìä Total final: {len(final_data)} reposit√≥rios")
        print(f"üìÅ Arquivo: {OUTPUT_FILE}")
        print(f"üíæ Tamanho: {os.path.getsize(OUTPUT_FILE) / 1024 / 1024:.2f} MB")
        
        # Estat√≠sticas por linguagem
        print(f"\nüìà Distribui√ß√£o por linguagem:")
        lang_stats = final_data['language'].value_counts()
        for lang, count in lang_stats.items():
            print(f"  {lang}: {count} reposit√≥rios")
    else:
        print("‚ùå Nenhum dado foi coletado.")

if __name__ == "__main__":
    main()

## üìã Estrutura do Dataset (Colunas Extra√≠das)

| Coluna                 | Tipo de Dado | Descri√ß√£o                                                                 | Exemplo                     |
|------------------------|--------------|---------------------------------------------------------------------------|-----------------------------|
| **Informa√ß√µes B√°sicas** |              |                                                                           |                             |
| `name`                | string       | Nome do reposit√≥rio                                                      | `tensorflow`                |
| `owner`               | string       | Login do usu√°rio/organiza√ß√£o dono                                        | `google`                    |
| `language`            | string       | Linguagem principal do projeto                                           | `Python`                    |
| **Estat√≠sticas**       |              |                                                                           |                             |
| `stars`               | integer      | N√∫mero de estrelas                                                       | `175000`                    |
| `forks`               | integer      | N√∫mero de forks                                                          | `85000`                     |
| `watchers_count`      | integer      | Usu√°rios acompanhando o reposit√≥rio                                      | `3200`                      |
| `subscribers_count`   | integer      | Inscritos no reposit√≥rio (diferente de stars)                            | `1500`                      |
| **Atividade**          |              |                                                                           |                             |
| `open_issues`         | integer      | Issues abertas no momento                                                | `42`                        |
| `closed_issues`       | integer      | Issues fechadas nos √∫ltimos 6 meses                                      | `128`                       |
| `pull_requests`       | integer      | Total de PRs (abertos + fechados)                                        | `75`                        |
| `last_year_commits`   | integer      | Commits realizados nos √∫ltimos 12 meses                                  | `890`                       |
| `contributors`        | integer      | N√∫mero de contribuidores √∫nicos                                          | `35`                        |
| **Metadados**          |              |                                                                           |                             |
| `created_at`          | datetime     | Data de cria√ß√£o do reposit√≥rio (UTC)                                     | `2015-11-09T23:25:38Z`      |
| `updated_at`          | datetime     | Data da √∫ltima atualiza√ß√£o                                               | `2024-03-15T08:12:45Z`      |
| `size_kb`             | integer      | Tamanho aproximado do reposit√≥rio em KB                                  | `10240`                     |
| **Informa√ß√µes do Dono**|              |                                                                           |                             |
| `owner_type`          | string       | Tipo do dono (`User` ou `Organization`)                                  | `Organization`              |
| `owner_public_repos`  | integer      | Quantidade de reposit√≥rios p√∫blicos do dono                              | `250`                       |
| `owner_location`      | string       | Localiza√ß√£o geogr√°fica declarada no perfil (opcional)                    | `Mountain View, California` |

## Repositorio

https://github.com/LucasjsSilva/data-set-repositorios