## OBJETIVO: Identificar quais linguagens de programação grandes empresas estão usando

### Conhecendo a Requests

Primeira Requisição

In [128]:
import requests

In [129]:
#Criando ambiente virtual para segurança do Token e ser possível commitar para o github
import os

access_token = os.getenv("GITHUB_ACCESS_TOKEN")  # Pegando do ambiente
headers = {'Authorization': f'Bearer {access_token}', 'X-GitHub-Api-Version': '2022-11-28'}



In [130]:
import os
from dotenv import load_dotenv

load_dotenv()  # Carrega as variáveis do .env

access_token = os.getenv("GITHUB_ACCESS_TOKEN")
headers = {'Authorization': f'Bearer {access_token}', 'X-GitHub-Api-Version': '2022-11-28'}


In [131]:
#Fazendo uma requesição GET na url da API do Github
r = requests.get('https://api.github.com/events')

In [132]:
#O Retorno status code 200 significa que a requisição ocorreu com sucesso
r

<Response [200]>

### Explorando a biblioteca

In [133]:
#Verificando o status code da requisição feita
r.status_code

200

In [134]:
#Verificando a URL da requisição feita
r.url

'https://api.github.com/events'

In [135]:
#Trazendo o conteúdo da requisição feita em formato string
r.text



In [136]:
#Trazendo o conteúdo da requisição feita em formato json
r.json()

[{'id': '47996250233',
  'type': 'PushEvent',
  'actor': {'id': 355455,
   'login': 'tesonep',
   'display_login': 'tesonep',
   'gravatar_id': '',
   'url': 'https://api.github.com/users/tesonep',
   'avatar_url': 'https://avatars.githubusercontent.com/u/355455?'},
  'repo': {'id': 438452960,
   'name': 'pharo-graphics/BlocBenchs',
   'url': 'https://api.github.com/repos/pharo-graphics/BlocBenchs'},
  'payload': {'repository_id': 438452960,
   'push_id': 23397363412,
   'size': 2,
   'distinct_size': 2,
   'ref': 'refs/heads/master',
   'head': 'bbe444e38b64642c67723bede9d9a7397a5fc159',
   'before': '8b302a139dbd1af7b97ade2df3d3388591a0b2ea',
   'commits': [{'sha': '6caade301ae545537af0dfe85477bebe2ea5c18f',
     'author': {'email': 'tesonep@gmail.com', 'name': 'Pablo Tesone'},
     'message': 'Improving the calculation of resutls',
     'distinct': True,
     'url': 'https://api.github.com/repos/pharo-graphics/BlocBenchs/commits/6caade301ae545537af0dfe85477bebe2ea5c18f'},
    {'sha'

In [137]:
#Verificando agora o endpoint versions ao invés do events, assim veremos a data da última versão da API do github
r = requests.get('https://api.github.com/versions')
r.status_code

200

In [138]:
r.json()

['2022-11-28']

## Extraindo Dados

### Obtendo dados dos repositórios

In [139]:
#especificando a versão da API
headers = {'X-Github-Api-Version':'2022-11-28'}

In [140]:
api_base_url = 'https://api.github.com'
owner = 'amzn' #Username de quem vamos extrair os dados neste caso o da Amazon
url = f'{api_base_url}/users/{owner}/repos'

In [141]:
url

'https://api.github.com/users/amzn/repos'

In [142]:
response = requests.get(url, headers=headers)
response.status_code

200

In [143]:
response.json()

[{'id': 171339259,
  'node_id': 'MDEwOlJlcG9zaXRvcnkxNzEzMzkyNTk=',
  'name': '.github',
  'full_name': 'amzn/.github',
  'private': False,
  'owner': {'login': 'amzn',
   'id': 8594673,
   'node_id': 'MDEyOk9yZ2FuaXphdGlvbjg1OTQ2NzM=',
   'avatar_url': 'https://avatars.githubusercontent.com/u/8594673?v=4',
   'gravatar_id': '',
   'url': 'https://api.github.com/users/amzn',
   'html_url': 'https://github.com/amzn',
   'followers_url': 'https://api.github.com/users/amzn/followers',
   'following_url': 'https://api.github.com/users/amzn/following{/other_user}',
   'gists_url': 'https://api.github.com/users/amzn/gists{/gist_id}',
   'starred_url': 'https://api.github.com/users/amzn/starred{/owner}{/repo}',
   'subscriptions_url': 'https://api.github.com/users/amzn/subscriptions',
   'organizations_url': 'https://api.github.com/users/amzn/orgs',
   'repos_url': 'https://api.github.com/users/amzn/repos',
   'events_url': 'https://api.github.com/users/amzn/events{/privacy}',
   'received_ev

In [144]:
#O nosso len trouxe que a conta da amazon possui apenas 30 repositórios no github, mas o número real é 132, para isso precisamos utilizar autenticação e paginação no nosso código
len(response.json())

30

### Autenticação

In [145]:
#Token pessoal adquirido na conta do github
access_token = os.getenv("GITHUB_ACCESS_TOKEN")
headers = {'Authorization': 'Bearer '+ access_token, 'X-Github-Api-Version':'2022-11-28'}

### Paginação

In [146]:
api_base_url = 'https://api.github.com'
owner = 'amzn' #Username de quem vamos extrair os dados neste caso o da Amazon
url = f'{api_base_url}/users/{owner}/repos'

url

'https://api.github.com/users/amzn/repos'

In [147]:
repos_list = []
#Range de 5 pois a página da Amazon no github tem 5 páginas destribuindo os repositórios
for page_num in range (1, 6):
    try:
        url_page = f'{url}?page={page_num}'
        response = requests.get(url_page, headers=headers)
        repos_list.append(response.json())
    except:
        repos_list.append(None)

In [148]:
repos_list

[[{'id': 171339259,
   'node_id': 'MDEwOlJlcG9zaXRvcnkxNzEzMzkyNTk=',
   'name': '.github',
   'full_name': 'amzn/.github',
   'private': False,
   'owner': {'login': 'amzn',
    'id': 8594673,
    'node_id': 'MDEyOk9yZ2FuaXphdGlvbjg1OTQ2NzM=',
    'avatar_url': 'https://avatars.githubusercontent.com/u/8594673?v=4',
    'gravatar_id': '',
    'url': 'https://api.github.com/users/amzn',
    'html_url': 'https://github.com/amzn',
    'followers_url': 'https://api.github.com/users/amzn/followers',
    'following_url': 'https://api.github.com/users/amzn/following{/other_user}',
    'gists_url': 'https://api.github.com/users/amzn/gists{/gist_id}',
    'starred_url': 'https://api.github.com/users/amzn/starred{/owner}{/repo}',
    'subscriptions_url': 'https://api.github.com/users/amzn/subscriptions',
    'organizations_url': 'https://api.github.com/users/amzn/orgs',
    'repos_url': 'https://api.github.com/users/amzn/repos',
    'events_url': 'https://api.github.com/users/amzn/events{/privac

In [149]:
#Agora ela retorna as 5 páginas de repositórios da Amazon
len(repos_list)

5

In [150]:
#Agora colocando o indice 0 da lista, ele traz todos os repositórios presentes na página
print(len(repos_list[0]))



30


## Transformando os dados

### Nome dos repositórios

In [151]:
repos_list

[[{'id': 171339259,
   'node_id': 'MDEwOlJlcG9zaXRvcnkxNzEzMzkyNTk=',
   'name': '.github',
   'full_name': 'amzn/.github',
   'private': False,
   'owner': {'login': 'amzn',
    'id': 8594673,
    'node_id': 'MDEyOk9yZ2FuaXphdGlvbjg1OTQ2NzM=',
    'avatar_url': 'https://avatars.githubusercontent.com/u/8594673?v=4',
    'gravatar_id': '',
    'url': 'https://api.github.com/users/amzn',
    'html_url': 'https://github.com/amzn',
    'followers_url': 'https://api.github.com/users/amzn/followers',
    'following_url': 'https://api.github.com/users/amzn/following{/other_user}',
    'gists_url': 'https://api.github.com/users/amzn/gists{/gist_id}',
    'starred_url': 'https://api.github.com/users/amzn/starred{/owner}{/repo}',
    'subscriptions_url': 'https://api.github.com/users/amzn/subscriptions',
    'organizations_url': 'https://api.github.com/users/amzn/orgs',
    'repos_url': 'https://api.github.com/users/amzn/repos',
    'events_url': 'https://api.github.com/users/amzn/events{/privac

In [152]:
#Selecionando dessa maneira temos a página 1 no indice 0 da lista e na sublista do indice 0, pegamos o 3 repositório, na posição 2
# e o terceiro colchete da sublista é o campo que estamos buscando no repositório
repos_list[0][2]['name']

'ads-pao-amznjs-gtm-template'

In [153]:
#Laço for criando uma nova lista apenas para os nomes dos repositórios
repos_name = []
#Nessa primeira parte estamos percorrendo as páginas
for page in repos_list:
    #Nesta segunda parte, dentro da página estamos percorrendo os repositórios
    for repo in page:
        #Por fim selecionando o nome de cada um e adicionando na lista dos nomes dos repositórios
        repos_name.append(repo['name'])

In [154]:
#Selecionando os primeiros 10 itens da nossa lista
repos_name[:10]

['.github',
 'ads-advanced-tools-docs',
 'ads-pao-amznjs-gtm-template',
 'alexa-coho',
 'alexa-skills-kit-js',
 'amazon-ads-advertiser-audience-normalization-sdk-py',
 'amazon-advertising-api-php-sdk',
 'amazon-codeguru-profiler-for-spark',
 'amazon-frustration-free-setup-certification-tool',
 'amazon-hub-counter-api-docs']

In [155]:
len(repos_name)

150

## Linguagens dos repositórios

In [156]:
repos_list[1][1]['language']

'Ruby'

In [157]:
#Laço for criando uma nova lista apenas para as linguagens de programação dos repositórios
repos_language = []
for page in repos_list:
    for repo in page:
        repos_language.append(repo['language'])

In [158]:
repos_language

[None,
 'Jupyter Notebook',
 'Smarty',
 'JavaScript',
 None,
 'Python',
 'PHP',
 'Java',
 'Python',
 'CSS',
 'Java',
 'Java',
 'PowerShell',
 'Java',
 'C#',
 'PHP',
 'Ruby',
 'JavaScript',
 'Python',
 'PHP',
 'Python',
 'Jupyter Notebook',
 'C#',
 'Java',
 'JavaScript',
 'PHP',
 'Ruby',
 'C#',
 'Java',
 'PHP',
 'Python',
 'Ruby',
 'PHP',
 'Kotlin',
 'PHP',
 'Python',
 'C',
 None,
 'Swift',
 'Python',
 'C++',
 'Python',
 'Go',
 'C',
 'Python',
 'Python',
 'Jupyter Notebook',
 'Python',
 'Python',
 None,
 'Java',
 'Kotlin',
 'Python',
 'Python',
 'TypeScript',
 'TypeScript',
 'Python',
 None,
 'Jupyter Notebook',
 'Python',
 'Python',
 'Python',
 'Java',
 'Jupyter Notebook',
 'Python',
 'Python',
 'Java',
 'Objective-C',
 'JavaScript',
 'TypeScript',
 'Java',
 None,
 'Python',
 'Python',
 'Python',
 'Java',
 'Java',
 'Kotlin',
 'Java',
 'C#',
 'C#',
 'JavaScript',
 'JavaScript',
 'Go',
 'Java',
 'TypeScript',
 'Python',
 'C++',
 None,
 'Python',
 'Python',
 'Java',
 'C#',
 'HTML',
 'Kotl

In [159]:
len(repos_language)

150

## Criando um DataFrame

In [160]:
import pandas as pd

In [161]:
dados_amz = pd.DataFrame()
dados_amz['repository_name'] = repos_name
dados_amz['repository_language'] = repos_language

In [162]:
dados_amz.head()

Unnamed: 0,repository_name,repository_language
0,.github,
1,ads-advanced-tools-docs,Jupyter Notebook
2,ads-pao-amznjs-gtm-template,Smarty
3,alexa-coho,JavaScript
4,alexa-skills-kit-js,


### Salvando o DataFrame

In [163]:
dados_amz.to_csv('amazon.csv')

## Armazenando os dados

### Criando repositório com POST

In [164]:
#Definindo URL que utilizaremos para subir o repositório para nossa conta
api_base_url = 'https://api.github.com'
url = f'{api_base_url}/user/repos'

url

'https://api.github.com/user/repos'

In [165]:
#Criando dicionário para transforma-lo em Json e subir para um repositório na nossa conta (por conta do token gerado, ele criará o repositório na nossa conta pessoal)
data = {
    'name': 'linguagens-utilizadas',
    'description':'Repositório com as linguagens de prog da Amazon',
    'private':False
}

response = requests.post(url, json=data, headers=headers)
response.status_code

422

## Formato do Arquivo

In [166]:
#Seguindo a documentação da API do GITHUB precisamos formatar o nosso CSV para base64 para poder subi-lo para o nosso repositório
import base64

In [167]:
#Função que abre e lê o nosso arquivo csv em binário (rb)
with open('amazon.csv', 'rb') as file:
    file_content = file.read()

#Variável que salva o nosso arquivo já formatado em binário
encoded_content = base64.b64encode(file_content)

## Upload do arquivo com PUT

In [168]:
#Definindo URL que utilizaremos para subir o repositório para nossa conta
api_base_url = 'https://api.github.com'
username = 'SinxCode'
repo = 'linguagens-utilizadas'
path = 'amazon.csv'


url = f'{api_base_url}/repos/{username}/{repo}/contents/{path}'

url

'https://api.github.com/repos/SinxCode/linguagens-utilizadas/contents/amazon.csv'

In [169]:

data = {
    'message': 'Adicionando um novo arquivo',
    'content': encoded_content.decode('utf-8')

}

response = requests.put(url, json=data, headers=headers)
response.status_code

422