### Conhecendo a Request

Primeira Requisição
* https://requests.readthedocs.io/en/latest/user/quickstart/

In [4]:
import requests

In [5]:
# requisição para o servidor com o metódo GET (envio de dados especificos pelo servidor ao cliente)
r = requests.get('https://api.github.com/events')

#### Explorando a biblioteca

In [6]:
r.status_code

200

In [7]:
r.url

'https://api.github.com/events'

In [8]:
r.headers['Content-Type']

'application/json; charset=utf-8'

In [9]:
# tras todo o json em forma de string
r.text

'[{"id":"40405649047","type":"PushEvent","actor":{"id":165615328,"login":"simon-m-dignite","display_login":"simon-m-dignite","gravatar_id":"","url":"https://api.github.com/users/simon-m-dignite","avatar_url":"https://avatars.githubusercontent.com/u/165615328?"},"repo":{"id":795729453,"name":"dignitestudios-dev/DS-website","url":"https://api.github.com/repos/dignitestudios-dev/DS-website"},"payload":{"repository_id":795729453,"push_id":19451025499,"size":1,"distinct_size":1,"ref":"refs/heads/main","head":"7922096d21fdaee3cc6db597c60e647d3858c727","before":"1d5dda6468007d8c16cc5b92255e74b746faa975","commits":[{"sha":"7922096d21fdaee3cc6db597c60e647d3858c727","author":{"email":"shoaib.muhammad@launchbox.pk","name":"simon-m-dignite"},"message":"home page changes and web app dev service page donw","distinct":true,"url":"https://api.github.com/repos/dignitestudios-dev/DS-website/commits/7922096d21fdaee3cc6db597c60e647d3858c727"}]},"public":true,"created_at":"2024-07-23T23:26:11Z"},{"id":"404

In [10]:
r.json()

[{'id': '40405649047',
  'type': 'PushEvent',
  'actor': {'id': 165615328,
   'login': 'simon-m-dignite',
   'display_login': 'simon-m-dignite',
   'gravatar_id': '',
   'url': 'https://api.github.com/users/simon-m-dignite',
   'avatar_url': 'https://avatars.githubusercontent.com/u/165615328?'},
  'repo': {'id': 795729453,
   'name': 'dignitestudios-dev/DS-website',
   'url': 'https://api.github.com/repos/dignitestudios-dev/DS-website'},
  'payload': {'repository_id': 795729453,
   'push_id': 19451025499,
   'size': 1,
   'distinct_size': 1,
   'ref': 'refs/heads/main',
   'head': '7922096d21fdaee3cc6db597c60e647d3858c727',
   'before': '1d5dda6468007d8c16cc5b92255e74b746faa975',
   'commits': [{'sha': '7922096d21fdaee3cc6db597c60e647d3858c727',
     'author': {'email': 'shoaib.muhammad@launchbox.pk',
      'name': 'simon-m-dignite'},
     'message': 'home page changes and web app dev service page donw',
     'distinct': True,
     'url': 'https://api.github.com/repos/dignitestudios-de

In [11]:
usuarioGithub = requests.get('https://api.github.com/users/beabritoliveira')

In [12]:
usuarioGithub.json()['name']

'Beatriz'

In [13]:
usuarioGithub.json()['login']

'beabritoliveira'

In [14]:
usuarioGithub.json()['public_repos']

16

In [15]:
usuarioGithub.json()['created_at']

'2022-04-05T12:28:27Z'

### Pipeline ETL
- Extração (Extract) => coleta de dados de uma ou mais fonte, nenhum tratamento é feito
- Transformação(Transform) => processo de limpeza dos dados, padronização e outros tratamentos (demorada e trabalhosa)
- Carregamento(Load) => dados são movidos para o destino final, dw ou sistema de armazenamento

In [16]:
# Extração de dados das linguagens utilizadas pelas grandes empresas

# especificando a versão da API do github que será usada para fazer a extração
headers = {'X-GitHub-Api-Version': '2022-11-28'}
api_base_url = 'https://api.github.com'
owner = 'amzn' #conteúdo relativo ao nome do usuario que se vai extrair os dados dos repositorios (nesse caso é a amazon)
url = f'{api_base_url}/users/{owner}/repos'

In [17]:
response = requests.get(url , headers=headers)
response.status_code

200

Parâmetros do metodo GET:
- params: um dicionário ou lista de tuplas contendo os parâmetros de consulta a serem incluídos na URL. Por exemplo, para fazer uma requisição GET para a API do GitHub e obter os repositórios de forma ordenada, pode-se passar o argumento params={”sort”: “name”} e ter os repositórios em ordem alfabética. Isso resultaria em uma URL como esta:

In [18]:
#quantidade de repositorios já que cada elemento nesse json é um respositorio
len(response.json())

#utilizando os processos de autenticação e paginação para conseguir pegar todos os repositórios e não só o que estão na primeira página
acess_token = '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'
headers = {'Authorization':'Bearer ' + acess_token , 
           'X-GitHub-Api-Version': '2022-11-28'}



In [72]:
api_base_url = 'https://api.github.com'
owner = 'amzn' #conteúdo relativo ao nome do usuario que se vai extrair os dados dos repositorios (nesse caso é a amazon)
url = f'{api_base_url}/users/{owner}/repos'

In [20]:
# defini uma lista vazia para guardar cada uma das páginas extraidas com seus respectivos repositórios
#  na nossa lista repos_list corresponde a uma página, e cada dicionário corresponde a um repositório.
repos_list = []
# laço for para percorrer as páginas
for page_num in range(1,7):
    try:
        # onde se é possível extrair os dados de cada página => page={page_num}
        url_page = f'{url}?page={page_num}'
        response = requests.get(url_page , headers=headers)
        repos_list.append(response.json())
    except:
        repos_list.append(None)


In [21]:
len(repos_list[5])

4

Pegando o nome dos repositórios e as linguagens usadas nelas

In [22]:
# repos_list[num_pagina][num_repositorio]['name']
repos_list[0][2]['name']

'ads-pao-amznjs-gtm-template'

In [23]:
repos_name = []

for pagina in range (len(repos_list)): # ou for page in repos_list
    for repos in range (len(repos_list[pagina])): # for repo in page
            repos_name.append(repos_list[pagina][repos]['name']) # repos_name.append(repo['name'])


In [24]:
repos_name[:10]
len(repos_name)

154

In [25]:
type(repos_list)
type(repos_list[0][0])

dict

Selecionando a linguagem de cada repositorio

In [26]:
repos_list[2][15]['language']

'Python'

In [27]:
repos_language = []

for page in repos_list:
    for repo in page:
            repos_language.append(repo['language']) 

In [28]:
len(repos_language)

154

In [29]:
repos_language[:10]

[None,
 'Jupyter Notebook',
 'Smarty',
 'JavaScript',
 None,
 'Python',
 'PHP',
 'Java',
 'Python',
 'CSS']

### Criando um DataFrame

In [30]:
import numpy as np

In [31]:
import pandas as pd

In [32]:
dados_amz = pd.DataFrame()
#criando colunas
dados_amz['repositorie_name'] = repos_name
dados_amz['language'] = repos_language

In [67]:
# salvando o dataframe em um arquivo
dados_amz.to_csv('linguas_rep_Amazon.csv' , sep=';', index=False)

In [63]:
dados_amz

Unnamed: 0,repositorie_name,language
0,.github,
1,ads-advanced-tools-docs,Jupyter Notebook
2,ads-pao-amznjs-gtm-template,Smarty
3,alexa-coho,JavaScript
4,alexa-skills-kit-js,
...,...,...
149,zeek-plugin-enip,Zeek
150,zeek-plugin-profinet,Zeek
151,zeek-plugin-s7comm,Zeek
152,zeek-plugin-tds,Zeek


In [51]:
pd.read_csv('/home/bia/projeto_Requests/linguas_rep_Amazon.csv')

Unnamed: 0,repositorie_name;language
0,.github;
1,ads-advanced-tools-docs;Jupyter Notebook
2,ads-pao-amznjs-gtm-template;Smarty
3,alexa-coho;JavaScript
4,alexa-skills-kit-js;
...,...
149,zeek-plugin-enip;Zeek
150,zeek-plugin-profinet;Zeek
151,zeek-plugin-s7comm;Zeek
152,zeek-plugin-tds;Zeek


### Criando um repositorio no github

In [52]:
url = f'{api_base_url}/user/repos'

In [53]:
url

'https://api.github.com/user/repos'

In [64]:
# fazendo uma requisição do tipo post  => criaçaõ do repositório na página pessoal
data = {
    'name' : 'linguages_utilizadas',
    'description' : 'Repositorio curso Python e APIs: conhecendo biblioteca Requests da Alura em que busca as linguagens de programação de todos os repositórios até o momento do github da Amazon',
    'private' : True
}

response = requests.post(url , json=data , headers=headers)
response.status_code

404

In [71]:
# subindo o arquivo csv para o repositório do github
# 1°) transforma em Base64 (transforma arquivos em uma sequencia de caracteres) o csv 
import base64

# ler o arquivo csv em formato binário
with open('/home/bia/projeto_Requests/linguas_rep_Amazon.csv', 'rb') as file:
    file_content = file.read()

encoded_content = base64.b64encode(file_content)

#upload do arquivo com o PUT
username = 'beabritoliveira'
repo = 'linguages_utilizadas'
path = 'amazon.csv' #nome do arquivo fique salvo no repositório
url = f'{api_base_url}/repos/{username}/{repo}/contents/{path}'

# definir o dicionario para fazer a atualização do arquivo
data = {
    'message' : 'Adicionando um novo arquivo', # mensagem de commit 
    'content' : encoded_content.decode('utf-8') # passa o arquivo codificado em base64
}

response = requests.put(url, json=data , headers=headers)
response.status_code

201

### Utilizando Orientação a Objeto