### INTRO

In [None]:
import requests
#doc_requests = 'https://requests.readthedocs.io/en/latest/user/quickstart/'

In [None]:
r = requests.get('https://api.github.com/events')

In [None]:
r

In [None]:
r.status_code

In [None]:
r.url

In [None]:
r.text

In [None]:
r.json()

### Endpoints

Os endpoints são partes da URL que precisamos modificar para acessar informações específicas de uma API. Para ilustrar melhor, vamos revisitar o código inicial da nossa requisição GET usando o requests.get, onde passamos a URL para obter informações sobre os eventos.

`r = requests.get('https://api.github.com/events')`

A URL base (api.github.com) é o ponto de partida que sempre utilizaremos para extrair informações da API do GitHub. No nosso caso, estamos utilizando o endpoint "events" para obter informações sobre os eventos que ocorrem no GitHub e as ações associadas a eles. Dessa forma, podemos acessar os dados relacionados aos eventos específicos da plataforma.

Se desejarmos obter informações diferentes, precisamos alterar apenas a parte do código que define o endpoint. Vamos copiar esse código e colar na célula abaixo, na seção "Utilizando outro endpoint" do VSCode.

Para obter informações sobre as versões disponíveis da API do GitHub, vamos alterar o endpoint de `events` para `versions`. É importante destacar que para saber qual endpoint utilizar para obter a informação desejada, podemos explorar a documentação oficial da API do GitHub, onde encontraremos todas as informações necessárias. Vamos realizar essa alteração no código e verificar as versões disponíveis da API.


In [None]:
r = requests.get('https://api.github.com/versions')
r.status_code

In [None]:
r.json()

#### Atividade Prática 1

Faça uma requisição GET à API do Github para obter as informações do perfil de um usuário específico. Para isso, utilize a biblioteca Requests do Python e a URL `https://api.github.com/users/`{username}, substituindo {username} pelo nome de usuário desejado.

Com o objeto response retornado pela requisição, imprima na tela as seguintes informações sobre a requisição:

- status code da requisição, para analisar se foi bem sucedida ou não;
- conteúdo da requisição, para conferir se os dados de usuário vieram corretamente;
- URL da requisição feita, para garantir que a url utilizada na requisição foi a correta.

Após conferir isso, analise novamente o conteúdo retornado pela requisição e imprima na tela apenas as seguintes informações sobre a pessoa usuária em questão:

- Nome
- Nome de usuário
- Número de repositórios públicos
- Data de criação da conta no GitHub

In [None]:
# usuario = 'Drindao'
usuario = 'millenagena'
r = requests.get(f'https://api.github.com/users/{usuario}')
r.status_code

In [None]:
r.text

In [None]:
r.json()

In [None]:
r.url

In [None]:
name = r.json()['name']
name

In [None]:
r.json()['login']

In [None]:
r.json()['public_repos']

In [None]:
r.json()['created_at']

### Pipeline ETL

Um pipeline é uma sequência de etapas ou processos que são executados de forma contínua, podendo ser automatizado para alcançar um objetivo específico. No pipeline ETL, seguimos a sequência de Extração (Extract), Transformação(Transform) e Carregamento(Load), por isso o nome.

A primeira etapa do ETL é a extração, onde os dados são coletados, de uma ou mais fontes, como bancos de dados, planilhas, arquivos ou APIs. Nesta etapa, os dados estão sendo coletados de forma bruta, ou seja, sem nenhum tratamento ainda feito já que o objetivo é a extração.

Após a extração, vem a etapa de transformação, onde os dados passam por processos de limpeza, padronização e outros tratamentos que forem necessários. Nesta etapa, podem ser aplicados diversos tratamentos, por isso, ela pode ser a mais demorada e trabalhosa, dependendo da quantidade de dados e ajustes que precisam ser feitos.

Por fim, chegamos na etapa de carregamento, onde os dados transformados são movidos para seu destino final, sendo um data warehouse ou algum sistema de armazenamento. Nesta etapa, para garantir a integridade dos dados armazenados, é importante verificar que a estrutura do destino esteja adequada para receber os dados.

### Extraindo Dados


##### Obtendo dados dos repositórios

In [None]:
# especificando a versão da API
headers = {'X-Github-Api-Version': '2022-11-28'}

In [None]:
api_base_url = 'https://api.github.com'
owner = 'amzn' # username de quem vamos extrair os dados
url = f'{api_base_url}/users/{owner}/repos'

In [None]:
response = requests.get(url, headers=headers)
response.status_code

In [None]:
response.json()

#### Autenticação

Solicitações autenticadas têm um limite de taxa mais alto. Quando um usuário faz uma solicitação autenticada, ele fornece credenciais que comprovam sua identidade, o que permite que a API confie nele e lhe conceda acesso a recursos e funcionalidades adicionais.

Além disso, a maioria das APIs estabelece limites para o número de solicitações que um usuário pode fazer em um determinado período de tempo, conhecido como 'limite de taxa'. Quando um usuário faz solicitações autenticadas, a API geralmente permite que ele faça mais solicitações em um determinado período de tempo, devido à maior confiança e credibilidade que a autenticação fornece.

In [None]:
access_token = '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'
headers = {'X-Github-Api-Version': '2022-11-28'}

In [None]:
# código para fazer paginação do repositório
# irá percorrer página à página do repositório da amazon e acrescentar na lista
repos_list = []
for page_num in range(1,6):
    try:
        url_page = f'{url}?page={page_num}'
        response = requests.get(url_page, headers=headers)
        repos_list.append(response.json())
    except:
        repos_list.append(None)

In [None]:
repos_list

#### Atividade Prática 2

A tarefa é extrair os dados sobre os seguidores da conta da Amazon no GitHub. Para fazermos isso, vamos utilizar como referência a seguinte documentação: List followers of a user.

Ao conferir o tamanho da lista followers, utilizando a função len(followers), notamos que ela possuía apenas os dados de 30 seguidores da conta do GitHub da Amazon. A conta tem muito mais de 30 seguidores, mas eles estão separados em diferentes páginas, e justamente por isso, ao conferirmos o tamanho da lista, o retorno foi 30.

Sendo assim, para conseguirmos extrair os dados de todos os seguidores, vamos precisar melhorar o nosso código e implementar o processo de paginação.

Durante essa etapa, devemos nos atentar a alguns detalhes:

- criar uma lista vazia chamada `followers_list` para armazenar as informações sobre os seguidores;
- utilizar um laço para iterar e extrair os dados dos seguidores existentes em cada uma das páginas (dica: caso você não tenha conhecimento de quantas páginas com seguidores existem, pesquise como utilizar o laço `While` True do Python);
- acrescentar o parâmetro "page" na url, alterando o valor dele a cada iteração do laço que estiver sendo usado para paginação (lembre-se que a numeração das páginas sempre começam a partir do número 1);

enviar o token e a versão da API para o parâmetro headers no momento de fazer a requisição GET.

In [None]:
import requests

# parametros
username = 'amzn'
url = f"https://api.github.com/users/{username}/followers"

access_token = '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'
headers = {'Authorization': 'Bearer ' + access_token,
           'X-GitHub-Api-Version': '2022-11-28'}

In [None]:
response = requests.get(url, headers=headers)
response

In [None]:
page = 1
followers_list = []

while True: 

    # faz a requisição 
    url_page = f'{url}?per_page=100&page={page}'
    response = requests.get(url_page, headers=headers)

    # converte a resposta para um objeto JSON
    followers = response.json()

    # caso a lista esteja vazia, podemos sair do laço pois todos os dados foram extraidos
    if len(followers)==0:
        print('parou o codigo')
        break

    # adicionando os seguidores a lista
    followers_list.append(followers)

    # incrementa o valor de 'page' para a próxima requisição
    page += 1

In [None]:
followers_list

In [None]:
y = 0

for x, page in enumerate(followers_list):
    y += len(page)
    print(f'A página {x+1} contem: {len(page)} usuários, somatório: {y}')
print(f'Total de usuários: {y}')

### Transformando os Dados

#### Extraindo nomes dos repositórios

In [None]:
repos_name = []
for page in repos_list:
    for repo in page:
        repos_name.append(repo['name'])

In [None]:
len(repos_name)

#### Linguagens de Programação dos repositórios

In [None]:
repos_language = []
for page in repos_list:
    for repo in page:
        repos_language.append(repo['language'])

In [None]:
len(repos_language)

#### Criando um DataFrame

In [None]:
import pandas as pd

In [None]:
dados_amz = pd.DataFrame()
dados_amz['repository_name'] = repos_name
dados_amz['repository_language'] = repos_language

In [None]:
dados_amz

In [None]:
dados_amz.to_csv('amazon.csv')

#### Atividade 3

Para praticar o conteúdo aprendido no decorrer dessa aula e também aprender novos, vamos realizar um desafio prático utilizando a biblioteca Pandas e os dados da API do GitHub.

No desafio da aula 2 nós extraímos os dados de todos os seguidores da conta do Github da Amazon e armazenamos eles na lista "followers_list". Considerando isso, nossa tarefa agora é aplicar as transformações necessárias nos dados armazenados na lista `followers_list` para `selecionarmos apenas o nome de usuário de cada seguidor`.

Para concluirmos essa tarefa é importante:

- entender como os dados dos seguidores estão estruturados na lista;
- armazenar o nome de usuário de cada seguidor em uma lista;
- conferir o tamanho da lista de nomes de usuário de seguidores para ter certeza que é igual ao número de seguidores apresentados no Github;
- estruturar os dados em um DataFrame e salvá-los em CSV.

Se precisar de ajuda, na seção "Opinião da pessoa instrutora" você pode encontrar algumas formas de resolver o desafio proposto acima.

In [None]:
followers_list[0][0]['login']

In [None]:
follower_name = []
for page in followers_list:
    for follower in page:
        follower_name.append(follower['login'])

In [None]:
len(follower_name)

In [None]:
import pandas as pd

amz_followers = pd.DataFrame()
amz_followers['Seguidor'] = follower_name

In [None]:
amz_followers

In [None]:
amz_followers.to_csv('seguidores_amz.csv')

### Armazenando os Dados

#### Criando repositório com POST

In [None]:
import requests

api_base_url = 'https://api.github.com'
url = f'{api_base_url}/user/repos'

url

In [None]:
access_token = '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'
headers = {'Authorization': 'Bearer ' + access_token,
           'X-GitHub-Api-Version': '2022-11-28'}

In [None]:
data = {
    'name': 'linguagens-utilizadas',
    'description' : 'Repositorio com as linguagens de programação da Amazon',
    'private' : False
}

response = requests.post(url, json=data, headers=headers)
response.status_code

#### Alterando formato do Arquivo

Para fazer o upload de um arquivo para o github, primeiro é necessário alterar o arquivo para base64.

In [None]:
import base64

In [None]:
# Primeiro precisamos abrir o arquivo em binário com a variável 'rb'
with open('amazon.csv', 'rb') as file:
    file_content = file.read()

#converter o arquivo para base64
encoded_content = base64.b64encode(file_content)

#### Upload do arquivo com PUT

A requisição PUT é utilizada para criar ou atualizar um recurso que existe no servidor.

In [None]:
api_base_url = 'https://api.github.com'
username = 'Drindao'
repo = 'linguagens-utilizadas'
path = 'amazon.csv'

url = f'{api_base_url}/repos/{username}/{repo}/contents/{path}'
url

In [None]:
data = {
    'message': 'Adicionando um novo arquivo',
    'content': encoded_content.decode('utf-8') # o '.decode' converte o texto para algo que a API entenda
}

response = requests.put(url, json=data, headers=headers)
response.status_code


#### PUT X POST

Assim como a requisição POST, a requisição PUT é um tipo de requisição HTTP (Hypertext Transfer Protocol) utilizada para enviar dados a um servidor. No entanto, a diferença entre elas está no tipo de operação que cada uma executa.

Enquanto a requisição POST é utilizada para criar ou adicionar novos dados no servidor, a requisição PUT é utilizada para substituir completamente os dados de um recurso existente no servidor. Diferentemente do `PATCH`, que permite alterações parciais, o `PUT` *realiza uma substituição completa dos dados*.

Assim como a requisição POST, a requisição PUT também envia os dados no corpo da mensagem da requisição. O envio desses dados segue um formato padrão, geralmente no formato JSON ou XML.

Para fazer uma requisição PUT em Python, também é necessário utilizar a biblioteca Requests e enviar um dicionário com os dados que serão atualizados no corpo da mensagem. É possível também enviar outros parâmetros, como headers e cookies. É importante lembrar que nem todos os servidores aceitam a requisição PUT e, em alguns casos, é necessário ter permissão especial para fazer alterações.

In [None]:
#FUNÇÃO QUE CRIA REPOSITÓRIO (EXEMPLO)

def create_repo(headers, name_repo, description, private):
    api_base_url = 'https://api.github.com'
    url = f'{api_base_url}/user/repos'
    data = {
        'name': name_repo,
        'description': description,
        'private': private
    }
    response = requests.post(url, json=data, headers=headers)
    if response.status_code == 201:
        print(f'Repositorio "{name}" criado com sucesso!')
    else:
        print(f'Erro ao criar repositório "{name}"')

##FUNÇÃO QUE ADICIONA ARQUIVO (EXEMPLO)

def add_file_to_repo(headers, username, repo, path, file_name, commit_message):
    api_base_url = 'https://api.github.com'
    url = f'{api_base_url}/repos/{username}/{repo}/contents/{path}'

    with open(file_name, 'rb') as file:
        file_content = file.read()

    encoded_content = base64.b64encode(file_content)

    data = {
        'message': commit_message,
        'content': encoded_content.decode('utf-8')
    }

    response = requests.put(url, json=data, headers=headers)
    print(response.status_code)

#### Atividade 4

Para praticar o conteúdo aprendido no decorrer dessa aula e também aprender novos, vamos realizar um desafio prático utilizando a biblioteca Requests e a API do GitHub.

Nossa próxima tarefa é realizar o fork de um repositório da Amazon utilizando uma requisição do tipo POST.

Fazer um fork de um repositório é como criar uma cópia de um projeto que pertence a outra pessoa ou organização dentro do seu próprio perfil no GitHub. Isso permite que você trabalhe em uma versão do projeto sem afetar o original, podendo fazer modificações, correções de bugs e melhorias.

Para realizarmos esse processo, vamos precisar acessar a documentação da API do GitHub onde existem informações sobre como realizar esse processo: Forks - Create a fork = https://docs.github.com/en/rest/repos/forks?apiVersion=2022-11-28#create-a-fork

Após analisar a documentação, é importante não esquecermos de realizar alguns passos:

- conferir o endpoint que deve ser utilizado para realização do fork;
- acessar os repositórios públicos da Amazon (https://github.com/orgs/amzn/repositories), selecionar um deles para fazer o fork e salvar seu nome em uma variável;
- enviar o token e a versão da API no momento de fazer a requisição.

Se precisar de ajuda, na seção "Opinião da pessoa instrutora" você pode encontrar algumas formas de resolver o desafio proposto acima.

In [None]:
import requests

api_base_url = 'https://api.github.com'
owner = 'amzn'
repo = 'supply-chain-simulation-environment'

url = f'{api_base_url}/repos/{owner}/{repo}/forks'
url

In [7]:
access_token = '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'
headers = {'Authorization': 'Bearer ' + access_token,
           'X-GitHub-Api-Version': '2022-11-28'}

In [None]:
# enviando uma requisição POST para realizar o fork
response = requests.post(url, headers=headers)

# conferindo o status code da requisição
print(f"{response.status_code}")

In [8]:
import requests

owner = 'amzn'
url = f'https://api.github.com/users/{owner}'

response = requests.get(url, headers=headers)
response.json()

{'login': 'amzn',
 'id': 8594673,
 'node_id': 'MDEyOk9yZ2FuaXphdGlvbjg1OTQ2NzM=',
 'avatar_url': 'https://avatars.githubusercontent.com/u/8594673?v=4',
 'gravatar_id': '',
 'url': 'https://api.github.com/users/amzn',
 'html_url': 'https://github.com/amzn',
 'followers_url': 'https://api.github.com/users/amzn/followers',
 'following_url': 'https://api.github.com/users/amzn/following{/other_user}',
 'gists_url': 'https://api.github.com/users/amzn/gists{/gist_id}',
 'starred_url': 'https://api.github.com/users/amzn/starred{/owner}{/repo}',
 'subscriptions_url': 'https://api.github.com/users/amzn/subscriptions',
 'organizations_url': 'https://api.github.com/users/amzn/orgs',
 'repos_url': 'https://api.github.com/users/amzn/repos',
 'events_url': 'https://api.github.com/users/amzn/events{/privacy}',
 'received_events_url': 'https://api.github.com/users/amzn/received_events',
 'type': 'Organization',
 'site_admin': False,
 'name': 'Amazon',
 'company': None,
 'blog': 'https://developer.amazo

In [11]:
response.status_code

200