# Conhecendo a requests

## Primeira requisição

In [1]:
import requests

In [2]:
r = requests.get('https://api.github.com/events')

In [3]:
r

<Response [200]>

## Explorando a biblioteca

In [4]:
r.status_code

200

In [5]:
r.url

'https://api.github.com/events'

In [None]:
r.text

In [None]:
r.json()

### Utilizando outro endpoint

In [8]:
r = requests.get('https://api.github.com/versions')
r.status_code

200

In [9]:
r.json()

['2022-11-28']

## Extraindo dados

### Obtendo dados dos repositórios

In [10]:
# especificando a versão da API
headers = {'X-GitHub-Api-Version': '2022-11-28'}

In [11]:
api_base_url = 'https://api.github.com'
owner = 'amzn' # username de quem vamos extrair os dados
url = f'{api_base_url}/users/{owner}/repos'

In [12]:
url

'https://api.github.com/users/amzn/repos'

In [13]:
response = requests.get(url, headers=headers)
response.status_code

200

In [None]:
response.json()

In [15]:
len(response.json())

30

## Autenticação

Solicitações autenticadas têm um limite de taxa mais alto. Quando um usuário faz uma solicitação autenticada, ele fornece credenciais que comprovam sua identidade, o que permite que a API confie nele e lhe conceda acesso a recursos e funcionalidades adicionais.

Além disso, a maioria das APIs estabelece limites para o número de solicitações que um usuário pode fazer em um determinado período de tempo, conhecido como 'limite de taxa'. Quando um usuário faz solicitações autenticadas, a API geralmente permite que ele faça mais solicitações em um determinado perío de tempo, devido à maior confiança e credibilidade que a autenticação fornece.

In [16]:
acess_token = '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'
headers = {'Authorization': 'Bearer' + acess_token, 'X-GitHub-Api-Version': '2022-11-28'}

## Paginando os repositórios

In [17]:
api_base_url = 'https://api.github.com'
owner = 'amzn' # username de quem vamos extrair os dados
url = f'{api_base_url}/users/{owner}/repos'

url

'https://api.github.com/users/amzn/repos'

In [18]:
repos_list = []
for page_num in range(1, 7):
    try:
        url_page = f'{url}?page={page_num}'
        response = requests.get(url_page, headers=headers)
        repos_list.append(response.json())
    except:
        repos_list.append(None)

In [None]:
repos_list

In [20]:
len(repos_list)

6

In [21]:
len(repos_list[0])

30

## Transformando os dados

### Nomes dos repositórios

In [None]:
repos_list

In [23]:
repos_list[0][2]['name']

'ads-pao-amznjs-gtm-server-side-template'

In [24]:
repos_name = []
for page in repos_list:
    for repo in page:
        repos_name.append(repo['name'])

In [25]:
repos_name[:10]

['.github',
 'ads-advanced-tools-docs',
 'ads-pao-amznjs-gtm-server-side-template',
 'ads-pao-amznjs-gtm-template',
 'alexa-coho',
 'alexa-skills-kit-js',
 'amazon-ads-advertiser-audience-normalization-sdk-py',
 'amazon-advertising-api-php-sdk',
 'amazon-codeguru-profiler-for-spark',
 'amazon-frustration-free-setup-certification-tool']

In [26]:
len(repos_name)

164

## Linguagens dos repositórios

In [27]:
repos_list[1][1]['language']

'PHP'

In [28]:
repos_language = []
for page in repos_list:
    for repo in page:
        repos_language.append(repo['language'])

In [29]:
len(repos_language)

164

In [30]:
repos_language[:10]

[None,
 'Jupyter Notebook',
 'Smarty',
 'Smarty',
 'JavaScript',
 None,
 'Python',
 'PHP',
 'Java',
 'Python']

## Criando um DataFrame

In [31]:
import pandas as pd

In [32]:
dados_amz = pd.DataFrame()
dados_amz['repository_name'] = repos_name
dados_amz['language'] = repos_language

In [33]:
dados_amz

Unnamed: 0,repository_name,language
0,.github,
1,ads-advanced-tools-docs,Jupyter Notebook
2,ads-pao-amznjs-gtm-server-side-template,Smarty
3,ads-pao-amznjs-gtm-template,Smarty
4,alexa-coho,JavaScript
...,...,...
159,zeek-plugin-enip,Zeek
160,zeek-plugin-profinet,Zeek
161,zeek-plugin-s7comm,Zeek
162,zeek-plugin-tds,Zeek


### Salvando o DataFrame

In [34]:
dados_amz.to_csv('amazon.csv')