# ETL
- Extração, Transformação e Carga (Extract, Transform e Load).
- O processo ETL é um conjunto de atividades que são realizadas para integrar, transformar e carregar dados de diversas fontes em um único destino, geralmente um data warehouse ou um data lake. 


### 1. Extract
- A coleta de dados envolve a extração de informações de várias fontes e formatos, incluindo arquivos de texto e planilhas, bancos de dados como Oracle e MySQL via SQL, fontes externas como feeds RSS e APIs, e dispositivos IoT através de gateways de comunicação.



### 2. Transform
- Tem como objetivo transformar os dados extraídos em um formato que possa ser integrado, consolidado e analisado de forma eficiente.
**Suas principais etapas são:**
1. **Limpeza:** Elimina duplicatas e corrige erros.
2. **Normalização:** Uniformiza dados para consistência.
3. **Filtragem:** Seleciona informações relevantes.
4. **Derivação:** Gera novos campos a partir dos dados existentes.
5. **Agregação:** Sumariza informações detalhadas.
6. **Combinação:** Integra dados de diversas fontes.
7. **Enriquecimento:** Acrescenta dados externos para valor adicional.



### 3. Load
- O carregamento envolve transferir dados transformados para locais como data warehouses ou data lakes, visando sua disponibilização.
1. **Mapeamento de dados:** Ajusta os dados ao esquema do destino.
2. **Validação de dados:** Confirma a integridade e consistência dos dados.
3. **Atualização de metadados:** Reflete alterações nos dados ou esquema.
4. **Tratamento de erros:** Gerencia erros durante a carga, como conflitos de chave primária.



# API
- API (Application Programming Interface) é um conjunto de regras e especificações que possibilita a comunicação e troca de dados entre softwares distintos, facilitando a integração e a interoperabilidade entre aplicações.
- APIs são acessíveis via tecnologias como REST, SOAP, JSON, e XML, essenciais para integração de sistemas na computação em nuvem, possibilitando soluções escaláveis e flexíveis.



### Requisições
- **GET**: Recupera informações de um recurso via API, como detalhes de um produto especificando seu ID.
- **POST**: Envia informações para criar ou atualizar um recurso, como adicionar um novo produto ao estoque.
- **PUT**: Atualiza informações de um recurso existente, como alterar detalhes de um produto com seu ID.
- **DELETE**: Exclui um recurso específico, como remover um produto pelo ID.


### API - Python
- Uma requisição HTTP para a API, especificando a URL e os parâmetros necessários. 
Por exemplo, vamos usar a API do Rest Countries para obter dados de países.

In [12]:
#!pip3 install requests
import pandas as pd 
import requests

url = 'https://restcountries.com/v3.1/all'
response = requests.get(url)

if response.status_code == 200:
    data_json = response.json()
    print(response)
else: 
    print('Erro ao acessar a API')



<Response [200]>


- transformar os dados em um DataFrame do Pandas

In [14]:
data_json
paises_full = pd.DataFrame(data_json)
paises_full.head(2)

Unnamed: 0,name,tld,cca2,ccn3,cca3,cioc,independent,status,unMember,currencies,...,fifa,car,timezones,continents,flags,coatOfArms,startOfWeek,capitalInfo,postalCode,gini
0,"{'common': 'Andorra', 'official': 'Principalit...",[.ad],AD,20,AND,AND,True,officially-assigned,True,"{'EUR': {'name': 'Euro', 'symbol': '€'}}",...,AND,"{'signs': ['AND'], 'side': 'right'}",[UTC+01:00],[Europe],"{'png': 'https://flagcdn.com/w320/ad.png', 'sv...",{'png': 'https://mainfacts.com/media/images/co...,monday,"{'latlng': [42.5, 1.52]}","{'format': 'AD###', 'regex': '^(?:AD)*(\d{3})$'}",
1,{'common': 'French Southern and Antarctic Land...,[.tf],TF,260,ATF,,False,officially-assigned,False,"{'EUR': {'name': 'Euro', 'symbol': '€'}}",...,,"{'signs': [''], 'side': 'right'}",[UTC+05:00],[Antarctica],"{'png': 'https://flagcdn.com/w320/tf.png', 'sv...",{'png': 'https://mainfacts.com/media/images/co...,monday,"{'latlng': [48.81, -1.4]}",,


- Exemplo de tratamento para selecionar corretamente os dados:

In [None]:
nome = [pais['name']['common'] for pais in data]
region = [pais['region'] for pais in data]
population = [pais['population'] for pais in data]

paises = pd.DataFrame({
    "Nome": nome,
    "Regiao": region,
    "Populacao": population
})
paises.head(3)