# ETL 
O termo ETL é um acrônimo para as três etapas principais do processo: **Extração, Transformação e Carga (Extract, Transform e Load)**.
O processo ETL é um conjunto de atividades que são realizadas para integrar, transformar e carregar dados de diversas fontes em um único destino, geralmente um data warehouse ou um data lake. 

## Extração
Coleta de dados de diversas fontes e formatos:
- Sistema de arquivos
- Sistema de banco de dados
- Fontes externas
- Dispositivos IoT

## Transformação
A etapa de transformação (Transform) [T] tem como objetivo transformar os dados extraídos em um formato que possa ser integrado, consolidado e analisado de forma eficiente.
Suas principais etapas são:
- **Limpeza de dados:** valores duplicados, eliminação de valores inválidos, correção de erros de digitação, preenchimento de valores ausentes;
- **Normalização de dados:** conversão de dados em um formato comum para garantir a consistência dos dados;
- **Filtragem de dados:** seleção de dados relevantes para a análise e eliminação de dados irrelevantes;
- **Derivação de dados:** criação de novos campos e cálculos a partir de dados existentes;
- **Agregação de dados:** criação de sumarizações e resumos a partir de dados detalhados;
- **Combinação de dados:** combinação de dados de várias fontes para criar um conjunto de dados completos;
- **Enriquecimento de dados:** adição de informações externas para melhorar a qualidade e valor dos dados.

## Carga
A etapa de carga (Load) [L] é a terceira e última etapa do processo ETL, que consiste em carregar os dados transformados no destino final, geralmente um data warehouse ou data lake. O objetivo desta etapa é tornar os dados disponíveis para consumo.
- **Mapeamento de dados:** Mapeamento dos dados transformados para o esquema do destino final, garantindo que os dados sejam armazenados corretamente.
- **Validação de dados:** Verificação da integridade e consistência dos dados carregados no destino final, comparando com os dados originais e/ou com as regras de negócios definidas.
- **Atualização de metadados:** Atualização dos metadados do destino final para refletir as mudanças nos dados e/ou no esquema.
- **Tratamento de erros:** Identificação e tratamento de erros que podem ocorrer durante a carga, como dados inválidos ou conflitos de chave primária.


# API
O uso de APIs é fundamental para a integração de sistemas e serviços na era da computação em nuvem, onde é essencial para a criação de soluções escaláveis e flexíveis.
Existem vários tipos de requisições que podem ser feitas com API, sendo as principais:
### **GET:** 
é usada para recuperar informações de um recurso específico na API. 
Suponha que você quer coletar dados de previsão do tempo para um projeto de Ciência de Dados. Você pode usar um GET para buscar essas informações de uma API de previsão do tempo.
- Coleta de dados de APIs públicas ou privadas para análise posterior.
- Recuperação do status de um job de treinamento de modelo em um serviço em nuvem.
- Consulta de resultados previamente calculados armazenados em um banco de dados.

### **POST:** 
é usada para enviar informações para a API para criar ou atualizar um recurso.
Você tem um modelo de classificação de imagens hospedado em um servidor. Você envia uma imagem como um request POST para esse servidor, que retorna a classe da imagem.
- Enviar dados para uma API que irá processá-los e retornar o resultado. Útil para aplicar transformações ou algoritmos específicos que estão disponíveis apenas remotamente.
- Iniciar um treinamento de modelo de Machine Learning em um cluster remoto.
- Fazer uma inferência usando um modelo de Machine Learning hospedado remotamente.

### **PUT:** 
é usada para atualizar um recurso específico na API. 
Você tem um conjunto de dados armazenado em um armazenamento em nuvem e quer atualizar uma parte dele. Você usaria um PUT para fazer isso.
- Atualizar um recurso remoto com novos dados. Por exemplo, você pode querer atualizar um conjunto de dados armazenado remotamente.
- Atualizar parâmetros ou configurações de um modelo de Machine Learning em produção.

### **DELETE:** 
é usada para excluir um recurso específico na API. 
Você treinou várias versões de um modelo de Machine Learning e hospedou-as em um serviço em nuvem. Posteriormente, você quer remover as versões antigas para economizar custos de armazenamento. Você usaria um DELETE para fazer isso.
- Excluir recursos remotos que não são mais necessários, como um conjunto de dados armazenado em um armazenamento em nuvem ou um modelo de aprendizado de máquina que foi depreciado.