### Ferramentas e Data
* API: https://developer.twitter.com/en/dashboard
* DB_ENADE: http://download.inep.gov.br/microdados/Enade_Microdados/microdados_enade_2019.zip
* DB_TITANIC: https://raw.githubusercontent.com/A3Data/hermione/master/hermione/file_text/train.csv

* AIRFLOW: https://airflow.apache.org/docs/stable/start.html
* PREFECT: https://www.prefect.io
* WSL: https://docs.microsoft.com/pt-br/windows/wsl/install-win10


# Modulo 1 - FUNDAMENTOS

## Capítulo1 - Introdução

Dados >> Informação >> Conhecimento

* 3 V´s do Big Data:
    * Volume: Quantidade de dados produzidos no mundo
    * Velocidade: Celeridade de produção e disseminação
    * Variedade: Multiplicidade de fontes e formatos com os quais ele pode aparecer
* Exemplos de formatos: tabela, fotos, videos, tweets, artigos, conexões, transações, georeferenciamento
* Ferramentas:
    * Data Lakes: repositório de dados agnóstico de formato
    * ETL: Extraction / Transformation / Load
    * Data Warehouses: repositório de dados analíticos

## Capítulo3 - Extração
* Exemplos de fontes de extração:
    * APIs
    * Crawlers
    * Banco de Dados
    * Streaming

## Capítulo4 - Transformação
* Exemplos de atividades de transformação:
    * Limpeza de dados
    * Organização
    * Estruturação
    * Enriquecimento

## Capítulo5 - Soluções de ETL
* Necessidades:
    * Automatização
    * Consistência de execução de jobs
    * Encadeamento de tarefas (sequencial ou paralelas)
    * Possibilidade de conexões variadas de **entrada e saída**
    * Scheduler (cron)
    * Logs
    * Fail Safe (recuperação em caso de falha)
    * Notificações e Alertas
* Classes de Ferramentas:
    * Drag and Drop: possuem interface e podem ser amplamente utilizada por áreas sem formação em TI
    * Código: soluções mais maleáveis e customizadas, escalam com maior facilidade são extensíveis
* Exemplos de soluções de mercado: 
    * Drag and Drop: Pentaho, Apache NiFi, 
    * Código: Knime, Talend, KubeFlow, Apache Airflow, Prefect, PachyDerm, Argo, Luigi, Metaflow, Apache Kafka


# Modulo 2 - ARMAZENAMENTO

## Capítulo1 - DB Relacional
* Coleção de dados inter-relacionados representando informações sobre um domínio específico.
* __Propriedades implícitas:__
    * Deve representar algum aspecto do mundo real (minimundo);
    * Deve ser logicamente coerente com algum significado inerente;
    * Projeto, construído e populado com finalidade específica;

### File System
* Problemas com SGBDs em arquivos:
    * __Redundância e inconsistência:__ Dificuldade em manter restrições de integridade automáticas.
    * __Dificuldade de acessar informação:__ Dependência da aplicação e suas regras de acesso, subordinado à disponibilidade.
    * __Anomalias de acesso concorrente (multiusuários):__ Possibilidade de dados incorretos no momento da consulta.
    * __Segurança e Integridade:__ Não possui política de acesso (concessão de privilégios).
    * __Atomicidade:__ Como não há controle de transações, elas podem ser executadas parcialmente.

### SGBD
* Retirar da aplicação cliente a responsabilidade de gerenciar acesso, manipulação e organização dos dados.
* __Finalidades e Vantagens:__
    * __Reduzir redundância e inconsistência:__ Garantir que a info esteja em apenas 1 local, além de propagar alterações dos dados a todos os usuários
    * __Reduzir a dificuldade de acesso aos dados:__ Fornecer linguagem e mecanismos eficientes de busca.
    * __Segurança:__ Possui uusários e gestão de acesso/privilégios.
    * __Isolamento de Dados:__ Garantir apenas 1 ponto de acesso a informação.
    * __Integridade:__ Prover formas mais fáceis de garantir integridade através de restrições.
    * __Atomicidade:__ Garante que todas as transações aconteçam completas ou desfaçam alterações sem sucesso.

### DB Relacional
* Modelo Intuitivo e direto de representar dados em tabelas.
* Cada linha é um registro com ID única, chamada chave.
* Cada coluna contém um atributo, facilitando o estabelecimento das relações.
* Modelo relacional significam que as estruturas lógicas de dados são separadas das estruturas físicas de armazenamento.
* __Elementos de composição do DB Relacional:__
    * Coleções de objetos ou relações que armazenam dados;
    * Conjunto de operações que agem nas relações;
    * Integridade de dados;

### Razões do DB Relacional - ACID
* __Atomicidade:__ Define todos os elementos que compõem uma transação completa
* __Consistência:__ Define as regras para manter os dados em um estado correto após a transação
* __Isolamento:__ Mantém o efeito de uma transação invisível para outros usuários até ser confirmada
* __Durabilidade:__ Garante que alterações dos dados sejam permanentes após conclusão da transação

### Abstração de Dados
* Níveis de abstração que o DB deve garantir:
    1. Visão de Usuário: Garante a visualização de acordo com seu acesso ou grupo de acesso
    2. Conceitual: Define quais dados estão armazenados e qual o relacionamento entre eles
    3. Físico: Efetivamente onde os dados estão armazenados

### Modelagem de Dados
* Ato exploratório dos dados coletados
* Criar estruturas no sistema de armazenamento para possibilitar a associação e o resgate de informação em um determinado padrão
* Erros durante a modelagem pode comprometer a usabilidade do sistema
* __Atividades relacionadas:__
    * Identificar as entidades e atributos dos dados
    * Aplicar convenção de nomes para padronizar ou hierarquizar dados
    * Identificar relacionamentos e aspectos comuns dos dados
    * Associa chaves para serem buscadas com mais facilidade
    * Normaliza os dados para reduzir a redundância de dados
    * Diversifica os dados para melhorar desempenho
* __Etapas básicos de modelagem:__
    1. Conceitual / Domínio: Primeira fase da modelagem. Criado para entendimento dos requisitos do sistema. Tem a finalidade de capturar requisitos de informações e regras do ponto de vista de negócio
    2. Lógico: Explorar os conceitos do domínio. Descreve como os dados serão armazenados no DB e seus relacionamentos.
    3. Físico: Projetar o esquema interno do DB.

### Normalização de Dados
* Processo de modelar os dados, projetando a forma como as informações serão armazenadas, minimizando a redudância no DB.
* __Formas Normais:__
    * Primeira Forma: Todos os atributos contém apenas 1 valor correspondente, singular e não existem grupos de atributos repetidos.
    * Segunda Forma: Atende aos requisitos da 1a forma, e caso os registros na tabela que não são chaves, dependam da chave primária em sua totalidade (Conceito de Chave Estrangeira)
    * Terceira Forma: Onde um atributo não chave depende de outro atributo não chave.

### Desnormalização
* Técnica aplicada com o objetivo de aumentar a performance em detrimento de redudância no DB.

### Principais Conceitos - Relacionamento DB
* Entidade: Definição de quais serão as tabelas do DB
* Atributo: Propriedades das Entidades
    * Simples: Recebe um valor único (Nome, Sexo, Data de Nascimento)
    * Composto: Formado por vários itens menores (Endereço)
    * Multivalorado: Formado por mais de 1 valor (Telefone)
    * Determinante: Identifica uma entidade. Não há dados repetidos. (CPF)
    * Identificador: Identifica unicamente uma entidade Obrigatórios e únicos (Matricula)
    * Derivado: Pode ser calculado a partir de outros atributos (Idade)
    * Domínio de Atributo: Descrição de possíveis valores (Enum: Sexo {M, F})
    * Tipo: Natureza dos valores (integer, text)
* Cardinalidade:
    * 1:1 - Um aluno mora em 1 único endereço
    * 1:N - Um aluno possui vários telefones
    * N:M - 1 aluno é matriculado em várias disciplinas E 1 disciplina possui vários alunos

## Capítulo2 - DB Não Relacional
### Propriedades DB
* __ACID:__
    * Atomicidade: Cada transação deve ser atômica. É realizada completa, ou nenhuma alteração é realizada.
    * Consistência: Garantir que todos os dados serão salvos no DB.
    * Isolamento: Não há interferência entre transações.
    * Durabilidade: Toda transação realizada não será perdida.
* __BASE:__
    * Basically Available: Manter o maior tempo possível disponível.
    * Soft-State: Não há necessidade de se manter consistente o tempo todo.
    * Eventually Consistent: Somente em momentos necessários se torna consistente.
* __CAP:__
    * Consistency: Escritas atômicas, e requisições subsequentes recebem o novo valor, dependendo do nó a ser consultado.
    * Availability: Sempre haverá resposta a consulta de dados, com possbilidade de desafagem.
    * Partition Tolerance: Havendo mesmo que apenas 1 nó, este responderá pelo serviço.
    * De acordo com este teorema, apenas 2 características podem operar ao mesmo tempo.
    * Exemplos de DBs: MongoDB, Cassandra e RavenDB

### Recursos DB NoSQL
1. _Sem schema ou flexível:_ Abstração do armazenamento de dados. Normalmente têm suporte a estrutura de dados como JSON. Reduz o tempo de desenvolvimento, evitando iteração de modelagem de dados, porém, aumenta o risco de inconsistência.
2. _Não Relacional:_ Como os dados são desnormalizados, há a possibilidade de armazenar grande quantidade de atributos em apenas 1 coleção. Com isso, ganha-se:
    * Velocidade de consulta
    * Armazenamento único
    * Recuperação única
3. _Escalabilidade:_ São projetados para suportar distribuição entre máquinas.
4. _Código Aberto

### Equívocos NoSQL
1. NoSQL é um tipo único de DB.
    * Chave-Valor: Funcionam como um HashMap (Redis, Voldemort, Aerospike)
    * Colunas: Nomes e formatos variam nas linhas (Cassandra, BigTable, HyperTable)
    * Documentos: Armazenam como documentos JSON, XML (MongoDB, CouchDB, DocumentDB)
    * Grafos: Entidades são classificados como "nós" e o relacionamento são "arestas" (Neo4j)
2. Risco de perda de dados.
    * A Consistência Eventual garante a durabilidade, porém pode ocorrer a leitura antes da gravação do dado.
3. NoSQL é modismo.
    * Grandes empresas têm investido para evolução do produto. A possibilidade de escalar com menos recurso é extremamente atrativa.
4. RDBMS aprimorado (NewSQL) substituirá o NoSQL
    * Cada tecnologia se propõe a resolverem um problema diferente.

## Capítulo3 - Armazenamento de Dados em Nuvem
### DB as a Service
* Por que usar:
    * Custos de TI reduzidos
    * Tecnologia: fallover automático, fail recover e auto-dimensionamento
    * Maior acessibilidade
    * Experiência em TI
* Principais Características:
    * Disponibilidade sob demanda
    * Pagamento por assinatura
    * Fornecedor é responsável pela gestão
* Tipos de ambiente em Nuvem:
    * Infrastructure as a Service: Abstrai aspectos relacionados à parte física dos servidores.
    * Platform as a Service: Ambiente completo de desenvolvimento.
    * Software as a Service: Acesso apenas ao software.

## Capítulo4 - Data Warehouse e Data Lake
### Data Warehouse
* Além de manter histórico de informações, padroniza, corrige e reestrutura os dados sem afetar o sistem de operação, apresentando somente um modelo final e organizado de dados para análise.
### Data Mart
* Subdivisão do data warehouse, com o objetivo de atender a um departamento ou processo de negócio.
### 