## Sparkify Project

Este projeto foi proposto pelo Nanodegree Data Engineer da Udacity.

### Introdução

**Modelagem de Dados com Postgres e ETL pipeline**

Uma startup chamada Sparkify quer analisar os dados que eles tem coletados das músicas e atividades dos usuários no seu novo aplicativo de streaming de música. O time de análises está interessando em entender quais músicas os usuários estão ouvindo. Atualmente, eles não tem uma forma fácil de consultar esses dados, que estão num diretório em formato JSON, um com os dados dos logs das atividades dos usuarios no aplicativo e outro com os metadados das musicas na biblioteca do aplicativo.


Eles gostariam que um engenheiro de dados criasse um banco de dados Postgres com as tabelas desenvolvidas para otimizar as consultas das análises das músicas reproduzidas. Seu papel é criar um database schema e um ETL pipeline para estas análises.

### Descrição do Projeto

Neste projeto, iremos aplicar o que aprendemos em modelagem de dados com Postgres e construir um pipeline para extrair, transformar e carregar os dados no banco de dados usando Python. Para completar o projeto, precisaremos definir as tabelas fatos e dimensão, usando um star schema para facilitar as consultas do time de análise de dados, além de escrever um pipeline de dados para transferir os dados dos arquivos locais em formato JSON para estas tabelas criadas no Postgres, usando Python e SQL

Consiste em extrair os dados de duas fontes:

- song_data: Exemplo de cada registro

`{
"num_songs": 1, 
"artist_id": "ARMJAGH1187FB546F3", 
"artist_latitude": 35.14968, 
"artist_longitude": -90.04892, 
"artist_location": "Memphis, TN", 
"artist_name": "The Box Tops", 
"song_id": "SOCIWDW12A8C13D406", 
"title": "Soul Deep", 
"duration": 148.03546, 
"year": 1969
}`

- log_data: Exemplo de cada registro

`{
"artist":"Des'ree",
"auth":"Logged In",
"firstName":"Kaylee",
"gender":"F",
"itemInSession":1,
"lastName":"Summers",
"length":246.30812,
"level":"free",
"location":"Phoenix-Mesa-Scottsdale, AZ",
"method":"PUT",
"page":"NextSong",
"registration":1540344794796.0,
"sessionId":139,
"song":"You Gotta Be",
"status":200,
"ts":1541106106796,
"userAgent":"\"Mozilla\/5.0 (Windows NT 6.1; WOW64) AppleWebKit\/537.36 (KHTML, like Gecko) Chrome\/35.0.1916.153 Safari\/537.36\"",
"userId":"8"
}`

### Print da tabela dos logs de eventos dos usuários:

![Screenshot of log_data](images/log-data.png)

## Definindo Schema e tabelas de relacionamentos

Como o intuito é facilitar as consultas para a área de análise de dados executar e obter dados para futuras análises, vamos modelar seguindo o modelo Star Schema, um processamento OLAP (On-line Analytical Processing), que é desenhado para performar melhor e tem as seguintes características:

- Aplicação: No nível estratégico, auxilia na análise empresarial e tomada de decisões;
- Funcionalidade: Gera análises e relatórios gerenciais com leitura otimizada;
- Estrutura de dados: Poucos detalhes, pois tem alto nível de sumarização;
- Armazenamento dos dados: Utiliza-se da Data Warehouse para otimizar o desempenho da grande quantidade de dados;
- Usuários: Destinados aos gestores e time analítico;
- Frequência de utilização: Baixa, conforme programação da empresa;
- Volatilidade: Dados não sofrem alterações, pois os usuários apenas realizarão sua leitura.

O OLAP (On-line Analytical Processing) é voltado para a tomada de decisões, proporciona uma visão dos dados orientado à análise, além de uma navegação rápida e flexível. O OLAP recebe dados do OLTP (On-line Transactional Processing) para que possa realizar as análises. Essa carga de dados acontece conforme a necessidade da empresa. Sendo um sistema para tomada de decisões, não realiza transações (INSERT, UPDATE, DELETE) pois sua finalidade são consultas. Possui dados atuais e históricos e não há necessidade de backups regularmente, sendo que ele possui informações do OLTP. Caso algo aconteça com a base OLAP basta fazer uma carga novamente.


### Tabelas

Vamos agora começar a definir nossas tabelas fato e tabelas dimensão, lembrando que uma tabela fato é um evento, uma venda, uma transação ocorrida, um fato transacional que ocorreu no nosso sistema, no caso, quando um usuário acessa o aplicativo sparkify e clica numa música para ouvir, esses dados da musica selecionada, do usuário, localização, página em que ele estava e etc, fazem parte do evento "tocar música", esse é um bom candidato para nossa tabela fato. As tabelas fatos geralmente são de dados numéricos e não categóricos. Resumindo:

A tabela fato é a principal tabela do Data Warehouse, ela vai conectar nas dimensões. Nessa tabela são armazenadas duas coisas: as métricas, que são os fatos propriamente ditos, e as foreign keys, chaves que servem para ligar os dados das dimensões com a fato. Ou seja, a tabela fato é composta pelas métricas, que são tudo aquilo que a empresa quer medir, junto com as foreign keys, chaves que ligam às dimensões que descrevem essas métricas. As métricas são utilizadas para medir, quantificar algo, são sempre números provenientes de transações da empresa. Tudo que a empresa quer mensurar é métrica, geralmente sendo o que o usuário quer medir.

Mas o que é uma Foreign Key? É uma chave estrangeira que serve para relacionar os dados entre as tabelas fato e dimensão.

Já as tabelas Dimensão, são as categorias de cada entidade envolvida na tabela fato, que podem ser usadas para trazer mais informações sobre os dados e facilitar as análises. Os dados do usuário que reproduziu uma música é um exemplo para uma tabela dimensão, o nome, sobrenome, gênero, nível na aplicação são os dados dessa dimensão. Os dados da música selecionadas já fazem parte de outra dimensão, como o nome da música, o ano de lançamento, tempo de duração e etc.

A Dimensão possui característica descritiva dentro do DW. Ela qualifica as informações provenientes da tabela Fato. Através dela é possível analisar os dados sob múltiplas perspectivas.

### Fact Table

- songplays: registros nos dados log de eventos associados com músicas reproduzidas
    - songplay_id, 
    - start_time, 
    - user_id, 
    - level, 
    - song_id, 
    - artist_id, 
    - session_id, 
    - location, 
    - user_agent

### Dimension Tables

- users: usuários do aplicativo
    - user_id, 
    - first_name, 
    - last_name, 
    - gender, 
    - level
    
    
- songs: músicas no banco de dados
    - song_id, 
    - title, 
    - artist_id, 
    - year, 
    - duration
    
    
- artists: Artistas das músicas no banco de dados
    - artist_id, 
    - name, 
    - location, 
    - latitude, 
    - longitude


- time: Timestamps dos registros das músicas reproduzidas quebrados em unidades específicas para facilitar futuras análises
    - start_time, 
    - hour, 
    - day, 
    - week, 
    - month, 
    - year, 
    - weekday