# Processo de ETL

ETL, do inglês Extract Transform Load, são ferramentas de software cuja a função é a extração de dados de diversos sistemas, transformação desses dados conforme regras de negócios e por fim o carregamento dos dados geralmente para um Data Mart e/ou Data Warehouse, porém nada impede que também seja para enviar os dados para um determinado sistema da organização.

Esse notebook é utilizado para visualizar de forma didática os processos de ETL para cada tabela antes de implementar o arquivo `etl.py`.

## Importando as bibliotecas

In [4]:
!pip install psycopg2
!pip install sql_queries

Collecting sql_queries
  Downloading sql_queries-0.1.2-py3-none-any.whl (20 kB)
Installing collected packages: sql-queries
Successfully installed sql-queries-0.1.2


In [42]:
import os
import glob
import psycopg2
import pandas as pd
from sql_queries import *

## Conectando ao banco de dados

In [57]:
conn = psycopg2.connect('host=127.0.0.1 dbname=sparkifydb user=postgres password=postgres')
cur = conn.cursor()

## Função para coletar os arquivos

In [17]:
def get_files(filepath):
    all_files = []
    for root, dirs, files in os.walk(filepath):
        files = glob.glob(os.path.join(root, '*.json'))
        for f in files:
            all_files.append(os.path.abspath(f))
    return all_files

## Processando os dados das músicas

Nessa primeira parte vamos performar o ETL no primeiro dataset, `song_data`, para criar as tabelas dimensionais de `songs` e `artists`.

Vamos executar ETL em um único arquivo de música e carregar um único registro em cada tabela para começar.
- Use a função `get_files` para ter uma lista de arquivos json que estão no diretório `data/song_data`.
- Selecione a primeira música em sua lista.
- Leia o primeiro arquivo e visualize os seus dados.

In [21]:
song_files = get_files('data/song_data')
len(song_files)

71

In [23]:
filepath = song_files[0]
filepath

'C:\\Users\\Gilberto\\Desktop\\data_science\\data_engineering\\projeto_01\\data\\song_data\\A\\A\\A\\TRAAAAW128F429D538.json'

In [27]:
# Estamos lendo um valor escalar, por isso utilizamos o typ='series'
# O convert_dates=False fala para o pandas não converter o que ele entederia como timestamp
df = pd.read_json(filepath, typ='series', convert_dates=False)
df

num_songs                            1
artist_id           ARD7TVE1187B99BFB1
artist_latitude                   None
artist_longitude                  None
artist_location        California - LA
artist_name                     Casual
song_id             SOMZWCG12A8C13C480
title                 I Didn't Mean To
duration                       218.932
year                                 0
dtype: object

## #1 Tabela de músicas

**Extrair os dados da tabela de música**
- Selecionar as colunas `song_id`, `title`, `artist_id`, `year` e `duration`.
- Utilize o `df.values` para selecionar apenas os valores do dataframe.
- Indice para selecionar apenas o primeiro (único) registro no dataframe.
- Converta o array para uma lista e armazene na variável `song_data`.

In [41]:
song_data = df[['song_id', 'title', 'artist_id', 'year', 'duration']].values.tolist()
song_data

['SOMZWCG12A8C13C480', "I Didn't Mean To", 'ARD7TVE1187B99BFB1', 0, 218.93179]

**Inserir o registro na tabela de músicas**

Implemente a query `song_table_insert` no arquivo `sql_queries.py` e execute a célula abaixo para inserir o registro nessa tabela. Lembre-se de executar o script `create_tables.py` antes de executar a célula abaixo para ter certeza que você criou/resetou a tabela de músicas no banco de dados do Sparkify.

In [67]:
cur.execute(song_table_insert, song_data)
conn.commit()

## #2: Tabela de artistas

**Extrair os dados para a tabela de artistas**
- Selecionar as colunas `artist_id`, `name`, `location`, `latitude` e `longitude`.
- Utilize o df.values para selecionar apenas os valores do dataframe.
- Indice para selecionar apenas o primeiro (único) registro no dataframe.
- Converta o array para uma lista e armazene na variável song_data.


In [52]:
artist_data = df[['artist_id', 'artist_name', 'artist_location', 'artist_latitude', 'artist_longitude']].values.tolist()
artist_data

['ARD7TVE1187B99BFB1', 'Casual', 'California - LA', None, None]

**Inserir o registro na tabela de artistas**

Implemente a query `artist_table_insert` no arquivo `sql_queries.py` e execute a célula abaixo para inserir o registro nessa tabela. Lembre-se de executar o script `create_tables.py` antes de executar a célula abaixo para ter certeza que você criou/resetou a tabela de músicas no banco de dados do Sparkify.

In [58]:
cur.execute(artist_table_insert, artist_data)
conn.commit()

## Processando dados de `log`

Nessa parte vamos performar o ETL no segundo dataset, `log_data`, para criar as tabelas dimensionais `time` e `users`, como também a tabela de fato `songplays`.

Vamos executar ETL em um único arquivo de log e carregar um único registro em cada tabela para começar.
- Use a função get_files para ter uma lista de arquivos json que estão no diretório `data/log_data`.
- Selecione a primeira música em sua lista.
- Leia o primeiro arquivo e visualize os seus dados.

In [59]:
log_files = get_files('data/log_data')
len(log_files)

30

In [60]:
filepath = log_files[0]
filepath

'C:\\Users\\Gilberto\\Desktop\\data_science\\data_engineering\\projeto_01\\data\\log_data\\2018\\11\\2018-11-01-events.json'

In [61]:
# O atributo lines True faz com que cada linha do json seja lido
# como uma instância do dataframe (linha do dataframe)
df = pd.read_json(filepath, lines=True)
df.head()

Unnamed: 0,artist,auth,firstName,gender,itemInSession,lastName,length,level,location,method,page,registration,sessionId,song,status,ts,userAgent,userId
0,,Logged In,Walter,M,0,Frye,,free,"San Francisco-Oakland-Hayward, CA",GET,Home,1540919166796,38,,200,1541105830796,"""Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4...",39
1,,Logged In,Kaylee,F,0,Summers,,free,"Phoenix-Mesa-Scottsdale, AZ",GET,Home,1540344794796,139,,200,1541106106796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8
2,Des'ree,Logged In,Kaylee,F,1,Summers,246.30812,free,"Phoenix-Mesa-Scottsdale, AZ",PUT,NextSong,1540344794796,139,You Gotta Be,200,1541106106796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8
3,,Logged In,Kaylee,F,2,Summers,,free,"Phoenix-Mesa-Scottsdale, AZ",GET,Upgrade,1540344794796,139,,200,1541106132796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8
4,Mr Oizo,Logged In,Kaylee,F,3,Summers,144.03873,free,"Phoenix-Mesa-Scottsdale, AZ",PUT,NextSong,1540344794796,139,Flat 55,200,1541106352796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8


## #3: Tabela `time`

**Extrair os dados para a tabela `time`**

- Filtrar os registros pela ação `NextSong`.
- Converter a coluna timestamp `ts` para datetime
    - Dica: o timestamp atual esta em milisegundos
- Extrair o timestamp, hora, dia, semana do ano, mês, ano e dia da semana da coluna `ts` e inicialize o `time_data` como uma lista contendo esses valores em ordem.
    - Dica: use o atributo `dt` do pandas para acessar facilmente as propriedades ligadas a datas.
- Especifique labels para essas colunas e salve-os em `column_labels`.
- Crie o dataframe, `time_df`, contendo o `time data` para esse arquivo combinando `column_labels` e `time_data` em um dicionário e convertendo isso em um dataframe.

In [62]:
df = df[df['page'] == 'NextSong'].astype({'ts': 'datetime64[ms]'})
df.head()

Unnamed: 0,artist,auth,firstName,gender,itemInSession,lastName,length,level,location,method,page,registration,sessionId,song,status,ts,userAgent,userId
2,Des'ree,Logged In,Kaylee,F,1,Summers,246.30812,free,"Phoenix-Mesa-Scottsdale, AZ",PUT,NextSong,1540344794796,139,You Gotta Be,200,2018-11-01 21:01:46.796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8
4,Mr Oizo,Logged In,Kaylee,F,3,Summers,144.03873,free,"Phoenix-Mesa-Scottsdale, AZ",PUT,NextSong,1540344794796,139,Flat 55,200,2018-11-01 21:05:52.796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8
5,Tamba Trio,Logged In,Kaylee,F,4,Summers,177.18812,free,"Phoenix-Mesa-Scottsdale, AZ",PUT,NextSong,1540344794796,139,Quem Quiser Encontrar O Amor,200,2018-11-01 21:08:16.796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8
6,The Mars Volta,Logged In,Kaylee,F,5,Summers,380.42077,free,"Phoenix-Mesa-Scottsdale, AZ",PUT,NextSong,1540344794796,139,Eriatarka,200,2018-11-01 21:11:13.796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8
7,Infected Mushroom,Logged In,Kaylee,F,6,Summers,440.2673,free,"Phoenix-Mesa-Scottsdale, AZ",PUT,NextSong,1540344794796,139,Becoming Insane,200,2018-11-01 21:17:33.796,"""Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK...",8


In [63]:
t = pd.Series(df['ts'], index=df.index)
t.head()

2   2018-11-01 21:01:46.796
4   2018-11-01 21:05:52.796
5   2018-11-01 21:08:16.796
6   2018-11-01 21:11:13.796
7   2018-11-01 21:17:33.796
Name: ts, dtype: datetime64[ns]

In [64]:
time_data = []
column_labels = ['timestamp', 'hour', 'day', 'weekofyear', 'month', 'year', 'weekday']

for data in t:
    time_data.append([data, data.hour, data.day, data.weekofyear, data.month, data.year, data.day_name()])

In [65]:
time_df = pd.DataFrame.from_records(data=time_data, columns=column_labels)
time_df.head()

Unnamed: 0,timestamp,hour,day,weekofyear,month,year,weekday
0,2018-11-01 21:01:46.796,21,1,44,11,2018,Thursday
1,2018-11-01 21:05:52.796,21,1,44,11,2018,Thursday
2,2018-11-01 21:08:16.796,21,1,44,11,2018,Thursday
3,2018-11-01 21:11:13.796,21,1,44,11,2018,Thursday
4,2018-11-01 21:17:33.796,21,1,44,11,2018,Thursday


**Inserir o registro na tabela `time`**

Implemente a query `time_table_insert` no `sql_queries.py` e rode a célula abaixo para inserir os registros do timestamp do arquivo de log na tabela `time`. Relembre de rodar o script `create_tables.py` antes de rodar a célula abaixo para ter certeza que a base de dados está criada.

In [66]:
for i, row in time_df.iterrows():
    cur.execute(time_table_insert, list(row))
    conn.commit()

## #4 Tabela de usuários

**Extrair dados para a tabela de usuários**
- Selecionar as colunas `user_id`, `first_name`, `last_name`, `gender` e `level`, e inicialize o `user_df`.


In [68]:
user_df = df[['userId', 'firstName', 'lastName', 'gender', 'level']]
user_df.head()

Unnamed: 0,userId,firstName,lastName,gender,level
2,8,Kaylee,Summers,F,free
4,8,Kaylee,Summers,F,free
5,8,Kaylee,Summers,F,free
6,8,Kaylee,Summers,F,free
7,8,Kaylee,Summers,F,free
