Coleta e organização de dados
=========================

Professor: Marcos Cesar Gritti  
Email: cesargritti@gmail.com

Neste notebook, vamos aprender a:

1. Carregar fontes de dados;
2. Transformação e teste de estacionaridade;
3. ACF e PACF;

1 - Carregar fontes de dados
========================

No dia a dia de trabalho, um Cientista de Dados se depara com diferentes tipos fontes de dados. Nem sempre, em sua equipe, haverá um Engenheiro de Dados disponível para te ajudar a coletar dados de interesse em um formato fácil de integração com seu ambiente de desenvolvimento Python (ou qualquer outro ambiente de desenvolvimento científico), no nosso caso, o Jupyter Notebook. Portanto, é fundamental que você domine os principais formatos e/ou fontes existentes no mercado, para que não dependa de um terceiro para uma rápida prototipação/experimentação.

As principais fontes de dados, encontradas por um profissional da área, são:

    Arquivos .csv;
    Arquivos .json;
    Arquivos .parquet;
    Base de dados relacional SQL;
    Base de dados não relacional NoSQL;

Em empresas que seguem a filosofia **Data Driven** existirá, usualmente, uma pedaço de Software nominado de *Camada de Ingestão de Dados*. Esta camada, desenvolvida por Engenheiros de Dados, tem por objetivo centralizar diversas fontes de informação bruta (arquivos csv, json, parquet, imagens, audios, etc ...) em um único repositório (ou Buckets). Este repositório centralizado recebe o nome de **Data Lake**.

1.1 - Arquivo csv - Exercício
=======================

A existência de arquivos csv em Data Lakes não é predominante, pois, apesar de ser um arquivo fácil de se manipular, não é o mais eficiente (redução de espaço em disco e otimização de tempo de leitura). Entretanto, é o tipo de arquivo mais encontrado quando a informação ainda não está disponível no **Data Lake** (exportação de planilhas Excel, base de dados do IBGE, entre outras).

In [1]:
# Carregue, nesta célula, o arquivo csv "inbound.csv" usando o `pandas`

1.2 - Arquivo json - Exercício
=======================

É o formato mais utilizado por Engenheiros de Software, devido à sua compatibilidade com as tecnologias de desenvolvimento de APIs da atualidade. Consequentemente, a quantidade de arquivos json em Data Lakes é volumosa.

No Pandas, importa-se um arquivo json utilizando o método read_json

In [2]:
# Carregue, nesta célula, o arquivo json "inbound.json" usando o `pandas`

1.3 - Arquivo parquet - Exercício
==========================

É um formato de armazenamento colunar, disponível em todos os projetos do ecossistema *Hadoop*. Em suma, um arquivo parquet permite armazenar e consultar o arquivo de forma eficiênte, o que justifica seu emprego na construção de **Data Lakes**.

https://parquet.apache.org/

A API do Pandas é intuitiva! Para carregar um arquivo parquet, utilizamos o método pd.read_parquet

In [3]:
# Carregue, nesta célula, o arquivo parquet "inbound.parquet" usando o `pandas`

1.4 - União de datasets - Exercício
============================

Os dados da aula de hoje foram divididos em três arquivos (os quais carregamos na células anteriores). Pesquise na documentação do Pandas como unir as linhas dos três dataframes que carregamos anteriormente em um novo dataframe.

https://pandas.pydata.org/docs/reference/index.html#api

Dica: Concatenar é a palavra chave de pesquisaq

Por fim, indexe o conjunto de dados pela coluna ``date``, convertendo-a para um objeto do tipo `datetime`, ordenando-os de forma ascendente. 

In [4]:
# Célula para o exercício 1.4

2 - Teste de estacionaridade - Exercício
========================================

Verifique se a Seŕie Temporal é estacionária utilizando um dos seguintes testes:
- (ADF) Augmented Dickey Fuller;
- (KPSS) Kwiatkowski-Phillips-Schmidt-Shin

Caso seŕie temporal original não seja estacionária, aplique diferenciações e/ou transformações
para tornar a série estacionária.

Dica: Utilize a biblioteca `statsmodels` para testar as hipóteses de estacionaridade.  
https://www.statsmodels.org/dev/examples/notebooks/generated/stationarity_detrending_adf_kpss.html


In [5]:
# Célula paa o exercício 2

3 -  ACF e PACF - Exercício
========================================

Aplique a Função de Autocorrelação (ACF) e a Função de Autocorrelação Parcial (PACF) na série temporal.
Interprete e discuta os resultados com o professor.

Dica: Utilize a biblioteca `statsmodels` para testar as hipóteses de estacionaridade.  

In [6]:
# Célula para o exercício 3