### CSV
Comma-separated values (ou CSV) é um formato de arquivo que armazena dados tabelados, 
cujo grande uso data da época dos mainframes. 
O CSV é um implementação particular de arquivos de texto separados por um delimitador, 
que usa a vírgula e a quebra de linha para separar os valores. 
O formato também usa as aspas em campos no qual são usados os caracteres reservados (vírgula e quebra de linha). 

#### Lendo arquivo CSV com Pandas

Documentação:
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

Exemplos:
https://chrisalbon.com/python/data_wrangling/pandas_dataframe_importing_csv/

#### Carregando Funções Turing Lab para esta aplicação

In [3]:
%run -i '/home/.Turing/TuringCredentialsAccess.py3'
%run -i '/home/.Turing/TuringLabFunctions.py3'

------------- Turing Lab Data Science --------------------
------ Funções carregadas em memória com sucesso ---------
--------- Data da última atualização: --------------------
--------------- 08/10/2019 -------------------------------
----------------------------------------------------------
--- Consulte o manual de Biblioteca de Funções Turing: ---


----------------------------------------------------------


In [4]:
#### Mapear bibliotecas necessárias
import pandas as pd
import numpy as np
import json
import ijson

In [73]:
#---------- Definição dos Parâmetros do projeto ---------------------------------
nm_bucket = 'turing-bkt-treinamentos-etl'
id_empresa = '1022' 

#---------- Gerando Credenciais para Acesso Seguro ao Lake ----------------------
S3fs,S3session,S3client,S3resource = TuringUsersCredentialsControl(id_empresa)

#### Lendo arquivo CSV do Lake
path_lake = turing-bkt-treinamentos/Treinamento/Dados/

* Função Turing Lab:  TuringReadS3File(S3client,nm_bucket,path_file,sep=delimiter)
    * S3client:  Credencial de acesso ao ambiente lake
    * nm_bucket: Dirtório reservado para a empresa (bucket)
    * path_file: Subdiretório onde está o arquivo 
    * sep: Delimitador do arquivo (virgula, dois pontos, |... etc)

In [74]:
nm_file = 'titanic_kaggle.csv'
delimiter = ',' 

path_file = 'Exemplo/'+str(nm_file)
df_00 = TuringReadS3File(S3client,nm_bucket,path_file,sep=delimiter)

# verificando a quantidade de linhas e colunas da tabela
df_00.shape

Arquivo csv carregado em memoria


(891, 12)

In [75]:
# Lendo 5 linhas da tabela carregada
df_00.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Quando houver problemas com encoding da tabela (geralmente acentuação)
Utilize a função TuringReadS3CSVFile
*  TuringReadS3CSVFile(nm_bucket,path_file,sep=',')
* Encodings utilizados: utf-8 | latin-1 | ISO-8859-1
   

In [76]:
df_00_encode = TuringReadS3CSVFile(nm_bucket,path_file,sep=',')
df_00_encode.shape

(891, 12)

In [77]:
df_00_encode.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### PARQUET
O Parquet, diferente do txt e csv que são baseados em linha, é um formato colunar e binário que foi desenvolvido em uma cooperação entre o Twitter e Cloudera para criar uma representação colunar eficiente para qualquer projeto para o ecosistema Hadoop

#### Lendo arquivo parquet do lake

TuringReadParquetFile(S3fs,nm_bucket,path_file)

    * S3fs:  Credencial de acesso ao ambiente lake
    * nm_bucket: Diretório reservado para a empresa (bucket)
    * path_file: Subdiretório onde está o arquivo
      unico arquivo: path_file = 'Treinamento/Dados/porto_seguro_kaggle.parquet'
      arquivos particionados: path_file = 'Treinamento/Dados/Lake/Partition_1/'


In [78]:
nm_file = 'porto_seguro_kaggle.parquet'
path_file = 'Exemplo/'+str(nm_file)

df_01 = TuringReadParquetFile(S3fs,nm_bucket,path_file)

# verificando a quantidade de linhas e colunas da tabela
df_01.shape

(595212, 59)

In [79]:
# Lendo 5 linhas da tabela carregada
df_01.head()

Unnamed: 0,b'id',b'target',b'ps_ind_01',b'ps_ind_02_cat',b'ps_ind_03',b'ps_ind_04_cat',b'ps_ind_05_cat',b'ps_ind_06_bin',b'ps_ind_07_bin',b'ps_ind_08_bin',...,b'ps_calc_11',b'ps_calc_12',b'ps_calc_13',b'ps_calc_14',b'ps_calc_15_bin',b'ps_calc_16_bin',b'ps_calc_17_bin',b'ps_calc_18_bin',b'ps_calc_19_bin',b'ps_calc_20_bin'
0,7,0,2,2,5,1,0,0,1,0,...,9,1,5,8,0,1,1,0,0,1
1,9,0,1,1,7,0,0,0,0,1,...,3,1,1,9,0,1,1,0,1,0
2,13,0,5,4,9,1,0,0,0,1,...,4,2,7,7,0,1,1,0,1,0
3,16,0,0,1,2,0,0,1,0,0,...,2,2,4,9,0,0,0,0,0,0
4,17,0,0,2,0,1,0,1,0,0,...,3,1,1,3,0,0,0,1,1,0


### JSON
JavaScript Object Notation
Trata-se de uma formatação leve de troca de dados. Para seres humanos, é fácil de ler e escrever. 
Para máquinas, é fácil de interpretar e gerar. Está baseado em um subconjunto da linguagem de programação JavaScript, formato texto e completamente independente de linguagem, ideal para troca de dados.

fonte dados: https://catalog.data.gov/dataset?res_format=JSON

#### Copie o link abaixo e cole no browser para verificar a estrutura do aquivo JSON que será baixado pelo Python:
#### https://data.cdc.gov/api/views/bi63-dtpu/rows.json?accessType=DOWNLOAD

In [80]:
# Lendo arquivo JSON da URL
import urllib.request

url = "https://data.cdc.gov/api/views/bi63-dtpu/rows.json?accessType=DOWNLOAD"
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
data = json.loads(response.read().decode())

In [81]:
# Verificando o arquivo JSON baixado
data

{'meta': {'view': {'id': 'bi63-dtpu',
   'name': 'NCHS - Leading Causes of Death: United States',
   'attribution': 'National Center for Health Statistics',
   'averageRating': 0,
   'category': 'NCHS',
   'createdAt': 1449080633,
   'description': 'This dataset presents the age-adjusted death rates for the 10 leading causes of death in the United States beginning in 1999.\r\n\r\nData are based on information from all resident death certificates filed in the 50 states and the District of Columbia using demographic and medical characteristics. Age-adjusted death rates (per 100,000 population) are based on the 2000 U.S. standard population. Populations used for computing death rates after 2010 are postcensal estimates based on the 2010 census, estimated as of July 1, 2010. Rates for census years are based on populations enumerated in the corresponding censuses. Rates for non-census years before 2010 are revised using updated intercensal population estimates and may differ from rates prev

In [82]:
# Gravando arquivo que está na memoria no formato JSON (disco)

with open('data.json', 'w') as outfile:
    json.dump(data, outfile)

#### Faça a instalação do pacote ijson
- No terminal digite: 
- sudo python -m pip install ijson

In [83]:
filename = "data.json"
with open(filename, 'r') as f:
    objects = ijson.items(f, 'meta.view.columns.item')
    columns = list(objects)

In [84]:
# Extrair o nome das colunas:
column_names = [col["fieldName"] for col in columns]
column_names

[':sid',
 ':id',
 ':position',
 ':created_at',
 ':created_meta',
 ':updated_at',
 ':updated_meta',
 ':meta',
 'year',
 '_113_cause_name',
 'cause_name',
 'state',
 'deaths',
 'aadr']

In [85]:
# Extrair o tipo das colunas:
column_types = [col["dataTypeName"] for col in columns]
column_types

['meta_data',
 'meta_data',
 'meta_data',
 'meta_data',
 'meta_data',
 'meta_data',
 'meta_data',
 'meta_data',
 'number',
 'text',
 'text',
 'text',
 'number',
 'number']

In [86]:
# Criando Metadados a partir do JSON
df_column_names = pd.DataFrame(data=column_names, columns=['Variavel'])
df_column_types = pd.DataFrame(data=column_types, columns=['Tipo'])
metadados = pd.merge(df_column_names, df_column_types, left_index=True, right_index=True)
metadados

Unnamed: 0,Variavel,Tipo
0,:sid,meta_data
1,:id,meta_data
2,:position,meta_data
3,:created_at,meta_data
4,:created_meta,meta_data
5,:updated_at,meta_data
6,:updated_meta,meta_data
7,:meta,meta_data
8,year,number
9,_113_cause_name,text


In [87]:
# Extraindo o nome do arquivo/estudo
data['meta']['view']['name']

'NCHS - Leading Causes of Death: United States'

In [88]:
# Extraindo a descriçao do estudo realizado
data['meta']['view']['description']

'This dataset presents the age-adjusted death rates for the 10 leading causes of death in the United States beginning in 1999.\r\n\r\nData are based on information from all resident death certificates filed in the 50 states and the District of Columbia using demographic and medical characteristics. Age-adjusted death rates (per 100,000 population) are based on the 2000 U.S. standard population. Populations used for computing death rates after 2010 are postcensal estimates based on the 2010 census, estimated as of July 1, 2010. Rates for census years are based on populations enumerated in the corresponding censuses. Rates for non-census years before 2010 are revised using updated intercensal population estimates and may differ from rates previously published.\r\n\r\nCauses of death classified by the International Classification of Diseases, Tenth Revision (ICD–10) are ranked according to the number of deaths assigned to rankable causes. Cause of death statistics are based on the underly

In [89]:
# Vamos selecionar algumas colunas para extrair informaçoes
good_columns = [
                'cause_name',
                'year',
                'state',
                'deaths',
                'aadr'
                ]

data_col = []
with open(filename, 'r') as f:
    objects = ijson.items(f, 'data.item')
    for row in objects:
        selected_row = []
        for item in good_columns:
            selected_row.append(row[column_names.index(item)])
        data_col.append(selected_row)

In [90]:
# Converter o Json para um Dataframe (tabela em memória)
import pandas as pd
df_json = pd.DataFrame(data=data_col,columns=['Causa','Ano','Estado','Qtd','Idade'])
df_json.head()

Unnamed: 0,Causa,Ano,Estado,Qtd,Idade
0,Kidney disease,2012,Vermont,21,2.6
1,Kidney disease,2016,Vermont,30,3.7
2,Kidney disease,2013,Vermont,30,3.8
3,Suicide,2000,District of Columbia,23,3.8
4,Kidney disease,2014,Arizona,325,4.1


In [91]:
df_json.shape

(10296, 5)

### Salvando tabela no formato CSV
  * TuringWriteS3CSVFile(df_json,s3_path,nm_s3_file,S3fs,delimiter=',')
    - df_json: dataframe que deseja salvar
    - s3_path: caminho completo onde deseja salvar o arquivo. Se adicionar uma pasta ela sera criada automaticamente
    - S3fs: credencial de segurança de acessos ao lake
    - delimiter: delimitador desejado para a tabela
  

In [51]:
# Salvar esta tabela no formato CSV
s3_path = 's3://turing-bkt-treinamentos-etl/Alunos/Turma_20191021/BrunoJ/'
nm_s3_file = 'J01_JSON_FILE.CSV'

TuringWriteS3CSVFile(df_json,s3_path,nm_s3_file,S3fs,delimiter=',')


encoding=latin-1


'Arquivo Salvo Com Sucesso'

### Quadro comparativo entre os formatos utilizados
http://garrens.com/blog/2017/10/09/spark-file-format-showdown-csv-vs-json-vs-parquet/

In [37]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://s3.amazonaws.com/treinamento-big-data/imagens/parquet_csv_json_camparativo.PNG", width=900, height=900)

### Uma outra forma de armazenar os dados é no formato ORC
### Sua vantagem sobre o PARQUET é na compressão, que é um pouco melhor.