# Capítulo 9 - Fontes de dados - Parte 1 
<br>
O Spark contém seis tipo de dados "core" mas pode trabalhar com diversos outros formatos externos escritos pela comunidade.

- CSV
- JSON
- Parquet
- ORC
- JDBC/ODBC
- Arquivos texto

### Estrutura básica de leitura de arquivos
A estrutura de leitura de dados básica do Spark é o DataFrameReader, usamos para acessá-la, o atributo:<br>
spark.read

Após obtermos o DataFrame reader, especificamos diversos valores:
- O formato
- O _Schema_
- O modo de leitura
- E uma série de opções

Cada tipo de dado possui uma especificação de carregamento diferente. devemos passar ao menos o caminho onde obter esse arquivo.

In [3]:
# Exemplo de carregamento de arquivo .csv
spark.read.format('csv')\
    .option("mode","FAILFAST")\
    .option("inferSchema","true")\
    .option("path","path/to/files")\
    .option(someSchema)\
    .load()

NameError: name 'someSchema' is not defined

### Spark's read modes
Especifica o que acontece quando o Spark encontra registros com má formação.

In [None]:
# Atribui "null" a todos os campos corrompidos e coloca todos os
# campos corrompidos em uma coluna de strings chamada _corrupt_record
.option("mode","permissive")

# Exclui a linha que contém registros com má formação.
.option("mode","dropMalformed")

# Falha imediatamente ao encontrar registros malformados.
.option("mode","failFast")

### Estrutura básica de gravação de arquivos
A estrutura de gravação de dados básica do Spark é similar a leitura. No lugar do DataFrameReader usa-se o DataFrameWriter através do atribuito:
dataFrame.writer

Após obtermos o DataFrame writer, especificamos diversos valores:

- O formato
- E uma série de opções
- O Particionamento
- Bucketing
- Ordenação
- O modo de escrita

Cada tipo de dado possui uma especificação de carregamento diferente. devemos passar ao menos o caminho onde obter esse arquivo.

In [2]:
# Exemplo de salvamento de arquivo .csv
dataframe.write.format('csv')\
    .option("mode","overwrite")\
    .option("dateformat","yyyy-MM-dd")\
    .option("path","path/to/files")\
    .save()

NameError: name 'dataframe' is not defined

### Spark's save modes
Lista formas de salvamento do Spark

In [None]:
# Adiciona os arquivos de saída em uma lista de arquivos ja existentes na dada localização.
.option("mode","append")

# Sobrescreve completamente qualquer dado existente no arquivo descrimindo
.option("mode","overwrite")

# Levanta um erro e gera falha na escrita do arquivo se os dados ou o arquivo já existe na dada localização. 
.option("mode","errorIfExists")

# Se os dados ou arquivo já existirem, nada é feito com o DataFrame atual.
.option("mode","ignore")

.options("sep",)

### Arquivos CSV
#### Opções a serem incluídas no     .options( )

|<center>Escrita/Leitura|<center>Chave|<center>Valores Potenciais|<center>Padrão|<center>Descrição|
|:---------------------:|:------------:|:------------------------:|:------------:|:---------------:|
|<center>Ambos   |<center>sep                        |<center>Qualquer string  |<center> ,|<center>Um caracter simples que é usado como separador para cada campo e valor|
|<center>Ambos   |<center>header                     |<center>true, false      | <center>false|<center> Uma flag booleana que declara se a primeira linha do arquivo contém os nosmes das colunas|
|<center>Leitura |<center>escape                     |<center>Qualquer string  | <center>\ |<center>O caractere que o Spark deve usar para evitar outros caracteres no arquivo.|
|<center> Leitura|<center>inferSchema                |<center>true, false      | <center>false|<center>Especifica se o Spark deve inferir tipos de colunas ao ler o arquivo.|
|<center> Leitura|<center>ignoreLeadingWhiteSpace    |<center>true, false      | <center>false|<center>Declara se os espaços iniciais dos valores que estão sendo lidos devem ser ignorados.|
|<center> Leitura|<center> ignoreTrailingWhiteSpace  |<center>true, false      | <center>false|<center>Declara se os espaços finais dos valores que estão sendo lidos devem ser ignorados.|
|<center> Ambos  |<center>nullValue                  |<center>Qualquer string  | <center> " "|<center>Declara qual caractere representa um valor nulo no arquivo.|
|<center> Ambos  |<center>nanValue                   |<center>Qualquer string  | <center>NaN|<center>Declara qual caractere representa um NaN ou um caractere ausente no arquivo CSV.|
|<center> Ambos  |<center>positiveInf                |<center>Qualquer string  | <center>Inf|<center>Declara que caractere (s) representam um valor infinito positivo.|
|<center> Ambos  |<center>negativeInf                |<center>Qualquer string  | <center>-Inf|<center>Declara que caractere (s) representam um valor infinito negativo.|
|<center> Ambos  |<center>compression or codec       |<center>None,uncompressed,bzip2, deflate,gzip, lz4 ou snapp| <center>none|<center>Declara qual codec de compactação o Spark deve usar para ler ou gravar o arquivo.|
|<center> Ambos  |<center>dateFormat                 |<center>Qualquer string(SimpleDataFormat) |<center>yyyy-MM-dd|<center>Declara o formato de data para qualquer coluna que seja do tipo de data.|
|<center> Ambos  |<center>timestampFormat            |<center>Qualquer string(SimpleDataFormat) |<center>yyyy-MM-dd’T’HH:mm:ss.SSSZZ |<center>Declara o formato do registro de data e hora para qualquer coluna que seja do tipo timestamp.|
|<center> Leitura|<center>maxColumns                 |<center>Qualquer inteiro | <center>20480 |<center>Declara o número máximo de colunas no arquivo.|
|<center> Leitura|<center>maxCharsPerColumn          |<center>Qualquer inteiro | <center>1000000 |<center>Declara o número máximo de caracteres em uma coluna.|
|<center> Leitura|<center>escapeQuotes               |<center>true, false      | <center>true |<center>Declara se o Spark deve escapar de cotações encontradas em linhas.|
|<center> Leitura|<center>maxMalformedLogPerPartition|<center>Qualquer inteiro | <center>10 |<center>Define o número máximo de linhas malformadas que o Spark registrará em cada partição. Registros malformados além desse número serão ignorados.|
|<center> Escrita|<center>quoteAll                   |<center>true, false      | <center>false |<center>Especifica se todos os valores devem ser colocados entre aspas, ao contrário de apenas valores de escape que possuem um caractere de aspas.|
|<center> Leitura|<center>multiLine                  |<center>true, false      | <center>false |<center>Essa opção permite que você leia arquivos CSV de várias linhas, em que cada linha lógica no arquivo CSV pode abranger várias linhas no próprio arquivo.|

### Lendo arquivos CSV

In [None]:
#Podemos utiliar as opções:
.format("csv")
.read.csv(path)

In [41]:
from pyspark.sql.types import StructField, StructType, StringType, IntegerType

# Criando os Schenas que serão aplicados ao arquivo ".csv" de leitura

myManualSchema = StructType([\
                             StructField("DEST_COUNTRY_NAME", StringType(), True),\
                             StructField("ORIGIN_COUNTRY_NAME", StringType(), True),\
                             StructField("COUNT", IntegerType(), False)\
                            ])

# Definindo o tipo arquivo como "csv", a primeira linha como cabeçalho, falhando na execução caso 
# o arquivo contenha registros malformados, aplicando schema definido acima, lendo o arquivo ".csv" na pasta
# passada como parâmetro e exibindo os 5 primeiros registros. A variável df conterá o dataFrame correspondente ao arquivo
# aberto.
df_csv = spark.read.format("csv")\
    .option("header", "true")\
    .option("mode", "failFast")\
    .schema(myManualSchema)\
    .load("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/csv/2010-summary.csv")

In [44]:
df_csv.show(10)

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|COUNT|
+-----------------+-------------------+-----+
|    United States|            Romania|    1|
|    United States|            Ireland|  264|
|    United States|              India|   69|
|            Egypt|      United States|   24|
|Equatorial Guinea|      United States|    1|
|    United States|          Singapore|   25|
|    United States|            Grenada|   54|
|       Costa Rica|      United States|  477|
|          Senegal|      United States|   29|
|    United States|   Marshall Islands|   44|
+-----------------+-------------------+-----+
only showing top 10 rows



### Gravando arquivos CSV

In [43]:
# Escrevendo arquivos ".csv" 
df_csv.write.format("csv")\
    .mode("overwrite")\
    .option("sep", "\t")\
    .save("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/csv/my-tsv-file.tsv")

### Arquivos JSON
#### Opções a serem incluídas no     .options( )

|<center>Escrita/Leitura|<center>Chave|<center>Valores Potenciais|<center>Padrão|<center>Descrição|
|:---------------------:|:------------:|:------------------------:|:------------:|:---------------:|
|<center>Ambos   |<center>compression or codec               |<center>None, uncompressed, bzip2, deflate, gzip, lz4, ou snapppy|<center>none|<center>Compressão ou codec para usar ao salvar em arquivo. Esse pode ser um dos nomes abreviados que não diferenciam maiúsculas de minúsculas (none, bzip2, gzip, lz4, snappy e deflate).|
|<center>Ambos   |<center>dateFormat                         |<center>Qualquer string(SimpleDataFormat)| <center>yyyy-MM-dd|<center>Define a string que indica um formato de data. Os formatos de data personalizados seguem os formatos em java.text.SimpleDateFormat. Isso se aplica ao tipo de data. Se None estiver definido, ele usa o valor padrão, aaaa-MM-dd.|
|<center>Ambos   |<center>timestampFormat                    |<center>Qualquer string(SimpleDataFormat)  | <center>yyyy-MM-dd’T’HH: mm:ss.SSSZZ|<center>Define a string que indica um formato de registro de data e hora. Os formatos de data personalizados seguem os formatos em java.text.SimpleDateFormat. Isso se aplica ao tipo de registro de data e hora. Se None estiver definido, ele usa o valor padrão, aaaa-MM-dd'T'HH: mm: ss.SSSXXX.|
|<center> Leitura|<center>primitiveAsString                  |<center>true, false      | <center>false|<center>Define a string que indica um formato de registro de data e hora. Os formatos de data personalizados seguem os formatos em java.text.SimpleDateFormat. Isso se aplica ao tipo de registro de data e hora. Se None estiver definido, ele usa o valor padrão, aaaa-MM-dd'T'HH: mm: ss.SSSXXX.|
|<center> Leitura|<center>allowComments                      |<center>true, false      | <center>false|<center>Ignora o comentário do estilo Java / C ++ em registros JSON. Se None estiver definido, ele usa o valor padrão, false.|
|<center> Leitura|<center> allowUnquotedFieldNames           |<center>true, false      | <center>false|<center>Permite nomes de campo JSON sem nome. Se None estiver definido, ele usa o valor padrão, false.|
|<center> Leitura|<center>allowSingleQuotes                  |<center>true, false  | <center> true|<center>Permite cotações simples além de aspas duplas. Se None estiver definido, ele usa o valor padrão, true.|
|<center> Leitura|<center>allowNumericLeadingZeros           |<center>true, false  | <center>false|<center>permite levar zeros em números (por exemplo, 00012). Se None estiver definido, ele usa o valor padrão, false.|
|<center> Leitura|<center>allowBackslashEscapingAnyCharacter |<center>true, false  | <center>false|<center>permite aceitar a citação de todos os caracteres usando o mecanismo de citação de barra invertida. Se None estiver definido, ele usa o valor padrão, false.|
|<center> Leitura|<center>columnNameOfCorruptRecord          |<center>Qualquer string  | <center>Valor de spark.sql.column&NameOfCorruptRecord|<center>permite renomear o novo campo com uma string malformada criada pelo modo PERMISSIVO. Isso substitui spark.sql.columnNameOfCorruptRecord. Se None estiver definido, ele usa o valor especificado em spark.sql.columnNameOfCorruptRecord.|
|<center> Leitura|<center>multiLine                          |<center>true, false| <center>false|<center>analisar um registro, que pode abranger várias linhas, por arquivo. Se None estiver definido, ele usa o valor padrão, false.|

### Lendo arquivos JSON

In [None]:
#Podemos utiliar as opções:
.format("json")
.read.json(path)

In [47]:
df_json = spark.read.format("json").option("mode","failFast")\
    .option("inferSchema","true")\
    .load("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/json/2010-summary.json")

In [48]:
df_json.show(10)

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Romania|    1|
|    United States|            Ireland|  264|
|    United States|              India|   69|
|            Egypt|      United States|   24|
|Equatorial Guinea|      United States|    1|
|    United States|          Singapore|   25|
|    United States|            Grenada|   54|
|       Costa Rica|      United States|  477|
|          Senegal|      United States|   29|
|    United States|   Marshall Islands|   44|
+-----------------+-------------------+-----+
only showing top 10 rows



### Gravando arquivos JSON

In [None]:
# Escrevendo arquivos ".json" 
df_json.write.format("json")\
    .mode("overwrite")\
    .save("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/csv/my-json-file.json")

### Arquivos Parquet

O Formato Parquet tem poucas opções porque força seu próprio _schema_ na gravação dos arquivos. Uma precaução deve ser observada na gravação de arquivos parquet, quanto a versão do Spark a ser utilizada, especialmente as mais antigas. O format parquet é otimizado para ultilização com Spark.

#### Opções a serem incluídas no     .options( )

|<center>Escrita/Leitura|<center>Chave|<center>Valores Potenciais|<center>Padrão|<center>Descrição|
|:---------------------:|:------------:|:------------------------:|:------------:|:---------------:|
|<center>Escrita   |<center>compression or codec               |<center>None, uncompressed, bzip2, deflate, gzip, lz4, ou snapppy|<center>none|<center>Compressão ou codec para usar ao salvar e ao ler o arquivo. Esse pode ser um dos nomes abreviados que não diferenciam maiúsculas de minúsculas.|
|<center>Leitura   |<center>mergeSchema                         |<center>true, false| <center>Valor da configuração: spark.sql.parquet.mergeSchema|<center>Podemos adicionar colunas de forma incremental em arquivos parquet ja escritos na mesma tabela/arquivo. Use essa opção para habilitar e disabilitar essa funcionalidade|

### Lendo arquivos Parquet

In [None]:
#Podemos utiliar as opções:
.format("parquet")
.read.parquet(path)

In [50]:
df_parquet = spark.read.format("parquet")\
    .load("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/parquet/2010-summary.parquet")

In [51]:
df_parquet.show()

+--------------------+-------------------+-----+
|   DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+--------------------+-------------------+-----+
|       United States|            Romania|    1|
|       United States|            Ireland|  264|
|       United States|              India|   69|
|               Egypt|      United States|   24|
|   Equatorial Guinea|      United States|    1|
|       United States|          Singapore|   25|
|       United States|            Grenada|   54|
|          Costa Rica|      United States|  477|
|             Senegal|      United States|   29|
|       United States|   Marshall Islands|   44|
|              Guyana|      United States|   17|
|       United States|       Sint Maarten|   53|
|               Malta|      United States|    1|
|             Bolivia|      United States|   46|
|            Anguilla|      United States|   21|
|Turks and Caicos ...|      United States|  136|
|       United States|        Afghanistan|    2|
|Saint Vincent and..

### Gravando arquivos Parquet

In [52]:
df_parquet.write.format("parquet")\
    .mode("overwrite")\
    .save("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/parquet/my-parquet-files.parquet")

### Arquivos ORC

O ORC é um formato de arquivo columnar autodescritivo e com reconhecimento de tipos, projetado para cargas de trabalho do Hadoop. Ele é otimizado para leituras de streaming grandes, mas com suporte integrado para localizar rapidamente as linhas necessárias. O ORC na verdade não tem opções para ler dados porque o Spark entende muito bem o formato do arquivo. Uma pergunta frequente é: Qual é a diferença entre o ORC e o Parquet? Na maior parte, eles são bem parecidos; A diferença fundamental é que o Parquet é otimizado para uso com o Spark, enquanto o ORC é otimizado para o Hive.

### Lendo arquivos ORC

In [54]:
df_orc = spark.read.format("orc")\
    .load("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/orc/2010-summary.orc")

In [55]:
df_orc.show()

+--------------------+-------------------+-----+
|   DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+--------------------+-------------------+-----+
|       United States|            Romania|    1|
|       United States|            Ireland|  264|
|       United States|              India|   69|
|               Egypt|      United States|   24|
|   Equatorial Guinea|      United States|    1|
|       United States|          Singapore|   25|
|       United States|            Grenada|   54|
|          Costa Rica|      United States|  477|
|             Senegal|      United States|   29|
|       United States|   Marshall Islands|   44|
|              Guyana|      United States|   17|
|       United States|       Sint Maarten|   53|
|               Malta|      United States|    1|
|             Bolivia|      United States|   46|
|            Anguilla|      United States|   21|
|Turks and Caicos ...|      United States|  136|
|       United States|        Afghanistan|    2|
|Saint Vincent and..

### Gravando arquivos ORC

In [56]:
df_parquet.write.format("orc")\
    .mode("overwrite")\
    .save("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/parquet/my-json-file.orc")

### Arquivos texto

Spark também permite ler em arquivos de texto simples. Cada linha no arquivo se torna um registro no DataFrame. Então cabe a você transformá-lo de acordo. Como exemplo de como você faria isso, suponha que você precise analisar alguns arquivos de log do Apache para um formato mais estruturado ou talvez queira analisar alguns textos simples para o processamento de linguagem natural. Os arquivos de texto são um ótimo argumento para a API do Conjunto de Dados devido à sua capacidade de aproveitar a flexibilidade dos tipos nativos.

### Lendo arquivos texto

In [73]:
df_text = spark.read.text("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/csv/2010-summary.csv")\
    .selectExpr("split(value, ',') as rows")

In [74]:
df_text.show()

+--------------------+
|                rows|
+--------------------+
|[DEST_COUNTRY_NAM...|
|[United States, R...|
|[United States, I...|
|[United States, I...|
|[Egypt, United St...|
|[Equatorial Guine...|
|[United States, S...|
|[United States, G...|
|[Costa Rica, Unit...|
|[Senegal, United ...|
|[United States, M...|
|[Guyana, United S...|
|[United States, S...|
|[Malta, United St...|
|[Bolivia, United ...|
|[Anguilla, United...|
|[Turks and Caicos...|
|[United States, A...|
|[Saint Vincent an...|
|[Italy, United St...|
+--------------------+
only showing top 20 rows



### Gravando arquivos Texto

In [79]:
df_text = spark.read.text("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/csv/2010-summary.csv")
df_text.show()

+--------------------+
|               value|
+--------------------+
|DEST_COUNTRY_NAME...|
|United States,Rom...|
|United States,Ire...|
|United States,Ind...|
|Egypt,United Stat...|
|Equatorial Guinea...|
|United States,Sin...|
|United States,Gre...|
|Costa Rica,United...|
|Senegal,United St...|
|United States,Mar...|
|Guyana,United Sta...|
|United States,Sin...|
|Malta,United Stat...|
|Bolivia,United St...|
|Anguilla,United S...|
|Turks and Caicos ...|
|United States,Afg...|
|Saint Vincent and...|
|Italy,United Stat...|
+--------------------+
only showing top 20 rows



In [81]:
df_text.select("value")\
    .write.text("file:///root/sparkcurso/Spark_Definitive_Guide/data/flight-data/csv//simple-text-file.txt")    

### Diferenciando arquivos do sistemas de arquivos local e sistema de arquivos distribuido (HDFS)
Por padrão, o Spark acessa dados do HDFS na pasta definida pelo arquivo hive-sites.conf "/apps/hive/warehouse/". Podem ocorrer mudanças segundo a distribuição e as versões do Hadoop. 

In [None]:
# Acessando arquivos localmente:
path = "file:///raiz/caminho/para/a/pasta/arquivo.ext"

In [None]:
# Acessando arquivos no hdfs:
path = "/raiz/caminho/para/o/HDFS/arquivo.ext"

In [None]:
# Passagem do caminho de leitura

# Modo 1
.load(path)

# Modo 2
.option("path", path)\
.load() # ou .save()

Material baseado em exemplos do livro __Spark - The Definitive Guide. Bill Chambers e Matei Zaharia__