#### Criar PySpark DataFrame a partir de um arquivo externo
- usar método *read()* para importar arquivos externos
- Retornará um Spark DataFrame
- Formato de arquivos externos que podem ser importados inclui JSON, TXT ou CSV. 


&nbsp;
_Para trabalhar com arquivos externos requer apenas a sessão do Spark._

In [2]:
# Importing the Libraries
from pyspark.sql import SparkSession

In [4]:
# Create SparkSession
spark = SparkSession.builder.appName('PySpark DataFrame de arquivos externos').getOrCreate()

#### Lendo um arquivo CSV
- *spark.read.csv()*, passando o nome do arquivo CSV
- *sep* delimitador (virgula) usado no arquivo
- *inferSchema* como True, passa pelo aruivo CSV e adaptará automaticamente o esquema no PySpark Dataframe

In [23]:
# csv
csv_file = spark.read.csv('files/fish.csv', sep = ',', inferSchema = True, header = True)

#### Lendo um arquivo TXT 
- *spark.read.text()* recebe o nome/path do arquivo
- Cada linha neste arquivo de texto atuará como uma nova linha
- Útil quando queremos ler varias linhas de um vez.

In [10]:
# Em outra pasta
txt_file = spark.read.text("files/example.txt")

#### Lendo um arquivo JSON
- spark.read.json() passamos o nome do arquivo como argumentos
- Define o atributo *multiLine=True* para dados de varias linhas
- *inferSchema* por padrão é definido como True.

In [12]:
# Lendo um arquivo JSON
json_file = spark.read.json("files/sample.json", multiLine=True)

#### Verificando tipos de dados dos DataFrames

In [13]:
print(type(csv_file))

<class 'pyspark.sql.dataframe.DataFrame'>


In [14]:
print(type(txt_file))

<class 'pyspark.sql.dataframe.DataFrame'>


In [15]:
print(type(json_file))

<class 'pyspark.sql.dataframe.DataFrame'>


#### Verificando schema do DataFrame

In [16]:
csv_file.printSchema()

root
 |-- Species: string (nullable = true)
 |-- Weight: double (nullable = true)
 |-- Length1: double (nullable = true)
 |-- Length2: double (nullable = true)
 |-- Length3: double (nullable = true)
 |-- Height: double (nullable = true)
 |-- Width: double (nullable = true)



In [17]:
txt_file.printSchema()


root
 |-- value: string (nullable = true)



In [18]:
json_file.printSchema()

root
 |-- employees: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- firstName: string (nullable = true)
 |    |    |-- lastName: string (nullable = true)



Lendo vários arquivos de uma vez

In [20]:
# Armazena  o nome/path dos arquivos na variável file
files = ['files/fish.csv', 'files/salary.csv']
# file é passada como argumento de read.csv
df = spark.read.csv(files, sep = ',' , inferSchema=True, header=True)

In [22]:
# Show DataFrame
df.show(5)

+-------+------+-------+-------+-------+-------+------+
|Species|Weight|Length1|Length2|Length3| Height| Width|
+-------+------+-------+-------+-------+-------+------+
|  Bream| 242.0|   23.2|   25.4|   30.0|  11.52|  4.02|
|  Bream| 290.0|   24.0|   26.3|   31.2|  12.48|4.3056|
|  Bream| 340.0|   23.9|   26.5|   31.1|12.3778|4.6961|
|  Bream| 363.0|   26.3|   29.0|   33.5|  12.73|4.4555|
|  Bream| 430.0|   26.5|   29.0|   34.0| 12.444| 5.134|
+-------+------+-------+-------+-------+-------+------+
only showing top 5 rows

