Instalando o pySpark:

In [None]:
!pip install pyspark

Importando seção do Spark para começar a executar os códigos:

In [3]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

Configurando seção do Spark:

In [4]:
spark = (SparkSession.builder #Configura um local para contrução de aplicativos
        .master("local") #Diz quem é o nó mestre, nesse caso, a máquina local
        .appName("aprendendoPySpark") #Diz qual é o nome do aplicativo sendo criado
        .config("spark.ui.port", "4050") #Configura a porta a ser utilizada para acessar Spark via API
        .getOrCreate()) #Comando para iniciar essa sessão

#A contra-barra serve para dizer pra IDE que a linha saltada não é uma identação. Usando parênteses o reesultado é o mesmo.

Conferindo se a seção está configurada:

In [5]:
spark

Criando um DataFrame do PySpark:



In [6]:
#Criando os dados do DataFrame
dadosDf = [
         ("João da Silva", "São Paulo", "SP", 1100.00), #Cada conjunto de dados se torna uma linha no dataframa
         ("Maria dos Santos", "São Paulo", "SP", 2100.00),
         ("Carlos Victor", "Rio de Janeiro", "RJ", 2100.00),
         ("Pedro José", "Maceió", "AL", 3600.00),
]

#Criando um Schema (primeira linha do DataFrame)
schemaDf = ["nome", "cidade", "estado", "salario"] #Cada dado se torna uma coluna

#Criando o DataFrame
df = spark.createDataFrame(data=dadosDf, schema=schemaDf) #1° parâm: dados; 2°parâm: schema;

#Mostrando o Dataframe
df.show() #Entre parênteses, pode se definir a quantidade de linhas a serem mostradas

#Mostrando o Schema
df.printSchema()

+----------------+--------------+------+-------+
|            nome|        cidade|estado|salario|
+----------------+--------------+------+-------+
|   João da Silva|     São Paulo|    SP| 1100.0|
|Maria dos Santos|     São Paulo|    SP| 2100.0|
|   Carlos Victor|Rio de Janeiro|    RJ| 2100.0|
|      Pedro José|        Maceió|    AL| 3600.0|
+----------------+--------------+------+-------+

root
 |-- nome: string (nullable = true)
 |-- cidade: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- salario: double (nullable = true)



Importando CSV no PySpark

In [7]:
df2 = (spark #Conexão estabelecida anteriormente com o Spark
       .read #Informa que um documento será lido
       .format("csv") #Informa o formato do documento
       .option("header", "true") #Inclui um cabeçalho no documento
       .option("inferschema", "true") #Traz o tipo dos dados da coluna
       .option("delimiter", ";") #Informa o tipo de separador do documento CSV
       .load("/content/drive/MyDrive/arquivo_geral.csv") #Faz o carregamento do documento
)

#Mostrando o Dataframe
df2.show() #Entre parênteses, pode se definir a quantidade de linhas a serem mostradas

#Mostrando o Schema
df.printSchema()


+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|
| Norte|    RO|2020-02-06|         0|              0|          0|               0|
| Norte|    RO|2020-02-07|         0|              0|          0|               0|
| No

Funções em PySpark

In [8]:
#Comandos SELECT 
df2.select("regiao", "estado", "data", "casosNovos").show() #Seleciona determinadas colunas de uma tabela

+------+------+----------+----------+
|regiao|estado|      data|casosNovos|
+------+------+----------+----------+
| Norte|    RO|2020-01-30|         0|
| Norte|    RO|2020-01-31|         0|
| Norte|    RO|2020-02-01|         0|
| Norte|    RO|2020-02-02|         0|
| Norte|    RO|2020-02-03|         0|
| Norte|    RO|2020-02-04|         0|
| Norte|    RO|2020-02-05|         0|
| Norte|    RO|2020-02-06|         0|
| Norte|    RO|2020-02-07|         0|
| Norte|    RO|2020-02-08|         0|
| Norte|    RO|2020-02-09|         0|
| Norte|    RO|2020-02-10|         0|
| Norte|    RO|2020-02-11|         0|
| Norte|    RO|2020-02-12|         0|
| Norte|    RO|2020-02-13|         0|
| Norte|    RO|2020-02-14|         0|
| Norte|    RO|2020-02-15|         0|
| Norte|    RO|2020-02-16|         0|
| Norte|    RO|2020-02-17|         0|
| Norte|    RO|2020-02-18|         0|
+------+------+----------+----------+
only showing top 20 rows



In [9]:
#Utilizando Functions para trabalhar com colunas
df2.select(F.col("regiao"), F.col("estado"), F.col("data"), F.col("casosNovos")).show(20)

+------+------+----------+----------+
|regiao|estado|      data|casosNovos|
+------+------+----------+----------+
| Norte|    RO|2020-01-30|         0|
| Norte|    RO|2020-01-31|         0|
| Norte|    RO|2020-02-01|         0|
| Norte|    RO|2020-02-02|         0|
| Norte|    RO|2020-02-03|         0|
| Norte|    RO|2020-02-04|         0|
| Norte|    RO|2020-02-05|         0|
| Norte|    RO|2020-02-06|         0|
| Norte|    RO|2020-02-07|         0|
| Norte|    RO|2020-02-08|         0|
| Norte|    RO|2020-02-09|         0|
| Norte|    RO|2020-02-10|         0|
| Norte|    RO|2020-02-11|         0|
| Norte|    RO|2020-02-12|         0|
| Norte|    RO|2020-02-13|         0|
| Norte|    RO|2020-02-14|         0|
| Norte|    RO|2020-02-15|         0|
| Norte|    RO|2020-02-16|         0|
| Norte|    RO|2020-02-17|         0|
| Norte|    RO|2020-02-18|         0|
+------+------+----------+----------+
only showing top 20 rows



In [10]:
#Função FILTER #Aplica um filtro na seleção de regioes.

#1º maneira: #O filtro pede que seja enviada uma função para filtragem. Por isso se aplica a Function nas colunas
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter(F.col("regiao") == "Sul").show() 

#2ª maneira:
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter(df2.regiao == "Nordeste").show(50)

#3ª maneira:
df2.select(F.col("regiao"),
           F.col("estado"),
           F.col("casosNovos"))\
           .filter("regiao = 'Sudeste'")\
           .show(10)

#4ª maneira:
filtro = F.col("regiao") == "Sul"
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter(filtro).show(10)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
+------+------+----------+
only showing top 20 rows

+--------+------+----------+
|  regiao|estado|casosNovos|
+--------+------+----------+
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordes

In [11]:
#Lista dinâmica para exibir regiões
lista_colunas = ["regiao", "estado", "casosNovos", "obitosNovos", "obitosAcumulados"]
df2.select(lista_colunas).show(20)
df2.printSchema()

+------+------+----------+-----------+----------------+
|regiao|estado|casosNovos|obitosNovos|obitosAcumulados|
+------+------+----------+-----------+----------------+
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|          

In [12]:
#Aplicando mais de um filtro
df2.select(F.col("regiao"), F.col("estado"))\
                .filter(F.col("regiao") == "Norte")\
                .filter(F.col("estado") == "AM")\
                .show()

+------+------+
|regiao|estado|
+------+------+
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
+------+------+
only showing top 20 rows



In [13]:
#2ª forma de se utilizar filtro (com WHERE)
df2.where(F.col("regiao") == "Sul").show()

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
|   Sul|    PR|2020-01-30|         0|              0|          0|               0|
|   Sul|    PR|2020-01-31|         0|              0|          0|               0|
|   Sul|    PR|2020-02-01|         0|              0|          0|               0|
|   Sul|    PR|2020-02-02|         0|              0|          0|               0|
|   Sul|    PR|2020-02-03|         0|              0|          0|               0|
|   Sul|    PR|2020-02-04|         0|              0|          0|               0|
|   Sul|    PR|2020-02-05|         0|              0|          0|               0|
|   Sul|    PR|2020-02-06|         0|              0|          0|               0|
|   Sul|    PR|2020-02-07|         0|              0|          0|               0|
|   