In [None]:
#Instalando o PySpark
!pip install pyspark



In [None]:
#Importando o PySpark SQL e Functions
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [None]:
#Criando conexão com o spark através da porta 4050
spark = (SparkSession.builder #Configura um local para contrução de aplicativos
        .master("local") #Diz quem é o nó mestre, nesse caso, a máquina local
        .appName("aprendendoPySpark") #Diz qual é o nome do aplicativo sendo criado
        .config("spark.ui.port", "4050") #Configura a porta a ser utilizada para acessar Spark via API
        .getOrCreate()) #Comando para iniciar essa sessão

In [None]:
#Conferindo conexão
spark

In [None]:
#Carregando um dataframe externo
df = (spark #Conexão estabelecida anteriormente com o Spark
       .read #Informa que um documento será lido
       .format("csv") #Informa o formato do documento
       .option("header", "true") #Inclui um cabeçalho no documento
       .option("inferschema", "true") #Traz o tipo dos dados da coluna
       .option("delimiter", ";") #Informa o tipo de separador do documento CSV
       .load("/content/drive/MyDrive/arquivo_geral.csv") #Faz o carregamento do documento
)

In [None]:
#Conferindo DataFrame
df.show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|
| Norte|    RO|2020-02-06|         0|              0|          0|               0|
| Norte|    RO|2020-02-07|         0|              0|          0|               0|
| No

In [None]:
#Criando uma coluna com um novo valor
valor = 100
df_novo = df.withColumn("novoValor", F.lit(valor)) 
#F.lit = valor literal 
#withColumn = adciona uma coluna ao dataframe
#df_novo receberá o dataframe de df + uma nova coluna
df_novo.show(10)

+------+------+----------+----------+---------------+-----------+----------------+---------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|novoValor|
+------+------+----------+----------+---------------+-----------+----------------+---------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|      100|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|      100|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|      100|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|      100|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|      100|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|      100|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|      100|
| Norte|    RO|2020-02-06|         0|              0|          0|     

In [None]:
#Criando um cast na coluna backup (novoValor)
df_novo_cast = df_novo.select(F.col("novoValor").cast("string")) 
#cast = converte uma coluna em um novo tipo de dado
#df_novo_cast vai receber os valores da coluna novoValor do dataframe df_novo, porém em um tipo de dado diferente
df_novo_cast.printSchema()

root
 |-- novoValor: string (nullable = false)



In [None]:
#Criando um cast na nova coluna dentro do DataFrame Original
df = df.withColumn("novoValor2", F.lit(valor).cast("string")) 
#Criando nova coluna do dataframe original e já convertendo-a em string
df.show(10)
df.printSchema()

+------+------+----------+----------+---------------+-----------+----------------+----------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|novoValor2|
+------+------+----------+----------+---------------+-----------+----------------+----------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|       100|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|       100|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|       100|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|       100|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|       100|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|       100|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|       100|
| Norte|    RO|2020-02-06|         0|              0|       

In [None]:
#Somando os valores de diferentes colunas
df = df.withColumn("obitosTotais", F.col("obitosNovos") + F.col("obitosAcumulados"))
df.show()

+------+------+----------+----------+---------------+-----------+----------------+----------+------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|novoValor2|obitosTotais|
+------+------+----------+----------+---------------+-----------+----------------+----------+------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|       100|           0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|       100|           0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|       100|           0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|       100|           0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|       100|           0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|       100|           0|
| Norte|    RO|2020-02-05|         0|

In [None]:
#Criando mais de uma coluna por vez
df = df.withColumn("novaColuna1", F.lit("conteudo1")).withColumn("novaColuna2", F.lit("conteudo2"))
df.show()

+------+------+----------+----------+---------------+-----------+----------------+----------+------------+-----------+-----------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|novoValor2|obitosTotais|novaColuna1|novaColuna2|
+------+------+----------+----------+---------------+-----------+----------------+----------+------------+-----------+-----------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|       100|           0|  conteudo1|  conteudo2|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|       100|           0|  conteudo1|  conteudo2|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|       100|           0|  conteudo1|  conteudo2|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|       100|           0|  conteudo1|  conteudo2|
| Norte|    RO|2020-02-03|         0|              0|          0|               0| 

In [None]:
#Filtrando obitos onde o obito total for maior que 0
df.select(F.col("regiao"), F.col("obitosNovos"), F.col("obitosAcumulados"), F.col("obitosTotais"))\
.filter(F.col("obitosTotais") > 0)\
.show(10)

+------+-----------+----------------+------------+
|regiao|obitosNovos|obitosAcumulados|obitosTotais|
+------+-----------+----------------+------------+
| Norte|          1|               1|           2|
| Norte|          0|               1|           1|
| Norte|          0|               1|           1|
| Norte|          0|               1|           1|
| Norte|          0|               1|           1|
| Norte|          0|               1|           1|
| Norte|          0|               1|           1|
| Norte|          0|               1|           1|
| Norte|          0|               1|           1|
| Norte|          1|               2|           3|
+------+-----------+----------------+------------+
only showing top 10 rows



In [None]:
#Atribuindo os valores de uma coluna à uma nova variável com string
df2 = df.selectExpr("cast(obitosNovos as string)")
df2.show()
df2.printSchema()

+-----------+
|obitosNovos|
+-----------+
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
|          0|
+-----------+
only showing top 20 rows

root
 |-- obitosNovos: string (nullable = true)

