<a href="https://colab.research.google.com/github/oallanfarias/pyspark/blob/atualizacoes/introducao_pyspark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação do PySpark

In [1]:
!pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


#Importação do PySpark

In [2]:
#COMANDO PARA IMPORTAR O SPARKSESSION
from pyspark.sql import SparkSession

#UTILIZAR UMA FUNCTION
import pyspark.sql.functions as F

#Configuração da SparkSession

In [3]:
# spark = (SparkSession.builder    |  Constrói a sessão
# .master('local[4]')              |  Define a máquina master. Parênteses indicam a máquina (pode ser local, seu pc ou cloud). [] Define o número de núcleos
# .appName('intro-pyspark')        |  Define o nome da aplicação (a própria sessão)
# .config('spark.ui.port', '4050') |  Define as porta da aplicação
# .getOrCreate()                   |  Função que cria a session
# )
spark = (SparkSession.builder
          .master('local[4]')
          .appName('intro-pyspark')
          .config('spark.ui.port', '4050')
          .getOrCreate()
        )

In [4]:
spark

#DATAFRAMES

In [5]:
#FORMA DE SE TRABALHAR COM OS DADOS (DATAFRAME - Estrutura de Dados)
#CRIAR UM SCHEMA E SUAS INSTÂNCIAS
esquema = ['nome', 'cidade', 'estado', 'salario']

dados = [
    ('João da Silva', 'São Paulo', 'SP', 1100.00),
    ('Maria dos Santos', 'São Paulo', 'SP', 2100.00),
    ('Carlos Victor', 'Rio de Janeiro', 'RJ', 2100.00),
    ('Pedro José', 'Maceió', 'AL', 3600.00)
]

df = spark.createDataFrame(data = dados, schema = esquema)

In [6]:
#MOSTRA DO DATAFRAME GERAL (DF)
df.show()

+----------------+--------------+------+-------+
|            nome|        cidade|estado|salario|
+----------------+--------------+------+-------+
|   João da Silva|     São Paulo|    SP| 1100.0|
|Maria dos Santos|     São Paulo|    SP| 2100.0|
|   Carlos Victor|Rio de Janeiro|    RJ| 2100.0|
|      Pedro José|        Maceió|    AL| 3600.0|
+----------------+--------------+------+-------+



In [7]:
#MOSTRA O SCHEMA
df.printSchema()

root
 |-- nome: string (nullable = true)
 |-- cidade: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- salario: double (nullable = true)



#Importação de dados CSV em PYSPARK

In [8]:
''' 
df2 = ( spark                               |
        .read                               |   Lê o arquivo
        .format('csv')                      |   O formato do arquivo. Poderiam ser outros formatos.
        .option('header', 'false')          |   Escolher se queremos ou não o header. Se usar 'False' ele não mostra a primeira linha, o padrão fica C1. 
        .option('inferschema', 'false')     |   Infere o qual é o tipo de cada dado dentro do esquema. Também 'liga' ou 'desliga' com True ou False.
        .option('delimiter', ';').          |   Indica qual o separador
        .load('/caminho/arquivo_geral.csv') |   Inserir o caminho dos dados
        )'''
df2 = ( spark
       .read
       .format('csv')
       .option('header', 'true')
       .option('inferschema', 'true')
       .option('delimiter', ';')
       .load('/content/drive/MyDrive/Datasets/arquivo_geral.csv')
    
      )

In [9]:
df2.show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [10]:
df2.dtypes

[('regiao', 'string'),
 ('estado', 'string'),
 ('data', 'timestamp'),
 ('casosNovos', 'int'),
 ('casosAcumulados', 'int'),
 ('obitosNovos', 'int'),
 ('obitosAcumulados', 'int')]

In [11]:
df2.printSchema()

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: timestamp (nullable = true)
 |-- casosNovos: integer (nullable = true)
 |-- casosAcumulados: integer (nullable = true)
 |-- obitosNovos: integer (nullable = true)
 |-- obitosAcumulados: integer (nullable = true)



In [12]:
#QUANTIDADE DE REGISTROS NO DATAFRAME
df2.count()

2349

#Backup do DF no PYSPARK

In [13]:
#BACKUP DO DATAFRAME
df_backup = df2

In [14]:
#DATAFRAME É IMUTÁVEL. PARA MODIFICAR UM DATAFRAME É NECESSÁRIO SOBRESCREVÊ-LO
df = df

#Aplicando filtros

In [15]:
#APLICANDO UM FILTRO PARA MOSTRAR APENAS COLUNAS ESPECÍFICAS
df2.select('regiao', 'estado', 'casosAcumulados').show()

+------+------+---------------+
|regiao|estado|casosAcumulados|
+------+------+---------------+
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
+------+------+---------------+
only showing top 20 rows



In [16]:
#APLICANDO UM FILTRO PARA MOSTRAR APENAS COLUNAS ESPECÍFICAS COM FUNCTIONS
df2.select(F.col('regiao'), F.col('estado'), F.col('casosAcumulados')).show(10)

+------+------+---------------+
|regiao|estado|casosAcumulados|
+------+------+---------------+
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
+------+------+---------------+
only showing top 10 rows



In [17]:
#EXIBIR A REGIÃO, ESTADO E CASOS NOVOS APENAS DA REGIÃO NORTE (FILTER)
df2.select(F.col('regiao'), F.col('estado'), F.col('casosNovos')).filter(F.col('regiao') == 'Norte').show(10)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
+------+------+----------+
only showing top 10 rows



In [18]:
#SELECIONAR TODAS AS COLUNAS E FILTRAR POR REGIÃO
df2.filter(df2.regiao == 'Sudeste').show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [19]:
#APLICANDO FILTROS ENCADEADOS
df2.filter(F.col('regiao') == 'Norte').filter(F.col('casosNovos') > 0).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-03-20 00:00:00|         1|              1|          0|               0|
| Norte|    RO|2020-03-22 00:00:00|         2|              3|          0|               0|
| Norte|    RO|2020-03-25 00:00:00|         2|              5|          0|               0|
| Norte|    RO|2020-03-27 00:00:00|         1|              6|          0|               0|
| Norte|    RO|2020-03-31 00:00:00|         2|              8|          1|               1|
| Norte|    RO|2020-04-01 00:00:00|         1|              9|          0|               1|
| Norte|    RO|2020-04-02 00:00:00|         1|             10|          0|               1|
| Norte|    RO|2020-04-04 00:00:00|         1|             11|          0|      

In [20]:
#OUTRA FORMA DE APLICAR FILTRO
df2.filter("regiao = 'Sudeste'").show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [21]:
#UTILIZANDO UMA VARIÁVEL PARA ARMAZENAR O FILTRO
filtro = F.col('regiao') == 'Sul'
df2.filter(filtro).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
|   Sul|    PR|2020-01-30 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-01-31 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-01 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-02 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-03 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-04 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-05 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-06 00:00:00|         0|              0|          0|      

In [22]:
#EXEMPLO OCUPANDO MAIS DE UMA LINHA
df5 = (df2.select(F.col('regiao'),
                  F.col('estado'),
                  F.col('casosNovos'),
                  F.col('casosAcumulados'),
                  F.col('obitosNovos'),
                  F.col('obitosAcumulados'))
                  .filter(F.col('regiao') == 'Norte') 
                  .filter(F.col('casosNovos') > 20)
)

In [23]:
df5.show(10)

+------+------+----------+---------------+-----------+----------------+
|regiao|estado|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+---------------+-----------+----------------+
| Norte|    RO|        22|             64|          0|               2|
| Norte|    RO|        32|            160|          0|               4|
| Norte|    RO|        39|            199|          0|               4|
| Norte|    RO|        24|            223|          1|               5|
| Norte|    RO|        27|            250|          0|               5|
| Norte|    RO|        40|            290|          0|               5|
| Norte|    RO|        38|            328|          2|               7|
| Norte|    AC|        25|            135|          0|               5|
| Norte|    AC|        21|            163|          1|               6|
| Norte|    AC|        24|            258|          0|              11|
+------+------+----------+---------------+-----------+----------

In [24]:
#COMANDO SELECT COM LISTA
lista_colunas = ['regiao', 'estado', 'casosNovos', 'obitosNovos', 'casosAcumulados']

#df2.select('regiao', 'estado', 'casosNovos', 'obitosNovos').show(10)
df2.select(lista_colunas).show(10)

+------+------+----------+-----------+---------------+
|regiao|estado|casosNovos|obitosNovos|casosAcumulados|
+------+------+----------+-----------+---------------+
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
+------+------+----------+-----------+---------------+
only showing top 10 rows



In [25]:
#SEGUNDA MANEIRA DE APLICAR O FILTER MAIS DE UMA VEZ
#df2.filter()
df2.filter("regiao = 'Norte' and estado = 'AM'").show(10)
df2.filter("regiao = 'Norte' or estado = 'AM'").show(10)
df2.filter(F.col('regiao') == 'Norte').filter(F.col('estado') == 'AM').show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    AM|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-06 00:00:00|         0|              0|          0|      

In [26]:
df2 = df_backup

In [27]:
df2.show()

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [28]:
#TERCEIRA FORMA DE APLICAR O FILTER MAIS DE UMA VEZ COM AND
df2.filter((F.col('regiao') == 'Norte') & (F.col('estado') == 'AM')).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    AM|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-06 00:00:00|         0|              0|          0|      

In [29]:
#TERCEIRA FORMA DE APLICAR O FILTER MAIS DE UMA VEZ COM AND
df2.filter((F.col('regiao') == 'Norte') | (F.col('estado') == 'AM')).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [30]:
'''
df2 = (df2.select(F.col('regiao'), F.col('casosAcumulados'))
            .filter(F.col('regiao') == 'Norte')
            .filter(F.col('estado') == 'AM'))
            '''

"\ndf2 = (df2.select(F.col('regiao'), F.col('casosAcumulados'))\n            .filter(F.col('regiao') == 'Norte')\n            .filter(F.col('estado') == 'AM'))\n            "

In [31]:
df2.show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [32]:
#Aplicando filtro utilizando a função where
df2.where(F.col('regiao') == 'Sul').show(50)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
|   Sul|    PR|2020-01-30 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-01-31 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-01 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-02 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-03 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-04 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-05 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-06 00:00:00|         0|              0|          0|      

In [33]:
#Aplicando filtro de acordo com letras ou palavras no início
df2.filter(F.col('regiao').startswith('Su')).show()

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [34]:
#Aplicando filtro de acordo com letras ou palavras no final
df2.filter(F.col('regiao').endswith('este')).show()

+--------+------+-------------------+----------+---------------+-----------+----------------+
|  regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+--------+------+-------------------+----------+---------------+-----------+----------------+
|Nordeste|    MA|2020-01-30 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-01-31 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-01 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-02 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-03 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-04 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-05 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-06 00:00:00|         0|            

In [35]:
#Aplicando filtro de acordo com letras ou palavras em qualquer parte
df2.filter(F.col('regiao').contains('d')).show()

+--------+------+-------------------+----------+---------------+-----------+----------------+
|  regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+--------+------+-------------------+----------+---------------+-----------+----------------+
|Nordeste|    MA|2020-01-30 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-01-31 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-01 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-02 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-03 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-04 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-05 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-06 00:00:00|         0|            

In [36]:
#Aplicando filtro de acordo com letras ou palavras com like
df2.filter("regiao like 'S%'").show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [37]:
#UTILIZANDO O IN
df2.filter("regiao in ('Norte', 'Sul')").show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [38]:
#LIKE COMO UMA FUNÇÃO
df2.filter(F.col('regiao').like('S%')).show()

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [39]:
#UTILIZANDO O IN
df2.filter("regiao in ('Norte', 'Sul')").show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [40]:
#LIKE COMO UMA FUNÇÃO
df2.filter(F.col('regiao').like('S%')).show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [41]:
#CRIAÇÃO DE NOVAS COLUNAS
df2.withColumn('casosSomados', F.lit('Um texto qualquer')).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+-----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|     casosSomados|
+------+------+-------------------+----------+---------------+-----------+----------------+-----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|  

In [42]:
df2.withColumn('casosSomados', F.col('casosNovos') + F.col('casosAcumulados')).show(20)

+------+------+-------------------+----------+---------------+-----------+----------------+------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|casosSomados|
+------+------+-------------------+----------+---------------+-----------+----------------+------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-05 00:00:00|         0|         