<a href="https://colab.research.google.com/github/oallanfarias/pyspark/blob/main/aula1608_pyspark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação do PySpark

In [None]:
!pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


#Importação do PySpark

In [None]:
#COMANDO PARA IMPORTAR O SPARKSESSION
from pyspark.sql import SparkSession

#UTILIZAR UMA FUNCTION
import pyspark.sql.functions as F

#Configuração da SparkSession

In [None]:
# spark = (SparkSession.builder    |  Constrói a sessão
# .master('local[4]')              |  Define a máquina master. Parênteses indicam a máquina (pode ser local, seu pc ou cloud). [] Define o número de núcleos
# .appName('intro-pyspark')        |  Define o nome da aplicação (a própria sessão)
# .config('spark.ui.port', '4050') |  Define as porta da aplicação
# .getOrCreate()                   |  Função que cria a session
# )
spark = (SparkSession.builder
          .master('local[4]')
          .appName('intro-pyspark')
          .config('spark.ui.port', '4050')
          .getOrCreate()
        )

In [None]:
spark

#DATAFRAMES

In [None]:
#FORMA DE SE TRABALHAR COM OS DADOS (DATAFRAME - Estrutura de Dados)
#CRIAR UM SCHEMA E SUAS INSTÂNCIAS
esquema = ['nome', 'cidade', 'estado', 'salario']

dados = [
    ('João da Silva', 'São Paulo', 'SP', 1100.00),
    ('Maria dos Santos', 'São Paulo', 'SP', 2100.00),
    ('Carlos Victor', 'Rio de Janeiro', 'RJ', 2100.00),
    ('Pedro José', 'Maceió', 'AL', 3600.00)
]

df = spark.createDataFrame(data = dados, schema = esquema)

In [None]:
#MOSTRA DO DATAFRAME GERAL (DF)
df.show()

+----------------+--------------+------+-------+
|            nome|        cidade|estado|salario|
+----------------+--------------+------+-------+
|   João da Silva|     São Paulo|    SP| 1100.0|
|Maria dos Santos|     São Paulo|    SP| 2100.0|
|   Carlos Victor|Rio de Janeiro|    RJ| 2100.0|
|      Pedro José|        Maceió|    AL| 3600.0|
+----------------+--------------+------+-------+



In [None]:
#MOSTRA O SCHEMA
df.printSchema()

root
 |-- nome: string (nullable = true)
 |-- cidade: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- salario: double (nullable = true)



#Importação de dados CSV em PYSPARK

In [None]:
''' 
df2 = ( spark                               |
        .read                               |   Lê o arquivo
        .format('csv')                      |   O formato do arquivo. Poderiam ser outros formatos.
        .option('header', 'false')          |   Escolher se queremos ou não o header. Se usar 'False' ele não mostra a primeira linha, o padrão fica C1. 
        .option('inferschema', 'false')     |   Infere o qual é o tipo de cada dado dentro do esquema. Também 'liga' ou 'desliga' com True ou False.
        .option('delimiter', ';').          |   Indica qual o separador
        .load('/caminho/arquivo_geral.csv') |   Inserir o caminho dos dados
        )'''
df2 = ( spark
       .read
       .format('csv')
       .option('header', 'true')
       .option('inferschema', 'true')
       .option('delimiter', ';')
       .load('/content/drive/MyDrive/Datasets/arquivo_geral.csv')
    
      )

In [None]:
df2.show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
df2.dtypes

[('regiao', 'string'),
 ('estado', 'string'),
 ('data', 'timestamp'),
 ('casosNovos', 'int'),
 ('casosAcumulados', 'int'),
 ('obitosNovos', 'int'),
 ('obitosAcumulados', 'int')]

In [None]:
df2.printSchema()

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: timestamp (nullable = true)
 |-- casosNovos: integer (nullable = true)
 |-- casosAcumulados: integer (nullable = true)
 |-- obitosNovos: integer (nullable = true)
 |-- obitosAcumulados: integer (nullable = true)



In [None]:
#QUANTIDADE DE REGISTROS NO DATAFRAME
df2.count()

2349

#Backup do DF no PYSPARK

In [None]:
#BACKUP DO DATAFRAME
df_backup = df2

In [None]:
#DATAFRAME É IMUTÁVEL. PARA MODIFICAR UM DATAFRAME É NECESSÁRIO SOBRESCREVÊ-LO
df = df

#Aplicando filtros

In [None]:
#APLICANDO UM FILTRO PARA MOSTRAR APENAS COLUNAS ESPECÍFICAS
df2.select('regiao', 'estado', 'casosAcumulados').show()

+------+------+---------------+
|regiao|estado|casosAcumulados|
+------+------+---------------+
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
+------+------+---------------+
only showing top 20 rows



In [None]:
#APLICANDO UM FILTRO PARA MOSTRAR APENAS COLUNAS ESPECÍFICAS COM FUNCTIONS
df2.select(F.col('regiao'), F.col('estado'), F.col('casosAcumulados')).show(10)

+------+------+---------------+
|regiao|estado|casosAcumulados|
+------+------+---------------+
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
| Norte|    RO|              0|
+------+------+---------------+
only showing top 10 rows



In [None]:
#EXIBIR A REGIÃO, ESTADO E CASOS NOVOS APENAS DA REGIÃO NORTE (FILTER)
df2.select(F.col('regiao'), F.col('estado'), F.col('casosNovos')).filter(F.col('regiao') == 'Norte').show(10)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
+------+------+----------+
only showing top 10 rows



In [None]:
#SELECIONAR TODAS AS COLUNAS E FILTRAR POR REGIÃO
df2.filter(df2.regiao == 'Sudeste').show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [None]:
#APLICANDO FILTROS ENCADEADOS
df2.filter(F.col('regiao') == 'Norte').filter(F.col('casosNovos') > 0).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-03-20 00:00:00|         1|              1|          0|               0|
| Norte|    RO|2020-03-22 00:00:00|         2|              3|          0|               0|
| Norte|    RO|2020-03-25 00:00:00|         2|              5|          0|               0|
| Norte|    RO|2020-03-27 00:00:00|         1|              6|          0|               0|
| Norte|    RO|2020-03-31 00:00:00|         2|              8|          1|               1|
| Norte|    RO|2020-04-01 00:00:00|         1|              9|          0|               1|
| Norte|    RO|2020-04-02 00:00:00|         1|             10|          0|               1|
| Norte|    RO|2020-04-04 00:00:00|         1|             11|          0|      

In [None]:
#OUTRA FORMA DE APLICAR FILTRO
df2.filter("regiao = 'Sudeste'").show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [None]:
#UTILIZANDO UMA VARIÁVEL PARA ARMAZENAR O FILTRO
filtro = F.col('regiao') == 'Sul'
df2.filter(filtro).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
|   Sul|    PR|2020-01-30 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-01-31 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-01 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-02 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-03 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-04 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-05 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
#EXEMPLO OCUPANDO MAIS DE UMA LINHA
df5 = (df2.select(F.col('regiao'),
                  F.col('estado'),
                  F.col('casosNovos'),
                  F.col('casosAcumulados'),
                  F.col('obitosNovos'),
                  F.col('obitosAcumulados'))
                  .filter(F.col('regiao') == 'Norte') 
                  .filter(F.col('casosNovos') > 20)
)

In [None]:
df5.show(10)

+------+------+----------+---------------+-----------+----------------+
|regiao|estado|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+---------------+-----------+----------------+
| Norte|    RO|        22|             64|          0|               2|
| Norte|    RO|        32|            160|          0|               4|
| Norte|    RO|        39|            199|          0|               4|
| Norte|    RO|        24|            223|          1|               5|
| Norte|    RO|        27|            250|          0|               5|
| Norte|    RO|        40|            290|          0|               5|
| Norte|    RO|        38|            328|          2|               7|
| Norte|    AC|        25|            135|          0|               5|
| Norte|    AC|        21|            163|          1|               6|
| Norte|    AC|        24|            258|          0|              11|
+------+------+----------+---------------+-----------+----------

In [None]:
#COMANDO SELECT COM LISTA
lista_colunas = ['regiao', 'estado', 'casosNovos', 'obitosNovos', 'casosAcumulados']

#df2.select('regiao', 'estado', 'casosNovos', 'obitosNovos').show(10)
df2.select(lista_colunas).show(10)

+------+------+----------+-----------+---------------+
|regiao|estado|casosNovos|obitosNovos|casosAcumulados|
+------+------+----------+-----------+---------------+
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
| Norte|    RO|         0|          0|              0|
+------+------+----------+-----------+---------------+
only showing top 10 rows



In [None]:
#SEGUNDA MANEIRA DE APLICAR O FILTER MAIS DE UMA VEZ
#df2.filter()
df2.filter("regiao = 'Norte' and estado = 'AM'").show(10)
df2.filter("regiao = 'Norte' or estado = 'AM'").show(10)
df2.filter(F.col('regiao') == 'Norte').filter(F.col('estado') == 'AM').show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    AM|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
df2 = df_backup

In [None]:
df2.show()

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
#TERCEIRA FORMA DE APLICAR O FILTER MAIS DE UMA VEZ COM AND
df2.filter((F.col('regiao') == 'Norte') & (F.col('estado') == 'AM')).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    AM|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    AM|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
#TERCEIRA FORMA DE APLICAR O FILTER MAIS DE UMA VEZ COM AND
df2.filter((F.col('regiao') == 'Norte') | (F.col('estado') == 'AM')).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
'''
df2 = (df2.select(F.col('regiao'), F.col('casosAcumulados'))
            .filter(F.col('regiao') == 'Norte')
            .filter(F.col('estado') == 'AM'))
            '''

"\ndf2 = (df2.select(F.col('regiao'), F.col('casosAcumulados'))\n            .filter(F.col('regiao') == 'Norte')\n            .filter(F.col('estado') == 'AM'))\n            "

In [None]:
df2.show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
#Aplicando filtro utilizando a função where
df2.where(F.col('regiao') == 'Sul').show(50)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
|   Sul|    PR|2020-01-30 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-01-31 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-01 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-02 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-03 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-04 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-05 00:00:00|         0|              0|          0|               0|
|   Sul|    PR|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
#Aplicando filtro de acordo com letras ou palavras no início
df2.filter(F.col('regiao').startswith('Su')).show()

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [None]:
#Aplicando filtro de acordo com letras ou palavras no final
df2.filter(F.col('regiao').endswith('este')).show()

+--------+------+-------------------+----------+---------------+-----------+----------------+
|  regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+--------+------+-------------------+----------+---------------+-----------+----------------+
|Nordeste|    MA|2020-01-30 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-01-31 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-01 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-02 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-03 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-04 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-05 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-06 00:00:00|         0|            

In [None]:
#Aplicando filtro de acordo com letras ou palavras em qualquer parte
df2.filter(F.col('regiao').contains('d')).show()

+--------+------+-------------------+----------+---------------+-----------+----------------+
|  regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+--------+------+-------------------+----------+---------------+-----------+----------------+
|Nordeste|    MA|2020-01-30 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-01-31 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-01 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-02 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-03 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-04 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-05 00:00:00|         0|              0|          0|               0|
|Nordeste|    MA|2020-02-06 00:00:00|         0|            

In [None]:
#Aplicando filtro de acordo com letras ou palavras com like
df2.filter("regiao like 'S%'").show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [None]:
#UTILIZANDO O IN
df2.filter("regiao in ('Norte', 'Sul')").show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
#LIKE COMO UMA FUNÇÃO
df2.filter(F.col('regiao').like('S%')).show()

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [None]:
#UTILIZANDO O IN
df2.filter("regiao in ('Norte', 'Sul')").show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [None]:
#LIKE COMO UMA FUNÇÃO
df2.filter(F.col('regiao').like('S%')).show(10)

+-------+------+-------------------+----------+---------------+-----------+----------------+
| regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+-------------------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05 00:00:00|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06 00:00:00|         0|              0|       

In [None]:
#CRIAÇÃO DE NOVAS COLUNAS
df2.withColumn('casosSomados', F.lit('Um texto qualquer')).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+-----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|     casosSomados|
+------+------+-------------------+----------+---------------+-----------+----------------+-----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|Um texto qualquer|
| Norte|  

In [None]:
df2.withColumn('casosSomados', F.col('casosNovos') + F.col('casosAcumulados')).show(20)

+------+------+-------------------+----------+---------------+-----------+----------------+------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|casosSomados|
+------+------+-------------------+----------+---------------+-----------+----------------+------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|           0|
| Norte|    RO|2020-02-05 00:00:00|         0|         

In [None]:
#RENOMEANDO UMA COLUNA EXISTENTE
df2.withColumnRenamed('regiao', 'Outro nome').show(10)

+----------+------+-------------------+----------+---------------+-----------+----------------+
|Outro nome|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+----------+------+-------------------+----------+---------------+-----------+----------------+
|     Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
|     Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
|     Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
|     Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
|     Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
|     Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
|     Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
|     Norte|    RO|2020-02-06 00:00:00| 

In [None]:
#FAZER UMA SELEÇÃO DE VALORES DISTINTOS
df2.select('regiao', 'estado').distinct().show(10)

+--------+------+
|  regiao|estado|
+--------+------+
|   Norte|    TO|
|   Norte|    AC|
|   Norte|    PA|
|Nordeste|    MA|
|     Sul|    RS|
| Sudeste|    SP|
|Nordeste|    PI|
|   Norte|    AP|
| Sudeste|    MG|
|     Sul|    PR|
+--------+------+
only showing top 10 rows



In [None]:
#FAZER UMA SELEÇÂO DE VALORES DISTINTOS
df2.dropDuplicates().show(10)

+--------+------+-------------------+----------+---------------+-----------+----------------+
|  regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+--------+------+-------------------+----------+---------------+-----------+----------------+
|   Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
|   Norte|    RO|2020-02-17 00:00:00|         0|              0|          0|               0|
|   Norte|    AM|2020-02-24 00:00:00|         0|              0|          0|               0|
|   Norte|    AP|2020-04-10 00:00:00|        38|            166|          0|               2|
|Nordeste|    MA|2020-02-20 00:00:00|         0|              0|          0|               0|
|Nordeste|    PI|2020-03-03 00:00:00|         0|              0|          0|               0|
|Nordeste|    AL|2020-01-30 00:00:00|         0|              0|          0|               0|
|Nordeste|    AL|2020-02-25 00:00:00|         0|            

In [None]:
#MOSTRANDO O DATAFRAME DE MANEIRA ASCENDENTE
df2.sort(F.col('estado').asc()).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    AC|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-09 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-05 00:00:00|         0|              0|          0|      

In [None]:
#MOSTRANDO O DATAFRAME DE MANEIRA DESCENDENTE
df2.sort(F.col('estado').desc()).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    TO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    TO|2020-02-09 00:00:00|         0|              0|          0|               0|
| Norte|    TO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    TO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    TO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    TO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    TO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    TO|2020-02-05 00:00:00|         0|              0|          0|      

In [None]:
#MOSTRANDO O DATAFRAME ORDENADO POR VÁRIAS COLUNAS
df2.sort(F.col('estado'), F.col('regiao'), F.col('casosAcumulados')).show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    AC|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-09 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    AC|2020-02-05 00:00:00|         0|              0|          0|      

In [None]:
#AGRUPAMENTO - GROUP BY - QUANTIDADE DE REGISTROS POR REGIÃO
df2.groupBy('regiao').sum('casosNovos').show(10)

+------------+---------------+
|      regiao|sum(casosNovos)|
+------------+---------------+
|    Nordeste|          16293|
|         Sul|           3445|
|     Sudeste|          29908|
|Centro-Oeste|           1983|
|       Norte|           6880|
+------------+---------------+



In [None]:
#AGRUPAMENTO - SOMAR A QUANTIDADE DE CASOS NOVOS POR REGIÃO
df2.groupBy('regiao').sum('casosNovos').show(10)

+------------+---------------+
|      regiao|sum(casosNovos)|
+------------+---------------+
|    Nordeste|          16293|
|         Sul|           3445|
|     Sudeste|          29908|
|Centro-Oeste|           1983|
|       Norte|           6880|
+------------+---------------+



In [None]:
#ORDENAÇÃO UTILIZANDO ORDERBY
df2.orderBy(F.col('regiao').asc(), F.col('estado')).show(10)

+------------+------+-------------------+----------+---------------+-----------+----------------+
|      regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------------+------+-------------------+----------+---------------+-----------+----------------+
|Centro-Oeste|    DF|2020-01-30 00:00:00|         0|              0|          0|               0|
|Centro-Oeste|    DF|2020-02-09 00:00:00|         0|              0|          0|               0|
|Centro-Oeste|    DF|2020-01-31 00:00:00|         0|              0|          0|               0|
|Centro-Oeste|    DF|2020-02-01 00:00:00|         0|              0|          0|               0|
|Centro-Oeste|    DF|2020-02-02 00:00:00|         0|              0|          0|               0|
|Centro-Oeste|    DF|2020-02-03 00:00:00|         0|              0|          0|               0|
|Centro-Oeste|    DF|2020-02-04 00:00:00|         0|              0|          0|               0|
|Centro-Oeste|    DF

In [None]:
#WHEN - OTHERWISE - Status (quando a qtd de casos novos > 0 - Tem Casos Novos. Caso contrário, sem casos Novos)
df2.withColumn('Status', F.when(F.col('casosNovos') > 0 , F.lit('Tem casos Novos'))
                .otherwise(F.lit("Sem casos Novos"))).show(1000)

+--------+------+-------------------+----------+---------------+-----------+----------------+---------------+
|  regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|         Status|
+--------+------+-------------------+----------+---------------+-----------+----------------+---------------+
|   Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|Sem casos Novos|
|   Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|Sem casos Novos|
|   Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|Sem casos Novos|
|   Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|Sem casos Novos|
|   Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|Sem casos Novos|
|   Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|Sem casos Novos|
|   Norte|

In [None]:
#SEPARAÇÃO DE DATAS
df2.select(F.col('data')).show(3)

+-------------------+
|               data|
+-------------------+
|2020-01-30 00:00:00|
|2020-01-31 00:00:00|
|2020-02-01 00:00:00|
+-------------------+
only showing top 3 rows



In [None]:
#FUNÇÃO SUBSTRING
df2.withColumn('Dia', F.substring(F.col('data'), 9, 2)).show()   

+------+------+-------------------+----------+---------------+-----------+----------------+---+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|Dia|
+------+------+-------------------+----------+---------------+-----------+----------------+---+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0| 30|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0| 31|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0| 01|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0| 02|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0| 03|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0| 04|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0| 05|
| Norte|    RO|2020-02-06 00:00:00|     

In [None]:
#FUNÇÃO SUBSTRING
df3 = df2.withColumn('Dia', F.substring(F.col('data'), 9, 2))\
      .withColumn('Mes', F.substring(F.col('data'), 6, 2))\
      .withColumn('Ano', F.substring(F.col('data'), 1, 4))

In [None]:
df3.show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+---+---+----+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|Dia|Mes| Ano|
+------+------+-------------------+----------+---------------+-----------+----------------+---+---+----+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0| 30| 01|2020|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0| 31| 01|2020|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0| 01| 02|2020|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0| 02| 02|2020|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0| 03| 02|2020|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0| 04| 02|2020|
| Norte|    RO|2020-02-05 00:00:00|         0|         

In [None]:
#DROPANDO UMA COLUNA DESNECESSÁRIA NO DATAFRAME
df3.drop(F.col('data')).show()

+------+------+----------+---------------+-----------+----------------+---+---+----+
|regiao|estado|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|Dia|Mes| Ano|
+------+------+----------+---------------+-----------+----------------+---+---+----+
| Norte|    RO|         0|              0|          0|               0| 30| 01|2020|
| Norte|    RO|         0|              0|          0|               0| 31| 01|2020|
| Norte|    RO|         0|              0|          0|               0| 01| 02|2020|
| Norte|    RO|         0|              0|          0|               0| 02| 02|2020|
| Norte|    RO|         0|              0|          0|               0| 03| 02|2020|
| Norte|    RO|         0|              0|          0|               0| 04| 02|2020|
| Norte|    RO|         0|              0|          0|               0| 05| 02|2020|
| Norte|    RO|         0|              0|          0|               0| 06| 02|2020|
| Norte|    RO|         0|              0|          0|           

In [None]:
#JUNTANDO COLUNAS (CONCATENAR)
#df3.withColumn('data_junta', F.concat(F.col('ano'),F.lit('-'), F.col('mes'),F.lit('-'), F.col('dia'))).show()
df4 = df3.withColumn('data_junta', F.concat_ws('-', F.col('ano'), F.col('mes'), F.col('dia')))

In [None]:
df4.printSchema()

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: timestamp (nullable = true)
 |-- casosNovos: integer (nullable = true)
 |-- casosAcumulados: integer (nullable = true)
 |-- obitosNovos: integer (nullable = true)
 |-- obitosAcumulados: integer (nullable = true)
 |-- Dia: string (nullable = true)
 |-- Mes: string (nullable = true)
 |-- Ano: string (nullable = true)
 |-- data_junta: string (nullable = false)



Outro exemplo

In [None]:
#JOIN
schema = ['id', 'nome', 'salario']

dados = [
         (1, 'João', 2000),
         (2, 'Maria', 5000),
         (3, 'Pedro', 8300),
         (4, 'Gustavo', 1200),
         (5, 'Ana', 10000),
         (6, 'Vitoria', 7500),
         (7, 'Carlos', 4800),
         (8, 'Claudia', 4300),
         (9, 'Andre', 2400),
]

df1 = spark.createDataFrame(data=dados, schema=schema)

In [None]:
schema = ['id', 'cidade', 'estado']

dados = [
         (1, 'São Paulo', 'SP'),
         (2, 'Curitiba', 'PR'),
         (3, 'Fortaleza', 'CE'),
         (4, 'Ribeirão Preto', 'SP'),
         (8, 'Belo Horizonte', 'MG'),
         (9, 'Goiania', 'GO'),
         (10, 'Sobral', 'CE'),
         (11, 'Salvador', 'BA'),
         (12, 'São Luis', 'MA'),
]

df2 = spark.createDataFrame(data=dados, schema=schema)

In [None]:
#INNER JOIN
df_inner = df1.join(df2,on=['id'],how='inner')

df_inner.show()

+---+-------+-------+--------------+------+
| id|   nome|salario|        cidade|estado|
+---+-------+-------+--------------+------+
|  1|   João|   2000|     São Paulo|    SP|
|  2|  Maria|   5000|      Curitiba|    PR|
|  3|  Pedro|   8300|     Fortaleza|    CE|
|  4|Gustavo|   1200|Ribeirão Preto|    SP|
|  8|Claudia|   4300|Belo Horizonte|    MG|
|  9|  Andre|   2400|       Goiania|    GO|
+---+-------+-------+--------------+------+



In [None]:
#LEFT JOIN
df_left = df1.join(df2, on=['id'], how='left')

df_left.show()

+---+-------+-------+--------------+------+
| id|   nome|salario|        cidade|estado|
+---+-------+-------+--------------+------+
|  1|   João|   2000|     São Paulo|    SP|
|  2|  Maria|   5000|      Curitiba|    PR|
|  3|  Pedro|   8300|     Fortaleza|    CE|
|  4|Gustavo|   1200|Ribeirão Preto|    SP|
|  6|Vitoria|   7500|          null|  null|
|  5|    Ana|  10000|          null|  null|
|  7| Carlos|   4800|          null|  null|
|  9|  Andre|   2400|       Goiania|    GO|
|  8|Claudia|   4300|Belo Horizonte|    MG|
+---+-------+-------+--------------+------+



In [None]:
#RIGHT JOIN
df_right = df1.join(df2, on=['id'], how='right')

df_right.show()

+---+-------+-------+--------------+------+
| id|   nome|salario|        cidade|estado|
+---+-------+-------+--------------+------+
|  1|   João|   2000|     São Paulo|    SP|
|  2|  Maria|   5000|      Curitiba|    PR|
|  3|  Pedro|   8300|     Fortaleza|    CE|
|  4|Gustavo|   1200|Ribeirão Preto|    SP|
|  9|  Andre|   2400|       Goiania|    GO|
|  8|Claudia|   4300|Belo Horizonte|    MG|
| 10|   null|   null|        Sobral|    CE|
| 12|   null|   null|      São Luis|    MA|
| 11|   null|   null|      Salvador|    BA|
+---+-------+-------+--------------+------+



In [None]:
#FULL JOIN
df_full = df1.join(df2, on=['id'], how='full')

df_full.show()

+---+-------+-------+--------------+------+
| id|   nome|salario|        cidade|estado|
+---+-------+-------+--------------+------+
|  1|   João|   2000|     São Paulo|    SP|
|  2|  Maria|   5000|      Curitiba|    PR|
|  3|  Pedro|   8300|     Fortaleza|    CE|
|  4|Gustavo|   1200|Ribeirão Preto|    SP|
|  5|    Ana|  10000|          null|  null|
|  6|Vitoria|   7500|          null|  null|
|  7| Carlos|   4800|          null|  null|
|  8|Claudia|   4300|Belo Horizonte|    MG|
|  9|  Andre|   2400|       Goiania|    GO|
| 10|   null|   null|        Sobral|    CE|
| 11|   null|   null|      Salvador|    BA|
| 12|   null|   null|      São Luis|    MA|
+---+-------+-------+--------------+------+

