<a href="https://colab.research.google.com/github/victorog17/soulcode_aulas_spark/blob/main/Soulcode_PySpark_002_select_filter.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**BIBLIOTECAS**

In [None]:
pip install pyspark

In [2]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

**CONFIGURAR A NOSSA SPARKSESSION**

In [3]:
spark = (SparkSession.builder\
        .master("local")\
        .appName("aprendendo-dataframes")\
        .config("spark.ui.port", "4050")\
        .getOrCreate())

In [4]:
spark

**CRIANDO DATAFRAMES NO PYSPARK**

In [5]:
dados = [
         ("João da Silva", "São Paulo", "SP", 1100.00),
         ("Maria dos Santos", "São Paulo", "SP", 2100.00),
         ("Carlos Victor", "Rio de Janeiro", "RJ", 2100.00),
         ("Pedro José", "Maceió", "AL", 3600.00)
]
schema = ["nome", "cidade", "estado", "salario"]

df = spark.createDataFrame(data=dados, schema=schema)
df.show()
df.printSchema()

+----------------+--------------+------+-------+
|            nome|        cidade|estado|salario|
+----------------+--------------+------+-------+
|   João da Silva|     São Paulo|    SP| 1100.0|
|Maria dos Santos|     São Paulo|    SP| 2100.0|
|   Carlos Victor|Rio de Janeiro|    RJ| 2100.0|
|      Pedro José|        Maceió|    AL| 3600.0|
+----------------+--------------+------+-------+

root
 |-- nome: string (nullable = true)
 |-- cidade: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- salario: double (nullable = true)



**IMPORTANDO CSV NO PYSPARK**

In [6]:
df2 = (spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferschema", "true")
      .option("delimiter", ";")
      .load("/content/drive/MyDrive/Soul_Code_Academy/repositorio_pandas/arquivo_geral.csv")
)

In [7]:
df2.show(5)
df2.printSchema()

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
+------+------+----------+----------+---------------+-----------+----------------+
only showing top 5 rows

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: string (nullable = true)
 |-- casosNovos: integer (nullable = true)
 |-- casosAcumulados: integer (nullable = true)
 |-- obitosNovos: in

**COMANDOS SELECT E FILTER**

In [8]:
#SELECT - 1ª FORMA DE UTILIZAÇÃO
df2.select("regiao", "estado", "data", "casosNovos").show(15)

+------+------+----------+----------+
|regiao|estado|      data|casosNovos|
+------+------+----------+----------+
| Norte|    RO|2020-01-30|         0|
| Norte|    RO|2020-01-31|         0|
| Norte|    RO|2020-02-01|         0|
| Norte|    RO|2020-02-02|         0|
| Norte|    RO|2020-02-03|         0|
| Norte|    RO|2020-02-04|         0|
| Norte|    RO|2020-02-05|         0|
| Norte|    RO|2020-02-06|         0|
| Norte|    RO|2020-02-07|         0|
| Norte|    RO|2020-02-08|         0|
| Norte|    RO|2020-02-09|         0|
| Norte|    RO|2020-02-10|         0|
| Norte|    RO|2020-02-11|         0|
| Norte|    RO|2020-02-12|         0|
| Norte|    RO|2020-02-13|         0|
+------+------+----------+----------+
only showing top 15 rows



**UTILIZANDO AS FUNCTIONS PARA TRABALHAR COM COLUNAS**

In [9]:
#SELECT - 2ª FORMA DE UTILIZAÇÃO
df2.select(F.col("regiao"), F.col("estado"), F.col("data"), F.col("casosNovos")).show(20)

+------+------+----------+----------+
|regiao|estado|      data|casosNovos|
+------+------+----------+----------+
| Norte|    RO|2020-01-30|         0|
| Norte|    RO|2020-01-31|         0|
| Norte|    RO|2020-02-01|         0|
| Norte|    RO|2020-02-02|         0|
| Norte|    RO|2020-02-03|         0|
| Norte|    RO|2020-02-04|         0|
| Norte|    RO|2020-02-05|         0|
| Norte|    RO|2020-02-06|         0|
| Norte|    RO|2020-02-07|         0|
| Norte|    RO|2020-02-08|         0|
| Norte|    RO|2020-02-09|         0|
| Norte|    RO|2020-02-10|         0|
| Norte|    RO|2020-02-11|         0|
| Norte|    RO|2020-02-12|         0|
| Norte|    RO|2020-02-13|         0|
| Norte|    RO|2020-02-14|         0|
| Norte|    RO|2020-02-15|         0|
| Norte|    RO|2020-02-16|         0|
| Norte|    RO|2020-02-17|         0|
| Norte|    RO|2020-02-18|         0|
+------+------+----------+----------+
only showing top 20 rows



**1ª MANEIRA - EXIBIR A REGIÃO, ESTADOS E CASOS NOVOS APENAS DA REGIÃO NORTE**

In [10]:
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter(F.col("regiao") == "Sul").show(12)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
+------+------+----------+
only showing top 12 rows



In [11]:
print(f'Rows: {df2.count()} | Columns: {len(df2.columns)}')

Rows: 2349 | Columns: 7


**2ª MANEIRA - EXIBIR A REGIÃO, ESTADOS E CASOS NOVOS APENAS DA REGIÃO NORTE**

In [12]:
df2.select(F.col("regiao"), 
           F.col("estado"), 
           F.col("casosNovos")).filter(df2["regiao"] == "Nordeste").show(13)

+--------+------+----------+
|  regiao|estado|casosNovos|
+--------+------+----------+
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
|Nordeste|    MA|         0|
+--------+------+----------+
only showing top 13 rows



**3ª MANEIRA - EXIBIR A REGIÃO, ESTADOS E CASOS NOVOS APENAS DA REGIÃO NORTE**

In [13]:
df2.select(F.col("regiao"), 
           F.col("estado"), 
           F.col("casosNovos")).filter("regiao = 'Sudeste'").show(14)

+-------+------+----------+
| regiao|estado|casosNovos|
+-------+------+----------+
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
+-------+------+----------+
only showing top 14 rows



**4ª MANEIRA - EXIBIR A REGIÃO, ESTADOS E CASOS NOVOS APENAS DA REGIÃO NORTE**

In [14]:
filtro = F.col("regiao") == "Sul"
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter(filtro).show(15)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
+------+------+----------+
only showing top 15 rows



**CRIANDO UMA LISTA DINÂMICA COM VÁRIAS COLUNAS PARA SE UTILIZAR DENTRO DO COMANDO SELECT**

In [15]:
lista_colunas = ["regiao", "estado", "casosNovos", "obitosNovos", "obitosAcumulados"]
df2.select(lista_colunas).show(16)
df2.printSchema()

+------+------+----------+-----------+----------------+
|regiao|estado|casosNovos|obitosNovos|obitosAcumulados|
+------+------+----------+-----------+----------------+
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|               0|
| Norte|    RO|         0|          0|          

**APLICAR MAIS DE UM FILTRO DENTRO DO DATAFRAME**

In [16]:
#FAZER FILTRAGEM PELA REGIÃO NORTE E ESTADO DO AMAZONAS
df2.select(F.col("regiao"), 
           F.col("estado")).filter(F.col("regiao") == "Norte").filter(F.col("estado") == "AM").show(17)

+------+------+
|regiao|estado|
+------+------+
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
+------+------+
only showing top 17 rows



In [17]:
filtro01 = F.col("regiao") == "Norte"
filtro02 = F.col("estado") == "AM"
df2.select(F.col("regiao"), 
           F.col("estado")).filter(filtro01 & filtro02).show(17)

+------+------+
|regiao|estado|
+------+------+
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
| Norte|    AM|
+------+------+
only showing top 17 rows



In [18]:
df2.filter(F.col("regiao") == "Norte").filter(F.col("estado") == "AM").show(18)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    AM|2020-01-30|         0|              0|          0|               0|
| Norte|    AM|2020-01-31|         0|              0|          0|               0|
| Norte|    AM|2020-02-01|         0|              0|          0|               0|
| Norte|    AM|2020-02-02|         0|              0|          0|               0|
| Norte|    AM|2020-02-03|         0|              0|          0|               0|
| Norte|    AM|2020-02-04|         0|              0|          0|               0|
| Norte|    AM|2020-02-05|         0|              0|          0|               0|
| Norte|    AM|2020-02-06|         0|              0|          0|               0|
| Norte|    AM|2020-02-07|         0|              0|          0|               0|
| No

In [None]:
df2.filter(F.col("regiao") == "Nordeste").filter(F.col("estado") == "BA").show(df2.count())

**SEGUNDA MANEIRA DE SE UTILIZAR O FILTER MAIS DE UMA VEZ**



In [25]:
df2.filter("regiao = 'Norte' and estado = 'AM'").show(10)
df2.filter("regiao = 'Norte' or estado = 'AM'").show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    AM|2020-01-30|         0|              0|          0|               0|
| Norte|    AM|2020-01-31|         0|              0|          0|               0|
| Norte|    AM|2020-02-01|         0|              0|          0|               0|
| Norte|    AM|2020-02-02|         0|              0|          0|               0|
| Norte|    AM|2020-02-03|         0|              0|          0|               0|
| Norte|    AM|2020-02-04|         0|              0|          0|               0|
| Norte|    AM|2020-02-05|         0|              0|          0|               0|
| Norte|    AM|2020-02-06|         0|              0|          0|               0|
| Norte|    AM|2020-02-07|         0|              0|          0|               0|
| No

**TERCEIRA MANEIRA DE SE UTILIZAR O FILTER MAIS DE UMA VEZ**

In [26]:
df2.filter((F.col("regiao") == 'Norte') & (F.col("estado") == 'AM')).show(10)
df2.filter((F.col("regiao") == 'Norte') | (F.col("estado") == 'AM')).show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    AM|2020-01-30|         0|              0|          0|               0|
| Norte|    AM|2020-01-31|         0|              0|          0|               0|
| Norte|    AM|2020-02-01|         0|              0|          0|               0|
| Norte|    AM|2020-02-02|         0|              0|          0|               0|
| Norte|    AM|2020-02-03|         0|              0|          0|               0|
| Norte|    AM|2020-02-04|         0|              0|          0|               0|
| Norte|    AM|2020-02-05|         0|              0|          0|               0|
| Norte|    AM|2020-02-06|         0|              0|          0|               0|
| Norte|    AM|2020-02-07|         0|              0|          0|               0|
| No

**QUARTA MANEIRA DE SE UTILIZAR O FILTER MAIS DE UMA VEZ**

In [27]:
df2.where((F.col("regiao") == "Sul") & (F.col("estado") == "RS")).show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
|   Sul|    RS|2020-01-30|         0|              0|          0|               0|
|   Sul|    RS|2020-01-31|         0|              0|          0|               0|
|   Sul|    RS|2020-02-01|         0|              0|          0|               0|
|   Sul|    RS|2020-02-02|         0|              0|          0|               0|
|   Sul|    RS|2020-02-03|         0|              0|          0|               0|
|   Sul|    RS|2020-02-04|         0|              0|          0|               0|
|   Sul|    RS|2020-02-05|         0|              0|          0|               0|
|   Sul|    RS|2020-02-06|         0|              0|          0|               0|
|   Sul|    RS|2020-02-07|         0|              0|          0|               0|
|   

**UTILIZANDO LIKE PARA CONSULTAR SUBSTRINGS ESPECÍFICAS DENTRO DE UMA COLUNA**

In [29]:
df2.where((F.col("regiao") == "Norte")).filter("estado like 'R%'").show(19)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|
| Norte|    RO|2020-02-06|         0|              0|          0|               0|
| Norte|    RO|2020-02-07|         0|              0|          0|               0|
| No

In [30]:
df2.filter("regiao like 'S%'").show(10)

+-------+------+----------+----------+---------------+-----------+----------------+
| regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+-------+------+----------+----------+---------------+-----------+----------------+
|Sudeste|    MG|2020-01-30|         0|              0|          0|               0|
|Sudeste|    MG|2020-01-31|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-01|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-02|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-03|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-04|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-05|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-06|         0|              0|          0|               0|
|Sudeste|    MG|2020-02-07|         0|              0|          0|          

**OUTRA FORMA DE UTILIZAR O FILTRO COM MAIS DE UMA CONDIÇÃO**

In [32]:
df2.filter("regiao in ('Norte', 'Sul')").show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|
| Norte|    RO|2020-02-06|         0|              0|          0|               0|
| Norte|    RO|2020-02-07|         0|              0|          0|               0|
| No

**OUTRA FORMA DE UTILIZAR O FILTRO COM UMA LISTA DE REGIÕES**

In [33]:
lista_regiao = ['Norte', 'Sul']
df2.filter(F.col("regiao").isin(lista_regiao)).show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|
| Norte|    RO|2020-02-06|         0|              0|          0|               0|
| Norte|    RO|2020-02-07|         0|              0|          0|               0|
| No

**UTILIZANDO O FILTRO DE UMA FORMA PARECIDA COM O LIKE, MAS COM UMA FUNÇÃO ESPECÍFICA**

In [35]:
df2.filter(F.col("regiao").startswith("Sul")).show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
|   Sul|    PR|2020-01-30|         0|              0|          0|               0|
|   Sul|    PR|2020-01-31|         0|              0|          0|               0|
|   Sul|    PR|2020-02-01|         0|              0|          0|               0|
|   Sul|    PR|2020-02-02|         0|              0|          0|               0|
|   Sul|    PR|2020-02-03|         0|              0|          0|               0|
|   Sul|    PR|2020-02-04|         0|              0|          0|               0|
|   Sul|    PR|2020-02-05|         0|              0|          0|               0|
|   Sul|    PR|2020-02-06|         0|              0|          0|               0|
|   Sul|    PR|2020-02-07|         0|              0|          0|               0|
|   

**UTILIZANDO O LIKE COMO UMA FUNÇÃO**

In [36]:
df2.filter(F.col("regiao").like("C%")).show(100)

+------------+------+----------+----------+---------------+-----------+----------------+
|      regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------------+------+----------+----------+---------------+-----------+----------------+
|Centro-Oeste|    MS|2020-01-30|         0|              0|          0|               0|
|Centro-Oeste|    MS|2020-01-31|         0|              0|          0|               0|
|Centro-Oeste|    MS|2020-02-01|         0|              0|          0|               0|
|Centro-Oeste|    MS|2020-02-02|         0|              0|          0|               0|
|Centro-Oeste|    MS|2020-02-03|         0|              0|          0|               0|
|Centro-Oeste|    MS|2020-02-04|         0|              0|          0|               0|
|Centro-Oeste|    MS|2020-02-05|         0|              0|          0|               0|
|Centro-Oeste|    MS|2020-02-06|         0|              0|          0|               0|
|Centro-Oeste|    MS|