#04-Realizando filtros com SQL e Pyspark
by Adilson Albino

In [0]:
#Carregando dados no dataframe
df_carros = spark\
.read.format("csv")\
.option("header", True)\
.load("/aprendizado/modelo_carro")
df_carros.show(10)

+--------+------------+---------+---------+
|id_carro|modelo_carro|    preco|cod_marca|
+--------+------------+---------+---------+
|       1|      Avalon|$78401.95|       54|
|       2|         RDX|$95987.38|        1|
|       3|        Golf|$61274.55|       55|
|       4|          EX|$84981.12|       23|
|       5|      Escort|$77466.89|       17|
|       6|  Expedition|$84698.71|       17|
|       7|     Voyager|$95567.75|       42|
|       8|       Civic|$84749.22|       20|
|       9|    Defender|$98600.79|       29|
|      10|V8 Vantage S|$94791.61|        2|
+--------+------------+---------+---------+
only showing top 10 rows



#Realizando filtros com SQL

In [0]:
#para isso vamos criar uma tabela temporária
df_carros.createOrReplaceTempView("TabelaCarros")

In [0]:
%sql
SELECT
  *
FROM
  TabelaCarros
where id_carro = 1

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54


In [0]:
%sql
SELECT
  *
FROM
  TabelaCarros
--where id_carro = 1
where modelo_carro LIKE "RX"

id_carro,modelo_carro,preco,cod_marca
16,RX,$46752.60,30
110,RX,$83780.35,30
164,RX,$69993.41,30
175,RX,$68733.55,30
419,RX,$60724.95,30
581,RX,$77221.42,30
903,RX,$73487.77,30


In [0]:
%sql
SELECT
  *
FROM
  TabelaCarros
where id_carro = 1
or modelo_carro LIKE "RX"

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54
16,RX,$46752.60,30
110,RX,$83780.35,30
164,RX,$69993.41,30
175,RX,$68733.55,30
419,RX,$60724.95,30
581,RX,$77221.42,30
903,RX,$73487.77,30


In [0]:
#Salvar os dado do sql em um df
df_carros_sql =spark\
.sql("""
SELECT
    *
    FROM
    TabelaCarros
    where id_carro = 1
    or modelo_carro LIKE "RX"      
""")
display(df_carros_sql)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54
16,RX,$46752.60,30
110,RX,$83780.35,30
164,RX,$69993.41,30
175,RX,$68733.55,30
419,RX,$60724.95,30
581,RX,$77221.42,30
903,RX,$73487.77,30


##Realizando filtro utilizando pyspark

In [0]:
display(
    df_carros.where("id_carro = '1'")
)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54


In [0]:
#Podemos tambem utilizar o "filter"
display(
    df_carros.filter("id_carro = '1'")
)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54


In [0]:
#Realizar mais de um filtro com se fosse o AND no SQL
#Será necessário importar algumas funções do pyspark
from pyspark.sql.functions import *

display(
    df_carros.where(
        (col("id_carro") == "1") &
        (col("modelo_Carro") == "Avalon")
    )
)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54


In [0]:
#Utilizando | pipe para ter o mesmo efeito do OR
display(
    df_carros.where(
        (col("id_carro") == "1") |
        (col("modelo_Carro") == "Golf")
    )
)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54
3,Golf,$61274.55,55
237,Golf,$66249.75,55
330,Golf,$82099.83,55


In [0]:
#Mais opções de filtros
display(
    df_carros.where(
        df_carros.id_carro == "1"
    )
)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54


In [0]:
#Mais opções de filtros
display(
    df_carros.where(
        df_carros.id_carro == "1"
    )
)

In [0]:
#Mais opções de filtros usando colchetes []
display(
    df_carros.where(
        df_carros["id_carro"] == "1"
    )
)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54


In [0]:
#Salvando os dados em um df
df_carros_pyspark = df_carros.where(
        df_carros["id_carro"] == "1"
    )

display(df_carros_pyspark)

id_carro,modelo_carro,preco,cod_marca
1,Avalon,$78401.95,54
