In [None]:
!pip install pyspark

In [2]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [3]:
spark = (SparkSession.builder\
        .master("local")\
        .appName("mini-projeto_final")\
        .config("spark.ui.port", "4050")\
        .getOrCreate())

In [8]:
df = (spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferschema", "true")
      .option("delimiter", ",")
      .load("/content/drive/MyDrive/Mini Projeto Final/df_marketing_campaing_pyspark.csv/part-00000-47f1a19d-1776-4095-9a33-09d45df48e44-c000.csv")
      .createOrReplaceTempView("tabela_marketing"))

In [56]:
spark.sql('DESCRIBE tabela_marketing').show(50)

+--------------------+---------+-------+
|            col_name|data_type|comment|
+--------------------+---------+-------+
|          Id_Cliente|      int|   null|
|      Ano_Nascimento|      int|   null|
|        Escolaridade|   string|   null|
|        Estado_Civil|   string|   null|
|               Renda|   double|   null|
|             Crianca|      int|   null|
|         Adolescente|      int|   null|
|       Data_Cadastro|   string|   null|
|  Dias_Ultima_Compra|      int|   null|
|           Qtd_Vinho|      int|   null|
|          Qtd_Frutas|      int|   null|
|      Qtd_Prod_Carne|      int|   null|
|      Qtd_Prod_Peixe|      int|   null|
|       Qtd_Prod_Doce|      int|   null|
|       Qtd_Prod_Gold|      int|   null|
|Num_Compras_Promocao|      int|   null|
|    Num_Compras_Site|      int|   null|
|Num_Compras_Catalogo|      int|   null|
|    Num_Compras_Loja|      int|   null|
|Num_Compras_Site_...|      int|   null|
|   Campanha_Aceita_3|   string|   null|
|   Campanha_Ace

In [26]:
spark.sql('SELECT *  FROM tabela_marketing').show()

+----------+--------------+------------------+------------+-------+-------+-----------+-------------+------------------+---------+----------+--------------+--------------+-------------+-------------+--------------------+----------------+--------------------+----------------+-----------------------+-----------------+-----------------+-----------------+-----------------+-----------------+-----------+----------------+------------+------------------+-------------+-----+----+
|Id_Cliente|Ano_Nascimento|      Escolaridade|Estado_Civil|  Renda|Crianca|Adolescente|Data_Cadastro|Dias_Ultima_Compra|Qtd_Vinho|Qtd_Frutas|Qtd_Prod_Carne|Qtd_Prod_Peixe|Qtd_Prod_Doce|Qtd_Prod_Gold|Num_Compras_Promocao|Num_Compras_Site|Num_Compras_Catalogo|Num_Compras_Loja|Num_Compras_Site_Mensal|Campanha_Aceita_3|Campanha_Aceita_4|Campanha_Aceita_5|Campanha_Aceita_1|Campanha_Aceita_2|Reclamacoes|Resposta_Cliente|Filhos_Total|Qtd_Comprada_Total|Idade_Cliente|Ordem|Rank|
+----------+--------------+------------------+--

In [None]:
# Utilizar no minimo 10 consultas diferentes utilizando o SparkSQL,
#comentando o porquê de ter escolhido essas funções e explicando o que cada consulta faz.

In [40]:
#Escolaridade e Estado Civil ordenados por idade do cliente (crescente)
spark.sql(''' SELECT Escolaridade, Estado_Civil, Idade_Cliente FROM tabela_marketing ORDER BY Idade_Cliente''').show()

+------------------+------------+-------------+
|      Escolaridade|Estado_Civil|Idade_Cliente|
+------------------+------------+-------------+
|      Ensino Medio|   Casado(a)|           25|
|Ensino Fundamental|   Casado(a)|           25|
|      Ensino Medio| Solteiro(a)|           26|
|      Ensino Medio| Solteiro(a)|           26|
|        Graducacao| Solteiro(a)|           26|
|        Graducacao| Solteiro(a)|           26|
|        Graducacao| Solteiro(a)|           26|
|        Graducacao|   Namorando|           27|
|        Graducacao| Solteiro(a)|           27|
|        Graducacao|   Namorando|           27|
|        Graducacao| Solteiro(a)|           28|
|        Graducacao| Solteiro(a)|           28|
|        Graducacao| Solteiro(a)|           28|
|        Graducacao| Solteiro(a)|           28|
|        Graducacao|        null|           28|
|        Graducacao|   Casado(a)|           29|
|Ensino Fundamental|   Casado(a)|           29|
|          Mestrado|   Namorando|       

In [27]:
#Listar a Soma e Media da Renda, além de Renda Mínima e Máxima, agrupada por Escolaridade
spark.sql('SELECT Escolaridade, SUM(Renda) AS Soma_Renda, MIN(Renda) AS Renda_Min, MAX(Renda) AS Renda_Max, AVG(Renda) AS Renda_Media FROM tabela_marketing GROUP BY Escolaridade ORDER BY Escolaridade').show()

+------------------+-----------+---------+---------+------------------+
|      Escolaridade| Soma_Renda|Renda_Min|Renda_Max|       Renda_Media|
+------------------+-----------+---------+---------+------------------+
|         Doutorado|2.6922364E7|   4023.0| 162397.0| 56088.25833333333|
|Ensino Fundamental|  1096538.0|   7500.0|  34445.0| 20306.25925925926|
|      Ensino Medio|  9429816.0|   7500.0|  96547.0|47625.333333333336|
|        Graducacao|5.8835937E7|   1730.0| 666666.0| 52720.37365591398|
|          Mestrado|  1.93149E7|   6560.0| 157733.0| 52917.53424657534|
+------------------+-----------+---------+---------+------------------+



In [59]:
#Listar as campanhas aceitas de acordo com ID do cliente
spark.sql('''SELECT Id_Cliente, Campanha_Aceita_1, Campanha_Aceita_2, Campanha_Aceita_3, Campanha_Aceita_4 Campanha_Aceita_5  FROM tabela_marketing''').show()

+----------+-----------------+-----------------+-----------------+-----------------+
|Id_Cliente|Campanha_Aceita_1|Campanha_Aceita_2|Campanha_Aceita_3|Campanha_Aceita_5|
+----------+-----------------+-----------------+-----------------+-----------------+
|      7734|              Sim|              Não|              Não|              Não|
|      4369|              Não|              Não|              Não|              Não|
|        92|              Não|              Não|              Não|              Não|
|       492|              Não|              Não|              Não|              Não|
|     11133|              Não|              Não|              Não|              Não|
|      7660|              Não|              Não|              Sim|              Não|
|       433|              Não|              Não|              Não|              Não|
|      9909|              Não|              Não|              Não|              Não|
|       193|              Não|              Não|              Sim

In [68]:
#TRÊS MAIORES CONSUMO DE VINHO, RECLACIONADO COM ESTADO CIVIL
spark.sql("SELECT Ordem, Estado_Civil, Qtd_Vinho FROM tabela_marketing ORDER BY Qtd_vinho DESC;").show(3)

+-----+------------+---------+
|Ordem|Estado_Civil|Qtd_Vinho|
+-----+------------+---------+
| 2126|   Casado(a)|     1493|
| 1667|   Namorando|     1492|
| 1672|   Namorando|     1492|
+-----+------------+---------+
only showing top 3 rows



In [76]:
#Quantidade de compras onlibe relacionado com o grau de escolaridade
spark.sql('''SELECT DISTINCT Escolaridade, COUNT( Num_Compras_Site) AS Qtd FROM tabela_marketing GROUP BY Escolaridade ''').show()

+------------------+----+
|      Escolaridade| Qtd|
+------------------+----+
|        Graducacao|1116|
|         Doutorado| 480|
|      Ensino Medio| 198|
|Ensino Fundamental|  54|
|          Mestrado| 365|
+------------------+----+



In [78]:
#Quantidade de compras (total) de acordo com o Estado Civil)
spark.sql('''SELECT DISTINCT Estado_Civil, COUNT(Qtd_Comprada_Total) AS Qtd FROM tabela_marketing GROUP BY Estado_Civil ''').show()

+-------------+---+
| Estado_Civil|Qtd|
+-------------+---+
|Divorciado(a)|231|
|    Casado(a)|857|
|     Viuvo(a)| 76|
|    Namorando|572|
|  Solteiro(a)|470|
|         null|  7|
+-------------+---+



In [82]:
#Verificar a relação de compra de produtos doce e crianças e/ou adolescentes em casa
spark.sql(""" SELECT Ano_Nascimento, Escolaridade, Crianca, Adolescente, Qtd_Prod_Doce FROM tabela_marketing WHERE Crianca >= 1 ORDER BY Qtd_Prod_Doce DESC;""").show()

+--------------+------------+-------+-----------+-------------+
|Ano_Nascimento|Escolaridade|Crianca|Adolescente|Qtd_Prod_Doce|
+--------------+------------+-------+-----------+-------------+
|          1979|Ensino Medio|      1|          1|          150|
|          1986|  Graducacao|      1|          0|          149|
|          1971|  Graducacao|      1|          0|          147|
|          1975|  Graducacao|      1|          1|          138|
|          1978|    Mestrado|      1|          0|          126|
|          1972|  Graducacao|      1|          0|          126|
|          1956|    Mestrado|      1|          1|          114|
|          1972|    Mestrado|      1|          1|          109|
|          1986|  Graducacao|      1|          0|          107|
|          1986|  Graducacao|      1|          0|          107|
|          1978|Ensino Medio|      1|          0|          103|
|          1970|  Graducacao|      1|          2|          102|
|          1978|  Graducacao|      1|   

In [89]:
#Relação entre Escolaridade, Estado Civil, Renda e a Quantidade Total comprada
spark.sql(""" SELECT Escolaridade, Estado_Civil, Idade_Cliente, Renda, Qtd_Comprada_Total FROM tabela_marketing ORDER BY Idade_Cliente""").show()

+------------------+------------+-------------+-------+------------------+
|      Escolaridade|Estado_Civil|Idade_Cliente|  Renda|Qtd_Comprada_Total|
+------------------+------------+-------------+-------+------------------+
|      Ensino Medio|   Casado(a)|           25| 7500.0|               122|
|Ensino Fundamental|   Casado(a)|           25|14421.0|                16|
|      Ensino Medio| Solteiro(a)|           26|83257.0|              1365|
|      Ensino Medio| Solteiro(a)|           26|80617.0|              1435|
|        Graducacao| Solteiro(a)|           26|71163.0|               960|
|        Graducacao| Solteiro(a)|           26|34824.0|                23|
|        Graducacao| Solteiro(a)|           26|34824.0|                23|
|        Graducacao|   Namorando|           27|80685.0|              1004|
|        Graducacao| Solteiro(a)|           27|95529.0|              1990|
|        Graducacao|   Namorando|           27|80134.0|              1378|
|        Graducacao| Solt

In [99]:
#Relação de Idade, Renda, Escolaridade "Mestrado" e Estado Civil "Solteiro(a)".
spark.sql(''' SELECT Idade_Cliente, Escolaridade, Estado_Civil, Renda FROM tabela_marketing WHERE Estado_Civil = "Solteiro(a)" AND Escolaridade = "Mestrado" ''').show()

+-------------+------------+------------+-------+
|Idade_Cliente|Escolaridade|Estado_Civil|  Renda|
+-------------+------------+------------+-------+
|           29|    Mestrado| Solteiro(a)|92859.0|
|           30|    Mestrado| Solteiro(a)|90638.0|
|           30|    Mestrado| Solteiro(a)|90638.0|
|           31|    Mestrado| Solteiro(a)|91172.0|
|           33|    Mestrado| Solteiro(a)|90247.0|
|           34|    Mestrado| Solteiro(a)|73454.0|
|           34|    Mestrado| Solteiro(a)|41020.0|
|           37|    Mestrado| Solteiro(a)|18890.0|
|           38|    Mestrado| Solteiro(a)|89616.0|
|           39|    Mestrado| Solteiro(a)|75777.0|
|           39|    Mestrado| Solteiro(a)| 6560.0|
|           39|    Mestrado| Solteiro(a)|75777.0|
|           43|    Mestrado| Solteiro(a)|68092.0|
|           45|    Mestrado| Solteiro(a)|70893.0|
|           45|    Mestrado| Solteiro(a)|72309.0|
|           46|    Mestrado| Solteiro(a)|81169.0|
|           51|    Mestrado| Solteiro(a)|75345.0|


In [102]:
#Relação de idade e estado civil dos 10 maiores consumidores de Produtos_Carne
spark.sql(""" SELECT Idade_Cliente, Estado_Civil, Qtd_Prod_Carne FROM tabela_marketing ORDER BY Qtd_Prod_Carne DESC; """).show(10)

+-------------+------------+--------------+
|Idade_Cliente|Estado_Civil|Qtd_Prod_Carne|
+-------------+------------+--------------+
|           42|   Casado(a)|          1725|
|           44|   Namorando|          1725|
|           39|   Casado(a)|          1622|
|           48|   Casado(a)|          1582|
|           58| Solteiro(a)|           984|
|           65|   Casado(a)|           981|
|           55| Solteiro(a)|           974|
|           60| Solteiro(a)|           968|
|           50| Solteiro(a)|           961|
|           31| Solteiro(a)|           951|
+-------------+------------+--------------+
only showing top 10 rows



In [104]:
#Relação de idade, renda, estado civil e escolaridade dos 5 maiores consumidores de Frutas
spark.sql(""" SELECT Idade_Cliente, Renda, Estado_Civil, Qtd_Frutas, Escolaridade FROM tabela_marketing ORDER BY Qtd_Frutas DESC; """).show(5)

+-------------+-------+------------+----------+------------+
|Idade_Cliente|  Renda|Estado_Civil|Qtd_Frutas|Escolaridade|
+-------------+-------+------------+----------+------------+
|           42|60474.0| Solteiro(a)|       199|  Graducacao|
|           42|60474.0| Solteiro(a)|       199|  Graducacao|
|           50|78931.0|   Casado(a)|       197|   Doutorado|
|           73|82032.0|    Viuvo(a)|       194|   Doutorado|
|           61|89058.0|   Casado(a)|       194|    Mestrado|
+-------------+-------+------------+----------+------------+
only showing top 5 rows

